问题 P4:每个 agent 都会发出 $n_{rays}$ 条雷达扫描,获得 $n_{rays}$ 个 hitting points 的 state(position) $y_{n_{rays}}^{(i)}$,这里会不会有 hitting points 是打在其他 agents 上的? P7:training architecture,$h_{\theta}$ 和 $\pi_{\phi}$ 同时训练?为什么? Previous 【网络系统与控制】1-通信网络概述 Next 【运动控制系统】2-Motion Controllers CATALOG FEATURED TAGS Langchain 控制 notes LLM 计算机网络 thesis