Papers - 2026-06-18 • Xingjian Wang

Embodied Agent#

ACE-Ego-0: Unifying Egocentric Human and Robotic Data for VLA Pretraining

这篇工作提出 ACE-EGO-0，用统一的视觉-语言-动作预训练框架同时利用机器人轨迹和第一人称人类视频。作者先把大规模人类自我中心视频转换成机器人格式的伪动作轨迹，再用相机空间动作、形态条件和时间对齐动作块把人类与机器人数据统一到同一动作表示。为了抑制伪标注噪声，方法还引入了可靠性感知的训练目标和人类辅助损失，把监督集中到更可信的信号上。实验表明，引入大规模人类监督后，统一预训练和有监督微调都能稳定提升，并在 RoboCasa GR1 TableTop 和 RoboTwin 2.0 上达到最先进结果，同时对真实双臂操作也有较强迁移能力。

LectūraAgents: A Multi-Agent Framework for Adaptive Personalized AI-Assisted Learning and Embodied Teaching

ArXiv 幻觉翻译

这篇论文提出 LectūraAgents，一个用于个性化 AI 辅助学习与具身教学的多智能体框架。系统以 ProfessorAgent 为核心，协同研究、规划、审阅等子代理生成面向特定学习者的课程内容，并在教学环境中执行手写、标注、下划线等可见教学动作。作者还设计了 TASA 算法，结合显著性启发式和时间语义分割，生成与学习者画像相匹配的教学动作序列。实验在高中、本科和研究生课程上进行，并由专家教师基于样本量表评估，结果表明该框架在课程质量、具身教学质量、测评表现和个性化程度上都优于已有方法。

Agent Training and Evaluation#

Zone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients

ArXiv 幻觉翻译

这篇论文提出 ZPPO，用“把老师放进提示词而不是梯度里”的方式改进小模型的后训练。方法针对困难样本构造两类提示：BCQ 用一个正确老师答案和一个错误学生答案做二选一判别，NCQ 则把学生多次错误输出汇总进提示中暴露共同失败模式，并用回放缓冲区反复训练这些难题。这样既避免了直接模仿大模型 logits 带来的过拟合，也避免了把老师回答硬塞进策略梯度造成的 on-policy 偏移。作者在 Qwen3.5 的 0.8B 到 9B 学生模型上、配合 27B 老师进行后训练，并在 31 项基准上评测，结果显示 ZPPO 优于离线/在线蒸馏和 GRPO，且小模型收益最大。

GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?

ArXiv 幻觉翻译

这篇工作提出 GameCraft-Bench，用于评估编码代理能否在真实游戏引擎中端到端生成可玩的游戏。作者把任务定义为从自然语言规格生成完整游戏工件，并强调评测必须同时检查引擎对齐、工件完整性和交互式可验证性。基于这些标准，论文构建了一个包含 15 个游戏家族、140 个 Godot 任务的基准，并通过回放演示和多模态裁判来评估可执行玩法。实验显示，最强代理也只取得 41.46% 的成绩，大多数模型低于 40%，说明当前系统虽然常能写出可识别的机制，但仍难以交付内容足够、反馈完整且展示一致的成品游戏。

OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy Distillation

ArXiv 幻觉翻译

这篇工作提出 OPD-Evolver，用 on-policy self-distillation 来培养能够自我进化的 agent evolver。方法上采用快慢双循环：快循环让模型在四层记忆体系中完成读取、使用、写入和维护经验，慢循环则通过 outcome-calibrated memory attribution 和 privileged hindsight 把这四种能力蒸馏到可部署策略中。作者强调这种设计不仅让模型学会保留经验，还学会筛选高价值经验并将其转化为可复用知识。实验显示，在多个领域基准上，OPD-Evolver 相比 ReasoningBank 最多提升 11.5%，相比训练型方法约提升 5.8%，9B 版本还能接近更大的 Qwen3.5-397B-A17B 和 Step-3.5-Flash。

Self-Evolving Visual Questioner

ArXiv 幻觉翻译

这篇工作提出了一个自演化的视觉提问框架，让视觉语言模型在没有外部监督的情况下持续提升自己提出问题的能力。方法上，它把同一个VLM同时用作提案器和过滤器，自动生成更难、更信息量更高、且更具视觉指向性的问题，并通过保持探索多样性来避免训练塌缩。随后，这些问题被用于同时训练模型的提问模式和回答模式。作者还设计了一个面向提问能力的 agentic 评测协议，从感知、推理和多样性三个维度衡量问题质量。实验表明，该方法在多个骨干VLM上都能显著提升自动提问质量，并扩大问题难度边界；在相同预算下也比静态源数据训练更有效，同时模型作为回答者仍保持竞争力，甚至更好。