Papers - 2026-05-29 • Xingjian Wang

Embodied Agent#

GEM: Generative Supervision Helps Embodied Intelligence

本文提出 GEM，一种面向具身智能的生成式监督视觉语言模型，目标是弥合通用文本预训练与具身执行所需的低层空间和物理知识之间的差距。方法上，作者在预训练中加入深度图生成任务，并配合大规模 GEM-4M 数据集，数据包含 grounding、reasoning 和 planning 以及高质量深度监督。实验显示，GEM 在多个具身基准上达到 SOTA，部署的 GEM-VLA 在仿真和真实环境中的任务执行能力也明显更强。

Spatial Intelligence (Image/Video)#

From Pixels to Words -- Towards Native One-Vision Models at Scale

ArXiv 幻觉翻译

这篇工作提出 NEO-ov，一种原生 one-vision 基础模型，直接端到端学习跨帧与像素-文本对应关系，不再依赖独立图像编码器、语言解码器或后融合模块。作者通过消除模块边界，让细粒度时空建模在单一模型内部自然形成，从而更好地处理多图像、视频理解与空间智能任务。论文还给出了系统性的架构分析和训练配方，帮助复现和扩展这种原生多模态路线。实验结果表明，NEO-ov 在显著缩小与模块化模型差距的同时，在细粒度视觉感知上表现突出，验证了原生 one-vision 架构在大规模训练下的可行性与竞争力。

Agent Training and Evaluation#

Agent Explorative Policy Optimization for Multimodal Agentic Reasoning

ArXiv 幻觉翻译

这篇工作研究多模态智能体推理中的“思考-行动鸿沟”，指出现有强化学习方法在工具使用上探索不足，且一旦进入工具调用分支，常出现整组样本都答错的问题。作者提出 AXPO，通过对全错的工具使用子组固定思考前缀、重采样工具调用及其后续推理，并结合不确定性驱动的前缀选择，增强工具调用阶段的学习信号。该方法在九个多模态基准和三个 Qwen3-VL-Thinking 规模上进行了验证。结果显示，SFT+AXPO 平均优于 SFT+GRPO，8B 模型的 Pass@1 和 Pass@4 均提升约 1.8 个百分点，并且 8B 模型的 Pass@4 甚至超过了参数量大四倍的 32B Base。

Self-Improving Language Models with Bidirectional Evolutionary Search

ArXiv 幻觉翻译

这篇工作提出 Bidirectional Evolutionary Search（BES），用于语言模型和智能体系统的自我改进搜索。作者认为，常见的 best-of-N 和树搜索受限于稀疏验证信号以及只能沿自回归方向扩展，因此提出同时结合前向候选进化与后向目标分解的双向搜索框架。前向部分通过进化算子重组部分轨迹，探索单次 rollout 难以到达的候选；后向部分把原任务递归拆成可检验子目标，提供更密集的中间反馈。实验显示，在一些主流后训练方法难以提升的任务上，BES 能带来稳定收益；在三个开放式问题求解基准的推理阶段，它也优于现有开源框架的平均和最佳表现。

ResearchMath-14K: Scaling Research-Level Mathematics via Agents

ArXiv 幻觉翻译

本文构建了 ResearchMath-14K，收录 14,056 道来自学术来源的研究级数学题，并通过多智能体流水线进行筛选与整理。作者同时发布了 ResearchMath-Reasoning，包含 22 万条由两个开源模型生成的教师轨迹，用来分析研究型数学推理中的失败模式。实验表明，经过过滤的开放题尝试可以作为有效监督信号，帮助提升语言模型在研究级数学推理上的能力。

Learn from Weaknesses: Automated Domain Specialization for Small Computer-Use Agents

ArXiv 幻觉翻译

本文提出 LearnWeak，一个无需人工标注的小型 computer-use agent 专化框架。它先用更强的参考 agent 定位目标领域中的薄弱环节，再自动合成针对性任务并构造监督信号，同时用错误感知目标区分规划错误和执行错误。作者在 OSWorld 八个领域上验证，平均比 EvoCUA-8B 提升 11.6 个百分点、比 OpenCUA-7B 提升 11.1 个百分点，并且优于现有自动轨迹生成与训练基线。

ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence

ArXiv 幻觉翻译

这篇工作提出 ScientistOne，一个面向自主科研的端到端系统，并配套 Chain-of-Evidence（CoE）框架来保证研究过程中的证据可追溯性。作者把文献检索、方案发现、实验与论文撰写串成完整流程，同时设计 CoE Audit，对分数核验、规范违背、参考文献真实性和方法-代码一致性进行统一检查。实验覆盖 75 篇论文、5 个系统和 5 个前沿任务，发现所有基线都至少存在一种系统性失真问题，例如伪造引用、分数不一致或方法描述与代码不符。ScientistOne 在 337 条引用中实现 0 伪造引用，在 12/12 的分数核验中全部通过，并在方法-代码一致性上达到最高，同时在五个任务上达到或超过人类专家表现。

AI Research Agents Narrow Scientific Exploration

ArXiv 幻觉翻译

这篇论文研究 AI 科研代理生成的研究想法是否真的能扩大科学探索范围。作者使用 4 个科研代理框架和 6 个大语言模型，从共享种子文献出发生成了 37,802 个 AI 研究想法，并将它们与同领域的人类论文、后续人类研究和种子文献进行比较。实验表明，AI 生成的想法比人类论文更集中，也更贴近起始文献，说明当前代理更擅长在局部做已有方法的重组，而不是提出全新的研究问题。进一步分析还发现，与 AI 想法相似的论文后续引用更低，整体结论是现阶段科研代理会缩窄而不是扩展科学探索。

Multimodal World Model#

Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players

ArXiv 幻觉翻译

这篇工作面向多智能体交互环境构建生成式世界模型，解决传统单智能体视频生成难以同时支持多角色控制的问题。作者提出 Simplex Rotary Agent Encoding，用参数无关的方式为不同智能体提供可置换且可区分的身份表示；同时用 Sparse Hub Attention 以 hub token 介导跨智能体交互，降低注意力开销。为了满足实时滚动生成，作者还将全上下文扩散教师蒸馏为因果学生模型，支持按时间块顺序生成并结合 KV cache。实验表明，该方法在多人虚拟环境中提升了视频质量、动作可控性和智能体一致性，并能在不额外训练的情况下从双人泛化到四人场景。