Papers - 2026-05-02 • Xingjian Wang

Multimodal Agent#

InteractWeb-Bench: Can Multimodal Agent Escape Blind Execution in Interactive Website Generation?

这篇工作提出 InteractWeb-Bench，用来评测多模态 agent 在交互式网页生成中的真实能力。作者构建了面向非专业用户的低代码交互环境，并设计 Clarify、Implement、Verify、Submit 四类统一动作，让 agent 可以逐步澄清需求、生成代码并基于视觉反馈验证结果。实验表明，前沿的多模态大模型 agent 仍普遍陷入“盲执行”，在意图理解和自适应交互上存在明显短板。

Embodied Agent#

ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control

ArXiv 幻觉翻译

本文提出 ExoActor，把第三人称视频生成作为统一接口来建模人形机器人与环境、物体之间的交互过程。给定任务指令和场景上下文，系统先生成符合物理与任务意图的执行视频，再通过人体动作估计和通用动作控制器将其转换为可执行的人形行为序列。作者实现了端到端系统，并在无需额外真实世界数据采集的情况下验证了对新场景的泛化能力。结果显示，该方法能更好地支持交互丰富的 humanoid 控制，并为生成式模型驱动通用机器人智能提供了新路径。

Agent Training and Evaluation#

Heterogeneous Scientific Foundation Model Collaboration

ArXiv 幻觉翻译

本文提出 Eywa，用语言模型作为推理接口，把不同科学领域的基础模型接入统一的智能体框架，使其能在非语言模态数据上参与高层推理与决策。作者设计了单智能体版本 EywaAgent、可替换现有多智能体的 EywaMAS，以及基于规划器的 EywaOrchestra 来协调传统智能体与 Eywa 智能体。实验覆盖物理、生命和社会科学等多个领域，结果表明该框架在结构化和领域专用数据任务上更强，同时减少了对纯语言推理的依赖。

Co-Evolving Policy Distillation

ArXiv 幻觉翻译

本文统一分析了 RLVR 和 OPD 两类后训练范式在多能力融合中的能力损失问题，指出混合 RLVR 会产生跨能力分歧，而先训专家再做 OPD 又会因师生行为差距而吸收不充分。作者提出 Co-Evolving Policy Distillation（CoPD），让多个专家并行训练，并在专家持续进行 RLVR 时同步做双向 OPD 以共同演化。实验表明，CoPD 能把文本、图像和视频推理能力整合到一个模型中，在强基线之上取得显著提升，甚至超过了单领域专家。

Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows

ArXiv 幻觉翻译

这篇工作提出 Claw-Eval-Live，一个面向会随真实工作流变化的 LLM agent 评测基准。它把可刷新信号层与可复现实验快照分离，并结合执行轨迹、审计日志、服务状态和运行后产物进行评分，确定性检查优先，语义维度再用结构化 LLM 判定。实验覆盖 105 个任务和 13 个前沿模型，结果显示最强模型也只通过 66.7%，没有模型达到 70%，说明可靠的工作流自动化仍然没有被解决。

Synthetic Computers at Scale for Long-Horizon Productivity Simulation

ArXiv 幻觉翻译

这篇工作提出了 Synthetic Computers at Scale，用来大规模构造带有真实文件夹层级和文档、表格、演示稿等内容丰富工件的合成电脑环境。作者在每台合成电脑上运行长时程模拟：一个智能体先生成与该用户相关、需要多份专业交付物且跨度约一个月的人类工作目标，另一个智能体再以该用户身份在电脑中持续工作，进行文件系统定位、协作和产出文档。实验中他们构建了 1000 台合成电脑，每次模拟平均超过 2000 轮、运行超过 8 小时。结果表明，这些模拟产生了丰富的经验学习信号，并显著提升了智能体在领域内和领域外的生产力评测表现。

Multimodal World Model#

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

ArXiv 幻觉翻译

本文系统梳理了视觉生成从原子映射到智能体式世界建模的演进，提出五级分类框架：Atomic、Conditional、In-Context、Agentic 和 World-Modeling Generation。作者围绕 flow matching、统一理解与生成、后训练、奖励建模、数据构建和采样加速等技术驱动力，分析了推动下一代视觉生成的关键路径。论文还结合基准回顾、真实场景压力测试和专家约束案例，指出当前评测过度强调感知质量，往往掩盖了结构、时间和因果层面的失败。整体上，它给出了面向智能视觉生成的能力导向路线图。