Papers - 2026-05-12 • Xingjian Wang

Multimodal Agent#

HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents

这篇工作提出 HyperEyes，一个面向并行多模态搜索的智能体，核心目标是把多个实体或子问题的检索从“串行多轮”变成“单轮并发”。方法上，它将视觉定位和检索融合为一个原子动作，并结合面向并行的冷启动数据构造、TRACE 轨迹级效率奖励，以及来自外部教师的 on-policy distillation 来提供密集纠错信号。作者还构建了新的效率评测集 IMEB，用来同时衡量准确率和工具调用成本。实验显示，HyperEyes-30B 在六个基准上相比最强开源对手准确率提升 9.9%，平均工具调用轮次减少 5.3 倍。

Embodied Agent#

HumanNet: Scaling Human-centric Video Learning to One Million Hours

ArXiv 幻觉翻译

这篇工作构建了 HumanNet，一个达到一百万小时规模的人类中心视频语料库，用于支撑具身学习。方法上，数据集同时覆盖第一视角与第三视角视频，并提供描述、动作说明以及手和身体相关信号等交互式标注，以增强运动和交互感知学习。作者还提出了系统化的数据筛选与组织原则，包括人类中心过滤、时间结构化、视角多样化和标注增强。实验中，在固定验证数据下，基于 HumanNet 的 1000 小时第一视角视频继续训练 Qwen VLM，效果超过了使用 100 小时真实机器人数据 Magic Cobot 的继续训练结果，说明人类视频可作为可扩展且低成本的具身学习替代数据源。

4D Understanding and Generation#

MACE-Dance: Motion-Appearance Cascaded Experts for Music-Driven Dance Video Generation

ArXiv 幻觉翻译

这篇工作提出了 MACE-Dance，用于音乐驱动的舞蹈视频生成，目标是在保持人物外观一致性的同时生成自然、富有表现力的动作。方法上采用级联的 MoE 框架，把 Motion Expert 和 Appearance Expert 分开建模，前者负责音乐到三维动作生成并加入 BiMamba-Transformer 与无引导训练，后者负责基于动作和参考图像的视频合成以维持时空一致性。作者还构建了大规模数据集，并设计了动作-外观联合评测协议。实验结果表明，该方法在三维舞蹈生成、姿态驱动图像动画以及整体任务评测上都取得了 SOTA 表现。

Agent Training and Evaluation#

DecodingTrust-Agent Platform (DTap): A Controllable and Interactive Red-Teaming Platform for AI Agents

ArXiv 幻觉翻译

这篇工作提出了 DTap，一个面向 AI agent 的可控、交互式红队评测平台，覆盖 14 个真实业务域和 50 多个模拟环境，模拟了 Google Workspace、PayPal、Slack 等常见系统。作者还提出 DTap-Red，用于自动探索 prompt、tool、skill、environment 及其组合注入向量，并针对不同恶意目标生成攻击策略。基于此，他们构建了带可验证裁判的 DTap-Bench，用于自动判定攻击是否成功。实验在多种 backbone、不同安全策略和风险类别上做了大规模评测，发现主流 agent 存在系统性脆弱点，并能支持更细粒度的安全分析。