Xingjian Wang
Papers - 2026-05-12Blur image

Multimodal Agent#

HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents

这篇工作提出 HyperEyes,一个面向并行多模态搜索的智能体,核心目标是把多个实体或子问题的检索从“串行多轮”变成“单轮并发”。方法上,它将视觉定位和检索融合为一个原子动作,并结合面向并行的冷启动数据构造、TRACE 轨迹级效率奖励,以及来自外部教师的 on-policy distillation 来提供密集纠错信号。作者还构建了新的效率评测集 IMEB,用来同时衡量准确率和工具调用成本。实验显示,HyperEyes-30B 在六个基准上相比最强开源对手准确率提升 9.9%,平均工具调用轮次减少 5.3 倍。

Embodied Agent#

HumanNet: Scaling Human-centric Video Learning to One Million Hours

这篇工作构建了 HumanNet,一个达到一百万小时规模的人类中心视频语料库,用于支撑具身学习。方法上,数据集同时覆盖第一视角与第三视角视频,并提供描述、动作说明以及手和身体相关信号等交互式标注,以增强运动和交互感知学习。作者还提出了系统化的数据筛选与组织原则,包括人类中心过滤、时间结构化、视角多样化和标注增强。实验中,在固定验证数据下,基于 HumanNet 的 1000 小时第一视角视频继续训练 Qwen VLM,效果超过了使用 100 小时真实机器人数据 Magic Cobot 的继续训练结果,说明人类视频可作为可扩展且低成本的具身学习替代数据源。

4D Understanding and Generation#

MACE-Dance: Motion-Appearance Cascaded Experts for Music-Driven Dance Video Generation

这篇工作提出了 MACE-Dance,用于音乐驱动的舞蹈视频生成,目标是在保持人物外观一致性的同时生成自然、富有表现力的动作。方法上采用级联的 MoE 框架,把 Motion Expert 和 Appearance Expert 分开建模,前者负责音乐到三维动作生成并加入 BiMamba-Transformer 与无引导训练,后者负责基于动作和参考图像的视频合成以维持时空一致性。作者还构建了大规模数据集,并设计了动作-外观联合评测协议。实验结果表明,该方法在三维舞蹈生成、姿态驱动图像动画以及整体任务评测上都取得了 SOTA 表现。

Agent Training and Evaluation#

DecodingTrust-Agent Platform (DTap): A Controllable and Interactive Red-Teaming Platform for AI Agents

这篇工作提出了 DTap,一个面向 AI agent 的可控、交互式红队评测平台,覆盖 14 个真实业务域和 50 多个模拟环境,模拟了 Google Workspace、PayPal、Slack 等常见系统。作者还提出 DTap-Red,用于自动探索 prompt、tool、skill、environment 及其组合注入向量,并针对不同恶意目标生成攻击策略。基于此,他们构建了带可验证裁判的 DTap-Bench,用于自动判定攻击是否成功。实验在多种 backbone、不同安全策略和风险类别上做了大规模评测,发现主流 agent 存在系统性脆弱点,并能支持更细粒度的安全分析。

Papers - 2026-05-12
https://themaoqiu.github.io/blog/papers-2026-05-12
Author 猫柒-
Published at May 12, 2026