Papers - 2026-05-22 • Xingjian Wang

Agent Training and Evaluation#

Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining

这篇工作提出 Video2GUI，用视频自动合成大规模交互轨迹，为通用 GUI Agent 预训练提供数据。方法上它从真实或录制的视频中抽取可执行的操作序列，并构建可用于训练的轨迹集合。实验结果表明，这种合成轨迹能显著提升下游 GUI Agent 的泛化能力和任务完成表现。

IndusAgent: Reinforcing Open-Vocabulary Industrial Anomaly Detection with Agentic Tools

ArXiv 幻觉翻译

这篇工作提出 IndusAgent，利用 agentic tools 强化开放词汇工业异常检测。方法上将工具调用与异常识别过程结合，让模型能借助外部工具进行更稳健的分析与判别。实验显示，该框架在工业异常检测基准上提升了开放词汇场景下的检测效果。

CutVerse: A Compositional GUI Agents Benchmark for Media Post-Production Editing

ArXiv 幻觉翻译

这篇论文提出了 CutVerse，一个面向媒体后期制作的组合式 GUI Agents 基准。它覆盖 7 个专业应用中的 186 个长链路复杂任务，并将原始屏幕录制和交互日志解析为结构化动作轨迹，以便系统评估代理的精确定位与多模态操作能力。实验结果显示，现有 GUI agent 在真实媒体编辑任务上的成功率只有 36.0%，说明这类长流程创意工作仍然很有挑战。