Xingjian Wang
Papers - 2026-05-22Blur image

Agent Training and Evaluation#

Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining

这篇工作提出 Video2GUI,用视频自动合成大规模交互轨迹,为通用 GUI Agent 预训练提供数据。方法上它从真实或录制的视频中抽取可执行的操作序列,并构建可用于训练的轨迹集合。实验结果表明,这种合成轨迹能显著提升下游 GUI Agent 的泛化能力和任务完成表现。

IndusAgent: Reinforcing Open-Vocabulary Industrial Anomaly Detection with Agentic Tools

这篇工作提出 IndusAgent,利用 agentic tools 强化开放词汇工业异常检测。方法上将工具调用与异常识别过程结合,让模型能借助外部工具进行更稳健的分析与判别。实验显示,该框架在工业异常检测基准上提升了开放词汇场景下的检测效果。

CutVerse: A Compositional GUI Agents Benchmark for Media Post-Production Editing

这篇论文提出了 CutVerse,一个面向媒体后期制作的组合式 GUI Agents 基准。它覆盖 7 个专业应用中的 186 个长链路复杂任务,并将原始屏幕录制和交互日志解析为结构化动作轨迹,以便系统评估代理的精确定位与多模态操作能力。实验结果显示,现有 GUI agent 在真实媒体编辑任务上的成功率只有 36.0%,说明这类长流程创意工作仍然很有挑战。

Papers - 2026-05-22
https://themaoqiu.github.io/blog/papers-2026-05-22
Author 猫柒-
Published at May 22, 2026