

Papers - 2026-05-26
吾能观之数千而面色如故
views
| comments
Grounding-driven Visual Reasoning#
See What I Mean: Aligning Vision and Language Representations for Video Fine-grained Object Understanding
这篇工作提出 SWIM,用来在不依赖显式视觉提示(如 mask 或点)的情况下,仅凭文本提示实现视频中的细粒度目标理解。方法核心是利用训练阶段的 mask 监督去约束跨模态注意力,并从对象名词中提取多层 cross-attention,与真实 mask 做空间一致性对齐。作者还构建了 NL-Refer 数据集,为每个目标 mask 配对精确的自然语言指代表达,以缓解视觉与语言表征错位。实验结果表明,SWIM 能显著改善文本-视觉对齐,并在细粒度目标理解基准上优于依赖视觉提示的方法。
3D LLM#
From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills
No summary available.
PhotoFlow: Agentic 3D Virtual Photography Missions
No summary available.
Agent Training and Evaluation#
SkillOpt: Executive Strategy for Self-Evolving Agent Skills
这篇工作提出了 SkillOpt,用一种可控的文本空间优化器来训练智能体技能,把技能文档当作冻结智能体的外部状态来优化。方法上,它让一个独立的优化器模型根据带分数的 rollout 生成受限的 add/delete/replace 编辑,并且只有在验证集分数严格提升时才接受更新。作者还引入了文本版学习率预算、拒绝编辑缓冲区以及按 epoch 的慢更新/元更新来稳定训练,而且部署时不增加额外推理调用。实验覆盖 6 个基准、7 个目标模型和 3 种执行框架,结果在 52 个评测组合上都达到最佳或并列最佳,并且在模型尺度、Codex/Claude Code 环境之间以及邻近数学基准上都表现出良好的迁移性。