Papers - 2026-05-26 • Xingjian Wang

Grounding-driven Visual Reasoning#

See What I Mean: Aligning Vision and Language Representations for Video Fine-grained Object Understanding

这篇工作提出 SWIM，用来在不依赖显式视觉提示（如 mask 或点）的情况下，仅凭文本提示实现视频中的细粒度目标理解。方法核心是利用训练阶段的 mask 监督去约束跨模态注意力，并从对象名词中提取多层 cross-attention，与真实 mask 做空间一致性对齐。作者还构建了 NL-Refer 数据集，为每个目标 mask 配对精确的自然语言指代表达，以缓解视觉与语言表征错位。实验结果表明，SWIM 能显著改善文本-视觉对齐，并在细粒度目标理解基准上优于依赖视觉提示的方法。

3D LLM#

From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills

ArXiv 幻觉翻译

No summary available.

PhotoFlow: Agentic 3D Virtual Photography Missions

ArXiv 幻觉翻译

No summary available.

Agent Training and Evaluation#

SkillOpt: Executive Strategy for Self-Evolving Agent Skills

ArXiv 幻觉翻译

这篇工作提出了 SkillOpt，用一种可控的文本空间优化器来训练智能体技能，把技能文档当作冻结智能体的外部状态来优化。方法上，它让一个独立的优化器模型根据带分数的 rollout 生成受限的 add/delete/replace 编辑，并且只有在验证集分数严格提升时才接受更新。作者还引入了文本版学习率预算、拒绝编辑缓冲区以及按 epoch 的慢更新/元更新来稳定训练，而且部署时不增加额外推理调用。实验覆盖 6 个基准、7 个目标模型和 3 种执行框架，结果在 52 个评测组合上都达到最佳或并列最佳，并且在模型尺度、Codex/Claude Code 环境之间以及邻近数学基准上都表现出良好的迁移性。

Multimodal World Model#

PiD: Fast and High-Resolution Latent Decoding with Pixel Diffusion

ArXiv 幻觉翻译

No summary available.

VGenST-Bench: A Benchmark for Spatio-Temporal Reasoning via Active Video Synthesis

ArXiv 幻觉翻译

No summary available.

ETCHR: Editing To Clarify and Harness Reasoning

ArXiv 幻觉翻译

No summary available.