Papers - 2026-04-29 • Xingjian Wang

Thinking with Images#

SketchVLM: Vision language models can annotate images to explain thoughts and guide users

这篇工作提出 SketchVLM，一个无需训练、模型无关的框架，让视觉语言模型在输入图像上生成可编辑、非破坏性的 SVG 覆盖层，用图形方式解释答案并辅助用户理解。方法上，它把点选、标注、画线和绘图等视觉表达能力引入到 VLM 的回答过程中，使模型不仅输出文本，还能直接在图像上留下可核验的可视化推理痕迹。作者在七个覆盖视觉推理与绘图的基准上验证了该方法，包括迷宫导航、球体轨迹预测、物体计数、部件标注、连线和形状绘制等任务。实验显示，SketchVLM 相比图像编辑和微调式草图基线，视觉推理准确率最高提升 28.5 个百分点，标注质量最高提升 1.48 倍，同时生成的标注与模型自述答案更一致。

3D/Space Reasoning#

ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning

ArXiv 幻觉翻译

本文重建了面向 VLM 的视觉空间智能评测 ReVSI，目标是更准确地衡量模型的 3D 推理能力，而不是被表面相关性误导。方法上，作者重新组织了评测任务与指标，强化了空间关系、视角变化和三维推断的区分度。实验显示，新评测能更稳定地区分不同模型的真实空间推理水平，并揭示现有基准对 3D 能力的低估问题。

Agent Training and Evaluation#

ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents

ArXiv 幻觉翻译

这篇工作提出了 ClawMark，一个面向多轮、多天、带环境变化的协作型智能体基准，用来评测像“同事”一样持续工作的语言模型代理。它构建了一个状态会随轮次演化的沙箱环境，覆盖文件系统、邮件、日历、知识库和表格等 13 类专业场景，并用 1537 个确定性的 Python 检查器对执行后的服务状态进行规则化评分。作者评测了 7 个前沿代理系统，结果显示最强模型的加权得分可达 75.8，但严格任务成功率只有 20.0%，说明部分进展常见而完整端到端完成仍然很难。实验还表明在第一次外部环境更新后性能明显下降，强调了适应动态状态变化是当前协作代理的关键挑战。

Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis

ArXiv 幻觉翻译

这篇工作研究了面向数据分析智能体的过程级奖励建模，指出通用 PRM 在动态数据分析任务中难以监督代理，因为它们既看不出不会报错的“静默错误”，也会把必要的试错探索误判为失败。为此，作者提出 DataPRM，这是一种环境感知的生成式过程奖励模型，能够主动与环境交互检查中间执行状态，并用反思感知的三值奖励区分可修正的 grounding 错误和不可挽回的错误。论文还构建了一个包含 8K+ 高质量样本的训练流水线，用于覆盖多样轨迹生成和逐步标注。实验表明，DataPRM 在 ScienceAgentBench 上为下游策略模型带来 7.21% 的提升，在 DABStep 上带来 11.28% 的提升；仅 4B 参数时也优于强基线，并在强化学习和不同测试时扩展策略下表现稳健。

Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment

ArXiv 幻觉翻译

这篇工作关注智能体中的 Actor-Observer Asymmetry，指出在自我反思和互相审计的多智能体框架里，模型会像人一样对同一失败给出不一致的归因，从而影响可靠性。作者提出 ReTAS（Reasoning via Thesis-Antithesis-Synthesis），通过辩证式对齐训练，让模型把不同视角的冲突信息综合成更客观的结论。为分析这一现象，论文还构建了 Ambiguous Failure Benchmark，并发现简单切换“行动者/观察者”视角会在超过 20% 的案例中触发该偏差。实验显示，ReTAS 能有效缓解归因不一致，并显著提升在歧义场景中的故障解决率。

Efficient Agent Evaluation via Diversity-Guided User Simulation

ArXiv 幻觉翻译

本文提出 DIVERT，一种基于多样性引导的用户模拟评测框架，用于更高效地评估面向用户的 LLM Agent。方法上，它在关键决策点保存 agent-环境状态快照，并从这些快照继续展开分支，从而复用共享前缀、减少重复回放，同时用有针对性的多样化用户回复探索不同交互路径。这样可以比传统线性 Monte Carlo rollout 更系统地覆盖稀有用户行为和深层失败模式。实验表明，DIVERT 在相同 token 预算下能发现更多失败，并且能在更多任务上识别出问题，兼顾了效率和覆盖率。

Multimodal World Model#

World-R1: Reinforcing 3D Constraints for Text-to-Video Generation

ArXiv 幻觉翻译

本文提出 World-R1，用强化学习把文本到视频生成与 3D 结构约束对齐，缓解生成视频中的几何不一致问题。方法上，作者构建了面向世界模拟的纯文本数据集，并利用 Flow-GRPO 结合预训练 3D 基座模型与视觉语言模型的反馈来优化生成器，同时用周期性交替训练平衡刚性几何一致性和场景动态性。实验表明，该方法在显著提升 3D 一致性的同时，基本保持了基础模型原有的视觉质量，说明不改架构也能有效增强可扩展的世界模拟能力。