Xingjian Wang
Papers - 2026-04-29Blur image

Thinking with Images#

SketchVLM: Vision language models can annotate images to explain thoughts and guide users

这篇工作提出 SketchVLM,一个无需训练、模型无关的框架,让视觉语言模型在输入图像上生成可编辑、非破坏性的 SVG 覆盖层,用图形方式解释答案并辅助用户理解。方法上,它把点选、标注、画线和绘图等视觉表达能力引入到 VLM 的回答过程中,使模型不仅输出文本,还能直接在图像上留下可核验的可视化推理痕迹。作者在七个覆盖视觉推理与绘图的基准上验证了该方法,包括迷宫导航、球体轨迹预测、物体计数、部件标注、连线和形状绘制等任务。实验显示,SketchVLM 相比图像编辑和微调式草图基线,视觉推理准确率最高提升 28.5 个百分点,标注质量最高提升 1.48 倍,同时生成的标注与模型自述答案更一致。

3D/Space Reasoning#

ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning

本文重建了面向 VLM 的视觉空间智能评测 ReVSI,目标是更准确地衡量模型的 3D 推理能力,而不是被表面相关性误导。方法上,作者重新组织了评测任务与指标,强化了空间关系、视角变化和三维推断的区分度。实验显示,新评测能更稳定地区分不同模型的真实空间推理水平,并揭示现有基准对 3D 能力的低估问题。

Agent Training and Evaluation#

ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents

这篇工作提出了 ClawMark,一个面向多轮、多天、带环境变化的协作型智能体基准,用来评测像“同事”一样持续工作的语言模型代理。它构建了一个状态会随轮次演化的沙箱环境,覆盖文件系统、邮件、日历、知识库和表格等 13 类专业场景,并用 1537 个确定性的 Python 检查器对执行后的服务状态进行规则化评分。作者评测了 7 个前沿代理系统,结果显示最强模型的加权得分可达 75.8,但严格任务成功率只有 20.0%,说明部分进展常见而完整端到端完成仍然很难。实验还表明在第一次外部环境更新后性能明显下降,强调了适应动态状态变化是当前协作代理的关键挑战。

Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis

这篇工作研究了面向数据分析智能体的过程级奖励建模,指出通用 PRM 在动态数据分析任务中难以监督代理,因为它们既看不出不会报错的“静默错误”,也会把必要的试错探索误判为失败。为此,作者提出 DataPRM,这是一种环境感知的生成式过程奖励模型,能够主动与环境交互检查中间执行状态,并用反思感知的三值奖励区分可修正的 grounding 错误和不可挽回的错误。论文还构建了一个包含 8K+ 高质量样本的训练流水线,用于覆盖多样轨迹生成和逐步标注。实验表明,DataPRM 在 ScienceAgentBench 上为下游策略模型带来 7.21% 的提升,在 DABStep 上带来 11.28% 的提升;仅 4B 参数时也优于强基线,并在强化学习和不同测试时扩展策略下表现稳健。

Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment

这篇工作关注智能体中的 Actor-Observer Asymmetry,指出在自我反思和互相审计的多智能体框架里,模型会像人一样对同一失败给出不一致的归因,从而影响可靠性。作者提出 ReTAS(Reasoning via Thesis-Antithesis-Synthesis),通过辩证式对齐训练,让模型把不同视角的冲突信息综合成更客观的结论。为分析这一现象,论文还构建了 Ambiguous Failure Benchmark,并发现简单切换“行动者/观察者”视角会在超过 20% 的案例中触发该偏差。实验显示,ReTAS 能有效缓解归因不一致,并显著提升在歧义场景中的故障解决率。

Efficient Agent Evaluation via Diversity-Guided User Simulation

本文提出 DIVERT,一种基于多样性引导的用户模拟评测框架,用于更高效地评估面向用户的 LLM Agent。方法上,它在关键决策点保存 agent-环境状态快照,并从这些快照继续展开分支,从而复用共享前缀、减少重复回放,同时用有针对性的多样化用户回复探索不同交互路径。这样可以比传统线性 Monte Carlo rollout 更系统地覆盖稀有用户行为和深层失败模式。实验表明,DIVERT 在相同 token 预算下能发现更多失败,并且能在更多任务上识别出问题,兼顾了效率和覆盖率。

Multimodal World Model#

World-R1: Reinforcing 3D Constraints for Text-to-Video Generation

本文提出 World-R1,用强化学习把文本到视频生成与 3D 结构约束对齐,缓解生成视频中的几何不一致问题。方法上,作者构建了面向世界模拟的纯文本数据集,并利用 Flow-GRPO 结合预训练 3D 基座模型与视觉语言模型的反馈来优化生成器,同时用周期性交替训练平衡刚性几何一致性和场景动态性。实验表明,该方法在显著提升 3D 一致性的同时,基本保持了基础模型原有的视觉质量,说明不改架构也能有效增强可扩展的世界模拟能力。

Papers - 2026-04-29
https://themaoqiu.github.io/blog/papers-2026-04-29
Author 猫柒-
Published at April 29, 2026