

Papers - 2026-06-13
吾能观之数千而面色如故
Thinking with Images#
Robust-U1: Can MLLMs Self-Recover Corrupted Visual Content for Robust Understanding?
Robust-U1 研究 MLLM 能否自己恢复被破坏的视觉内容,以提升鲁棒视觉理解能力。方法上,模型先通过监督微调学习初步重建,再用同时优化 SSIM 和 CLIP 相似度的强化学习提升恢复质量,最后结合原始受损输入与恢复后的图像进行多模态推理。实验表明,该框架在真实视觉腐蚀基准上达到最优鲁棒性,并在一般 VQA 基准的对抗腐蚀场景中也保持领先。作者进一步分析发现,高质量的视觉恢复能直接改善后续推理表现,说明 self-recovery 是鲁棒视觉理解的重要机制。
Embodied Agent#
LabVLA: Grounding Vision-Language-Action Models in Scientific Laboratories
这篇论文研究如何将视觉-语言-动作模型落地到科学实验室场景中,解决机器人执行实验流程时的数据和具身形态瓶颈。作者提出 RoboGenesis,用仿真工作流和数据引擎把原子技能组合成实验流程,经过验证筛选后导出结构化示范数据。基于此,他们训练了 LabVLA,采用两阶段方案:先用 FAST 动作 token 预训练让 Qwen3-VL-4B-Instruct 具备动作感知,再用 flow matching 后训练接入 DiT 动作专家。实验结果显示,LabVLA 在 LabUtopia 基准上无论是分布内还是分布外设置,都取得了所有评测基线中的最高平均成功率。
Spatial Intelligence (Image/Video)#
SpatialClaw: Rethinking Action Interface for Agentic Spatial Reasoning
SpatialClaw 提出一种训练自由的空间推理框架,把代码作为 agent 的 action interface。系统在状态化 Python kernel 中预加载输入帧和感知、几何原语,让 VLM-backed agent 能逐步编写可执行 cell,并结合前一步输出继续分析。这样相比单次代码执行或固定工具调用更灵活,更适合开放式的 3D/4D 空间推理任务。作者在 20 个空间推理基准上评测,平均准确率达到 59.9%,比最近的空间 agent 高 11.2 个百分点,并且在两个模型家族的 6 个 VLM backbone 上都带来稳定提升。
HYDRA-X: Native Unified Multimodal Models with Holistic Visual Tokenizers
这篇论文提出 HYDRA-X,一个把图像和视频 tokenization 统一到单一 Vision Transformer 中的原生统一多模态模型。作者围绕时空重建能力和图像/视频语义一致性两个问题设计了整体视觉 tokenizer,并通过分层时间压缩与轻量解压器来构建紧凑而共享的潜在空间。论文还指出,编辑流程中更好的做法是在 tokenizer 的潜空间内完成源目标交互,而不是在 LLM 语义层中交互,这能显著提升编辑一致性并加快收敛。实验表明,7B dense 版本在图像和视频理解、生成等任务上表现强劲,说明该统一 tokenizer 路线具有较好的可扩展性。
Agent Training and Evaluation#
EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic Environments
本文提出 EvoArena 基准,用渐进式环境更新来评测 LLM agent 在 terminal、software 和 social 三类动态场景中的适应与记忆能力。作者还提出 EvoMem,一种基于 patch 的记忆范式,把记忆演化过程记录成结构化更新历史,帮助 agent 依据环境变化进行推理。实验显示现有 agent 在 EvoArena 上平均准确率只有 39.6%,而 EvoMem 在该基准上平均提升 1.5%。此外,EvoMem 还在 GAIA 和 LoCoMo 上分别提升 6.1% 和 4.8%,在需要连续完成演化子任务的 chain-level 评测中也提升 3.7%。
FORT-Searcher: Synthesizing Shortcut-Resistant Search Tasks for Training Deep Search Agents
这篇论文提出了面向深度搜索智能体训练的 FORT-Searcher,核心目标是生成更难被“走捷径”解决的可验证搜索任务。作者先形式化了搜索难度与真实搜索难度之间的差距,并总结出证据共覆盖、单线索选择性、显式常量和先验知识绑定四类捷径风险。基于此,他们设计了 FORT 框架,在实体选择、证据图构建、问题表述和对抗式精炼等环节抑制捷径。实验显示,FORT 生成的数据能带来更长的答案前搜索过程和更少的捷径模式,仅用监督微调训练出的 FORT-Searcher 在同规模开源搜索智能体中取得了最佳整体表现。
WeaveBench: A Long-Horizon, Real-World Benchmark for Computer-Use Agents with Hybrid Interfaces
这篇工作提出了 WeaveBench,一个面向 computer-use agent 的长程真实世界基准,用来评估跨 GUI、CLI、代码编辑器和浏览器等混合接口的协同能力。作者构建了 114 个任务,覆盖 8 个真实工作域,任务均来源于真实用户需求且带有可公开验证的产物。评测时在真实 Ubuntu 桌面上运行,并配套一个轨迹感知的裁判,能够检查文件、截图、日志和操作轨迹,同时识别伪造视觉证据或硬编码指标等捷径行为。实验表明,最好的模型-运行时组合 PassRate 只有 41.2%,且仅看最终结果的评分会明显高估智能体能力。
EurekAgent: Agent Environment Engineering is All You Need For Autonomous Scientific Discovery
这篇工作提出 EurekAgent,认为自主科学发现的瓶颈正在从“设计智能体流程”转向“设计智能体环境”。作者从权限、工件管理、预算控制和人机协作四个维度构建环境工程框架,以促进开放式探索、系统化产物管理和多智能体协作,同时抑制奖励投机和高摩擦人工干预。基于该框架,EurekAgent 能在可执行环境中进行提出、验证和迭代式搜索,用于数学、内核工程和机器学习等任务。实验结果显示,它在多个任务上刷新了最优结果,包括在 26-circle packing 问题上以不到 11 美元的总 API 成本取得新 SOTA。