Papers - 2026-06-13 • Xingjian Wang

Thinking with Images#

Robust-U1: Can MLLMs Self-Recover Corrupted Visual Content for Robust Understanding?

Robust-U1 研究 MLLM 能否自己恢复被破坏的视觉内容，以提升鲁棒视觉理解能力。方法上，模型先通过监督微调学习初步重建，再用同时优化 SSIM 和 CLIP 相似度的强化学习提升恢复质量，最后结合原始受损输入与恢复后的图像进行多模态推理。实验表明，该框架在真实视觉腐蚀基准上达到最优鲁棒性，并在一般 VQA 基准的对抗腐蚀场景中也保持领先。作者进一步分析发现，高质量的视觉恢复能直接改善后续推理表现，说明 self-recovery 是鲁棒视觉理解的重要机制。

Embodied Agent#

LabVLA: Grounding Vision-Language-Action Models in Scientific Laboratories

ArXiv 幻觉翻译

这篇论文研究如何将视觉-语言-动作模型落地到科学实验室场景中，解决机器人执行实验流程时的数据和具身形态瓶颈。作者提出 RoboGenesis，用仿真工作流和数据引擎把原子技能组合成实验流程，经过验证筛选后导出结构化示范数据。基于此，他们训练了 LabVLA，采用两阶段方案：先用 FAST 动作 token 预训练让 Qwen3-VL-4B-Instruct 具备动作感知，再用 flow matching 后训练接入 DiT 动作专家。实验结果显示，LabVLA 在 LabUtopia 基准上无论是分布内还是分布外设置，都取得了所有评测基线中的最高平均成功率。

Spatial Intelligence (Image/Video)#

SpatialClaw: Rethinking Action Interface for Agentic Spatial Reasoning

ArXiv 幻觉翻译

SpatialClaw 提出一种训练自由的空间推理框架，把代码作为 agent 的 action interface。系统在状态化 Python kernel 中预加载输入帧和感知、几何原语，让 VLM-backed agent 能逐步编写可执行 cell，并结合前一步输出继续分析。这样相比单次代码执行或固定工具调用更灵活，更适合开放式的 3D/4D 空间推理任务。作者在 20 个空间推理基准上评测，平均准确率达到 59.9%，比最近的空间 agent 高 11.2 个百分点，并且在两个模型家族的 6 个 VLM backbone 上都带来稳定提升。

HYDRA-X: Native Unified Multimodal Models with Holistic Visual Tokenizers

ArXiv 幻觉翻译

这篇论文提出 HYDRA-X，一个把图像和视频 tokenization 统一到单一 Vision Transformer 中的原生统一多模态模型。作者围绕时空重建能力和图像/视频语义一致性两个问题设计了整体视觉 tokenizer，并通过分层时间压缩与轻量解压器来构建紧凑而共享的潜在空间。论文还指出，编辑流程中更好的做法是在 tokenizer 的潜空间内完成源目标交互，而不是在 LLM 语义层中交互，这能显著提升编辑一致性并加快收敛。实验表明，7B dense 版本在图像和视频理解、生成等任务上表现强劲，说明该统一 tokenizer 路线具有较好的可扩展性。

Agent Training and Evaluation#

EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic Environments

ArXiv 幻觉翻译

本文提出 EvoArena 基准，用渐进式环境更新来评测 LLM agent 在 terminal、software 和 social 三类动态场景中的适应与记忆能力。作者还提出 EvoMem，一种基于 patch 的记忆范式，把记忆演化过程记录成结构化更新历史，帮助 agent 依据环境变化进行推理。实验显示现有 agent 在 EvoArena 上平均准确率只有 39.6%，而 EvoMem 在该基准上平均提升 1.5%。此外，EvoMem 还在 GAIA 和 LoCoMo 上分别提升 6.1% 和 4.8%，在需要连续完成演化子任务的 chain-level 评测中也提升 3.7%。

FORT-Searcher: Synthesizing Shortcut-Resistant Search Tasks for Training Deep Search Agents

ArXiv 幻觉翻译

这篇论文提出了面向深度搜索智能体训练的 FORT-Searcher，核心目标是生成更难被“走捷径”解决的可验证搜索任务。作者先形式化了搜索难度与真实搜索难度之间的差距，并总结出证据共覆盖、单线索选择性、显式常量和先验知识绑定四类捷径风险。基于此，他们设计了 FORT 框架，在实体选择、证据图构建、问题表述和对抗式精炼等环节抑制捷径。实验显示，FORT 生成的数据能带来更长的答案前搜索过程和更少的捷径模式，仅用监督微调训练出的 FORT-Searcher 在同规模开源搜索智能体中取得了最佳整体表现。

WeaveBench: A Long-Horizon, Real-World Benchmark for Computer-Use Agents with Hybrid Interfaces

ArXiv 幻觉翻译

这篇工作提出了 WeaveBench，一个面向 computer-use agent 的长程真实世界基准，用来评估跨 GUI、CLI、代码编辑器和浏览器等混合接口的协同能力。作者构建了 114 个任务，覆盖 8 个真实工作域，任务均来源于真实用户需求且带有可公开验证的产物。评测时在真实 Ubuntu 桌面上运行，并配套一个轨迹感知的裁判，能够检查文件、截图、日志和操作轨迹，同时识别伪造视觉证据或硬编码指标等捷径行为。实验表明，最好的模型-运行时组合 PassRate 只有 41.2%，且仅看最终结果的评分会明显高估智能体能力。

EurekAgent: Agent Environment Engineering is All You Need For Autonomous Scientific Discovery

ArXiv 幻觉翻译

这篇工作提出 EurekAgent，认为自主科学发现的瓶颈正在从“设计智能体流程”转向“设计智能体环境”。作者从权限、工件管理、预算控制和人机协作四个维度构建环境工程框架，以促进开放式探索、系统化产物管理和多智能体协作，同时抑制奖励投机和高摩擦人工干预。基于该框架，EurekAgent 能在可执行环境中进行提出、验证和迭代式搜索，用于数学、内核工程和机器学习等任务。实验结果显示，它在多个任务上刷新了最优结果，包括在 26-circle packing 问题上以不到 11 美元的总 API 成本取得新 SOTA。