Papers - 2026-05-08 • Xingjian Wang

Multimodal Agent#

OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents

提出 OpenSearch-VL，一套面向前沿多模态深度搜索智能体的开源训练方案。方法上先通过 Wikipedia 路径采样、模糊实体改写和源锚视觉 grounding 构造高质量轨迹数据，再把文本检索、图像检索、OCR、裁剪、锐化、超分和透视矫正统一到同一工具环境中，并用多轮 fatal-aware GRPO 处理工具失败。实验结果显示，该方案在 7 个基准上平均提升超过 10 分，并在若干任务上达到接近商业闭源模型的水平。

Embodied Agent#

RLDX-1 Technical Report

ArXiv 幻觉翻译

提出 RLDX-1，一种面向灵巧操作的通用机器人策略。方法上基于 Multi-Stream Action Transformer，把视觉、语言和其他异构模态拆成多流表示，再通过跨模态联合自注意力融合，同时结合稀有操作场景的数据合成、专门训练流程和实时推理优化。实验显示，它在仿真和真实世界任务上都稳定优于近期 VLA 基线，在 ALLEX 类人任务上的成功率达到 86.8%，显著高于 π0.5 和 GR00T N1.6 的约 40%。

Spatial Intelligence (Image/Video)#

Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation

ArXiv 幻觉翻译

这篇工作提出 JoyAI-Image，一个面向统一多模态理解与生成的空间智能模型，把具备空间增强能力的 MLLM 和 MMDiT 结合起来，支持视觉理解、文生图和指令驱动编辑。作者围绕这一架构设计了统一指令微调、长文本渲染监督、空间标注数据以及通用和空间编辑信号的训练方案。方法上，它强调感知与生成通过共享多模态接口协同，从而增强几何感知和可控合成能力。实验表明，JoyAI-Image 在理解、生成、长文本渲染和编辑基准上达到 SOTA 或接近 SOTA 的表现，并体现出更强的空间推理能力。

Agent Training and Evaluation#

Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems

ArXiv 幻觉翻译

这篇工作重新审视了面向推理型检索的评测与训练问题，提出 BRIGHT-Pro 作为带有多方面证据标注的基准，用来衡量 agentic search 中检索器是否能为多步推理提供互补证据。作者还构建了 RTriever-Synth，一个把问题拆成多个推理方面并生成对应正负样本的合成语料，用来训练专门的检索器 RTriever-4B。方法上，它结合了分方面标注、静态检索评测和带搜索轮次的 agent 评测，避免只看单篇文档相关性。实验显示，分方面和 agentic 评测能揭示传统指标看不到的行为，RTriever-4B 相比基础嵌入模型有明显提升，并在多轮检索场景中表现出更好的互补证据召回与效率。

CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing

ArXiv 幻觉翻译

这篇论文提出了 CreativityBench，用于评估智能体在创造性推理中的能力。它通过“基于可供性”的工具重用任务来检验模型能否把已有工具迁移到新问题上，而不是只做固定模板式调用。实验表明，该基准能够有效区分不同智能体的创造性推理水平，并暴露出现有方法在工具重组与泛化上的不足。

Multimodal World Model#

Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation

ArXiv 幻觉翻译

提出 Stream-R1，用可靠性和困惑度感知的奖励蒸馏来改进流式视频生成。方法上围绕 chunk 级生成过程，引入历史高质量噪声、奖励引导的候选筛选，以及面向上下文记忆的更新机制，以增强时序一致性并降低测试时搜索成本。实验表明，该方法在流式视频生成基准上能更好地保持运动连贯性和画面质量。

Stream-T1: Test-Time Scaling for Streaming Video Generation

ArXiv 幻觉翻译

提出 Stream-T1，把测试时缩放用于流式视频生成。它通过历史噪声传播、奖励剪枝和记忆沉降三部分协同工作，在 chunk 级生成中兼顾局部画质与全局时序一致性。作者在 5 秒和 30 秒视频基准上评测，结果显示模型在时间一致性、运动平滑度和逐帧视觉质量上都有明显提升。

HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation

ArXiv 幻觉翻译

提出 HERMES++，构建统一的驾驶世界模型，用于 3D 场景理解与生成。方法上把驾驶场景的理解和生成纳入同一建模框架，以统一表示来处理道路结构、交通参与者和时空演化。实验表明，该模型在 3D 场景理解和生成相关任务上优于现有方法，展示了更强的统一建模能力。