Xingjian Wang
Papers - 2026-05-08Blur image

Multimodal Agent#

OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents

提出 OpenSearch-VL,一套面向前沿多模态深度搜索智能体的开源训练方案。方法上先通过 Wikipedia 路径采样、模糊实体改写和源锚视觉 grounding 构造高质量轨迹数据,再把文本检索、图像检索、OCR、裁剪、锐化、超分和透视矫正统一到同一工具环境中,并用多轮 fatal-aware GRPO 处理工具失败。实验结果显示,该方案在 7 个基准上平均提升超过 10 分,并在若干任务上达到接近商业闭源模型的水平。

Embodied Agent#

RLDX-1 Technical Report

提出 RLDX-1,一种面向灵巧操作的通用机器人策略。方法上基于 Multi-Stream Action Transformer,把视觉、语言和其他异构模态拆成多流表示,再通过跨模态联合自注意力融合,同时结合稀有操作场景的数据合成、专门训练流程和实时推理优化。实验显示,它在仿真和真实世界任务上都稳定优于近期 VLA 基线,在 ALLEX 类人任务上的成功率达到 86.8%,显著高于 π0.5 和 GR00T N1.6 的约 40%。

Spatial Intelligence (Image/Video)#

Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation

这篇工作提出 JoyAI-Image,一个面向统一多模态理解与生成的空间智能模型,把具备空间增强能力的 MLLM 和 MMDiT 结合起来,支持视觉理解、文生图和指令驱动编辑。作者围绕这一架构设计了统一指令微调、长文本渲染监督、空间标注数据以及通用和空间编辑信号的训练方案。方法上,它强调感知与生成通过共享多模态接口协同,从而增强几何感知和可控合成能力。实验表明,JoyAI-Image 在理解、生成、长文本渲染和编辑基准上达到 SOTA 或接近 SOTA 的表现,并体现出更强的空间推理能力。

Agent Training and Evaluation#

Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems

这篇工作重新审视了面向推理型检索的评测与训练问题,提出 BRIGHT-Pro 作为带有多方面证据标注的基准,用来衡量 agentic search 中检索器是否能为多步推理提供互补证据。作者还构建了 RTriever-Synth,一个把问题拆成多个推理方面并生成对应正负样本的合成语料,用来训练专门的检索器 RTriever-4B。方法上,它结合了分方面标注、静态检索评测和带搜索轮次的 agent 评测,避免只看单篇文档相关性。实验显示,分方面和 agentic 评测能揭示传统指标看不到的行为,RTriever-4B 相比基础嵌入模型有明显提升,并在多轮检索场景中表现出更好的互补证据召回与效率。

CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing

这篇论文提出了 CreativityBench,用于评估智能体在创造性推理中的能力。它通过“基于可供性”的工具重用任务来检验模型能否把已有工具迁移到新问题上,而不是只做固定模板式调用。实验表明,该基准能够有效区分不同智能体的创造性推理水平,并暴露出现有方法在工具重组与泛化上的不足。

Multimodal World Model#

Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation

提出 Stream-R1,用可靠性和困惑度感知的奖励蒸馏来改进流式视频生成。方法上围绕 chunk 级生成过程,引入历史高质量噪声、奖励引导的候选筛选,以及面向上下文记忆的更新机制,以增强时序一致性并降低测试时搜索成本。实验表明,该方法在流式视频生成基准上能更好地保持运动连贯性和画面质量。

Stream-T1: Test-Time Scaling for Streaming Video Generation

提出 Stream-T1,把测试时缩放用于流式视频生成。它通过历史噪声传播、奖励剪枝和记忆沉降三部分协同工作,在 chunk 级生成中兼顾局部画质与全局时序一致性。作者在 5 秒和 30 秒视频基准上评测,结果显示模型在时间一致性、运动平滑度和逐帧视觉质量上都有明显提升。

HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation

提出 HERMES++,构建统一的驾驶世界模型,用于 3D 场景理解与生成。方法上把驾驶场景的理解和生成纳入同一建模框架,以统一表示来处理道路结构、交通参与者和时空演化。实验表明,该模型在 3D 场景理解和生成相关任务上优于现有方法,展示了更强的统一建模能力。

Papers - 2026-05-08
https://themaoqiu.github.io/blog/papers-2026-05-08
Author 猫柒-
Published at May 8, 2026