Papers - 2026-06-05 • Xingjian Wang

Spatial Intelligence (Image/Video)#

OVO-S-Bench: A Hierarchical Benchmark for Streaming Spatial Intelligence in Multimodal LLMs

这篇论文提出 OVO-S-Bench，用于评测多模态 LLM 在流式空间智能上的能力。作者构建了一个全人工标注基准，包含 1680 个问题、348 段视频，并把任务分成从瞬时感知、时空跟踪到空间模拟和全局映射的四个层级。实验覆盖 38 个闭源和开源模型，结果显示 Gemini-3.1-Pro 仍明显落后于人类，尤其在 allocentric mapping 上是主要瓶颈。作者还发现，流式和空间微调模型甚至可能不如各自的底座模型，且在缺乏流内证据时，chain-of-thought 会放大空间错误。

Agent Training and Evaluation#

Reproducing, Analyzing, and Detecting Reward Hacking in Rubric-Based Reinforcement Learning

ArXiv 幻觉翻译

这篇论文研究基于 rubric 的强化学习中 reward hacking 的产生与检测。作者提出 CHERRL，一个可控的 hacking 环境，通过注入已知的 judge 偏置来稳定复现 reward hacking，并观察奖励分歧与 hacking 发生时机。实验在训练日志自动检测和不同 judge 偏置分析上验证了该框架的可用性。结果显示，这个环境能把原本难以分析的 reward hacking 现象变成可重复、可诊断的问题。

M$^3$Eval: Multi-Modal Memory Evaluation through Cognitively-Grounded Video Tasks

ArXiv 幻觉翻译

M^3Eval 提出一个面向多模态记忆能力的综合评测框架，专门用视频任务检验模型能记住什么、记得多准，以及在干扰下是否仍然稳定。它的任务设计借鉴认知心理学，用来分离不同记忆维度并避免把记忆能力和普通感知、推理混在一起。作者在多个代表性多模态模型上做了系统实验，发现这些模型在记忆保持、表征解耦和抗干扰方面普遍存在明显弱点，并呈现出不同的记忆行为模式。

ThoughtFold: Folding Reasoning Chains via Introspective Preference Learning

ArXiv 幻觉翻译

ThoughtFold 旨在缓解大推理模型在长链式思考中的过度思考问题，通过细粒度偏好学习来识别并消除冗余探索。它先用内省式策略在正确轨迹中定位重复或多余的推理片段，再用 masked preference optimization 直接鼓励模型跨过无效步骤，压缩推理链。实验表明，该方法在保持准确率达到当前最优的同时，可将 DeepSeek-R1-Distill-Qwen-7B 的 token 使用量降低约 56%。

Streaming Communication in Multi-Agent Reasoning

ArXiv 幻觉翻译

StreamMA 提出一种多智能体推理的流式通信框架，让中间推理步骤生成后就立即传给下游代理，从而把原本线性的端到端延迟改造成流水线式执行。它还发现早期推理步骤通常更可靠，因此利用这些早期结果反而能减少后期错误向下游传播，并给出了对流式、串行和单次协议的统一闭式分析。作者在 8 个数学、科学和代码基准上，结合两种前沿大模型与三种拓扑做了实验，平均提升 7.3 个百分点，最高在 HMMT 2026 上提升 22.4 个百分点。

Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems

ArXiv 幻觉翻译

本文提出 RAMP，一个面向生产系统的运行时评估基础设施，用来弥补静态基准测试无法反映长链路智能体真实能力的问题。方法上，它基于 YatCC 集成平台，提供统一的运行时编排与执行接口，并引入具有串行依赖和复杂工具链交互的编译器构建类工作负载，同时设计了分阶段恢复机制与面向效用的多维指标。作者在 15 个主流模型上做了运行时评估。结果显示，模型能力在长流程中显著退化，任务完成率从初始阶段的 100% 逐步降到最终阶段的 20%，且没有任何模型能完整跑通整条流水线。

Multimodal World Model#

Cosmos 3: Omnimodal World Models for Physical AI

ArXiv 幻觉翻译

这篇工作提出 Cosmos 3，一套面向 Physical AI 的 omnimodal world model，可在统一的 mixture-of-transformers 架构中同时处理和生成文本、图像、视频、音频与动作序列。作者把视觉语言模型、视频生成器、世界模拟器和 world-action 模型统一到同一框架里，支持多种灵活的输入输出组合。实验表明，它在多类理解与生成任务上达到了新的 SOTA。作者还发布了代码、模型权重、合成数据集和评测基准，便于开放研究与部署。

Echo-Infinity: Learning Evolving Memory for Real-Time Infinite Video Generation

ArXiv 幻觉翻译

Echo-Infinity 提出一种用于实时无限视频生成的自回归框架，通过可学习的演化记忆动态筛选、抽象并压缩任意长度历史信息，且计算开销保持恒定。它用 Memory Query 和门控机制替代手工 KV 缓存策略，再配合统一的相对 RoPE 设计，缓解长视频生成中的历史丢失和训练测试位置外推问题。实验显示，该方法在长视频和短视频生成上都达到当前最优，并首次展示了超过 24 小时、1.3 百万帧以上的实时连续生成能力。