Xingjian Wang
Papers - 2026-06-05Blur image

Spatial Intelligence (Image/Video)#

OVO-S-Bench: A Hierarchical Benchmark for Streaming Spatial Intelligence in Multimodal LLMs

这篇论文提出 OVO-S-Bench,用于评测多模态 LLM 在流式空间智能上的能力。作者构建了一个全人工标注基准,包含 1680 个问题、348 段视频,并把任务分成从瞬时感知、时空跟踪到空间模拟和全局映射的四个层级。实验覆盖 38 个闭源和开源模型,结果显示 Gemini-3.1-Pro 仍明显落后于人类,尤其在 allocentric mapping 上是主要瓶颈。作者还发现,流式和空间微调模型甚至可能不如各自的底座模型,且在缺乏流内证据时,chain-of-thought 会放大空间错误。

Agent Training and Evaluation#

Reproducing, Analyzing, and Detecting Reward Hacking in Rubric-Based Reinforcement Learning

这篇论文研究基于 rubric 的强化学习中 reward hacking 的产生与检测。作者提出 CHERRL,一个可控的 hacking 环境,通过注入已知的 judge 偏置来稳定复现 reward hacking,并观察奖励分歧与 hacking 发生时机。实验在训练日志自动检测和不同 judge 偏置分析上验证了该框架的可用性。结果显示,这个环境能把原本难以分析的 reward hacking 现象变成可重复、可诊断的问题。

M$^3$Eval: Multi-Modal Memory Evaluation through Cognitively-Grounded Video Tasks

M^3Eval 提出一个面向多模态记忆能力的综合评测框架,专门用视频任务检验模型能记住什么、记得多准,以及在干扰下是否仍然稳定。它的任务设计借鉴认知心理学,用来分离不同记忆维度并避免把记忆能力和普通感知、推理混在一起。作者在多个代表性多模态模型上做了系统实验,发现这些模型在记忆保持、表征解耦和抗干扰方面普遍存在明显弱点,并呈现出不同的记忆行为模式。

ThoughtFold: Folding Reasoning Chains via Introspective Preference Learning

ThoughtFold 旨在缓解大推理模型在长链式思考中的过度思考问题,通过细粒度偏好学习来识别并消除冗余探索。它先用内省式策略在正确轨迹中定位重复或多余的推理片段,再用 masked preference optimization 直接鼓励模型跨过无效步骤,压缩推理链。实验表明,该方法在保持准确率达到当前最优的同时,可将 DeepSeek-R1-Distill-Qwen-7B 的 token 使用量降低约 56%。

Streaming Communication in Multi-Agent Reasoning

StreamMA 提出一种多智能体推理的流式通信框架,让中间推理步骤生成后就立即传给下游代理,从而把原本线性的端到端延迟改造成流水线式执行。它还发现早期推理步骤通常更可靠,因此利用这些早期结果反而能减少后期错误向下游传播,并给出了对流式、串行和单次协议的统一闭式分析。作者在 8 个数学、科学和代码基准上,结合两种前沿大模型与三种拓扑做了实验,平均提升 7.3 个百分点,最高在 HMMT 2026 上提升 22.4 个百分点。

Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems

本文提出 RAMP,一个面向生产系统的运行时评估基础设施,用来弥补静态基准测试无法反映长链路智能体真实能力的问题。方法上,它基于 YatCC 集成平台,提供统一的运行时编排与执行接口,并引入具有串行依赖和复杂工具链交互的编译器构建类工作负载,同时设计了分阶段恢复机制与面向效用的多维指标。作者在 15 个主流模型上做了运行时评估。结果显示,模型能力在长流程中显著退化,任务完成率从初始阶段的 100% 逐步降到最终阶段的 20%,且没有任何模型能完整跑通整条流水线。

Multimodal World Model#

Cosmos 3: Omnimodal World Models for Physical AI

这篇工作提出 Cosmos 3,一套面向 Physical AI 的 omnimodal world model,可在统一的 mixture-of-transformers 架构中同时处理和生成文本、图像、视频、音频与动作序列。作者把视觉语言模型、视频生成器、世界模拟器和 world-action 模型统一到同一框架里,支持多种灵活的输入输出组合。实验表明,它在多类理解与生成任务上达到了新的 SOTA。作者还发布了代码、模型权重、合成数据集和评测基准,便于开放研究与部署。

Echo-Infinity: Learning Evolving Memory for Real-Time Infinite Video Generation

Echo-Infinity 提出一种用于实时无限视频生成的自回归框架,通过可学习的演化记忆动态筛选、抽象并压缩任意长度历史信息,且计算开销保持恒定。它用 Memory Query 和门控机制替代手工 KV 缓存策略,再配合统一的相对 RoPE 设计,缓解长视频生成中的历史丢失和训练测试位置外推问题。实验显示,该方法在长视频和短视频生成上都达到当前最优,并首次展示了超过 24 小时、1.3 百万帧以上的实时连续生成能力。

Papers - 2026-06-05
https://themaoqiu.github.io/blog/papers-2026-06-05
Author 猫柒-
Published at June 5, 2026