

Papers - 2026-06-16
吾能观之数千而面色如故
Multimodal Agent#
Orchestra-o1: Omnimodal Agent Orchestration
这篇工作提出 Orchestra-o1,一个面向多模态场景的 agent 编排框架。它通过统一的编排机制支持按模态感知的任务拆解、在线子 agent 专化和并行子任务执行,从而协调文本、图像、音频和视频等异构输入。作者还提出了 decision-aligned group relative policy optimization(DA-GRPO)来训练 Orchestra-o1-8B。实验显示,该框架在 OmniGAIA 上比次优方法高 10.3 个百分点,并且在开放源代码 omnimodal agent 中达到新的最优表现。
Spatial Intelligence (Image/Video)#
Rethinking RAG in Long Videos: What to Retrieve and How to Use It?
这篇论文重新审视长视频场景下的检索增强生成,指出现有 VideoRAG 常见的两个问题是评测不够严格,以及每个问题只用单一模态和粒度配置。为此,作者提出 V-RAGBench,用查询、证据片段和答案三元组来分别评估检索与生成,并提出 CARVE,在多个模态/粒度配置上并行检索,再用 chunk-adaptive reranking 选择每个片段的最佳配置。这样生成器接收到的是按片段自适应拼接的证据,而不是对整条查询使用统一配置。实验显示 CARVE 优于 8 个近期 VideoRAG 基线。
OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains
这篇工作提出 OmniVideo-100K,一个面向音视频推理的指令微调数据集,并配套构建了 OmniVideo-Test 作为人工验证测试集。作者先用 Entity-Anchored Video Scripting 把视频整理成包含摘要、实体列表和分段音视频描述的结构化脚本,再用 Clue-Guided QA Generation 从跨片段、多模态线索中生成高质量问答。该流程缓解了分段描述不一致和音画关联断裂的问题,也鼓励更长程的跨模态推理。用该数据集微调 VITA-1.5、Qwen2.5-Omni-7B 和 Qwen3-Omni-30B 后,在 OmniVideo-Test 上最高提升 20.59%,并在 Daily-Omni、JointAVBench 等基准上带来最高 12.64% 的泛化增益。
4D Understanding and Generation#
OmniDirector: General Multi-Shot Camera Cloning without Cross-Paired Data
这篇工作提出了 OmniDirector,用于在无需 cross-paired 数据的情况下实现更通用的多镜头相机克隆与视频生成控制。作者把相机参数编码成视觉化的 grid motion video,并在此基础上训练了一个百万级 camera grid-video 对的数据集,以协调人物、动作与相机轨迹。论文还设计了层次化 prompt expansion agent,用于系统化描述相机运动和画面内容、融合不同控制信号。实验表明,该方法在复杂相机运动克隆上获得了更强的性能与更好的可控性。
Agent Training and Evaluation#
Memory is Reconstructed, Not Retrieved: Graph Memory for LLM Agents
这篇论文针对 LLM agent 的长上下文记忆问题,提出了 MRAgent。它把记忆组织为 Cue-Tag-Content 图结构,用关联标签作为语义桥梁连接线索与记忆内容,并通过主动重构机制把推理过程直接嵌入记忆访问。这样 agent 可以根据中间证据迭代探索并剪枝检索路径,避免传统静态检索带来的僵化和爆炸式扩展。作者在 LoCoMo 和 LongMemEval 上取得了显著提升,最高达到 23%,同时明显降低了 token 和运行成本。
APPO: Agentic Procedural Policy Optimization
这篇论文研究 agentic RL 中多轮工具使用的细粒度信用分配问题,提出 APPO。方法不再只在工具调用边界或固定流程上分支,而是根据 token 不确定性与后续续写带来的策略似然增益计算 Branching Score,在更细的决策点进行探索。它还引入 procedure-level advantage scaling,把奖励更合理地分配到分支后的轨迹上。作者在 13 个基准上验证了方法,结果比强基线平均提升近 4 个点,同时保持了高效工具调用和较好的行为可解释性。
HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry
这篇工作提出 HarnessX,用于把 agent 的运行时 harness 从手工静态配置推进到可组合、可自适应、可演化的框架。它通过类型化的 harness primitive 和 substitution algebra 组装 prompts、tools、memory 与控制流,并用 AEGIS 从执行轨迹中驱动多代理式演化。作者还把轨迹同时转化为 harness 更新信号和模型训练信号,形成 harness 与模型的闭环优化。实验覆盖 ALFWorld、GAIA、WebShop、tau^3-Bench 和 SWE-bench Verified,平均提升 14.5%,最高可达 44.0%。
Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO
这篇论文研究 GRPO 中如何提升 rollout 多样性,发现同一家族里的小模型天然具有更高的 policy-level diversity。作者提出 S2L-PO,把固定的小模型作为“自然探索器”来为大模型提供更结构化的探索信号,并设计渐进式退火策略,让训练从离线小模型 rollout 平滑过渡到大模型自身采样。这样既避免了中途因小模型容量不足导致的性能回落,也降低了 rollout 计算成本。实验表明,该方法在多个数学推理基准上取得显著提升,例如用 1.7B explorer 训练 8B 模型时 AIME 24 提升 8.8%。