Papers - 2026-06-16 • Xingjian Wang

Multimodal Agent#

Orchestra-o1: Omnimodal Agent Orchestration

这篇工作提出 Orchestra-o1，一个面向多模态场景的 agent 编排框架。它通过统一的编排机制支持按模态感知的任务拆解、在线子 agent 专化和并行子任务执行，从而协调文本、图像、音频和视频等异构输入。作者还提出了 decision-aligned group relative policy optimization（DA-GRPO）来训练 Orchestra-o1-8B。实验显示，该框架在 OmniGAIA 上比次优方法高 10.3 个百分点，并且在开放源代码 omnimodal agent 中达到新的最优表现。

Spatial Intelligence (Image/Video)#

Rethinking RAG in Long Videos: What to Retrieve and How to Use It?

ArXiv 幻觉翻译

这篇论文重新审视长视频场景下的检索增强生成，指出现有 VideoRAG 常见的两个问题是评测不够严格，以及每个问题只用单一模态和粒度配置。为此，作者提出 V-RAGBench，用查询、证据片段和答案三元组来分别评估检索与生成，并提出 CARVE，在多个模态/粒度配置上并行检索，再用 chunk-adaptive reranking 选择每个片段的最佳配置。这样生成器接收到的是按片段自适应拼接的证据，而不是对整条查询使用统一配置。实验显示 CARVE 优于 8 个近期 VideoRAG 基线。

OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains

ArXiv 幻觉翻译

这篇工作提出 OmniVideo-100K，一个面向音视频推理的指令微调数据集，并配套构建了 OmniVideo-Test 作为人工验证测试集。作者先用 Entity-Anchored Video Scripting 把视频整理成包含摘要、实体列表和分段音视频描述的结构化脚本，再用 Clue-Guided QA Generation 从跨片段、多模态线索中生成高质量问答。该流程缓解了分段描述不一致和音画关联断裂的问题，也鼓励更长程的跨模态推理。用该数据集微调 VITA-1.5、Qwen2.5-Omni-7B 和 Qwen3-Omni-30B 后，在 OmniVideo-Test 上最高提升 20.59%，并在 Daily-Omni、JointAVBench 等基准上带来最高 12.64% 的泛化增益。

4D Understanding and Generation#

OmniDirector: General Multi-Shot Camera Cloning without Cross-Paired Data

ArXiv 幻觉翻译

这篇工作提出了 OmniDirector，用于在无需 cross-paired 数据的情况下实现更通用的多镜头相机克隆与视频生成控制。作者把相机参数编码成视觉化的 grid motion video，并在此基础上训练了一个百万级 camera grid-video 对的数据集，以协调人物、动作与相机轨迹。论文还设计了层次化 prompt expansion agent，用于系统化描述相机运动和画面内容、融合不同控制信号。实验表明，该方法在复杂相机运动克隆上获得了更强的性能与更好的可控性。

Agent Training and Evaluation#

Memory is Reconstructed, Not Retrieved: Graph Memory for LLM Agents

ArXiv 幻觉翻译

这篇论文针对 LLM agent 的长上下文记忆问题，提出了 MRAgent。它把记忆组织为 Cue-Tag-Content 图结构，用关联标签作为语义桥梁连接线索与记忆内容，并通过主动重构机制把推理过程直接嵌入记忆访问。这样 agent 可以根据中间证据迭代探索并剪枝检索路径，避免传统静态检索带来的僵化和爆炸式扩展。作者在 LoCoMo 和 LongMemEval 上取得了显著提升，最高达到 23%，同时明显降低了 token 和运行成本。

APPO: Agentic Procedural Policy Optimization

ArXiv 幻觉翻译

这篇论文研究 agentic RL 中多轮工具使用的细粒度信用分配问题，提出 APPO。方法不再只在工具调用边界或固定流程上分支，而是根据 token 不确定性与后续续写带来的策略似然增益计算 Branching Score，在更细的决策点进行探索。它还引入 procedure-level advantage scaling，把奖励更合理地分配到分支后的轨迹上。作者在 13 个基准上验证了方法，结果比强基线平均提升近 4 个点，同时保持了高效工具调用和较好的行为可解释性。

HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry

ArXiv 幻觉翻译

这篇工作提出 HarnessX，用于把 agent 的运行时 harness 从手工静态配置推进到可组合、可自适应、可演化的框架。它通过类型化的 harness primitive 和 substitution algebra 组装 prompts、tools、memory 与控制流，并用 AEGIS 从执行轨迹中驱动多代理式演化。作者还把轨迹同时转化为 harness 更新信号和模型训练信号，形成 harness 与模型的闭环优化。实验覆盖 ALFWorld、GAIA、WebShop、tau^3-Bench 和 SWE-bench Verified，平均提升 14.5%，最高可达 44.0%。

Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO

ArXiv 幻觉翻译

这篇论文研究 GRPO 中如何提升 rollout 多样性，发现同一家族里的小模型天然具有更高的 policy-level diversity。作者提出 S2L-PO，把固定的小模型作为“自然探索器”来为大模型提供更结构化的探索信号，并设计渐进式退火策略，让训练从离线小模型 rollout 平滑过渡到大模型自身采样。这样既避免了中途因小模型容量不足导致的性能回落，也降低了 rollout 计算成本。实验表明，该方法在多个数学推理基准上取得显著提升，例如用 1.7B explorer 训练 8B 模型时 AIME 24 提升 8.8%。