Papers - 2026-05-09 • Xingjian Wang

Embodied Agent#

When to Trust Imagination: Adaptive Action Execution for World Action Models

这篇工作面向机器人世界动作模型（WAM）的自适应执行问题，目标是在“继续执行”与“提前重规划”之间动态切换。作者把该问题建模为未来-现实一致性验证，并提出 FFDC，一个轻量验证器，用来联合判断预测动作、预测视觉动态、真实观测和语言指令是否仍然一致。与此同时，论文提出 Mixture-of-Horizon Training 来增强长时程轨迹覆盖，从而更适合自适应分段执行。实验在 RoboTwin 和真实机器人上都显示了明显收益：在 RoboTwin 上前向推理次数减少 69.10%，执行时间减少 34.02%，成功率还提升 2.54%；真实世界实验中成功率提升 35%。

Agent Training and Evaluation#

Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning

ArXiv 幻觉翻译

这篇工作提出 Skill1，用强化学习统一训练带技能库的智能体，使技能检索、技能使用和新技能蒸馏共同朝着同一个任务结果目标优化。方法上，智能体先生成查询检索技能库，再重排序选技能，用该技能完成任务，并从轨迹中蒸馏出新技能，所有学习都只依赖单一任务回报信号。作者还设计了用回报低频趋势和高频变化分别归因于技能选择与蒸馏的信用分配方式。实验在 ALFWorld 和 WebShop 上表明，Skill1 优于已有的技能型方法和强化学习基线，消融实验也验证了三类信用信号都很关键。

Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction

ArXiv 幻觉翻译

这篇工作提出 direct corpus interaction（DCI），让智能体直接通过 grep、文件读取和 shell 命令等终端工具访问原始语料，而不是依赖固定的向量检索接口。方法上，它避免离线索引和 embedding 检索，把精确词项约束、稀疏线索组合和多步假设修正交给智能体在语料上直接交互完成。作者认为这种接口更适合 agentic search，因为早期被过滤掉的证据无法靠后续推理补回。实验显示，DCI 在多个 BRIGHT 和 BEIR 基准上显著优于强稀疏、稠密和重排序检索器，并在 BrowseComp-Plus 和多跳问答上取得很强表现。

RaguTeam at SemEval-2026 Task 8: Meno and Friends in a Judge-Orchestrated LLM Ensemble for Faithful Multi-Turn Response Generation

ArXiv 幻觉翻译

这篇工作总结了 SemEval-2026 Task 8 中面向忠实多轮响应生成的获胜系统。方法上，他们采用由 7 个大模型和两种提示变体组成的异构集成，并用一个 GPT-4o-mini judge 为每个样本选择最佳候选。该系统在 Task B 上获得第 1 名，conditioned harmonic mean 达到 0.7827，明显高于最强基线 0.6390。消融实验表明，不同模型家族、规模和提示策略的多样性对性能提升至关重要。

SkillOS: Learning Skill Curation for Self-Evolving Agents

ArXiv 幻觉翻译

这篇工作研究如何学习可复用技能的整理与更新策略，让基于 LLM 的智能体能够从经验中自我演化。作者提出 SkillOS，将冻结的执行器与可训练的技能整理器分离，由后者持续更新外部 SkillRepo，并通过分组任务流和复合奖励把“前序轨迹更新技能库、后续相关任务评估更新效果”串成训练信号。实验覆盖多轮智能体任务和单轮推理任务，结果显示 SkillOS 在效果和效率上都优于无记忆和强记忆基线，并且能迁移到不同执行器骨干和不同任务域。进一步分析表明，学到的整理策略会产生更有针对性的技能调用，SkillRepo 中的 Markdown 技能也会逐步演化成更结构化的高层元技能。

Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration

ArXiv 幻觉翻译

这篇工作针对 GRPO 等 verifiable reward 强化学习中的“零优势”问题，即困难样本上所有 rollout 都失败时训练信号会塌缩为零。作者提出 LoPE，通过在原始 prompt 前加入随机拼接的 Lorem Ipsum 式无意义前缀，扰动 prompt 空间来扩大探索范围，进而诱发原本不容易出现的正交推理路径。实验在 1.7B、4B 和 7B 模型上都显示，LoPE 明显优于简单的原 prompt 重新采样。进一步分析还发现，其他低困惑度的拉丁风格随机序列也同样有效，说明方法的关键在于提供一种轻量但能打散搜索局部性的 prompt 扰动。

StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction

ArXiv 幻觉翻译

这篇工作提出了 StraTA，用于提升大语言模型在长时序任务中的代理式强化学习表现。方法上，它先从初始任务状态采样一个紧凑的策略表示，再让后续动作围绕该策略展开，并结合分层的 GRPO 式 rollout、策略多样化采样和关键自我判断来改进探索与信用分配。实验在 ALFWorld、WebShop 和 SciWorld 上进行，结果显示 StraTA 在样本效率和最终性能上都优于强基线。具体上，它在 ALFWorld 上达到 93.1% 成功率，在 WebShop 上达到 84.2%，并在 SciWorld 上取得 63.5% 的总体分数，超过了多个前沿闭源模型。