Papers - 2026-06-09 • Xingjian Wang

3D/Space Reasoning#

Direct 3D-Aware Object Insertion via Decomposed Visual Proxies

本文提出 DIRECT，用分解式视觉代理实现可控的 3D 目标插入。方法把插入条件拆成外观、几何和上下文三路信息，通过独立注入避免特征纠缠，从而同时保留参考物外观、遵循用户设定姿态并适配目标场景。作者还构建了自动化数据生成管线来提升训练数据多样性与质量，实验显示其在几何可控性和视觉质量上都优于先前方法。

Embodied Agent#

AnchorWorld: Embodied Egocentric World Simulation with View-based Evolution Customization

ArXiv 幻觉翻译

这篇工作提出 AnchorWorld，用于具身第一人称世界模拟，并支持更灵活的场景演化自定义。方法上，它把 3D 人体运动作为主要交互模态，同时引入来自外部视角的辅助监督，缓解第一人称视角下身体部件被遮挡或截断带来的空间对齐问题。作者还在统一世界坐标系中定义 anchor views，并用文本描述约束局部场景的动态演化，从而实现可控的自演化世界。实验结果显示该方法显著优于现有基线，消融实验也验证了各个关键设计的有效性，而自定义机制在时空几何一致性和遵循指定演化规则方面表现良好。

Robots Need More than VLA and World Models

ArXiv 幻觉翻译

本文指出仅靠 VLA 和世界模型不足以支撑通用机器人智能。作者提出数据接口、具身接口、世界模型接口和奖励接口四个缺失模块，分别负责把非结构化行为转成监督、跨具身映射、基于物理的三维推理和从视频与语言中推断进度与成功。论文主要通过综述与研究议程梳理现有路线，没有新的机器人实验，但系统总结了跨具身数据、视频学习和奖励建模的进展与挑战。

Agent Training and Evaluation#

SoCRATES: Towards Reliable Automated Evaluation of Proactive LLM Mediation across Domains and Socio-cognitive Variations

ArXiv 幻觉翻译

这篇工作提出了 SoCRATES，用于更可靠地自动评估跨领域的主动式 LLM 调解能力。作者通过一个 agentic pipeline 从真实冲突中构造八个领域的测试场景，并沿着五个社会认知维度变化条件，包括策略姿态、当事方组成、历史长度、情绪反应和文化身份。评估器只在真正推进话题的轮次上打分，减少了离题噪声，其与人类专家的一致性达到 0.82，明显优于按轮次打分的基线。对八个前沿模型的测试表明，最强系统也只能消除大约三分之一的未调解差距，而且性能会随社会认知条件显著波动，说明该方向的进展仍受社会适应能力限制。

OpenSkill: Open-World Self-Evolution for LLM Agents

ArXiv 幻觉翻译

本文提出 OpenSkill，用开放世界资源在没有目标任务监督的情况下让 LLM agent 自举技能与验证器。系统先从文档、仓库和网络中抽取可迁移知识与验证锚点，再合成为技能，并在由这些锚点构造的虚拟任务上迭代改进。作者在三个基准和两个目标 agent 上验证，OpenSkill 取得最佳自动化通过率，并且其技能可跨模型迁移，自建验证器与真实结果高度一致。

SubtleMemory: A Benchmark for Fine-Grained Relational Memory Discrimination in Long-Horizon AI Agents

ArXiv 幻觉翻译

本文提出 SubtleMemory，用于评测长周期 AI agent 对细粒度关系型记忆的辨别能力。基准通过构造带有互补、细微差异或冲突关系的记忆变体，并嵌入真实用户交互历史，考察后续问答和指令执行中的记忆关系恢复。作者在 1,522 个样本上评测了 6 个独立记忆系统和 5 个 Claw 风格 agent，发现现有系统在关系辨别上仍然薄弱，并给出了记忆保留、检索和下游推理的诊断结果。

When Tools Fail: Benchmarking Dynamic Replanning and Anomaly Recovery in LLM Agents

ArXiv 幻觉翻译

本文提出 ToolMaze，用来评测 LLM Agent 在工具调用过程中面对动态失败时的重规划与异常恢复能力。作者将任务设计为 DAG 拓扑复杂度与工具扰动类型的二维组合，覆盖显式/隐式、瞬时/永久等不同故障情形，以区分系统性重规划和盲目试错。实验显示，几乎所有模型在遭遇扰动后性能都会明显下降，其中隐式语义故障带来的退化最严重。结果还表明，模型的故障恢复能力随规模提升的速度远慢于基础任务执行能力，说明动态重规划是当前 Agent 的独立瓶颈。