Xingjian Wang
Papers - 2026-06-09Blur image

3D/Space Reasoning#

Direct 3D-Aware Object Insertion via Decomposed Visual Proxies

本文提出 DIRECT,用分解式视觉代理实现可控的 3D 目标插入。方法把插入条件拆成外观、几何和上下文三路信息,通过独立注入避免特征纠缠,从而同时保留参考物外观、遵循用户设定姿态并适配目标场景。作者还构建了自动化数据生成管线来提升训练数据多样性与质量,实验显示其在几何可控性和视觉质量上都优于先前方法。

Embodied Agent#

AnchorWorld: Embodied Egocentric World Simulation with View-based Evolution Customization

这篇工作提出 AnchorWorld,用于具身第一人称世界模拟,并支持更灵活的场景演化自定义。方法上,它把 3D 人体运动作为主要交互模态,同时引入来自外部视角的辅助监督,缓解第一人称视角下身体部件被遮挡或截断带来的空间对齐问题。作者还在统一世界坐标系中定义 anchor views,并用文本描述约束局部场景的动态演化,从而实现可控的自演化世界。实验结果显示该方法显著优于现有基线,消融实验也验证了各个关键设计的有效性,而自定义机制在时空几何一致性和遵循指定演化规则方面表现良好。

Robots Need More than VLA and World Models

本文指出仅靠 VLA 和世界模型不足以支撑通用机器人智能。作者提出数据接口、具身接口、世界模型接口和奖励接口四个缺失模块,分别负责把非结构化行为转成监督、跨具身映射、基于物理的三维推理和从视频与语言中推断进度与成功。论文主要通过综述与研究议程梳理现有路线,没有新的机器人实验,但系统总结了跨具身数据、视频学习和奖励建模的进展与挑战。

Agent Training and Evaluation#

SoCRATES: Towards Reliable Automated Evaluation of Proactive LLM Mediation across Domains and Socio-cognitive Variations

这篇工作提出了 SoCRATES,用于更可靠地自动评估跨领域的主动式 LLM 调解能力。作者通过一个 agentic pipeline 从真实冲突中构造八个领域的测试场景,并沿着五个社会认知维度变化条件,包括策略姿态、当事方组成、历史长度、情绪反应和文化身份。评估器只在真正推进话题的轮次上打分,减少了离题噪声,其与人类专家的一致性达到 0.82,明显优于按轮次打分的基线。对八个前沿模型的测试表明,最强系统也只能消除大约三分之一的未调解差距,而且性能会随社会认知条件显著波动,说明该方向的进展仍受社会适应能力限制。

OpenSkill: Open-World Self-Evolution for LLM Agents

本文提出 OpenSkill,用开放世界资源在没有目标任务监督的情况下让 LLM agent 自举技能与验证器。系统先从文档、仓库和网络中抽取可迁移知识与验证锚点,再合成为技能,并在由这些锚点构造的虚拟任务上迭代改进。作者在三个基准和两个目标 agent 上验证,OpenSkill 取得最佳自动化通过率,并且其技能可跨模型迁移,自建验证器与真实结果高度一致。

SubtleMemory: A Benchmark for Fine-Grained Relational Memory Discrimination in Long-Horizon AI Agents

本文提出 SubtleMemory,用于评测长周期 AI agent 对细粒度关系型记忆的辨别能力。基准通过构造带有互补、细微差异或冲突关系的记忆变体,并嵌入真实用户交互历史,考察后续问答和指令执行中的记忆关系恢复。作者在 1,522 个样本上评测了 6 个独立记忆系统和 5 个 Claw 风格 agent,发现现有系统在关系辨别上仍然薄弱,并给出了记忆保留、检索和下游推理的诊断结果。

When Tools Fail: Benchmarking Dynamic Replanning and Anomaly Recovery in LLM Agents

本文提出 ToolMaze,用来评测 LLM Agent 在工具调用过程中面对动态失败时的重规划与异常恢复能力。作者将任务设计为 DAG 拓扑复杂度与工具扰动类型的二维组合,覆盖显式/隐式、瞬时/永久等不同故障情形,以区分系统性重规划和盲目试错。实验显示,几乎所有模型在遭遇扰动后性能都会明显下降,其中隐式语义故障带来的退化最严重。结果还表明,模型的故障恢复能力随规模提升的速度远慢于基础任务执行能力,说明动态重规划是当前 Agent 的独立瓶颈。

Papers - 2026-06-09
https://themaoqiu.github.io/blog/papers-2026-06-09
Author 猫柒-
Published at June 9, 2026