Papers - 2026-04-04 • Xingjian Wang

Thinking with Images#

Steerable Visual Representations

该工作提出可由自然语言引导的 Steerable Visual Representations，旨在让 ViT 特征聚焦任意感兴趣对象。方法是通过 lightweight cross-attention 将文本早期注入视觉编码器，从而同时学习可操控的全局特征和局部特征。我们构建代表 steerability 的基准，并在多个任务上验证表示的保真度。实验显示，该框架在 anomaly detection、personalized object discrimination 等任务上与专用方案持平或更优。其 steerable 特征还实现了异分布任务的 zero-shot 泛化能力。

Embodied Agent#

EgoSim: Egocentric World Simulator for Embodied Interaction Generation

ArXiv 幻觉翻译

EgoSim 构建了一个闭环第一人称世界模拟器，可实时生成空间一致的交互视频并持续更新底层 3D 场景状态，解决现有模拟器在视角变更下结构漂移或场景静态化的问题。核心方法包括几何动作感知的观测模拟模块与交互感知的状态更新模块，并通过大规模自然单目第一人称视频自动提取静态点云、相机轨迹与动作，从而扩充训练数据。为便捷采集，作者还开发了无需标定的 EgoCap 系统，支持低成本真实环境录制。大规模实验显示 EgoSim 在视觉质量、空间一致性和复杂场景下的泛化能力上均领先于现有方法，且能跨不同载体迁移到机器人操控场景。

Spatial Intelligence (Image/Video)#

UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving

ArXiv 幻觉翻译

该论文提出 UniDriveVLA，一种基于 Mixture-of-Transformers 的驾驶 VLA 模型，用以统一驾驶理解、场景感知与行动规划，缓解语义推理与空间感知在共享参数下的冲突。模型通过三个专家（理解、感知、规划）并借助掩码联合注意力协调，辅以稀疏感知范式和三阶段渐进训练以平衡感知与推理能力。大量实验验证了其效果：在 nuScenes 的开环评估与 Bench2Drive 的闭环评估上均达到 SOTA，并在 3D 检测、在线建图、运动预测与驾驶问答等任务上展现出强泛化能力。

Agent Training and Evaluation#

SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

ArXiv 幻觉翻译

SKILL0 提出一种动态课程驱动的 in-context 强化学习框架，让模型在训练过程中逐步内化推理技能，以实现推理时不依赖技能检索的零样本自主行为。方法依据技能类别离线构建交互历史，结合几何动作感知的可视上下文与动态课程评估，仅保留对当前策略仍有帮助的技能样本并在预算线性衰减下逐步撤销语境内容。该机制让模型在少于 0.5k 令牌的高效上下文内学习工具调用与多轮任务完成能力。丰富的代理实验中，SKILL0 在 ALFWorld 与 Search-QA 任务上分别取得约 +9.7% 与 +6.6% 的性能提升，显著优于标准 RL 基线。

Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory

ArXiv 幻觉翻译

Omni-SimpleMem 是通过自动研究流水线发现的长期多模态记忆框架，用于提升 AI 体在 LoCoMo 与 Mem-Gallery 上的记忆能力。流水线从初始 0.117（LoCoMo）起点出发，自动执行约 50 次实验，诊断失败、改进架构、修复数据流，并优化提示工程，避免人类内环干预。最终系统在 LoCoMo 上 F1 提升到 0.598，在 Mem-Gallery 上提升到 0.797，分别较初始配置提高 411% 和 214%。其中 bug 修复、架构调整、提示工程等关键发现单独带来的收益都超过所有超参调优之和。研究还归纳出 6 类发现类型与 4 项使多模态记忆特别适合自动研究的特性，为类似系统的自动化探索提供指导。

Multimodal World Model#

Generative World Renderer

ArXiv 幻觉翻译

《Generative World Renderer》构建了一个源自AAA级游戏、包含 RGB 与五个 G-buffer 通道的 4M 帧动态数据集，旨在缩小逆向与正向渲染在真实场景上的差距。该项目通过创新的双屏拼接采集方式获取高质量、丰富视觉特效与环境变化的数据，并结合 G-buffer 引导的视频生成，实现对几何与材质分解的控制。为了评估逆向渲染在无标注条件下的表现，还提出了基于视觉语言模型的评估协议，涵盖语义、空间与时间一致性。实验表明，在本数据集上微调的逆向渲染器在跨数据集泛化与可控生成方面显著优于现有方法，同时 VLM 评估结果与人工判断高度一致。配套工具还支持利用 G-buffer 与文本提示编辑游戏风格，扩展了正向渲染的可用性。

VOID: Video Object and Interaction Deletion

ArXiv 幻觉翻译

VOID 通过物体删除后保持物理合理性来提升视频编辑的世界建模能力。方法建立 Kubric+HUMOTO 生成的反事实配对数据集，训练模型在删掉物体时同时修改后续交互结果。推理时借助视觉语言模型定位受影响区域，再用视频 diffusion 模型在这些区域生成一致的反事实结果，确保动力学连贯。合成与真实数据上对比显示，VOID 在保留场景动态一致性方面明显优于原有视频物体删除方法。