

Papers - 2026-05-30
吾能观之数千而面色如故
Thinking with Code/Structure#
GenClaw: Code-Driven Agentic Image Generation
本文提出 GenClaw,把图像生成拆成概念规划、代码草图和最终上色三阶段。系统先通过搜索与推理构建场景知识,再用 SVG、HTML、Three.js 等代码生成可执行的视觉草图,最后借助图像生成模型补充纹理、材质和真实感。这样把黑盒式生成改造成可控的中间表示流程,提升了视觉构建的可解释性与精细控制能力。实验和案例表明,该流程能更稳定地产生符合意图、细节更完整的图像。
Embodied Agent#
Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments
这篇工作提出 Qwen-VLA,尝试用单一视觉-语言-动作模型统一操控、导航和轨迹预测等异构具身决策任务。模型在 Qwen 的视觉语言能力上扩展出基于 DiT 的动作解码器,并通过大规模联合预训练融合机器人操作轨迹、人类第一视角演示、仿真数据、导航数据和辅助视觉语言数据。作者还引入 embodiment-aware prompt conditioning,用文本描述显式指定机器人本体和控制约定,从而提升跨机器人形态的迁移能力。实验在 LIBERO、Simper-WidowX、RoboTwin、R2R、RxR 以及真实 ALOHA 等基准上表现稳定,展示了对场景布局、背景、光照、物体配置和机器人本体变化的 OOD 泛化能力。
Spatial Intelligence (Image/Video)#
Why Far Looks Up: Probing Spatial Representation in Vision-Language Models
本文从表示层面分析视觉语言模型的空间表征,提出最小对比样本框架来检查不同空间轴是否被解耦。结果发现,多种模型普遍把图像中的上下位置和远近距离纠缠在一起,反映出自然照片中的透视偏差。作者进一步构建了合成基准 SpatialTunnel,用来剥离数据集相关性并暴露这种捷径偏差。实验表明,这种纠缠是模型内生的,而空间轴分离更好的模型在多个空间推理基准上更稳健。
LoMo: Local Modality Substitution for Deeper Vision-Language Fusion
这篇工作研究多模态模型在“同义内容跨载体替换”时的性能退化问题,即把文本问题换成渲染图片后模型会明显变差。作者提出 LoMo,通过局部模态替换把单模态提示改写成交错的图文序列,在语义不变的前提下显式监督文本与图像表征对齐。该方法不依赖特定架构,可直接用于现有 VLM 训练。作者在 13 个多模态基准上验证了方法有效性,相比标准 SFT 在 LLaVA-OneVision-1.5-8B 和 Qwen3.5-9B 上分别提升 2.67 和 2.82 分。
Agent Training and Evaluation#
AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security
这篇工作提出 AgentDoG 1.5,用于面向 AI agent 的安全与安全性对齐,目标是覆盖更复杂的开放世界交互风险。作者更新了 agent 安全分类体系,并构建了一个由 taxonomy 引导的数据引擎,结合 influence-function purification,只用约 1k 样本训练出 0.8B 到 8B 的轻量模型。论文还把该框架扩展成可直接用于 agentic safety 的 SFT/RL 训练环境,并可作为训练无关的在线 guardrail。实验表明,AgentDoG 1.5 在多种复杂交互场景中达到当前最优表现,且在部署开销上相比 Docker 级环境降低了两个数量级。
Multimodal World Model#
minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models
这篇工作提出 minWM,一个用于构建实时交互式视频世界模型的全栈开源框架。作者给出从双向视频扩散模型出发的端到端流水线,包括相机控制微调、AR diffusion 训练、因果 ODE/因果一致性蒸馏以及 asymmetric DMD,从而把现有 T2V/TI2V backbone 转成低延迟的少步自回归世界模型。框架支持不同架构,并可适配如 Wan2.1-T2V-1.3B 和 HY1.5-TI2V-8B 等模型,也能迁移已有视频世界模型到新数据分布和延迟目标。实验与消融结果表明,该方法在相机轨迹质量、可控性训练步数和最小 batch-size 等方面给出了可复现的实践经验,并实现了可运行的实时交互生成。
YoCausal: How Far is Video Generation from World Model? A Causality Perspective
本文提出 YoCausal,一个用于评估视频扩散模型是否真正理解因果关系的两层基准。它利用真实视频的时间反转构造零成本反事实样本,并用 RSI 从去噪损失量化时间箭头感知,再用 CCI 借助 VLM 将数据划分为因果与非因果子集。作者评测了 13 个主流视频扩散模型,发现能识别时间方向并不等于具备因果理解。实验还显示,这些模型与人类级因果认知之间仍有明显差距。
How LoRA Remembers? A Parametric Memory Law for LLM Finetuning
Large Language Models (LLMs) must continuously learn and update knowledge to remain effective in dynamic real-world environments. While Low-Rank Adaptation (LoRA) is widely used for such memory updates, existing studies mainly rely on qualitative downstream evaluations, leaving the quantitative capacity limits and underlying dynamics of exact parametric memory largely unexplored. To bridge this gap, we employ LoRA as a controlled memory capacity probe within the latent space to systematically quantify exact parametric memory. We introduce the Parametric Memory Law, a robust power law linking loss reduction Delta L to effective parameters and sequence length. At the token level, fine-grained analysis reveals a deterministic phase transition, demonstrating that a prediction probability of p > 0.5 constitutes a sufficient condition for verbatim recall under greedy decoding. Driven by these insights, we introduce MemFT, a threshold-guided optimization strategy that dynamically redistributes the training budget toward sub-threshold tokens. Empirical evaluations demonstrate that MemFT can enhance memory fidelity and efficiency. Code will be released at https://github.com/zjunlp/ParametricMemoryLaw.