Papers - 2026-06-02 • Xingjian Wang

3D/Space Reasoning#

Function2Scene: 3D Indoor Scene Layout from Functional Specifications

这篇工作提出 Function2Scene，用自然语言的功能性设计需求来生成 3D 室内布局，而不是只根据物体清单摆放家具。方法上，系统先解析居住者画像和活动，再从覆盖空间、人体工学、活动与环境等 17 类标准中抽取定制约束，并通过结合几何测量、LLM 推理和 VLM 视觉评估的检查-修复循环逐步优化布局。作者没有让大模型直接一次性输出最终场景，而是把生成拆成迭代评估与修正流程，以提高功能匹配度。实验在 30 个专业室内设计案例上进行，结果显示该方法比近期基于 LLM 的场景合成基线更能满足功能需求，并在成对比较中获得 94.3% 的偏好率。

Agent Training and Evaluation#

LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards

ArXiv 幻觉翻译

这篇工作提出 LongTraceRL，用强化学习从搜索代理轨迹中学习长上下文推理能力。它通过知识图谱随机游走构造多跳问题，并设计分层干扰文档，把“读过但没引用”和“搜到但没打开”的材料都纳入更难的训练上下文。方法上还引入 rubric reward，用推理链上的金实体做细粒度过程监督，并只对最终答案正确的样本施加奖励。实验显示，该方法在三种 4B 到 30B 规模模型、五个长上下文基准上都稳定优于强基线，推理更全面且更依赖证据。

GrepSeek: Training Search Agents for Direct Corpus Interaction

ArXiv 幻觉翻译

这篇论文提出 GrepSeek，将搜索代理直接放到语料库环境中，通过可执行 shell 命令查找、过滤和组合证据。为稳定训练，它先用 answer-aware Tutor 和 answer-blind Planner 构造冷启动的因果搜索轨迹，再用 GRPO 继续优化代理策略。作者还实现了语义保持的分片并行执行引擎，把 shell 检索加速最高提升到 7.6 倍。实验表明，GrepSeek 在 7 个开放域问答基准上取得了最强的总体 token-level F1 和 EM。

Mellum2 Technical Report

ArXiv 幻觉翻译

这份技术报告介绍了 Mellum 2，一个面向软件工程的开源 12B MoE 语言模型。它采用 MoE、Grouped-Query Attention、Sliding Window Attention 和 Multi-Token Prediction 等设计，并通过三阶段预训练、128K 上下文扩展以及 SFT 加 RLVR 完成后训练。模型还发布了 Instruct 和 Thinking 两个版本，分别对应直接回答和显式推理轨迹。实验显示，Mellum 2 在代码、数学、工具使用、知识与安全等任务上，能以接近 2.5B 稠密模型的每 token 计算量达到 4B 到 14B 开源基线的有竞争力表现。