Xingjian Wang
Papers - 2026-06-02Blur image

3D/Space Reasoning#

Function2Scene: 3D Indoor Scene Layout from Functional Specifications

这篇工作提出 Function2Scene,用自然语言的功能性设计需求来生成 3D 室内布局,而不是只根据物体清单摆放家具。方法上,系统先解析居住者画像和活动,再从覆盖空间、人体工学、活动与环境等 17 类标准中抽取定制约束,并通过结合几何测量、LLM 推理和 VLM 视觉评估的检查-修复循环逐步优化布局。作者没有让大模型直接一次性输出最终场景,而是把生成拆成迭代评估与修正流程,以提高功能匹配度。实验在 30 个专业室内设计案例上进行,结果显示该方法比近期基于 LLM 的场景合成基线更能满足功能需求,并在成对比较中获得 94.3% 的偏好率。

Agent Training and Evaluation#

LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards

这篇工作提出 LongTraceRL,用强化学习从搜索代理轨迹中学习长上下文推理能力。它通过知识图谱随机游走构造多跳问题,并设计分层干扰文档,把“读过但没引用”和“搜到但没打开”的材料都纳入更难的训练上下文。方法上还引入 rubric reward,用推理链上的金实体做细粒度过程监督,并只对最终答案正确的样本施加奖励。实验显示,该方法在三种 4B 到 30B 规模模型、五个长上下文基准上都稳定优于强基线,推理更全面且更依赖证据。

GrepSeek: Training Search Agents for Direct Corpus Interaction

这篇论文提出 GrepSeek,将搜索代理直接放到语料库环境中,通过可执行 shell 命令查找、过滤和组合证据。为稳定训练,它先用 answer-aware Tutor 和 answer-blind Planner 构造冷启动的因果搜索轨迹,再用 GRPO 继续优化代理策略。作者还实现了语义保持的分片并行执行引擎,把 shell 检索加速最高提升到 7.6 倍。实验表明,GrepSeek 在 7 个开放域问答基准上取得了最强的总体 token-level F1 和 EM。

Mellum2 Technical Report

这份技术报告介绍了 Mellum 2,一个面向软件工程的开源 12B MoE 语言模型。它采用 MoE、Grouped-Query Attention、Sliding Window Attention 和 Multi-Token Prediction 等设计,并通过三阶段预训练、128K 上下文扩展以及 SFT 加 RLVR 完成后训练。模型还发布了 Instruct 和 Thinking 两个版本,分别对应直接回答和显式推理轨迹。实验显示,Mellum 2 在代码、数学、工具使用、知识与安全等任务上,能以接近 2.5B 稠密模型的每 token 计算量达到 4B 到 14B 开源基线的有竞争力表现。

Papers - 2026-06-02
https://themaoqiu.github.io/blog/papers-2026-06-02
Author 猫柒-
Published at June 2, 2026