技术博客arXiv cs.CL·15 小时前

SCORE框架：通过联合生成与评估实现深度研究自进化

原标题：Self-Evolving Deep Research via Joint Generation and Evaluation

速览

针对大模型深度研究因缺乏真值导致强化学习受限的问题，研究提出SCORE框架。该框架将评估器与求解器耦合于共享参数模型中，实现两者的协同进化。引入元工具动态控制评估环境，确保评估维度的有效性。实验表明，该方法能持续提升研究报告质量，为开放式研究智能体训练提供新方向。

AI 深度解读

Self-Evolving Deep Research via Joint Generation and Evaluation 深度解读

背景

随着大语言模型（LLMs）在日常应用中的广泛部署，深度研究（Deep Research） 已成为衡量其能力的关键指标之一。与传统的问答（QA）任务不同，深度研究报告的生成往往没有唯一的“标准答案”（Ground-truth）。这种缺乏确定性基准的特性，使得设计有效的奖励函数变得极其困难，进而限制了强化学习（RL）在提升报告质量方面的有效性。

为了应对这一挑战，现有的主流方法通常采用“LLM 作为裁判”（LLM-as-a-judge）的模式，并结合依赖于查询内容的评估标准。然而，这些方法存在一个根本性的缺陷：它们依赖于静态评估器。这意味着，即使求解器（Solver，即生成报告的模型）的能力在不断提升，评估器的评判标准却保持不变。这种静态性导致优化压力在初期可能有效，但随着求解器的进步，评估标准无法自适应地提高，最终导致优化压力饱和，难以进一步挖掘模型的潜力。

核心内容

针对上述局限性，本文提出了一种名为 SCORE（Self-evolving Co-evolutionary training framework for deep Research evaluation and generation，即自我进化的协同进化深度研究评估与生成框架）的新方法。SCORE 的核心思想是将评估器（Evaluator）和求解器（Solver）紧密耦合在一个共享参数的学习过程中，实现两者的协同进化。

1. 共享参数下的协同进化

SCORE 不再将生成和评估视为两个独立的模块，而是利用它们之间固有的内在联系，在一个单一的共享参数模型中实现联合改进。这种设计使得评估标准能够随着求解器能力的提升而动态调整，从而保持持续的优化压力。

2. Meta-harness 动态控制机制

为了防止共享参数训练过程中的失控或退化，作者引入了一个 Meta-harness（元控制框架）。该机制能够根据求解器的实时表现，动态地控制评估环境。具体而言，Meta-harness 负责：

鼓励评估维度保持有效性，避免评估标准变得无意义或过于简单。
确保评估器进行足够深度的搜索，以发现更细微的质量差异。

3. 实验验证

在多个深度研究基准测试上的广泛实验表明，SCORE 方法在报告生成质量上实现了持续且一致的改进。这些结果有力地证明了，让评估和生成过程协同进化，是训练开放式研究智能体（Open-ended Research Agents）的一个极具前景的方向。

关键要点

痛点识别：传统深度研究评估依赖静态 LLM 裁判，无法适应求解器能力的提升，导致优化压力饱和，限制了模型性能的进一步突破。
方法创新：提出 SCORE 框架，通过共享参数将评估器和求解器耦合，实现两者的“协同进化”（Co-evolution），而非孤立训练。
动态调控：引入 Meta-harness 机制，根据求解器表现动态调整评估环境，确保评估标准的有效性和深度，防止评估失效。
内在联系利用：利用生成与评估任务之间的内在联系，在一个统一模型中实现联合优化，提升了训练效率和一致性。
实证效果：在深度研究基准测试中，SCORE 方法显著提升了报告生成质量，验证了协同进化策略在开放式研究智能体训练中的有效性。

意义与影响

SCORE 框架的提出为开放式智能体的训练提供了新的范式。它解决了长期困扰该领域的一个核心难题：如何在没有绝对标准答案的情况下，设计能够持续推动模型进步的评估机制。

突破优化瓶颈：通过动态调整评估标准，SCORE 打破了静态评估带来的优化饱和瓶颈，使得模型能够在更长的训练周期内持续获益。
简化架构设计：将评估和生成整合到共享参数模型中，不仅利用了任务间的内在联系，还可能简化系统架构，降低部署和维护成本。
推动自主研究智能体发展：随着大模型在科学发现、复杂问题解决等领域的应用需求增加，能够自我进化、自我评估的研究智能体将成为关键基础设施。SCORE 为这一方向提供了坚实的理论基础和实践路径。

总之，这项工作不仅在技术层面提出了创新的训练框架，更在方法论上强调了评估与生成协同演进的重要性，对后续大模型在复杂推理和研究任务中的应用具有深远的影响。

查看原文 →arxiv.org