← 返回信息流
技术博客arXiv cs.CL·15 小时前

SCORE框架:通过联合生成与评估实现深度研究自进化

原标题:Self-Evolving Deep Research via Joint Generation and Evaluation

速览

针对大模型深度研究因缺乏真值导致强化学习受限的问题,研究提出SCORE框架。该框架将评估器与求解器耦合于共享参数模型中,实现两者的协同进化。引入元工具动态控制评估环境,确保评估维度的有效性。实验表明,该方法能持续提升研究报告质量,为开放式研究智能体训练提供新方向。

AI 深度解读

Self-Evolving Deep Research via Joint Generation and Evaluation 深度解读

背景

随着大语言模型(LLMs)在日常应用中的广泛部署,深度研究(Deep Research) 已成为衡量其能力的关键指标之一。与传统的问答(QA)任务不同,深度研究报告的生成往往没有唯一的“标准答案”(Ground-truth)。这种缺乏确定性基准的特性,使得设计有效的奖励函数变得极其困难,进而限制了强化学习(RL)在提升报告质量方面的有效性。

为了应对这一挑战,现有的主流方法通常采用“LLM 作为裁判”(LLM-as-a-judge)的模式,并结合依赖于查询内容的评估标准。然而,这些方法存在一个根本性的缺陷:它们依赖于静态评估器。这意味着,即使求解器(Solver,即生成报告的模型)的能力在不断提升,评估器的评判标准却保持不变。这种静态性导致优化压力在初期可能有效,但随着求解器的进步,评估标准无法自适应地提高,最终导致优化压力饱和,难以进一步挖掘模型的潜力。

核心内容

针对上述局限性,本文提出了一种名为 SCORESelf-evolving Co-evolutionary training framework for deep Research evaluation and generation,即自我进化的协同进化深度研究评估与生成框架)的新方法。SCORE 的核心思想是将评估器(Evaluator)和求解器(Solver)紧密耦合在一个共享参数的学习过程中,实现两者的协同进化。

1. 共享参数下的协同进化

SCORE 不再将生成和评估视为两个独立的模块,而是利用它们之间固有的内在联系,在一个单一的共享参数模型中实现联合改进。这种设计使得评估标准能够随着求解器能力的提升而动态调整,从而保持持续的优化压力。

2. Meta-harness 动态控制机制

为了防止共享参数训练过程中的失控或退化,作者引入了一个 Meta-harness(元控制框架)。该机制能够根据求解器的实时表现,动态地控制评估环境。具体而言,Meta-harness 负责:

  • 鼓励评估维度保持有效性,避免评估标准变得无意义或过于简单。
  • 确保评估器进行足够深度的搜索,以发现更细微的质量差异。

3. 实验验证

在多个深度研究基准测试上的广泛实验表明,SCORE 方法在报告生成质量上实现了持续且一致的改进。这些结果有力地证明了,让评估和生成过程协同进化,是训练开放式研究智能体(Open-ended Research Agents)的一个极具前景的方向。

关键要点

  • 痛点识别:传统深度研究评估依赖静态 LLM 裁判,无法适应求解器能力的提升,导致优化压力饱和,限制了模型性能的进一步突破。
  • 方法创新:提出 SCORE 框架,通过共享参数将评估器和求解器耦合,实现两者的“协同进化”(Co-evolution),而非孤立训练。
  • 动态调控:引入 Meta-harness 机制,根据求解器表现动态调整评估环境,确保评估标准的有效性和深度,防止评估失效。
  • 内在联系利用:利用生成与评估任务之间的内在联系,在一个统一模型中实现联合优化,提升了训练效率和一致性。
  • 实证效果:在深度研究基准测试中,SCORE 方法显著提升了报告生成质量,验证了协同进化策略在开放式研究智能体训练中的有效性。

意义与影响

SCORE 框架的提出为开放式智能体的训练提供了新的范式。它解决了长期困扰该领域的一个核心难题:如何在没有绝对标准答案的情况下,设计能够持续推动模型进步的评估机制。

  1. 突破优化瓶颈:通过动态调整评估标准,SCORE 打破了静态评估带来的优化饱和瓶颈,使得模型能够在更长的训练周期内持续获益。
  2. 简化架构设计:将评估和生成整合到共享参数模型中,不仅利用了任务间的内在联系,还可能简化系统架构,降低部署和维护成本。
  3. 推动自主研究智能体发展:随着大模型在科学发现、复杂问题解决等领域的应用需求增加,能够自我进化、自我评估的研究智能体将成为关键基础设施。SCORE 为这一方向提供了坚实的理论基础和实践路径。

总之,这项工作不仅在技术层面提出了创新的训练框架,更在方法论上强调了评估与生成协同演进的重要性,对后续大模型在复杂推理和研究任务中的应用具有深远的影响。

查看原文 →arxiv.org