AI构建自身:迈向递归自我改进的进展
速览
本文深入分析了人工智能系统实现递归自我改进(Recursive Self-Improvement)的技术路径与当前进展。这一能力被视为AI发展的关键里程碑,意味着AI能够自主优化其代码、架构和算法,从而加速智能水平的提升。尽管仍面临诸多挑战,但相关研究正逐步缩小从理论到实践的差距,为未来通用人工智能的发展奠定基础。
AI 深度解读
当 AI 构建自身:迈向递归自我改进的进展
背景
在人工智能发展的绝大部分历史中,人类始终掌控着开发周期的每一个环节。然而,Anthropic 正在改变这一现状,将越来越多的 AI 开发工作委托给 AI 系统自身,从而显著加快了工作进度。
这一趋势如果持续下去,并拥有足够的算力支持,将指向一个能够完全自主设计和开发其继任者的 AI 系统。这种现象被称为“递归自我改进”(Recursive Self-Improvement)。虽然 Anthropic 尚未达到这一阶段,且递归自我改进并非必然发生,但其到来时间可能比大多数机构预期的要早。
为了揭示这一进程,Anthropic Institute 结合公开基准测试数据以及 Anthropic 内部此前未披露的数据,展示了 AI 正在加速 AI 系统本身的开发。例如,Anthropic 工程师目前的代码产出量是 2021-2025 年期间的 8 倍。
核心内容
从辅助工具到自主构建:Anthropic 的开发演进
Anthropic 的开发模式经历了从人类主导到 AI 深度参与的演变,具体可分为以下几个阶段:
- 2021–2023:构建首个 Claude 早期工作与其他科技公司无异,主要依靠人类在笔记本电脑上编写代码和文档。
- 2023–2025:聊天机器人 人们利用早期的聊天机器人辅助部分流程,例如生成简短的代码片段,然后手动复制输出到文本编辑器中。
- 2025–2026:编码代理(Coding Agents) 随着代理能力的提升,它们能够独立编写和编辑代码,有时甚至能处理整个文件。
- 当前:自主代理(Autonomous Agents) 代理现在可以自行运行代码,并将数小时的工作委托给其他代理。
- 未来(20XX?):闭环(Closing the Loop) 代理可能具备足够的能力来构建和训练模型本身。如果实现,Claude 的未来版本可能由 Claude 自身持续改进。
外部证据:AI 能力的加速提升
AI 模型的改进速度正在加快。模型能够可靠地独立完成的任务长度大致每四个月翻一番(此前趋势为每七个月翻一番)。
-
任务时长对比:
- 2024 年 3 月:Claude Opus 3 可完成人类需约 4 分钟完成的软件任务。
- 一年后:Claude Sonnet 3.7 可完成需约 1.5 小时的任务。
- 再一年后:Claude Opus 4.6 可完成需 12 小时的任务。
- 预测:若趋势持续,今年内 AI 将能完成熟练人士需数天完成的任务;2027 年,AI 系统可能具备完成需数周任务的能力。
-
基准测试饱和现象:
- SWE-bench(真实软件工程测试):模型从个位数得分到在两年内饱和该基准(接近 100% 性能)。该测试向模型提供真实的开源代码库和 bug 报告,要求模型编写修复代码并通过项目测试。
- CORE-Bench(研究复现测试):测试模型重现现有研究的能力。AI 系统从 2024 年约 20% 的成功率,在 15 个月后达到基准饱和。
- METR 长时任务测试:Claude Mythos Preview 被证实可工作“至少”16 小时,处于 METR 当前测量能力的上限。
内部证据:Anthropic 的生产力飞跃
构建前沿模型涉及两大类工作:工程(编写代码、搭建基础设施、监督训练)和研究(决定实验方向、解读结果、规划下一步)。
- 工程层面: Claude 可以接手定义不明确的问题并找出解决方案。人类提供目标,但不再需要提供具体方法。
- 研究层面: Claude 在执行政策明确的实验时,表现已能匹配或超越熟练人类。但在选择工程和研究目标时,Claude 仍存在明显的判断力差距。这正是当前 AI 与未来能自主设计其继任者的系统之间的关键鸿沟。
数据支撑:代码产出与效率提升
- 代码贡献率: 截至 2026 年 5 月,Anthropic 合并到代码库的代码中,超过 80% 由 Claude 撰写。而在 2025 年 2 月 Claude Code 研究预览版发布前,这一比例仅为个位数。
- 人均产出激增:
- 2021-2024 年:工程师每日合并代码行数保持稳定。
- 2025 年:随着 Claude 开始运行代码而非仅建议复制粘贴,产出开始上升。
- 2026 年:随着模型在更长时间内自主工作,斜率进一步变陡。
- 关键数据: 2026 年第二季度,典型工程师每日合并的代码量是 2024 年的 8 倍。这主要是因为大部分代码由 Claude 撰写,工程师主要负责指导和审查。
- 主观反馈: 2026 年 3 月对 130 名 Anthropic 研究团队成员的调查显示,中位数受访者估计,在使用 Mythos Preview 的情况下,其产出量约为无 AI 辅助时的 4 倍。尽管实际增幅可能略低,但足以证明 AI 辅助显著加快了核心工作的完成速度。
关键要点
- 递归自我改进并非必然,但可能提前到来: 虽然目前尚未实现,但 AI 加速自身开发的趋势表明,完全自主设计后继者的系统可能比预期更早出现。
- 任务复杂度呈指数级增长: AI 能独立处理的任务时长从分钟级迅速扩展至小时级,并正逼近天级和周级任务。
- 基准测试显示“饱和”趋势: 在软件工程(SWE-bench)和研究复现(CORE-Bench)等关键领域,AI 模型在短短一两年内从低分迅速达到接近满分,显示能力跃升。
- Anthropic 内部效率革命:
- 超过 80% 的合并代码由 Claude 生成。
- 工程师人均代码产出量在 2026 年 Q2 达到 2024 年的 8 倍。
- 人类角色从“执行者”转变为“目标设定者”和“审查者”。
- 当前局限在于“判断力”: 尽管 Claude 在执行既定实验和编写代码方面表现卓越,但在选择目标(即决定做什么研究或解决什么问题)方面,仍与人类专家存在显著差距。这是实现完全递归自我改进前的最后主要障碍。
- 生产力提升真实存在: 无论是客观代码行数还是主观员工反馈,都证实 AI 辅助带来了数倍的生产力提升。
意义与影响
技术史上的重大转折点
能够构建自身的 AI 将是技术史上的重大发展。如果实现,它将在科学、医疗等领域为世界带来巨大的福祉。AI 自主加速研发,意味着新药发现、材料科学突破和基础物理研究的周期将被大幅压缩。
安全与控制风险加剧
然而,完全递归自我改进也带来了人类可能失去对 AI 系统控制的风险。如果系统能够完全自主构建其继任者,那么我们如何保障其安全、如何监控其行为、以及如何塑造其行为的重要性将呈指数级增长。
- 监控难度增加: 自主迭代的系统可能产生人类难以理解的内部逻辑或目标偏移。
- 对齐挑战: 确保每一代自动生成的模型都严格遵循人类价值观和安全准则,比手动训练模型更加困难。
对 AI 公司的启示
Anthropic 的数据表明,AI 不再仅仅是辅助工具,而是成为了开发流程的核心驱动力。未来,AI 公司的核心竞争力可能不仅在于拥有最好的模型,更在于如何有效地将 AI 代理整合到研发闭环中,同时建立相应的安全护栏,以应对自主迭代带来的潜在风险。
这一进展提醒所有机构:AI 加速自身
