AI 资讯Hacker News·2 小时前

AI构建自身：迈向递归自我改进的进展

原标题：When AI Builds Itself: Our progress toward recursive self-improvement

速览

本文深入分析了人工智能系统实现递归自我改进（Recursive Self-Improvement）的技术路径与当前进展。这一能力被视为AI发展的关键里程碑，意味着AI能够自主优化其代码、架构和算法，从而加速智能水平的提升。尽管仍面临诸多挑战，但相关研究正逐步缩小从理论到实践的差距，为未来通用人工智能的发展奠定基础。

AI 深度解读

当 AI 构建自身：迈向递归自我改进的进展

背景

在人工智能发展的绝大部分历史中，人类始终掌控着开发周期的每一个环节。然而，Anthropic 正在改变这一现状，将越来越多的 AI 开发工作委托给 AI 系统自身，从而显著加快了工作进度。

这一趋势如果持续下去，并拥有足够的算力支持，将指向一个能够完全自主设计和开发其继任者的 AI 系统。这种现象被称为“递归自我改进”（Recursive Self-Improvement）。虽然 Anthropic 尚未达到这一阶段，且递归自我改进并非必然发生，但其到来时间可能比大多数机构预期的要早。

为了揭示这一进程，Anthropic Institute 结合公开基准测试数据以及 Anthropic 内部此前未披露的数据，展示了 AI 正在加速 AI 系统本身的开发。例如，Anthropic 工程师目前的代码产出量是 2021-2025 年期间的 8 倍。

核心内容

从辅助工具到自主构建：Anthropic 的开发演进

Anthropic 的开发模式经历了从人类主导到 AI 深度参与的演变，具体可分为以下几个阶段：

2021–2023：构建首个 Claude 早期工作与其他科技公司无异，主要依靠人类在笔记本电脑上编写代码和文档。
2023–2025：聊天机器人 人们利用早期的聊天机器人辅助部分流程，例如生成简短的代码片段，然后手动复制输出到文本编辑器中。
2025–2026：编码代理（Coding Agents） 随着代理能力的提升，它们能够独立编写和编辑代码，有时甚至能处理整个文件。
当前：自主代理（Autonomous Agents） 代理现在可以自行运行代码，并将数小时的工作委托给其他代理。
未来（20XX?）：闭环（Closing the Loop） 代理可能具备足够的能力来构建和训练模型本身。如果实现，Claude 的未来版本可能由 Claude 自身持续改进。

外部证据：AI 能力的加速提升

AI 模型的改进速度正在加快。模型能够可靠地独立完成的任务长度大致每四个月翻一番（此前趋势为每七个月翻一番）。

任务时长对比：
- 2024 年 3 月：Claude Opus 3 可完成人类需约 4 分钟完成的软件任务。
- 一年后：Claude Sonnet 3.7 可完成需约 1.5 小时的任务。
- 再一年后：Claude Opus 4.6 可完成需 12 小时的任务。
- 预测：若趋势持续，今年内 AI 将能完成熟练人士需数天完成的任务；2027 年，AI 系统可能具备完成需数周任务的能力。
基准测试饱和现象：
- SWE-bench（真实软件工程测试）：模型从个位数得分到在两年内饱和该基准（接近 100% 性能）。该测试向模型提供真实的开源代码库和 bug 报告，要求模型编写修复代码并通过项目测试。
- CORE-Bench（研究复现测试）：测试模型重现现有研究的能力。AI 系统从 2024 年约 20% 的成功率，在 15 个月后达到基准饱和。
- METR 长时任务测试：Claude Mythos Preview 被证实可工作“至少”16 小时，处于 METR 当前测量能力的上限。

内部证据：Anthropic 的生产力飞跃

构建前沿模型涉及两大类工作：工程（编写代码、搭建基础设施、监督训练）和研究（决定实验方向、解读结果、规划下一步）。

工程层面： Claude 可以接手定义不明确的问题并找出解决方案。人类提供目标，但不再需要提供具体方法。
研究层面： Claude 在执行政策明确的实验时，表现已能匹配或超越熟练人类。但在选择工程和研究目标时，Claude 仍存在明显的判断力差距。这正是当前 AI 与未来能自主设计其继任者的系统之间的关键鸿沟。

数据支撑：代码产出与效率提升

代码贡献率： 截至 2026 年 5 月，Anthropic 合并到代码库的代码中，超过 80% 由 Claude 撰写。而在 2025 年 2 月 Claude Code 研究预览版发布前，这一比例仅为个位数。
人均产出激增：
- 2021-2024 年：工程师每日合并代码行数保持稳定。
- 2025 年：随着 Claude 开始运行代码而非仅建议复制粘贴，产出开始上升。
- 2026 年：随着模型在更长时间内自主工作，斜率进一步变陡。
- 关键数据： 2026 年第二季度，典型工程师每日合并的代码量是 2024 年的 8 倍。这主要是因为大部分代码由 Claude 撰写，工程师主要负责指导和审查。
主观反馈： 2026 年 3 月对 130 名 Anthropic 研究团队成员的调查显示，中位数受访者估计，在使用 Mythos Preview 的情况下，其产出量约为无 AI 辅助时的 4 倍。尽管实际增幅可能略低，但足以证明 AI 辅助显著加快了核心工作的完成速度。

关键要点

递归自我改进并非必然，但可能提前到来： 虽然目前尚未实现，但 AI 加速自身开发的趋势表明，完全自主设计后继者的系统可能比预期更早出现。
任务复杂度呈指数级增长： AI 能独立处理的任务时长从分钟级迅速扩展至小时级，并正逼近天级和周级任务。
基准测试显示“饱和”趋势： 在软件工程（SWE-bench）和研究复现（CORE-Bench）等关键领域，AI 模型在短短一两年内从低分迅速达到接近满分，显示能力跃升。
Anthropic 内部效率革命：
- 超过 80% 的合并代码由 Claude 生成。
- 工程师人均代码产出量在 2026 年 Q2 达到 2024 年的 8 倍。
- 人类角色从“执行者”转变为“目标设定者”和“审查者”。
当前局限在于“判断力”： 尽管 Claude 在执行既定实验和编写代码方面表现卓越，但在选择目标（即决定做什么研究或解决什么问题）方面，仍与人类专家存在显著差距。这是实现完全递归自我改进前的最后主要障碍。
生产力提升真实存在： 无论是客观代码行数还是主观员工反馈，都证实 AI 辅助带来了数倍的生产力提升。

意义与影响

技术史上的重大转折点

能够构建自身的 AI 将是技术史上的重大发展。如果实现，它将在科学、医疗等领域为世界带来巨大的福祉。AI 自主加速研发，意味着新药发现、材料科学突破和基础物理研究的周期将被大幅压缩。

安全与控制风险加剧

然而，完全递归自我改进也带来了人类可能失去对 AI 系统控制的风险。如果系统能够完全自主构建其继任者，那么我们如何保障其安全、如何监控其行为、以及如何塑造其行为的重要性将呈指数级增长。

监控难度增加： 自主迭代的系统可能产生人类难以理解的内部逻辑或目标偏移。
对齐挑战： 确保每一代自动生成的模型都严格遵循人类价值观和安全准则，比手动训练模型更加困难。

对 AI 公司的启示

Anthropic 的数据表明，AI 不再仅仅是辅助工具，而是成为了开发流程的核心驱动力。未来，AI 公司的核心竞争力可能不仅在于拥有最好的模型，更在于如何有效地将 AI 代理整合到研发闭环中，同时建立相应的安全护栏，以应对自主迭代带来的潜在风险。

这一进展提醒所有机构：AI 加速自身

查看原文 →anthropic.com