← 返回博客

人人都能用的 Autoresearch:如何在睡觉时运行 100 个 AI 实验

· Save Team
aiautoresearchkarpathymachine-learningexperimentsgpuprogramming

想象一下,在一夜之间——只用一张 GPU——不写一行代码就运行 100 个机器学习实验,会怎么样?

这正是 Andrej Karpathy 的 autoresearch 所做的。这个 630 行的 Python 脚本于 2026 年 3 月 7 日发布,让 AI 智能体能够自主修改训练代码、运行实验、评估结果并持续改进——所有这些都在你睡觉时完成。

发布两天之内,公告就获得了数百万次浏览。研究人员、开发者和公司已经开始运行自己的隔夜实验。

以下是它的工作原理和重要意义。

核心循环

Autoresearch 的设计简洁优雅:

  1. 读取 program.md 文件(你的 Markdown 指令)
  2. 根据指令修改 train.py
  3. 训练恰好 5 分钟
  4. 测量结果(验证损失)
  5. 保留或丢弃——如果指标改善,提交;否则,git reset
  6. 无限重复

以每小时大约 12 个实验的速度,一夜的会话大约能进行 100 个实验。每次成功的改进都在前一次的基础上建立,产生复利效应。

你需要什么

入门门槛出奇地低:

  • 一张 GPU —— 整个系统专为单 GPU 训练而设计
  • 630 行 Python —— 足够小,可以放入任何 LLM 的上下文窗口
  • LLM API 密钥 —— Claude、GPT 或其他有能力的模型
  • 一个 program.md 文件 —— 你的 Markdown 指令,告诉智能体要优化什么

就这些。不需要集群,不需要分布式训练设置,不需要机器学习工程团队。一个人,一张 GPU,一个 Markdown 文件。

真实结果

Karpathy 让 autoresearch 在一个深度为 12 的模型上运行了大约两天。AI 智能体自主发现了约 20 项改进:

  • GPT-2 基准的训练时间从 2.02 小时降至 1.80 小时
  • 零人工干预,提升了 11%
  • 智能体发现了人类遗漏的问题:注意力机制缺乏适当缩放、缺少正则化以及次优超参数

关键洞察:智能体发现了经验丰富的机器学习研究人员没有注意到的东西。不是因为它更聪明,而是因为它可以尝试 100 种变体,而人类可能只会尝试 5 种。

为什么 630 行很重要

代码库故意做得很小。在约 630 行时,整个 train.py 文件都能放入 LLM 的上下文窗口。这是一个关键的设计决策。

如果智能体能一次看到整个系统,它就能做出智能的修改。它能理解学习率如何与批量大小相互作用,注意力机制如何连接到输出层,一个变化如何在整个训练管道中产生涟漪。

给 AI 智能体一个 5 万行的代码库,它会做出可能在全局上说不通的局部修改。给它 630 行,它能对整个系统进行推理。

5 分钟预算

每个实验恰好运行 5 分钟。这个约束十分巧妙:

它使实验具有可比性。 如果一次运行需要 3 分钟而另一次需要 20 分钟,你无法公平地比较它们的结果。固定的时间预算意味着每项改进都在同等条件下衡量。

它实现了快速迭代。 5 分钟足够看到有意义的训练进展,但又足够短以每小时运行 12 个实验。

它防止成本失控。 没有时间限制,智能体可能会对一个有前景的变化训练数小时。5 分钟上限保持了反馈循环的紧凑。

Git 记忆

每个实验都是一个 git 提交。这给系统提供了记忆:

  • 成功的更改被提交到特性分支,形成一系列改进
  • 失败的实验通过 git reset 回滚,不留任何痕迹
  • 历史记录精确显示了尝试了什么,什么有效,什么没有

这意味着你可以将智能体的工作作为一系列 git 提交来回顾。每个提交消息都解释了智能体更改了什么以及原因。这是自主研究的完整审计追踪。

超越机器学习:重要的模式

Autoresearch 是关于训练语言模型的,但它引入的模式是通用的:

人类编写 Markdown 指令 → AI 智能体自主执行 → 测量结果并保留/丢弃 → 循环重复

这个模式适用于任何可以:

  1. 用自然语言定义明确目标
  2. 自动测量成功
  3. 根据结果保留或丢弃更改

的领域。

公司已经将这种模式应用于机器学习研究之外——代码优化、营销实验和产品开发。

以 Markdown 为先的方法

Autoresearch 的核心是一个 Markdown 文件。不是 Python,不是 YAML,不是图形界面。一个任何人都能读写的纯文本文件。

这很重要,因为它降低了指导 AI 研究的门槛。你不需要是机器学习工程师才能写 program.md。你需要理解问题、目标和约束。智能体负责实现。

技能转变是清晰的:从知道如何写训练代码到知道如何写有效的智能体指令。

开始

如果你想尝试 autoresearch 模式(即使在机器学习之外),从以下步骤开始:

  1. 定义你的指标。 「更好」意味着什么,以及如何自动测量?
  2. 写你的 program.md。 用清晰的 Markdown 设定目标、约束和策略。
  3. 保持范围小。 就像 autoresearch 的 630 行代码库一样,更小的系统产生更好的结果。
  4. 让它运行。 重点是自主操作。抵制干预的冲动。
  5. 回顾结果。 检查 git 历史,看看智能体尝试了什么,什么有效。

构建写好指令的知识

你的 program.md 质量取决于你的领域知识。你对问题空间的了解越多,你的指令就越好。

这就是拥有 Markdown 格式策划参考资料库变得有价值的地方。文档、论文、博客文章和示例——所有都保存为干净的 Markdown,随时可以为你的智能体指令提供信息。


Save 将任何网页转换为干净的 Markdown——构建你写出有效 AI 智能体指令所需的参考资料库。免费试用 Save