想象一下，在一夜之间——只用一张 GPU——不写一行代码就运行 100 个机器学习实验，会怎么样？

这正是 Andrej Karpathy 的 autoresearch 所做的。这个 630 行的 Python 脚本于 2026 年 3 月 7 日发布，让 AI 智能体能够自主修改训练代码、运行实验、评估结果并持续改进——所有这些都在你睡觉时完成。

发布两天之内，公告就获得了数百万次浏览。研究人员、开发者和公司已经开始运行自己的隔夜实验。

以下是它的工作原理和重要意义。

核心循环

Autoresearch 的设计简洁优雅：

以每小时大约 12 个实验的速度，一夜的会话大约能进行 100 个实验。每次成功的改进都在前一次的基础上建立，产生复利效应。

你需要什么

入门门槛出奇地低：

就这些。不需要集群，不需要分布式训练设置，不需要机器学习工程团队。一个人，一张 GPU，一个 Markdown 文件。

Karpathy 让 autoresearch 在一个深度为 12 的模型上运行了大约两天。AI 智能体自主发现了约 20 项改进：

关键洞察：智能体发现了经验丰富的机器学习研究人员没有注意到的东西。不是因为它更聪明，而是因为它可以尝试 100 种变体，而人类可能只会尝试 5 种。

代码库故意做得很小。在约 630 行时，整个 train.py 文件都能放入 LLM 的上下文窗口。这是一个关键的设计决策。

如果智能体能一次看到整个系统，它就能做出智能的修改。它能理解学习率如何与批量大小相互作用，注意力机制如何连接到输出层，一个变化如何在整个训练管道中产生涟漪。

给 AI 智能体一个 5 万行的代码库，它会做出可能在全局上说不通的局部修改。给它 630 行，它能对整个系统进行推理。

每个实验恰好运行 5 分钟。这个约束十分巧妙：

它使实验具有可比性。 如果一次运行需要 3 分钟而另一次需要 20 分钟，你无法公平地比较它们的结果。固定的时间预算意味着每项改进都在同等条件下衡量。

它实现了快速迭代。 5 分钟足够看到有意义的训练进展，但又足够短以每小时运行 12 个实验。

它防止成本失控。 没有时间限制，智能体可能会对一个有前景的变化训练数小时。5 分钟上限保持了反馈循环的紧凑。

每个实验都是一个 git 提交。这给系统提供了记忆：

这意味着你可以将智能体的工作作为一系列 git 提交来回顾。每个提交消息都解释了智能体更改了什么以及原因。这是自主研究的完整审计追踪。

Autoresearch 是关于训练语言模型的，但它引入的模式是通用的：

人类编写 Markdown 指令 → AI 智能体自主执行 → 测量结果并保留/丢弃 → 循环重复

这个模式适用于任何可以：

的领域。

公司已经将这种模式应用于机器学习研究之外——代码优化、营销实验和产品开发。

Autoresearch 的核心是一个 Markdown 文件。不是 Python，不是 YAML，不是图形界面。一个任何人都能读写的纯文本文件。

这很重要，因为它降低了指导 AI 研究的门槛。你不需要是机器学习工程师才能写 program.md。你需要理解问题、目标和约束。智能体负责实现。

技能转变是清晰的：从知道如何写训练代码到知道如何写有效的智能体指令。

如果你想尝试 autoresearch 模式（即使在机器学习之外），从以下步骤开始：

你的 program.md 质量取决于你的领域知识。你对问题空间的了解越多，你的指令就越好。

这就是拥有 Markdown 格式策划参考资料库变得有价值的地方。文档、论文、博客文章和示例——所有都保存为干净的 Markdown，随时可以为你的智能体指令提供信息。

Save 将任何网页转换为干净的 Markdown——构建你写出有效 AI 智能体指令所需的参考资料库。免费试用 Save。