人人都能用的 Autoresearch:如何在睡覺時運行 100 個 AI 實驗
想像一下,在一夜之間——只用一張 GPU——不寫一行程式碼就運行 100 個機器學習實驗,會怎麼樣?
這正是 Andrej Karpathy 的 autoresearch 所做的。這個 630 行的 Python 腳本於 2026 年 3 月 7 日發布,讓 AI 智能體能夠自主修改訓練程式碼、運行實驗、評估結果並持續改進——所有這些都在你睡覺時完成。
發布兩天之內,公告就獲得了數百萬次瀏覽。研究人員、開發者和公司已經開始運行自己的隔夜實驗。
以下是它的運作原理和重要意義。
核心循環
Autoresearch 的設計簡潔優雅:
- 讀取
program.md檔案(你的 Markdown 指令) - 根據指令修改
train.py - 訓練恰好 5 分鐘
- 測量結果(驗證損失)
- 保留或丟棄——如果指標改善,提交;否則,git reset
- 無限重複
以每小時大約 12 個實驗的速度,一夜的工作階段大約能進行 100 個實驗。每次成功的改進都在前一次的基礎上建立,產生複利效應。
你需要什麼
入門門檻出奇地低:
- 一張 GPU —— 整個系統專為單 GPU 訓練而設計
- 630 行 Python —— 足夠小,可以放入任何 LLM 的上下文視窗
- LLM API 金鑰 —— Claude、GPT 或其他有能力的模型
- 一個
program.md檔案 —— 你的 Markdown 指令,告訴智能體要最佳化什麼
就這些。不需要叢集,不需要分散式訓練設置,不需要機器學習工程團隊。一個人,一張 GPU,一個 Markdown 檔案。
真實結果
Karpathy 讓 autoresearch 在一個深度為 12 的模型上運行了大約兩天。AI 智能體自主發現了約 20 項改進:
- GPT-2 基準的訓練時間從 2.02 小時降至 1.80 小時
- 零人工干預,提升了 11%
- 智能體發現了人類遺漏的問題:注意力機制缺乏適當縮放、缺少正則化以及次優超參數
關鍵洞察:智能體發現了經驗豐富的機器學習研究人員沒有注意到的東西。不是因為它更聰明,而是因為它可以嘗試 100 種變體,而人類可能只會嘗試 5 種。
為什麼 630 行很重要
程式碼庫故意做得很小。在約 630 行時,整個 train.py 檔案都能放入 LLM 的上下文視窗。這是一個關鍵的設計決策。
如果智能體能一次看到整個系統,它就能做出智能的修改。它能理解學習率如何與批次大小相互作用,注意力機制如何連接到輸出層,一個變化如何在整個訓練管道中產生漣漪。
給 AI 智能體一個 5 萬行的程式碼庫,它會做出可能在全局上說不通的局部修改。給它 630 行,它能對整個系統進行推理。
5 分鐘預算
每個實驗恰好運行 5 分鐘。這個約束十分巧妙:
它使實驗具有可比性。 如果一次運行需要 3 分鐘而另一次需要 20 分鐘,你無法公平地比較它們的結果。固定的時間預算意味著每項改進都在同等條件下衡量。
它實現了快速迭代。 5 分鐘足夠看到有意義的訓練進展,但又足夠短以每小時運行 12 個實驗。
它防止成本失控。 沒有時間限制,智能體可能會對一個有前景的變化訓練數小時。5 分鐘上限保持了回饋循環的緊湊。
Git 記憶
每個實驗都是一個 git 提交。這給系統提供了記憶:
- 成功的更改被提交到功能分支,形成一系列改進
- 失敗的實驗透過
git reset回滾,不留任何痕跡 - 歷史記錄精確顯示了嘗試了什麼,什麼有效,什麼沒有
這意味著你可以將智能體的工作作為一系列 git 提交來回顧。每個提交訊息都解釋了智能體更改了什麼以及原因。這是自主研究的完整稽核追蹤。
超越機器學習:重要的模式
Autoresearch 是關於訓練語言模型的,但它引入的模式是通用的:
人類撰寫 Markdown 指令 → AI 智能體自主執行 → 測量結果並保留/丟棄 → 循環重複
這個模式適用於任何可以:
- 用自然語言定義明確目標
- 自動測量成功
- 根據結果保留或丟棄更改
的領域。
公司已經將這種模式應用於機器學習研究之外——程式碼最佳化、行銷實驗和產品開發。
以 Markdown 為先的方法
Autoresearch 的核心是一個 Markdown 檔案。不是 Python,不是 YAML,不是圖形介面。一個任何人都能讀寫的純文字檔案。
這很重要,因為它降低了指導 AI 研究的門檻。你不需要是機器學習工程師才能寫 program.md。你需要理解問題、目標和約束。智能體負責實現。
技能轉變是清晰的:從知道如何寫訓練程式碼到知道如何寫有效的智能體指令。
開始
如果你想嘗試 autoresearch 模式(即使在機器學習之外),從以下步驟開始:
- 定義你的指標。 「更好」意味著什麼,以及如何自動測量?
- 寫你的 program.md。 用清晰的 Markdown 設定目標、約束和策略。
- 保持範圍小。 就像 autoresearch 的 630 行程式碼庫一樣,更小的系統產生更好的結果。
- 讓它運行。 重點是自主操作。抵制干預的衝動。
- 回顧結果。 檢查 git 歷史,看看智能體嘗試了什麼,什麼有效。
建構寫好指令的知識
你的 program.md 品質取決於你的領域知識。你對問題空間的了解越多,你的指令就越好。
這就是擁有 Markdown 格式策劃參考資料庫變得有價值的地方。文件、論文、部落格文章和範例——所有都儲存為乾淨的 Markdown,隨時可以為你的智能體指令提供資訊。
Save 將任何網頁轉換為乾淨的 Markdown——建構你寫出有效 AI 智能體指令所需的參考資料庫。免費試用 Save。