← 返回部落格

人人都能用的 Autoresearch:如何在睡覺時運行 100 個 AI 實驗

· Save Team
aiautoresearchkarpathymachine-learningexperimentsgpuprogramming

想像一下,在一夜之間——只用一張 GPU——不寫一行程式碼就運行 100 個機器學習實驗,會怎麼樣?

這正是 Andrej Karpathy 的 autoresearch 所做的。這個 630 行的 Python 腳本於 2026 年 3 月 7 日發布,讓 AI 智能體能夠自主修改訓練程式碼、運行實驗、評估結果並持續改進——所有這些都在你睡覺時完成。

發布兩天之內,公告就獲得了數百萬次瀏覽。研究人員、開發者和公司已經開始運行自己的隔夜實驗。

以下是它的運作原理和重要意義。

核心循環

Autoresearch 的設計簡潔優雅:

  1. 讀取 program.md 檔案(你的 Markdown 指令)
  2. 根據指令修改 train.py
  3. 訓練恰好 5 分鐘
  4. 測量結果(驗證損失)
  5. 保留或丟棄——如果指標改善,提交;否則,git reset
  6. 無限重複

以每小時大約 12 個實驗的速度,一夜的工作階段大約能進行 100 個實驗。每次成功的改進都在前一次的基礎上建立,產生複利效應。

你需要什麼

入門門檻出奇地低:

  • 一張 GPU —— 整個系統專為單 GPU 訓練而設計
  • 630 行 Python —— 足夠小,可以放入任何 LLM 的上下文視窗
  • LLM API 金鑰 —— Claude、GPT 或其他有能力的模型
  • 一個 program.md 檔案 —— 你的 Markdown 指令,告訴智能體要最佳化什麼

就這些。不需要叢集,不需要分散式訓練設置,不需要機器學習工程團隊。一個人,一張 GPU,一個 Markdown 檔案。

真實結果

Karpathy 讓 autoresearch 在一個深度為 12 的模型上運行了大約兩天。AI 智能體自主發現了約 20 項改進:

  • GPT-2 基準的訓練時間從 2.02 小時降至 1.80 小時
  • 零人工干預,提升了 11%
  • 智能體發現了人類遺漏的問題:注意力機制缺乏適當縮放、缺少正則化以及次優超參數

關鍵洞察:智能體發現了經驗豐富的機器學習研究人員沒有注意到的東西。不是因為它更聰明,而是因為它可以嘗試 100 種變體,而人類可能只會嘗試 5 種。

為什麼 630 行很重要

程式碼庫故意做得很小。在約 630 行時,整個 train.py 檔案都能放入 LLM 的上下文視窗。這是一個關鍵的設計決策。

如果智能體能一次看到整個系統,它就能做出智能的修改。它能理解學習率如何與批次大小相互作用,注意力機制如何連接到輸出層,一個變化如何在整個訓練管道中產生漣漪。

給 AI 智能體一個 5 萬行的程式碼庫,它會做出可能在全局上說不通的局部修改。給它 630 行,它能對整個系統進行推理。

5 分鐘預算

每個實驗恰好運行 5 分鐘。這個約束十分巧妙:

它使實驗具有可比性。 如果一次運行需要 3 分鐘而另一次需要 20 分鐘,你無法公平地比較它們的結果。固定的時間預算意味著每項改進都在同等條件下衡量。

它實現了快速迭代。 5 分鐘足夠看到有意義的訓練進展,但又足夠短以每小時運行 12 個實驗。

它防止成本失控。 沒有時間限制,智能體可能會對一個有前景的變化訓練數小時。5 分鐘上限保持了回饋循環的緊湊。

Git 記憶

每個實驗都是一個 git 提交。這給系統提供了記憶:

  • 成功的更改被提交到功能分支,形成一系列改進
  • 失敗的實驗透過 git reset 回滾,不留任何痕跡
  • 歷史記錄精確顯示了嘗試了什麼,什麼有效,什麼沒有

這意味著你可以將智能體的工作作為一系列 git 提交來回顧。每個提交訊息都解釋了智能體更改了什麼以及原因。這是自主研究的完整稽核追蹤。

超越機器學習:重要的模式

Autoresearch 是關於訓練語言模型的,但它引入的模式是通用的:

人類撰寫 Markdown 指令 → AI 智能體自主執行 → 測量結果並保留/丟棄 → 循環重複

這個模式適用於任何可以:

  1. 用自然語言定義明確目標
  2. 自動測量成功
  3. 根據結果保留或丟棄更改

的領域。

公司已經將這種模式應用於機器學習研究之外——程式碼最佳化、行銷實驗和產品開發。

以 Markdown 為先的方法

Autoresearch 的核心是一個 Markdown 檔案。不是 Python,不是 YAML,不是圖形介面。一個任何人都能讀寫的純文字檔案。

這很重要,因為它降低了指導 AI 研究的門檻。你不需要是機器學習工程師才能寫 program.md。你需要理解問題、目標和約束。智能體負責實現。

技能轉變是清晰的:從知道如何寫訓練程式碼到知道如何寫有效的智能體指令。

開始

如果你想嘗試 autoresearch 模式(即使在機器學習之外),從以下步驟開始:

  1. 定義你的指標。 「更好」意味著什麼,以及如何自動測量?
  2. 寫你的 program.md。 用清晰的 Markdown 設定目標、約束和策略。
  3. 保持範圍小。 就像 autoresearch 的 630 行程式碼庫一樣,更小的系統產生更好的結果。
  4. 讓它運行。 重點是自主操作。抵制干預的衝動。
  5. 回顧結果。 檢查 git 歷史,看看智能體嘗試了什麼,什麼有效。

建構寫好指令的知識

你的 program.md 品質取決於你的領域知識。你對問題空間的了解越多,你的指令就越好。

這就是擁有 Markdown 格式策劃參考資料庫變得有價值的地方。文件、論文、部落格文章和範例——所有都儲存為乾淨的 Markdown,隨時可以為你的智能體指令提供資訊。


Save 將任何網頁轉換為乾淨的 Markdown——建構你寫出有效 AI 智能體指令所需的參考資料庫。免費試用 Save