想像一下，在一夜之間——只用一張 GPU——不寫一行程式碼就運行 100 個機器學習實驗，會怎麼樣？

這正是 Andrej Karpathy 的 autoresearch 所做的。這個 630 行的 Python 腳本於 2026 年 3 月 7 日發布，讓 AI 智能體能夠自主修改訓練程式碼、運行實驗、評估結果並持續改進——所有這些都在你睡覺時完成。

發布兩天之內，公告就獲得了數百萬次瀏覽。研究人員、開發者和公司已經開始運行自己的隔夜實驗。

以下是它的運作原理和重要意義。

核心循環

Autoresearch 的設計簡潔優雅：

以每小時大約 12 個實驗的速度，一夜的工作階段大約能進行 100 個實驗。每次成功的改進都在前一次的基礎上建立，產生複利效應。

你需要什麼

入門門檻出奇地低：

就這些。不需要叢集，不需要分散式訓練設置，不需要機器學習工程團隊。一個人，一張 GPU，一個 Markdown 檔案。

Karpathy 讓 autoresearch 在一個深度為 12 的模型上運行了大約兩天。AI 智能體自主發現了約 20 項改進：

關鍵洞察：智能體發現了經驗豐富的機器學習研究人員沒有注意到的東西。不是因為它更聰明，而是因為它可以嘗試 100 種變體，而人類可能只會嘗試 5 種。

程式碼庫故意做得很小。在約 630 行時，整個 train.py 檔案都能放入 LLM 的上下文視窗。這是一個關鍵的設計決策。

如果智能體能一次看到整個系統，它就能做出智能的修改。它能理解學習率如何與批次大小相互作用，注意力機制如何連接到輸出層，一個變化如何在整個訓練管道中產生漣漪。

給 AI 智能體一個 5 萬行的程式碼庫，它會做出可能在全局上說不通的局部修改。給它 630 行，它能對整個系統進行推理。

每個實驗恰好運行 5 分鐘。這個約束十分巧妙：

它使實驗具有可比性。 如果一次運行需要 3 分鐘而另一次需要 20 分鐘，你無法公平地比較它們的結果。固定的時間預算意味著每項改進都在同等條件下衡量。

它實現了快速迭代。 5 分鐘足夠看到有意義的訓練進展，但又足夠短以每小時運行 12 個實驗。

它防止成本失控。 沒有時間限制，智能體可能會對一個有前景的變化訓練數小時。5 分鐘上限保持了回饋循環的緊湊。

每個實驗都是一個 git 提交。這給系統提供了記憶：

這意味著你可以將智能體的工作作為一系列 git 提交來回顧。每個提交訊息都解釋了智能體更改了什麼以及原因。這是自主研究的完整稽核追蹤。

Autoresearch 是關於訓練語言模型的，但它引入的模式是通用的：

人類撰寫 Markdown 指令 → AI 智能體自主執行 → 測量結果並保留/丟棄 → 循環重複

這個模式適用於任何可以：

的領域。

公司已經將這種模式應用於機器學習研究之外——程式碼最佳化、行銷實驗和產品開發。

Autoresearch 的核心是一個 Markdown 檔案。不是 Python，不是 YAML，不是圖形介面。一個任何人都能讀寫的純文字檔案。

這很重要，因為它降低了指導 AI 研究的門檻。你不需要是機器學習工程師才能寫 program.md。你需要理解問題、目標和約束。智能體負責實現。

技能轉變是清晰的：從知道如何寫訓練程式碼到知道如何寫有效的智能體指令。

如果你想嘗試 autoresearch 模式（即使在機器學習之外），從以下步驟開始：

你的 program.md 品質取決於你的領域知識。你對問題空間的了解越多，你的指令就越好。

這就是擁有 Markdown 格式策劃參考資料庫變得有價值的地方。文件、論文、部落格文章和範例——所有都儲存為乾淨的 Markdown，隨時可以為你的智能體指令提供資訊。

Save 將任何網頁轉換為乾淨的 Markdown——建構你寫出有效 AI 智能體指令所需的參考資料庫。免費試用 Save。