Autoresearch Cho Tất Cả Mọi Người: Cách Chạy 100 Thí Nghiệm AI Trong Khi Bạn Ngủ

Điều gì sẽ xảy ra nếu bạn có thể chạy 100 thí nghiệm machine learning qua đêm --- trên một GPU duy nhất --- mà không cần viết một dòng code?

Đó chính xác là những gì autoresearch của Andrej Karpathy làm. Được phát hành vào ngày 7 tháng 3 năm 2026, script Python 630 dòng này cho phép các tác nhân AI tự động sửa đổi code huấn luyện, chạy thí nghiệm, đánh giá kết quả và tiếp tục cải thiện --- tất cả trong khi bạn ngủ.

Trong vòng hai ngày, thông báo đã có hàng triệu lượt xem. Các nhà nghiên cứu, nhà phát triển và các công ty đã chạy các thí nghiệm qua đêm của riêng họ.

Đây là cách nó hoạt động và tại sao nó quan trọng.

Vòng Lặp Cốt Lõi

Thiết kế của autoresearch đơn giản một cách tinh tế:

Đọc tệp program.md (hướng dẫn Markdown của bạn)
Sửa đổi train.py dựa trên các hướng dẫn đó
Huấn luyện trong đúng 5 phút
Đo lường kết quả (validation loss)
Giữ hoặc loại bỏ --- nếu chỉ số cải thiện, commit; nếu không, git reset
Lặp lại vô thời hạn

Với khoảng 12 thí nghiệm mỗi giờ, bạn có khoảng 100 thí nghiệm trong một phiên qua đêm. Mỗi cải tiến thành công xây dựng trên cái trước, tạo ra hiệu ứng kép.

Những Gì Bạn Cần

Rào cản gia nhập thấp đáng kể:

Một GPU --- toàn bộ hệ thống được thiết kế để huấn luyện single-GPU
630 dòng Python --- đủ nhỏ để vừa trong cửa sổ ngữ cảnh của bất kỳ LLM nào
Khóa API LLM --- Claude, GPT hoặc mô hình có khả năng khác
Tệp program.md --- hướng dẫn Markdown của bạn cho biết tác nhân cần tối ưu hóa gì

Chỉ vậy thôi. Không cần cụm. Không cần thiết lập huấn luyện phân tán. Không cần nhóm kỹ thuật ML. Một người, một GPU, một tệp Markdown.

Kết Quả Thực Tế

Karpathy để autoresearch chạy khoảng hai ngày trên mô hình depth-12. Tác nhân AI tự động khám phá khoảng 20 cải tiến:

Thời gian huấn luyện cho benchmark GPT-2 giảm từ 2,02 giờ xuống 1,80 giờ
Cải thiện 11% với zero sự can thiệp của con người
Tác nhân tìm thấy các vấn đề mà con người đã bỏ lỡ: cơ chế chú ý thiếu scaling đúng, thiếu regularization và hyperparameter không tối ưu

Hiểu biết chính: tác nhân đã khám phá những thứ mà các nhà nghiên cứu ML có kinh nghiệm chưa nhận thấy. Không phải vì nó thông minh hơn, mà vì nó có thể thử 100 biến thể trong khi con người có thể thử 5.

Tại Sao 630 Dòng Quan Trọng

Codebase được cố tình nhỏ. Ở ~630 dòng, toàn bộ tệp train.py vừa trong cửa sổ ngữ cảnh của LLM. Đây là quyết định thiết kế quan trọng.

Nếu tác nhân có thể nhìn thấy toàn bộ hệ thống cùng một lúc, nó có thể thực hiện các sửa đổi thông minh. Nó hiểu learning rate tương tác với batch size như thế nào, cơ chế chú ý kết nối với output layer như thế nào, một thay đổi lan rộng qua toàn bộ pipeline huấn luyện như thế nào.

Cho tác nhân AI một codebase 50.000 dòng và nó thực hiện các thay đổi cục bộ có thể không có ý nghĩa toàn cục. Cho nó 630 dòng và nó có thể lý luận về toàn bộ hệ thống.

Ngân Sách 5 Phút

Mỗi thí nghiệm chạy trong đúng 5 phút. Ràng buộc này thật xuất sắc:

Nó làm cho các thí nghiệm có thể so sánh được. Nếu một lần chạy mất 3 phút và lần khác mất 20 phút, bạn không thể so sánh kết quả một cách công bằng. Ngân sách thời gian cố định có nghĩa là mỗi cải tiến được đo trên nền tảng bình đẳng.

Nó cho phép lặp lại nhanh chóng. 5 phút đủ dài để thấy tiến trình huấn luyện có ý nghĩa nhưng đủ ngắn để chạy 12 thí nghiệm mỗi giờ.

Nó ngăn chặn chi phí vượt kiểm soát. Không có giới hạn thời gian, tác nhân có thể huấn luyện hàng giờ trên một thay đổi hứa hẹn. Giới hạn 5 phút giữ vòng phản hồi chặt chẽ.

Bộ Nhớ Git

Mỗi thí nghiệm là một git commit. Điều này cung cấp cho hệ thống bộ nhớ:

Các thay đổi thành công được commit trên nhánh feature, xây dựng chuỗi cải tiến
Các thí nghiệm thất bại được revert với git reset, không để lại dấu vết
Lịch sử cho thấy chính xác những gì đã được thử, những gì hoạt động và những gì không

Điều này có nghĩa là bạn có thể xem lại công việc của tác nhân như một loạt git commit. Mỗi thông điệp commit giải thích những gì tác nhân đã thay đổi và tại sao. Đây là dấu vết kiểm toán hoàn chỉnh của nghiên cứu tự chủ.

Ngoài ML: Mô Hình Quan Trọng

Autoresearch nói về việc huấn luyện các mô hình ngôn ngữ, nhưng mô hình nó giới thiệu là phổ quát:

Con người viết hướng dẫn Markdown → Tác nhân AI thực thi tự chủ → Kết quả được đo lường và giữ/loại bỏ → Vòng lặp lại

Mô hình này hoạt động cho bất kỳ lĩnh vực nào bạn có thể:

Xác định mục tiêu rõ ràng bằng ngôn ngữ tự nhiên
Đo lường thành công tự động
Giữ hoặc loại bỏ các thay đổi dựa trên kết quả

Các công ty đã áp dụng mô hình này ngoài nghiên cứu ML --- để tối ưu hóa code, thí nghiệm marketing và phát triển sản phẩm.

Cách Tiếp Cận Markdown-First

Trung tâm của autoresearch là một tệp Markdown. Không phải Python. Không phải YAML. Không phải GUI. Một tệp văn bản thuần túy mà bất kỳ ai cũng có thể đọc và chỉnh sửa.

Điều này quan trọng vì nó hạ thấp rào cản để hướng dẫn nghiên cứu AI. Bạn không cần là kỹ sư ML để viết program.md. Bạn cần hiểu vấn đề, mục tiêu và các ràng buộc. Tác nhân xử lý việc triển khai.

Sự thay đổi kỹ năng rõ ràng: từ biết cách viết code huấn luyện đến biết cách viết hướng dẫn tác nhân hiệu quả.

Bắt Đầu

Nếu bạn muốn thử mô hình autoresearch (thậm chí ngoài ML), hãy bắt đầu với các bước sau:

Xác định chỉ số của bạn. “Tốt hơn” có nghĩa là gì và làm thế nào để đo lường tự động?
Viết program.md của bạn. Đặt mục tiêu, ràng buộc và chiến lược trong Markdown rõ ràng.
Giữ phạm vi nhỏ. Giống như codebase 630 dòng của autoresearch, hệ thống nhỏ hơn cho kết quả tốt hơn.
Để nó chạy. Điểm là hoạt động tự chủ. Hãy cưỡng lại sự thúc đẩy can thiệp.
Xem lại kết quả. Kiểm tra lịch sử git để xem tác nhân đã thử gì và những gì hoạt động.

Xây Dựng Kiến Thức Để Viết Hướng Dẫn Tốt

Chất lượng của program.md phụ thuộc vào kiến thức lĩnh vực của bạn. Bạn hiểu về không gian vấn đề càng nhiều, hướng dẫn của bạn sẽ càng tốt.

Đây là nơi có thư viện tài liệu tham khảo được tuyển chọn ở định dạng Markdown trở nên có giá trị. Tài liệu, bài báo, bài đăng blog và ví dụ --- tất cả được lưu dưới dạng Markdown sạch, sẵn sàng để thông báo cho hướng dẫn tác nhân của bạn.

Save chuyển đổi bất kỳ trang web nào thành Markdown sạch --- xây dựng thư viện tham khảo bạn cần để viết hướng dẫn tác nhân AI hiệu quả. Dùng thử Save miễn phí.

Autoresearch Cho Tất Cả Mọi Người: Cách Chạy 100 Thí Nghiệm AI Trong Khi Bạn Ngủ

Vòng Lặp Cốt Lõi

Những Gì Bạn Cần

Kết Quả Thực Tế

Tại Sao 630 Dòng Quan Trọng

Ngân Sách 5 Phút

Bộ Nhớ Git

Ngoài ML: Mô Hình Quan Trọng

Cách Tiếp Cận Markdown-First

Bắt Đầu

Xây Dựng Kiến Thức Để Viết Hướng Dẫn Tốt

## Continue reading

Git Commit Như Là Khám Phá Khoa Học: Cách Autoresearch Biến Kiểm Soát Phiên Bản Thành Phòng Thí Nghiệm Nghiên Cứu

Autoresearch & PROGRAM.md của Karpathy: AI Chạy Thí Nghiệm Khi Bạn Ngủ

Cải Thiện 19% của Shopify: Cách Các Công Ty Đang Sử Dụng Pattern Autoresearch

Cách Viết program.md Tốt: Hướng Dẫn Thực Hành Cho Hướng Dẫn AI Agent

Jean-Sébastien Wallez