← Kembali ke blog

Autoresearch untuk Semua Orang: Cara Menjalankan 100 Eksperimen AI Saat Anda Tidur

· Save Team
aiautoresearchkarpathymachine-learningexperimentsgpuprogramming

Bagaimana jika Anda bisa menjalankan 100 eksperimen machine learning semalam --- pada satu GPU --- tanpa menulis satu baris kode pun?

Itulah tepatnya yang dilakukan autoresearch Andrej Karpathy. Dirilis pada 7 Maret 2026, skrip Python 630 baris ini memungkinkan agen AI secara otonom memodifikasi kode pelatihan, menjalankan eksperimen, mengevaluasi hasil, dan terus meningkat --- semuanya saat Anda tidur.

Dalam dua hari, pengumuman tersebut mendapat jutaan penayangan. Para peneliti, pengembang, dan perusahaan sudah menjalankan eksperimen semalam mereka sendiri.

Berikut cara kerjanya dan mengapa itu penting.

Loop Inti

Desain autoresearch elegan dalam kesederhanaannya:

  1. Baca file program.md (instruksi Markdown Anda)
  2. Modifikasi train.py berdasarkan instruksi tersebut
  3. Latih selama tepat 5 menit
  4. Ukur hasilnya (validation loss)
  5. Pertahankan atau buang --- jika metrik membaik, commit; jika tidak, git reset
  6. Ulangi tanpa batas

Dengan sekitar 12 eksperimen per jam, Anda mendapat sekitar 100 eksperimen dalam sesi semalam. Setiap peningkatan yang berhasil dibangun di atas yang sebelumnya, menciptakan efek majemuk.

Yang Anda Butuhkan

Hambatan masuknya sangat rendah:

  • Satu GPU --- seluruh sistem dirancang untuk pelatihan single-GPU
  • 630 baris Python --- cukup kecil untuk masuk di jendela konteks LLM mana pun
  • Kunci API LLM --- Claude, GPT, atau model yang mampu lainnya
  • File program.md --- instruksi Markdown Anda yang memberi tahu agen apa yang perlu dioptimalkan

Itu saja. Tidak ada cluster. Tidak ada pengaturan pelatihan terdistribusi. Tidak ada tim ML engineering. Satu orang, satu GPU, satu file Markdown.

Hasil Nyata

Karpathy membiarkan autoresearch berjalan selama sekitar dua hari pada model depth-12. Agen AI secara otonom menemukan sekitar 20 peningkatan:

  • Waktu pelatihan untuk benchmark GPT-2 turun dari 2,02 jam menjadi 1,80 jam
  • Peningkatan 11% tanpa intervensi manusia sama sekali
  • Agen menemukan masalah yang diabaikan manusia: mekanisme perhatian yang kurang penskalaan yang tepat, regularisasi yang hilang, dan hiperparameter yang tidak optimal

Wawasan utamanya: agen menemukan hal-hal yang tidak diperhatikan peneliti ML berpengalaman. Bukan karena ia lebih cerdas, melainkan karena ia bisa mencoba 100 variasi di mana manusia mungkin mencoba 5.

Mengapa 630 Baris Penting

Codebase sengaja dibuat kecil. Dengan ~630 baris, seluruh file train.py muat dalam jendela konteks LLM. Ini adalah keputusan desain yang kritis.

Jika agen bisa melihat seluruh sistem sekaligus, ia bisa membuat modifikasi yang cerdas. Ia memahami bagaimana learning rate berinteraksi dengan batch size, bagaimana mekanisme perhatian terhubung ke lapisan keluaran, bagaimana satu perubahan merambat melalui seluruh pipeline pelatihan.

Beri agen AI codebase 50.000 baris dan ia membuat perubahan lokal yang mungkin tidak masuk akal secara global. Beri ia 630 baris dan ia bisa bernalar tentang seluruh sistem.

Anggaran 5 Menit

Setiap eksperimen berjalan selama tepat 5 menit. Batasan ini brilian:

Ini membuat eksperimen dapat dibandingkan. Jika satu run memakan waktu 3 menit dan yang lain 20 menit, Anda tidak bisa membandingkan hasilnya secara adil. Anggaran waktu tetap berarti setiap peningkatan diukur pada pijakan yang sama.

Ini memungkinkan iterasi yang cepat. 5 menit cukup lama untuk melihat kemajuan pelatihan yang berarti tetapi cukup pendek untuk menjalankan 12 eksperimen per jam.

Ini mencegah biaya yang tidak terkendali. Tanpa batas waktu, agen mungkin berlatih berjam-jam pada satu perubahan yang menjanjikan. Batas 5 menit menjaga loop umpan balik tetap ketat.

Memori Git

Setiap eksperimen adalah git commit. Ini memberi sistem memori:

  • Perubahan yang berhasil di-commit pada branch fitur, membangun rantai peningkatan
  • Eksperimen yang gagal di-revert dengan git reset, tidak meninggalkan jejak
  • Riwayatnya menunjukkan persis apa yang dicoba, apa yang berhasil, dan apa yang tidak

Artinya Anda bisa meninjau pekerjaan agen sebagai serangkaian git commit. Setiap pesan commit menjelaskan apa yang diubah agen dan mengapa. Ini adalah jejak audit lengkap dari penelitian otonom.

Di Luar ML: Pola yang Penting

Autoresearch tentang melatih model bahasa, tetapi pola yang diperkenalkannya bersifat universal:

Manusia menulis instruksi Markdown → Agen AI mengeksekusi secara otonom → Hasil diukur dan dipertahankan/dibuang → Loop berulang

Pola ini bekerja untuk domain apa pun di mana Anda bisa:

  1. Mendefinisikan tujuan yang jelas dalam bahasa alami
  2. Mengukur keberhasilan secara otomatis
  3. Mempertahankan atau membuang perubahan berdasarkan hasil

Perusahaan sudah menerapkan pola ini di luar penelitian ML --- untuk optimasi kode, eksperimen pemasaran, dan pengembangan produk.

Pendekatan Markdown-First

Di pusat autoresearch adalah sebuah file Markdown. Bukan Python. Bukan YAML. Bukan GUI. File teks biasa yang bisa dibaca dan diedit siapa saja.

Ini penting karena menurunkan hambatan untuk mengarahkan penelitian AI. Anda tidak perlu menjadi ML engineer untuk menulis program.md. Anda perlu memahami masalah, tujuan, dan batasan. Agen menangani implementasinya.

Pergeseran keterampilan jelas: dari mengetahui cara menulis kode pelatihan menjadi mengetahui cara menulis instruksi agen yang efektif.

Memulai

Jika Anda ingin mencoba pola autoresearch (bahkan di luar ML), mulailah dengan langkah-langkah ini:

  1. Tentukan metrik Anda. Apa arti “lebih baik”, dan bagaimana Anda mengukurnya secara otomatis?
  2. Tulis program.md Anda. Tetapkan tujuan, batasan, dan strategi dalam Markdown yang jelas.
  3. Jaga ruang lingkup tetap kecil. Seperti codebase 630 baris autoresearch, sistem yang lebih kecil memberikan hasil yang lebih baik.
  4. Biarkan berjalan. Intinya adalah operasi otonom. Tahan godaan untuk campur tangan.
  5. Tinjau hasilnya. Periksa riwayat git untuk melihat apa yang dicoba agen dan apa yang berhasil.

Membangun Pengetahuan untuk Menulis Instruksi yang Baik

Kualitas program.md Anda bergantung pada pengetahuan domain Anda. Semakin Anda memahami ruang masalah, semakin baik instruksi Anda.

Di sinilah memiliki perpustakaan materi referensi yang dikurasi dalam format Markdown menjadi berharga. Dokumentasi, makalah, posting blog, dan contoh --- semuanya disimpan sebagai Markdown bersih, siap untuk menginformasikan instruksi agen Anda.


Save mengonversi halaman web apa pun ke Markdown bersih --- membangun perpustakaan referensi yang Anda butuhkan untuk menulis instruksi agen AI yang efektif. Coba Save gratis.