จะเป็นอย่างไรถ้าคุณสามารถรันการทดลอง machine learning 100 ชุดในคืนเดียว — บน GPU เดียว — โดยไม่ต้องเขียนโค้ดสักบรรทัด?

นั่นคือสิ่งที่ autoresearch ของ Andrej Karpathy ทำ เปิดตัวเมื่อวันที่ 7 มีนาคม 2026 สคริปต์ Python 630 บรรทัดนี้ให้ AI agents แก้ไขโค้ดการฝึก รันการทดลอง ประเมินผลลัพธ์ และยังคงปรับปรุงต่อไป — ทั้งหมดในขณะที่คุณนอนหลับ

ภายในสองวัน การประกาศมีผู้เข้าชมหลายล้านครั้ง นักวิจัย นักพัฒนา และบริษัทต่างๆ กำลังรันการทดลองคืนเดียวของตัวเองแล้ว

นี่คือวิธีที่มันทำงานและทำไมมันถึงสำคัญ

วงจรหลัก

การออกแบบของ autoresearch นั้นสง่างามในความเรียบง่าย:

อ่าน ไฟล์ program.md (คำสั่ง Markdown ของคุณ)
แก้ไข train.py ตามคำสั่งเหล่านั้น
ฝึก เป็นเวลา 5 นาทีพอดี
วัด ผลลัพธ์ (validation loss)
เก็บหรือทิ้ง — ถ้า metric ดีขึ้น commit; ถ้าไม่ git reset
ทำซ้ำ ไม่มีที่สิ้นสุด

ด้วยประมาณ 12 การทดลองต่อชั่วโมง คุณได้ประมาณ 100 การทดลองในเซสชันคืนเดียว การปรับปรุงที่สำเร็จแต่ละอย่างสร้างบนสิ่งก่อนหน้า สร้างผลกระทบแบบทบต้น

สิ่งที่คุณต้องการ

อุปสรรคในการเข้าถึงนั้นต่ำอย่างน่าทึ่ง:

GPU หนึ่งตัว — ระบบทั้งหมดออกแบบมาสำหรับการฝึกบน GPU เดียว
Python 630 บรรทัด — เล็กพอที่จะพอดีในหน้าต่างบริบทของ LLM ใดก็ได้
LLM API key — Claude, GPT หรือโมเดลที่มีความสามารถอื่นๆ
ไฟล์ program.md — คำสั่ง Markdown ของคุณที่บอก agent ว่าต้องปรับอะไร

แค่นั้นเอง ไม่มีคลัสเตอร์ ไม่มีการตั้งค่าการฝึกแบบกระจาย ไม่มีทีม ML engineering คนเดียว GPU หนึ่งตัว ไฟล์ Markdown หนึ่งไฟล์

ผลลัพธ์จริง

Karpathy ให้ autoresearch ทำงานประมาณสองวันบนโมเดล depth-12 AI agent ค้นพบการปรับปรุงประมาณ 20 อย่างโดยอัตโนมัติ:

เวลาการฝึกสำหรับ GPT-2 benchmark ลดลงจาก 2.02 ชั่วโมงเป็น 1.80 ชั่วโมง
การปรับปรุง 11% โดยไม่มีการแทรกแซงของมนุษย์
Agent พบปัญหาที่มนุษย์พลาดไป: กลไก attention ที่ขาดการปรับขนาดที่เหมาะสม การขาด regularization และ hyperparameters ที่ไม่เหมาะสม

ข้อมูลเชิงลึกที่สำคัญ: agent ค้นพบสิ่งที่นักวิจัย ML ที่มีประสบการณ์ไม่ได้สังเกตเห็น ไม่ใช่เพราะมันฉลาดกว่า แต่เพราะมันสามารถลอง 100 รูปแบบในขณะที่มนุษย์อาจลองแค่ 5

ทำไม 630 บรรทัดถึงสำคัญ

โค้ดเบสมีขนาดเล็กโดยตั้งใจ ด้วย ~630 บรรทัด ไฟล์ train.py ทั้งหมดพอดีในหน้าต่างบริบทของ LLM นี่คือการตัดสินใจออกแบบที่สำคัญ

ถ้า agent สามารถเห็นระบบทั้งหมดพร้อมกัน มันสามารถแก้ไขได้อย่างชาญฉลาด มันเข้าใจว่า learning rate โต้ตอบกับ batch size อย่างไร กลไก attention เชื่อมต่อกับ output layer อย่างไร การเปลี่ยนแปลงหนึ่งอย่างแพร่กระจายไปทั่ว training pipeline อย่างไร

ให้ AI agent โค้ดเบส 50,000 บรรทัดและมันทำการเปลี่ยนแปลงในท้องถิ่นที่อาจไม่สมเหตุสมผลในระดับโลก ให้มัน 630 บรรทัดและมันสามารถใช้เหตุผลเกี่ยวกับระบบทั้งหมดได้

งบประมาณ 5 นาที

ทุกการทดลองรันเป็นเวลา 5 นาทีพอดี ข้อจำกัดนี้ฉลาดมาก:

ทำให้การทดลองเปรียบเทียบกันได้ ถ้าการทำงานหนึ่งใช้เวลา 3 นาทีและอีกอันใช้ 20 นาที คุณไม่สามารถเปรียบเทียบผลลัพธ์ได้อย่างยุติธรรม งบประมาณเวลาที่แน่นอนหมายความว่าการปรับปรุงทุกอย่างวัดบนพื้นฐานที่เท่าเทียมกัน

ทำให้การทำซ้ำรวดเร็ว 5 นาทียาวพอที่จะเห็นความก้าวหน้าการฝึกที่มีความหมาย แต่สั้นพอที่จะรัน 12 การทดลองต่อชั่วโมง

ป้องกันต้นทุนที่ควบคุมไม่ได้ โดยไม่มีขีดจำกัดเวลา agent อาจฝึกเป็นชั่วโมงในการเปลี่ยนแปลงที่มีแนวโน้มหนึ่งอย่าง ขีดจำกัด 5 นาทีทำให้ feedback loop แน่น

หน่วยความจำ Git

ทุกการทดลองคือ git commit สิ่งนี้ให้ระบบมีหน่วยความจำ:

การเปลี่ยนแปลงที่สำเร็จ ถูก commit บน feature branch สร้างห่วงโซ่ของการปรับปรุง
การทดลองที่ล้มเหลว ถูกย้อนกลับด้วย git reset ไม่ทิ้งร่องรอย
ประวัติ แสดงสิ่งที่ถูกลองอย่างแน่ชัด อะไรที่ได้ผล และอะไรที่ไม่ได้ผล

นั่นหมายความว่าคุณสามารถตรวจสอบงานของ agent เป็นชุดของ git commits แต่ละข้อความ commit อธิบายสิ่งที่ agent เปลี่ยนแปลงและเหตุผล มันคือเส้นทางการตรวจสอบที่สมบูรณ์ของการวิจัยอัตโนมัติ

เหนือ ML: รูปแบบที่สำคัญ

Autoresearch เกี่ยวกับการฝึก language models แต่รูปแบบที่มันแนะนำนั้นสากล:

มนุษย์เขียนคำสั่ง Markdown → AI agent ดำเนินการอย่างอัตโนมัติ → ผลลัพธ์ถูกวัดและเก็บ/ทิ้ง → วงจรทำซ้ำ

รูปแบบนี้ใช้ได้กับโดเมนใดก็ตามที่คุณสามารถ:

กำหนดเป้าหมายที่ชัดเจนในภาษาธรรมชาติ
วัดความสำเร็จโดยอัตโนมัติ
เก็บหรือทิ้งการเปลี่ยนแปลงตามผลลัพธ์

บริษัทต่างๆ กำลังใช้รูปแบบนี้เกินกว่าการวิจัย ML — ไปยังการเพิ่มประสิทธิภาพโค้ด การทดลองการตลาด และการพัฒนาผลิตภัณฑ์แล้ว

แนวทาง Markdown-First

ที่ศูนย์กลางของ autoresearch คือไฟล์ Markdown ไม่ใช่ Python ไม่ใช่ YAML ไม่ใช่ GUI เป็นไฟล์ข้อความธรรมดาที่ใครก็สามารถอ่านและแก้ไขได้

สิ่งนี้สำคัญเพราะมันลดอุปสรรคในการชี้นำการวิจัย AI คุณไม่จำเป็นต้องเป็น ML engineer เพื่อเขียน program.md คุณต้องเข้าใจปัญหา เป้าหมาย และข้อจำกัด Agent จัดการการนำไปใช้

การเปลี่ยนแปลงทักษะนั้นชัดเจน: จากการรู้วิธีเขียนโค้ดการฝึกมาเป็นการรู้วิธีเขียนคำสั่ง agent ที่มีประสิทธิภาพ

เริ่มต้น

ถ้าคุณต้องการลองรูปแบบ autoresearch (แม้แต่นอก ML) เริ่มต้นด้วยขั้นตอนเหล่านี้:

กำหนด metric ของคุณ “ดีขึ้น” หมายความว่าอะไร และคุณวัดมันโดยอัตโนมัติอย่างไร?
เขียน program.md ของคุณ กำหนดเป้าหมาย ข้อจำกัด และกลยุทธ์ใน Markdown ที่ชัดเจน
ทำให้ขอบเขตเล็ก เหมือนโค้ดเบส 630 บรรทัดของ autoresearch ระบบขนาดเล็กให้ผลลัพธ์ที่ดีกว่า
ปล่อยให้รัน จุดคือการทำงานอัตโนมัติ ต้านการอยากแทรกแซง
ตรวจสอบผลลัพธ์ ตรวจสอบประวัติ git เพื่อดูว่า agent ลองอะไรและอะไรที่ได้ผล

การสร้างความรู้เพื่อเขียนคำสั่งที่ดี

คุณภาพของ program.md ของคุณขึ้นอยู่กับความรู้ในโดเมนของคุณ ยิ่งคุณเข้าใจเกี่ยวกับพื้นที่ปัญหามากเท่าไหร่ คำสั่งของคุณก็ยิ่งดีขึ้นเท่านั้น

นี่คือที่ที่การมีคลังวัสดุอ้างอิงที่คัดสรรในรูปแบบ Markdown มีความคุ้มค่า เอกสาร บทความ บล็อคโพสต์ และตัวอย่าง — ทั้งหมดบันทึกเป็น Markdown ที่สะอาด พร้อมที่จะแจ้งคำสั่ง agent ของคุณ

Save แปลงหน้าเว็บใดก็ได้เป็น Markdown ที่สะอาด — สร้างคลังอ้างอิงที่คุณต้องการเพื่อเขียนคำสั่ง AI agent ที่มีประสิทธิภาพ ลอง Save ฟรี