เมื่อ Karpathy เปิดตัวการวิจัยอัตโนมัติเมื่อวันที่ 7 มีนาคม 2026 ใช้เวลาเพียงไม่กี่วัน — ไม่ใช่สัปดาห์ ไม่ใช่เดือน — ก่อนที่บริษัทต่างๆ จะเริ่มนำไปใช้กับปัญหาของตัวเอง

ผู้บุกเบิกที่โดดเด่นที่สุด: CEO ของ Shopify Tobi Lutke ที่ปรับใช้กรอบการวิจัยอัตโนมัติสำหรับโปรเจกต์ภายใน ผลลัพธ์? โมเดลที่มีพารามิเตอร์ 0.8 พันล้านที่ฝึกชั่วข้ามคืนมีประสิทธิภาพเหนือกว่าโมเดลก่อนหน้าที่มีพารามิเตอร์ 1.6 พันล้านถึง 19% หลังจากทำการทดลองเพียง 37 ครั้งใน 8 ชั่วโมง

โมเดลที่เล็กกว่า ผลลัพธ์ที่ดีกว่า ไม่มีการแทรกแซงของมนุษย์ในยามค่ำคืน

รูปแบบการวิจัยอัตโนมัติในโลกธุรกิจ

สิ่งที่ Shopify แสดงให้เห็นไม่ใช่แค่การทดลอง ML ที่น่าสนใจ แต่เป็นการพิสูจน์แนวคิดสำหรับวิธีใหม่ที่บริษัทต่างๆ ทำ R&D

แนวทางดั้งเดิม: จ้างวิศวกร ML ให้พวกเขาทำการทดลองด้วยตนเอง ตรวจสอบผลลัพธ์ในการประชุม ตัดสินใจขั้นตอนถัดไป ทำซ้ำอย่างช้าๆ ทีมที่ดีอาจทำการทดลองที่มุ่งเป้าได้ประมาณ 30 ครั้งต่อเดือน

แนวทางการวิจัยอัตโนมัติ: เขียน program.md ที่กำหนดเป้าหมาย ให้เอเจนต์ AI ทำการทดลองชั่วข้ามคืน ตรวจสอบผลลัพธ์ในตอนเช้า วิศวกรหนึ่งคน GPU หนึ่งตัว การทดลองมากกว่า 100 ครั้งต่อคืน

คณิตศาสตร์นั้นน่าทึ่ง การวิจัยด้วยตนเองผลิตการทดลองประมาณ 1 ครั้งต่อวันต่อนักวิจัย การวิจัยอัตโนมัติผลิตประมาณ 12 ครั้งต่อชั่วโมง นั่นคือปริมาณการทดลองที่เพิ่มขึ้น 100 เท่า

เกินกว่า ML: ปีแห่งการทดลอง 36,500 ครั้ง

รูปแบบนี้ขยายออกไปนอกเหนือการฝึกโมเดล ทีมการตลาดมักทำการทดลองประมาณ 30 ครั้งต่อปี — การทดสอบ A/B รูปแบบข้อความ การเปลี่ยนแปลงการกำหนดเป้าหมายผู้ชม มันช้าเพราะการทดลองแต่ละครั้งต้องการการตั้งค่า การติดตาม และการวิเคราะห์โดยมนุษย์

ผู้บุกเบิกยุคแรกกำลังจินตนาการถึงโลกที่เอเจนต์อัตโนมัติทำการทดลองการตลาด 100 ครั้งต่อวัน วัดอัตราการแปลง ปรับแต่งข้อความ และพัฒนาการกำหนดเป้าหมาย — ทั้งหมดนี้นำทางโดย program.md ที่กำหนดเป้าหมายและข้อจำกัดของแบรนด์

นั่นคือการทดลองมากกว่า 36,500 ครั้งต่อปีเทียบกับ 30 ครั้ง บริษัทที่นำรูปแบบนี้มาใช้เป็นกลุ่มแรกจะมีข้อได้เปรียบแบบทบต้นที่แทบจะตามไม่ทัน

สิ่งที่ทำให้ผลลัพธ์ของ Shopify เป็นไปได้

การปรับปรุง 19% ของ Shopify ไม่ใช่โชค หลายปัจจัยทำให้มันได้ผล:

เมตริกที่ชัดเจน พวกเขามีเมตริกการประเมินที่กำหนดไว้อย่างดีซึ่งเอเจนต์สามารถวัดได้โดยอัตโนมัติหลังจากแต่ละการทดลอง หากไม่มีการวัดอัตโนมัติ วงจรจะพัง

ขอบเขตที่จำกัด เหมือนกับ train.py 630 บรรทัดของ Karpathy Shopify เก็บ codebase ที่แก้ไขได้ให้เล็กพอที่ LLM จะเข้าใจได้อย่างสมบูรณ์ คุณไม่โยน codebase ล้านบรรทัดให้เอเจนต์แล้วหวังสิ่งที่ดีที่สุด

คำสั่งเริ่มต้นที่ดี program.md ที่นำทางเอเจนต์ได้รับการแจ้งด้วยความรู้เฉพาะด้านของทีม เอเจนต์ไม่ได้ค้นหาแบบสุ่ม — แต่สำรวจทิศทางที่ทีมระบุว่ามีแนวโน้ม

ความไว้วางใจในกระบวนการ พวกเขาให้มันทำงานชั่วข้ามคืนโดยไม่แทรกแซง การอยากตรวจสอบและปรับเปลี่ยนทุกชั่วโมงขัดขวางจุดประสงค์ของการทดลองอัตโนมัติ

รูปแบบการทำงานข้ามคืน

การนำการวิจัยอัตโนมัติมาใช้โดยทั่วไปจะเป็นไปตามรูปแบบ:

วันที่ 1: ตั้งค่าสภาพแวดล้อม เขียน program.md แรกของคุณ รันการทดลองสองสามครั้งด้วยตนเองเพื่อยืนยันว่าวงจรทำงาน

คืนที่ 1: เริ่มเอเจนต์ก่อนออกไป ตั้งค่าให้ทำงานไม่สิ้นสุด คอมมิตการปรับปรุงและย้อนกลับความล้มเหลว

เช้าวันที่ 2: ตรวจสอบ git log ดูว่าเอเจนต์ลองอะไร อะไรได้ผล และอะไรไม่ได้ผล อัปเดต program.md ตามสิ่งที่เรียนรู้

คืนที่ 2: รันอีกครั้งด้วยคำสั่งที่ปรับปรุงแล้ว เอเจนต์เริ่มจากจุดที่ผลลัพธ์ดีที่สุดของคืนที่ 1 หยุดไว้

ภายในหนึ่งสัปดาห์: คุณมี program.md ที่ขัดเกลาแล้วและการปรับปรุงที่ผ่านการยืนยันหลายสิบรายการที่ทีมมนุษย์จะใช้เวลาหลายเดือนในการค้นพบ

อุตสาหกรรมที่พร้อมสำหรับรูปแบบนี้

สาขาใดก็ตามที่เกี่ยวข้องกับการทดลองอย่างเป็นระบบสามารถนำวงจรการวิจัยอัตโนมัติมาใช้ได้:

การเรียนรู้ของเครื่อง — กรณีการใช้งานเดิม การปรับแต่ง hyperparameter การค้นหาสถาปัตยกรรม การทดลอง regularization

การเพิ่มประสิทธิภาพซอฟต์แวร์ — การปรับแต่งประสิทธิภาพ การลดขนาด bundle การเพิ่มประสิทธิภาพ query ทุกที่ที่มีเมตริกที่วัดได้และโค้ดที่แก้ไขได้

การค้นพบยา — การจำลองโมเลกุลที่มีความสัมพันธ์กับการจับที่วัดได้ การทดลองเป็นเชิงคำนวณ เมตริกเป็นตัวเลข วงจรสามารถอัตโนมัติได้

การสร้างแบบจำลองทางการเงิน — การทดสอบย้อนหลังกลยุทธ์การซื้อขายกับข้อมูลประวัติศาสตร์ เมตริกที่ชัดเจน ข้อเสนอแนะที่รวดเร็ว พื้นที่การค้นหาขนาดใหญ่

การเพิ่มประสิทธิภาพเนื้อหา — การทดสอบ A/B สำหรับหัวข้อ เลย์เอาต์ และข้อความโดยใช้อัตราการแปลงเป็นเมตริก

ข้อได้เปรียบของ Markdown

ในทุกกรณี การมีส่วนร่วมของมนุษย์เป็นเหมือนกัน: ไฟล์ Markdown ที่กำหนดสิ่งที่ต้องการเพิ่มประสิทธิภาพ ข้อจำกัดที่ต้องเคารพ และกลยุทธ์ที่ต้องลอง

นั่นเป็นเหตุผลที่ความสามารถ Markdown กำลังกลายเป็นข้อได้เปรียบในการแข่งขัน บริษัทที่เขียนไฟล์ program.md ที่ดีที่สุดคือบริษัทที่ได้รับผลลัพธ์ที่ดีที่สุดจากเอเจนต์อัตโนมัติ และการเขียนไฟล์ program.md ที่ดีต้องการความรู้เฉพาะด้านที่จัดเป็นระเบียบในรูปแบบที่ AI สามารถใช้ได้

บริษัทที่สร้างห้องสมุดอ้างอิง — บันทึกเอกสาร การวิเคราะห์คู่แข่ง บทความวิจัย และแนวปฏิบัติที่ดีที่สุดเป็น Markdown ที่สะอาด — มีข้อได้เปรียบล่วงหน้า เมื่อถึงเวลาเขียน program.md ที่นำทางการทดลองชั่วข้ามคืน พวกเขาสามารถดึงจากฐานความรู้ที่คัดสรรแทนที่จะเริ่มจากศูนย์

Save แปลงหน้าเว็บใดก็ได้ให้เป็น Markdown ที่สะอาด — สร้างห้องสมุดความรู้ที่บริษัทต่างๆ ต้องการเพื่อเขียนคำสั่งเอเจนต์ AI ที่มีประสิทธิภาพ ลอง Save ฟรี