การปรับปรุง 19% ของ Shopify: บริษัทต่างๆ ใช้รูปแบบการวิจัยอัตโนมัติอย่างไร
เมื่อ Karpathy เปิดตัวการวิจัยอัตโนมัติเมื่อวันที่ 7 มีนาคม 2026 ใช้เวลาเพียงไม่กี่วัน — ไม่ใช่สัปดาห์ ไม่ใช่เดือน — ก่อนที่บริษัทต่างๆ จะเริ่มนำไปใช้กับปัญหาของตัวเอง
ผู้บุกเบิกที่โดดเด่นที่สุด: CEO ของ Shopify Tobi Lutke ที่ปรับใช้กรอบการวิจัยอัตโนมัติสำหรับโปรเจกต์ภายใน ผลลัพธ์? โมเดลที่มีพารามิเตอร์ 0.8 พันล้านที่ฝึกชั่วข้ามคืนมีประสิทธิภาพเหนือกว่าโมเดลก่อนหน้าที่มีพารามิเตอร์ 1.6 พันล้านถึง 19% หลังจากทำการทดลองเพียง 37 ครั้งใน 8 ชั่วโมง
โมเดลที่เล็กกว่า ผลลัพธ์ที่ดีกว่า ไม่มีการแทรกแซงของมนุษย์ในยามค่ำคืน
รูปแบบการวิจัยอัตโนมัติในโลกธุรกิจ
สิ่งที่ Shopify แสดงให้เห็นไม่ใช่แค่การทดลอง ML ที่น่าสนใจ แต่เป็นการพิสูจน์แนวคิดสำหรับวิธีใหม่ที่บริษัทต่างๆ ทำ R&D
แนวทางดั้งเดิม: จ้างวิศวกร ML ให้พวกเขาทำการทดลองด้วยตนเอง ตรวจสอบผลลัพธ์ในการประชุม ตัดสินใจขั้นตอนถัดไป ทำซ้ำอย่างช้าๆ ทีมที่ดีอาจทำการทดลองที่มุ่งเป้าได้ประมาณ 30 ครั้งต่อเดือน
แนวทางการวิจัยอัตโนมัติ: เขียน program.md ที่กำหนดเป้าหมาย ให้เอเจนต์ AI ทำการทดลองชั่วข้ามคืน ตรวจสอบผลลัพธ์ในตอนเช้า วิศวกรหนึ่งคน GPU หนึ่งตัว การทดลองมากกว่า 100 ครั้งต่อคืน
คณิตศาสตร์นั้นน่าทึ่ง การวิจัยด้วยตนเองผลิตการทดลองประมาณ 1 ครั้งต่อวันต่อนักวิจัย การวิจัยอัตโนมัติผลิตประมาณ 12 ครั้งต่อชั่วโมง นั่นคือปริมาณการทดลองที่เพิ่มขึ้น 100 เท่า
เกินกว่า ML: ปีแห่งการทดลอง 36,500 ครั้ง
รูปแบบนี้ขยายออกไปนอกเหนือการฝึกโมเดล ทีมการตลาดมักทำการทดลองประมาณ 30 ครั้งต่อปี — การทดสอบ A/B รูปแบบข้อความ การเปลี่ยนแปลงการกำหนดเป้าหมายผู้ชม มันช้าเพราะการทดลองแต่ละครั้งต้องการการตั้งค่า การติดตาม และการวิเคราะห์โดยมนุษย์
ผู้บุกเบิกยุคแรกกำลังจินตนาการถึงโลกที่เอเจนต์อัตโนมัติทำการทดลองการตลาด 100 ครั้งต่อวัน วัดอัตราการแปลง ปรับแต่งข้อความ และพัฒนาการกำหนดเป้าหมาย — ทั้งหมดนี้นำทางโดย program.md ที่กำหนดเป้าหมายและข้อจำกัดของแบรนด์
นั่นคือการทดลองมากกว่า 36,500 ครั้งต่อปีเทียบกับ 30 ครั้ง บริษัทที่นำรูปแบบนี้มาใช้เป็นกลุ่มแรกจะมีข้อได้เปรียบแบบทบต้นที่แทบจะตามไม่ทัน
สิ่งที่ทำให้ผลลัพธ์ของ Shopify เป็นไปได้
การปรับปรุง 19% ของ Shopify ไม่ใช่โชค หลายปัจจัยทำให้มันได้ผล:
เมตริกที่ชัดเจน พวกเขามีเมตริกการประเมินที่กำหนดไว้อย่างดีซึ่งเอเจนต์สามารถวัดได้โดยอัตโนมัติหลังจากแต่ละการทดลอง หากไม่มีการวัดอัตโนมัติ วงจรจะพัง
ขอบเขตที่จำกัด เหมือนกับ train.py 630 บรรทัดของ Karpathy Shopify เก็บ codebase ที่แก้ไขได้ให้เล็กพอที่ LLM จะเข้าใจได้อย่างสมบูรณ์ คุณไม่โยน codebase ล้านบรรทัดให้เอเจนต์แล้วหวังสิ่งที่ดีที่สุด
คำสั่งเริ่มต้นที่ดี program.md ที่นำทางเอเจนต์ได้รับการแจ้งด้วยความรู้เฉพาะด้านของทีม เอเจนต์ไม่ได้ค้นหาแบบสุ่ม — แต่สำรวจทิศทางที่ทีมระบุว่ามีแนวโน้ม
ความไว้วางใจในกระบวนการ พวกเขาให้มันทำงานชั่วข้ามคืนโดยไม่แทรกแซง การอยากตรวจสอบและปรับเปลี่ยนทุกชั่วโมงขัดขวางจุดประสงค์ของการทดลองอัตโนมัติ
รูปแบบการทำงานข้ามคืน
การนำการวิจัยอัตโนมัติมาใช้โดยทั่วไปจะเป็นไปตามรูปแบบ:
วันที่ 1: ตั้งค่าสภาพแวดล้อม เขียน program.md แรกของคุณ รันการทดลองสองสามครั้งด้วยตนเองเพื่อยืนยันว่าวงจรทำงาน
คืนที่ 1: เริ่มเอเจนต์ก่อนออกไป ตั้งค่าให้ทำงานไม่สิ้นสุด คอมมิตการปรับปรุงและย้อนกลับความล้มเหลว
เช้าวันที่ 2: ตรวจสอบ git log ดูว่าเอเจนต์ลองอะไร อะไรได้ผล และอะไรไม่ได้ผล อัปเดต program.md ตามสิ่งที่เรียนรู้
คืนที่ 2: รันอีกครั้งด้วยคำสั่งที่ปรับปรุงแล้ว เอเจนต์เริ่มจากจุดที่ผลลัพธ์ดีที่สุดของคืนที่ 1 หยุดไว้
ภายในหนึ่งสัปดาห์: คุณมี program.md ที่ขัดเกลาแล้วและการปรับปรุงที่ผ่านการยืนยันหลายสิบรายการที่ทีมมนุษย์จะใช้เวลาหลายเดือนในการค้นพบ
อุตสาหกรรมที่พร้อมสำหรับรูปแบบนี้
สาขาใดก็ตามที่เกี่ยวข้องกับการทดลองอย่างเป็นระบบสามารถนำวงจรการวิจัยอัตโนมัติมาใช้ได้:
การเรียนรู้ของเครื่อง — กรณีการใช้งานเดิม การปรับแต่ง hyperparameter การค้นหาสถาปัตยกรรม การทดลอง regularization
การเพิ่มประสิทธิภาพซอฟต์แวร์ — การปรับแต่งประสิทธิภาพ การลดขนาด bundle การเพิ่มประสิทธิภาพ query ทุกที่ที่มีเมตริกที่วัดได้และโค้ดที่แก้ไขได้
การค้นพบยา — การจำลองโมเลกุลที่มีความสัมพันธ์กับการจับที่วัดได้ การทดลองเป็นเชิงคำนวณ เมตริกเป็นตัวเลข วงจรสามารถอัตโนมัติได้
การสร้างแบบจำลองทางการเงิน — การทดสอบย้อนหลังกลยุทธ์การซื้อขายกับข้อมูลประวัติศาสตร์ เมตริกที่ชัดเจน ข้อเสนอแนะที่รวดเร็ว พื้นที่การค้นหาขนาดใหญ่
การเพิ่มประสิทธิภาพเนื้อหา — การทดสอบ A/B สำหรับหัวข้อ เลย์เอาต์ และข้อความโดยใช้อัตราการแปลงเป็นเมตริก
ข้อได้เปรียบของ Markdown
ในทุกกรณี การมีส่วนร่วมของมนุษย์เป็นเหมือนกัน: ไฟล์ Markdown ที่กำหนดสิ่งที่ต้องการเพิ่มประสิทธิภาพ ข้อจำกัดที่ต้องเคารพ และกลยุทธ์ที่ต้องลอง
นั่นเป็นเหตุผลที่ความสามารถ Markdown กำลังกลายเป็นข้อได้เปรียบในการแข่งขัน บริษัทที่เขียนไฟล์ program.md ที่ดีที่สุดคือบริษัทที่ได้รับผลลัพธ์ที่ดีที่สุดจากเอเจนต์อัตโนมัติ และการเขียนไฟล์ program.md ที่ดีต้องการความรู้เฉพาะด้านที่จัดเป็นระเบียบในรูปแบบที่ AI สามารถใช้ได้
บริษัทที่สร้างห้องสมุดอ้างอิง — บันทึกเอกสาร การวิเคราะห์คู่แข่ง บทความวิจัย และแนวปฏิบัติที่ดีที่สุดเป็น Markdown ที่สะอาด — มีข้อได้เปรียบล่วงหน้า เมื่อถึงเวลาเขียน program.md ที่นำทางการทดลองชั่วข้ามคืน พวกเขาสามารถดึงจากฐานความรู้ที่คัดสรรแทนที่จะเริ่มจากศูนย์
Save แปลงหน้าเว็บใดก็ได้ให้เป็น Markdown ที่สะอาด — สร้างห้องสมุดความรู้ที่บริษัทต่างๆ ต้องการเพื่อเขียนคำสั่งเอเจนต์ AI ที่มีประสิทธิภาพ ลอง Save ฟรี