Autoresearch pour tous : comment lancer 100 expériences IA pendant votre sommeil
Et si vous pouviez lancer 100 expériences de machine learning en une nuit — sur un seul GPU — sans écrire une seule ligne de code ?
C’est exactement ce que fait l’autoresearch d’Andrej Karpathy. Publié le 7 mars 2026, ce script Python de 630 lignes permet à des agents IA de modifier de façon autonome le code d’entraînement, de lancer des expériences, d’évaluer les résultats et de continuer à s’améliorer — pendant que vous dormez.
En deux jours, l’annonce avait des millions de vues. Des chercheurs, des développeurs et des entreprises lançaient déjà leurs propres expériences nocturnes.
Voici comment ça marche et pourquoi c’est important.
La boucle principale
La conception d’autoresearch est d’une élégante simplicité :
- Lire le fichier
program.md(vos instructions Markdown) - Modifier
train.pyen fonction de ces instructions - Entraîner pendant exactement 5 minutes
- Mesurer le résultat (validation loss)
- Garder ou jeter — si la métrique s’est améliorée, commit ; sinon, git reset
- Répéter indéfiniment
À environ 12 expériences par heure, vous obtenez environ 100 expériences en une session nocturne. Chaque amélioration réussie s’appuie sur la précédente, créant un effet composé.
Ce qu’il vous faut
La barrière à l’entrée est remarquablement basse :
- Un GPU — tout le système est conçu pour l’entraînement single-GPU
- 630 lignes de Python — suffisamment petit pour tenir dans la fenêtre de contexte de n’importe quel LLM
- Une clé API LLM — Claude, GPT, ou un autre modèle capable
- Un fichier
program.md— vos instructions Markdown indiquant à l’agent quoi optimiser
C’est tout. Pas de cluster. Pas de configuration d’entraînement distribué. Pas d’équipe d’ingénierie ML. Une personne, un GPU, un fichier Markdown.
Résultats réels
Karpathy a laissé autoresearch tourner pendant environ deux jours sur un modèle depth-12. L’agent IA a découvert de façon autonome environ 20 améliorations :
- Le temps d’entraînement pour le benchmark GPT-2 est passé de 2,02 heures à 1,80 heures
- Une amélioration de 11 % sans intervention humaine
- L’agent a trouvé des problèmes que les humains avaient manqués : des mécanismes d’attention sans mise à l’échelle correcte, une régularisation manquante, et des hyperparamètres sous-optimaux
L’idée clé : l’agent a découvert des choses que des chercheurs ML expérimentés n’avaient pas remarquées. Non pas parce qu’il est plus intelligent, mais parce qu’il pouvait essayer 100 variations là où un humain en essaierait 5.
Pourquoi 630 lignes c’est important
Le codebase est intentionnellement minuscule. À environ 630 lignes, l’ensemble du fichier train.py tient dans la fenêtre de contexte d’un LLM. C’est une décision de conception critique.
Si l’agent peut voir l’ensemble du système en une seule fois, il peut faire des modifications intelligentes. Il comprend comment le taux d’apprentissage interagit avec la taille du batch, comment le mécanisme d’attention se connecte à la couche de sortie, comment un changement se propage dans l’ensemble du pipeline d’entraînement.
Donnez à un agent IA un codebase de 50 000 lignes et il fait des changements locaux qui pourraient ne pas avoir de sens globalement. Donnez-lui 630 lignes et il peut raisonner sur l’ensemble du système.
Le budget de 5 minutes
Chaque expérience tourne pendant exactement 5 minutes. Cette contrainte est brillante :
Ça rend les expériences comparables. Si une exécution prend 3 minutes et une autre 20, vous ne pouvez pas comparer équitablement leurs résultats. Un budget de temps fixe signifie que chaque amélioration est mesurée sur un pied d’égalité.
Ça permet une itération rapide. 5 minutes est assez long pour voir une progression d’entraînement significative mais assez court pour lancer 12 expériences par heure.
Ça prévient les coûts incontrôlés. Sans limite de temps, un agent pourrait s’entraîner des heures sur un seul changement prometteur. Le plafond de 5 minutes maintient la boucle de rétroaction serrée.
La mémoire Git
Chaque expérience est un commit git. Ça donne au système de la mémoire :
- Les changements réussis sont commités sur une branche feature, construisant une chaîne d’améliorations
- Les expériences échouées sont annulées avec
git reset, sans laisser de trace - L’historique montre exactement ce qui a été essayé, ce qui a fonctionné et ce qui n’a pas fonctionné
Ça signifie que vous pouvez passer en revue le travail de l’agent comme une série de commits git. Chaque message de commit explique ce que l’agent a changé et pourquoi. C’est un audit trail complet de la recherche autonome.
Au-delà du ML : le pattern qui compte
Autoresearch concerne l’entraînement de modèles de langage, mais le pattern qu’il introduit est universel :
L’humain écrit des instructions Markdown → l’agent IA exécute de façon autonome → les résultats sont mesurés et gardés/jetés → la boucle se répète
Ce pattern fonctionne dans n’importe quel domaine où vous pouvez :
- Définir des objectifs clairs en langage naturel
- Mesurer le succès automatiquement
- Garder ou jeter des changements en fonction des résultats
Des entreprises appliquent déjà ce pattern au-delà de la recherche ML — à l’optimisation de code, aux expériences marketing et au développement produit.
L’approche Markdown-first
Au centre d’autoresearch se trouve un fichier Markdown. Pas du Python. Pas du YAML. Pas une interface graphique. Un fichier texte brut que n’importe qui peut lire et éditer.
Ça compte parce que ça abaisse la barrière pour diriger la recherche IA. Vous n’avez pas besoin d’être un ingénieur ML pour écrire un program.md. Vous devez comprendre le problème, les objectifs et les contraintes. L’agent gère l’implémentation.
Le changement de compétences est clair : savoir écrire du code d’entraînement vers savoir écrire des instructions d’agent efficaces.
Commencer
Si vous voulez essayer le pattern autoresearch (même en dehors du ML), commencez par ces étapes :
- Définissez votre métrique. Que signifie « mieux », et comment le mesurez-vous automatiquement ?
- Écrivez votre program.md. Définissez objectifs, contraintes et stratégie en Markdown clair.
- Gardez le périmètre petit. Comme le codebase de 630 lignes d’autoresearch, les systèmes plus petits donnent de meilleurs résultats.
- Laissez-le tourner. Le but est l’opération autonome. Résistez à l’envie d’intervenir.
- Passez les résultats en revue. Consultez l’historique git pour voir ce que l’agent a essayé et ce qui a fonctionné.
Construire la connaissance pour écrire de bonnes instructions
La qualité de votre program.md dépend de votre connaissance du domaine. Plus vous comprenez l’espace du problème, meilleures seront vos instructions.
C’est là qu’avoir une bibliothèque curatée de matériel de référence en format Markdown devient précieux. Documentation, articles, billets de blog et exemples — tout sauvegardé en Markdown propre, prêt à alimenter vos instructions d’agent.
Save convertit n’importe quelle page web en Markdown propre — construisant la bibliothèque de référence dont vous avez besoin pour écrire des instructions d’agent IA efficaces. Essayez Save gratuitement.
## Continue reading
Le commit git comme découverte scientifique : comment Autoresearch transforme le versionnage en laboratoire de recherche
Dans l'autoresearch de Karpathy, chaque expérience réussie est un commit git. Chaque échec est un git reset. Le contrôle de version est devenu la mémoire de la recherche IA autonome.
L'Autoresearch de Karpathy & PROGRAM.md : l'IA qui fait des expériences pendant que vous dormez
L'autoresearch d'Andrej Karpathy permet à des agents IA de faire tourner 100+ expériences de ML la nuit, guidés par un seul fichier Markdown appelé program.md. Voici comment ça fonctionne et pourquoi c'est important.
L'amélioration de 19 % de Shopify : comment les entreprises utilisent déjà le pattern Autoresearch
Quelques jours après que Karpathy a publié autoresearch, le CEO de Shopify l'a lancé sur leurs propres modèles et a constaté une amélioration de 19 %. Voici comment les entreprises adoptent l'expérimentation IA autonome.
Comment rédiger un bon program.md : guide pratique pour les instructions d'agents IA
program.md est le fichier qui programme les agents IA dans l'autoresearch de Karpathy. Voici comment en écrire un qui obtient des résultats — avec structure, exemples et bonnes pratiques.
Written by
Jean-Sébastien Wallez
I've been making internet products for 10+ years. Built Save on weekends because I wanted my own reading library in clean markdown for Claude and Obsidian. Write here about web clipping, AI workflows, and the small things that make a personal knowledge base actually useful.