Autoresearch pour tous : comment lancer 100 expériences IA pendant votre sommeil

Et si vous pouviez lancer 100 expériences de machine learning en une nuit — sur un seul GPU — sans écrire une seule ligne de code ?

C’est exactement ce que fait l’autoresearch d’Andrej Karpathy. Publié le 7 mars 2026, ce script Python de 630 lignes permet à des agents IA de modifier de façon autonome le code d’entraînement, de lancer des expériences, d’évaluer les résultats et de continuer à s’améliorer — pendant que vous dormez.

En deux jours, l’annonce avait des millions de vues. Des chercheurs, des développeurs et des entreprises lançaient déjà leurs propres expériences nocturnes.

Voici comment ça marche et pourquoi c’est important.

La boucle principale

La conception d’autoresearch est d’une élégante simplicité :

Lire le fichier program.md (vos instructions Markdown)
Modifier train.py en fonction de ces instructions
Entraîner pendant exactement 5 minutes
Mesurer le résultat (validation loss)
Garder ou jeter — si la métrique s’est améliorée, commit ; sinon, git reset
Répéter indéfiniment

À environ 12 expériences par heure, vous obtenez environ 100 expériences en une session nocturne. Chaque amélioration réussie s’appuie sur la précédente, créant un effet composé.

Ce qu’il vous faut

La barrière à l’entrée est remarquablement basse :

Un GPU — tout le système est conçu pour l’entraînement single-GPU
630 lignes de Python — suffisamment petit pour tenir dans la fenêtre de contexte de n’importe quel LLM
Une clé API LLM — Claude, GPT, ou un autre modèle capable
Un fichier program.md — vos instructions Markdown indiquant à l’agent quoi optimiser

C’est tout. Pas de cluster. Pas de configuration d’entraînement distribué. Pas d’équipe d’ingénierie ML. Une personne, un GPU, un fichier Markdown.

Résultats réels

Karpathy a laissé autoresearch tourner pendant environ deux jours sur un modèle depth-12. L’agent IA a découvert de façon autonome environ 20 améliorations :

Le temps d’entraînement pour le benchmark GPT-2 est passé de 2,02 heures à 1,80 heures
Une amélioration de 11 % sans intervention humaine
L’agent a trouvé des problèmes que les humains avaient manqués : des mécanismes d’attention sans mise à l’échelle correcte, une régularisation manquante, et des hyperparamètres sous-optimaux

L’idée clé : l’agent a découvert des choses que des chercheurs ML expérimentés n’avaient pas remarquées. Non pas parce qu’il est plus intelligent, mais parce qu’il pouvait essayer 100 variations là où un humain en essaierait 5.

Pourquoi 630 lignes c’est important

Le codebase est intentionnellement minuscule. À environ 630 lignes, l’ensemble du fichier train.py tient dans la fenêtre de contexte d’un LLM. C’est une décision de conception critique.

Si l’agent peut voir l’ensemble du système en une seule fois, il peut faire des modifications intelligentes. Il comprend comment le taux d’apprentissage interagit avec la taille du batch, comment le mécanisme d’attention se connecte à la couche de sortie, comment un changement se propage dans l’ensemble du pipeline d’entraînement.

Donnez à un agent IA un codebase de 50 000 lignes et il fait des changements locaux qui pourraient ne pas avoir de sens globalement. Donnez-lui 630 lignes et il peut raisonner sur l’ensemble du système.

Le budget de 5 minutes

Chaque expérience tourne pendant exactement 5 minutes. Cette contrainte est brillante :

Ça rend les expériences comparables. Si une exécution prend 3 minutes et une autre 20, vous ne pouvez pas comparer équitablement leurs résultats. Un budget de temps fixe signifie que chaque amélioration est mesurée sur un pied d’égalité.

Ça permet une itération rapide. 5 minutes est assez long pour voir une progression d’entraînement significative mais assez court pour lancer 12 expériences par heure.

Ça prévient les coûts incontrôlés. Sans limite de temps, un agent pourrait s’entraîner des heures sur un seul changement prometteur. Le plafond de 5 minutes maintient la boucle de rétroaction serrée.

La mémoire Git

Chaque expérience est un commit git. Ça donne au système de la mémoire :

Les changements réussis sont commités sur une branche feature, construisant une chaîne d’améliorations
Les expériences échouées sont annulées avec git reset, sans laisser de trace
L’historique montre exactement ce qui a été essayé, ce qui a fonctionné et ce qui n’a pas fonctionné

Ça signifie que vous pouvez passer en revue le travail de l’agent comme une série de commits git. Chaque message de commit explique ce que l’agent a changé et pourquoi. C’est un audit trail complet de la recherche autonome.

Au-delà du ML : le pattern qui compte

Autoresearch concerne l’entraînement de modèles de langage, mais le pattern qu’il introduit est universel :

L’humain écrit des instructions Markdown → l’agent IA exécute de façon autonome → les résultats sont mesurés et gardés/jetés → la boucle se répète

Ce pattern fonctionne dans n’importe quel domaine où vous pouvez :

Définir des objectifs clairs en langage naturel
Mesurer le succès automatiquement
Garder ou jeter des changements en fonction des résultats

Des entreprises appliquent déjà ce pattern au-delà de la recherche ML — à l’optimisation de code, aux expériences marketing et au développement produit.

L’approche Markdown-first

Au centre d’autoresearch se trouve un fichier Markdown. Pas du Python. Pas du YAML. Pas une interface graphique. Un fichier texte brut que n’importe qui peut lire et éditer.

Ça compte parce que ça abaisse la barrière pour diriger la recherche IA. Vous n’avez pas besoin d’être un ingénieur ML pour écrire un program.md. Vous devez comprendre le problème, les objectifs et les contraintes. L’agent gère l’implémentation.

Le changement de compétences est clair : savoir écrire du code d’entraînement vers savoir écrire des instructions d’agent efficaces.

Commencer

Si vous voulez essayer le pattern autoresearch (même en dehors du ML), commencez par ces étapes :

Définissez votre métrique. Que signifie « mieux », et comment le mesurez-vous automatiquement ?
Écrivez votre program.md. Définissez objectifs, contraintes et stratégie en Markdown clair.
Gardez le périmètre petit. Comme le codebase de 630 lignes d’autoresearch, les systèmes plus petits donnent de meilleurs résultats.
Laissez-le tourner. Le but est l’opération autonome. Résistez à l’envie d’intervenir.
Passez les résultats en revue. Consultez l’historique git pour voir ce que l’agent a essayé et ce qui a fonctionné.

Construire la connaissance pour écrire de bonnes instructions

La qualité de votre program.md dépend de votre connaissance du domaine. Plus vous comprenez l’espace du problème, meilleures seront vos instructions.

C’est là qu’avoir une bibliothèque curatée de matériel de référence en format Markdown devient précieux. Documentation, articles, billets de blog et exemples — tout sauvegardé en Markdown propre, prêt à alimenter vos instructions d’agent.

Save convertit n’importe quelle page web en Markdown propre — construisant la bibliothèque de référence dont vous avez besoin pour écrire des instructions d’agent IA efficaces. Essayez Save gratuitement.

Autoresearch pour tous : comment lancer 100 expériences IA pendant votre sommeil

La boucle principale

Ce qu’il vous faut

Résultats réels

Pourquoi 630 lignes c’est important

Le budget de 5 minutes

La mémoire Git

Au-delà du ML : le pattern qui compte

L’approche Markdown-first

Commencer

Construire la connaissance pour écrire de bonnes instructions

## Continue reading

Le commit git comme découverte scientifique : comment Autoresearch transforme le versionnage en laboratoire de recherche

L'Autoresearch de Karpathy & PROGRAM.md : l'IA qui fait des expériences pendant que vous dormez

L'amélioration de 19 % de Shopify : comment les entreprises utilisent déjà le pattern Autoresearch

Comment rédiger un bon program.md : guide pratique pour les instructions d'agents IA

Jean-Sébastien Wallez