L'amélioration de 19 % de Shopify : comment les entreprises utilisent déjà le pattern Autoresearch
Quand Karpathy a publié autoresearch le 7 mars 2026, il a fallu exactement quelques jours — pas des semaines, pas des mois — pour que les entreprises commencent à le lancer sur leurs propres problèmes.
Le plus notable des premiers adopteurs : le CEO de Shopify Tobi Lutke, qui a adapté le framework autoresearch pour un projet interne. Résultat ? Un modèle de 0,8 milliard de paramètres entraîné en une nuit a surpassé un modèle précédent de 1,6 milliard de paramètres de 19 % après seulement 37 expériences en 8 heures.
Modèle plus petit. Meilleurs résultats. Zéro intervention humaine la nuit.
Le pattern autoresearch en entreprise
Ce que Shopify a démontré n’est pas juste une jolie expérience ML. C’est une preuve de concept pour une nouvelle façon dont les entreprises font de la R&D.
L’approche traditionnelle : recruter des ingénieurs ML, leur faire lancer des expériences manuellement, examiner les résultats en réunion, décider des prochaines étapes, recommencer lentement. Une bonne équipe pourrait lancer 30 expériences ciblées par mois.
L’approche autoresearch : écrire un program.md définissant vos objectifs, laisser un agent IA lancer des expériences la nuit, passer les résultats en revue le matin. Un ingénieur, un GPU, 100+ expériences par nuit.
Les chiffres sont accablants. La recherche manuelle produit ~1 expérience par jour par chercheur. Autoresearch produit ~12 par heure. C’est une multiplication par 100 du débit expérimental.
Au-delà du ML : les 36 500 expériences par an
Le pattern s’étend au-delà de l’entraînement de modèles. Les équipes marketing font typiquement environ 30 expériences par an — tests A/B, variations de copy, changements de ciblage audience. C’est lent parce que chaque expérience nécessite setup, surveillance et analyse humains.
Les premiers adopteurs imaginent déjà un monde où des agents autonomes lancent 100 expériences marketing par jour, mesurant les taux de conversion, ajustant le copy et itérant sur le ciblage — tout guidé par un program.md qui définit les objectifs et contraintes de la marque.
C’est 36 500+ expériences par an contre 30. Les entreprises qui adoptent ce pattern en premier auront un avantage composé quasi impossible à rattraper.
Ce qui a rendu les résultats de Shopify possibles
L’amélioration de 19 % de Shopify n’était pas de la chance. Plusieurs facteurs l’ont rendue possible :
Des métriques claires. Ils avaient une métrique d’évaluation bien définie que l’agent pouvait mesurer automatiquement après chaque expérience. Sans mesure automatisée, la boucle se casse.
Un périmètre contraint. Comme les 630 lignes de train.py de Karpathy, Shopify a maintenu le codebase modifiable suffisamment petit pour que le LLM le comprenne complètement. Vous ne jetez pas une codebase d’un million de lignes à un agent en espérant le meilleur.
De bonnes instructions initiales. Le program.md qui dirigeait l’agent était informé par la connaissance du domaine de l’équipe. L’agent n’explorait pas au hasard — il explorait les directions que l’équipe avait identifiées comme prometteuses.
Confiance dans le processus. Ils l’ont laissé tourner toute la nuit sans intervenir. La tentation de vérifier et d’ajuster toutes les heures annule l’objet de l’expérimentation autonome.
Le pattern de la nuit de fonctionnement
L’adoption typique d’autoresearch suit un pattern :
Jour 1 : Configurer l’environnement, écrire votre premier program.md, lancer quelques expériences manuellement pour vérifier que la boucle fonctionne.
Nuit 1 : Démarrer l’agent avant de partir. Le configurer pour tourner indéfiniment, committant les améliorations et annulant les échecs.
Matin du jour 2 : Passer le git log en revue. Voir ce que l’agent a essayé, ce qui a marché et ce qui n’a pas marché. Mettre à jour votre program.md en fonction de ce que vous avez appris.
Nuit 2 : Relancer avec des instructions améliorées. L’agent commence là où le meilleur résultat de la nuit 1 s’est arrêté.
En une semaine : Vous avez un program.md raffiné et des dizaines d’améliorations validées qu’une équipe humaine aurait mis des mois à découvrir.
Industries prêtes pour ce pattern
Tout domaine qui implique de l’expérimentation systématique peut adopter la boucle autoresearch :
Machine learning — le cas d’usage original. Tuning des hyperparamètres, recherche d’architecture, expériences de régularisation.
Optimisation de logiciels — tuning de performance, réduction de la taille des bundles, optimisation de requêtes. Partout où vous avez une métrique mesurable et du code modifiable.
Découverte de médicaments — simulations moléculaires avec affinité de liaison mesurable. L’expérience est computationnelle, la métrique est numérique, la boucle est automatisable.
Modélisation financière — backtesting de stratégies de trading sur des données historiques. Métriques claires, retour rapide, grand espace de recherche.
Optimisation de contenu — tests A/B de titres, layouts et copy avec le taux de conversion comme métrique.
L’avantage Markdown
Dans tous les cas, la contribution de l’humain est la même : un fichier Markdown qui définit quoi optimiser, quelles contraintes respecter et quelles stratégies essayer.
C’est pourquoi la maîtrise de Markdown devient un avantage concurrentiel. Les entreprises qui écrivent les meilleurs fichiers program.md sont celles qui obtiennent les meilleurs résultats des agents autonomes. Et écrire de bons fichiers program.md nécessite une connaissance profonde du domaine, organisée dans un format que l’IA peut consommer.
Les entreprises qui construisent des bibliothèques de référence — sauvegardant documentation, analyse concurrentielle, articles de recherche et bonnes pratiques en Markdown propre — ont une longueur d’avance. Quand vient le moment d’écrire le program.md qui dirigera une expérience nocturne, elles peuvent puiser dans une base de connaissances curatée au lieu de repartir de zéro.
Save convertit n’importe quelle page web en Markdown propre — construisant la bibliothèque de connaissance dont les entreprises ont besoin pour écrire des instructions d’agent IA efficaces. Essayez Save gratuitement.
## Continue reading
Autoresearch pour tous : comment lancer 100 expériences IA pendant votre sommeil
L'autoresearch de Karpathy tourne 100+ expériences ML en une nuit sur un seul GPU. Voici comment ça marche, ce qu'il vous faut, et pourquoi un script Python de 630 lignes est en train de changer la recherche IA.
L'Autoresearch de Karpathy & PROGRAM.md : l'IA qui fait des expériences pendant que vous dormez
L'autoresearch d'Andrej Karpathy permet à des agents IA de faire tourner 100+ expériences de ML la nuit, guidés par un seul fichier Markdown appelé program.md. Voici comment ça fonctionne et pourquoi c'est important.
Le commit git comme découverte scientifique : comment Autoresearch transforme le versionnage en laboratoire de recherche
Dans l'autoresearch de Karpathy, chaque expérience réussie est un commit git. Chaque échec est un git reset. Le contrôle de version est devenu la mémoire de la recherche IA autonome.
Comment rédiger un bon program.md : guide pratique pour les instructions d'agents IA
program.md est le fichier qui programme les agents IA dans l'autoresearch de Karpathy. Voici comment en écrire un qui obtient des résultats — avec structure, exemples et bonnes pratiques.
Written by
Jean-Sébastien Wallez
I've been making internet products for 10+ years. Built Save on weekends because I wanted my own reading library in clean markdown for Claude and Obsidian. Write here about web clipping, AI workflows, and the small things that make a personal knowledge base actually useful.