La mejora del 19% de Shopify: cómo las empresas ya usan el patrón Autoresearch
Cuando Karpathy publicó autoresearch el 7 de marzo de 2026, tardó exactamente días — no semanas, no meses — para que las empresas empezaran a ejecutarlo en sus propios problemas.
El adoptante temprano más notable: el CEO de Shopify, Tobi Lutke, quien adaptó el framework de autoresearch para un proyecto interno. ¿El resultado? Un modelo de 0,8 mil millones de parámetros entrenado de noche superó a un modelo previo de 1,6 mil millones de parámetros en un 19% después de solo 37 experimentos en 8 horas.
Modelo más pequeño. Mejores resultados. Cero intervención humana durante la noche.
El patrón autoresearch en los negocios
Lo que Shopify demostró no es solo un experimento ML simpático. Es una prueba de concepto para una nueva forma en que las empresas hacen I+D.
El enfoque tradicional: contratar ingenieros ML, hacer que ejecuten experimentos manualmente, revisar resultados en reuniones, decidir los próximos pasos, repetir lentamente. Un buen equipo podría ejecutar 30 experimentos enfocados al mes.
El enfoque autoresearch: escribir un program.md definiendo tus objetivos, dejar que un agente de IA ejecute experimentos de noche, revisar los resultados por la mañana. Un ingeniero, una GPU, 100+ experimentos por noche.
La matemática es aplastante. La investigación manual produce ~1 experimento por día por investigador. Autoresearch produce ~12 por hora. Eso es un aumento de 100 veces en el rendimiento experimental.
Más allá del ML: los 36.500 experimentos al año
El patrón se extiende más allá del entrenamiento de modelos. Los equipos de marketing normalmente realizan unos 30 experimentos al año — pruebas A/B, variaciones de copy, cambios de targeting de audiencia. Es lento porque cada experimento requiere configuración, monitoreo y análisis humanos.
Los adoptantes tempranos ya imaginan un mundo donde agentes autónomos ejecutan 100 experimentos de marketing al día, midiendo tasas de conversión, ajustando copy e iterando sobre el targeting — todo guiado por un program.md que define los objetivos y restricciones de la marca.
Eso son 36.500+ experimentos al año frente a 30. Las empresas que adopten este patrón primero tendrán una ventaja compuesta que será casi imposible de alcanzar.
Lo que hizo posibles los resultados de Shopify
La mejora del 19% de Shopify no fue suerte. Varios factores lo hicieron funcionar:
Métricas claras. Tenían una métrica de evaluación bien definida que el agente podía medir automáticamente después de cada experimento. Sin medición automatizada, el bucle se rompe.
Alcance restringido. Como el train.py de 630 líneas de Karpathy, Shopify mantuvo la base de código modificable lo suficientemente pequeña para que el LLM la entendiera completamente. No lanzas una base de código de un millón de líneas a un agente y esperas lo mejor.
Buenas instrucciones iniciales. El program.md que dirigía al agente estaba informado por el conocimiento del dominio del equipo. El agente no buscaba aleatoriamente — exploraba direcciones que el equipo había identificado como prometedoras.
Confianza en el proceso. Lo dejaron correr de noche sin intervenir. La tentación de verificar y ajustar cada hora derrota el propósito de la experimentación autónoma.
El patrón de ejecución nocturna
La adopción típica de autoresearch sigue un patrón:
Día 1: Configurar el entorno, escribir tu primer program.md, ejecutar algunos experimentos manualmente para verificar que el bucle funciona.
Noche 1: Iniciar el agente antes de salir. Configurarlo para que corra indefinidamente, commiteando mejoras y revirtiendo fallos.
Mañana del día 2: Revisar el git log. Ver qué intentó el agente, qué funcionó y qué no. Actualizar tu program.md basándote en lo que aprendiste.
Noche 2: Ejecutar de nuevo con instrucciones mejoradas. El agente empieza desde donde quedó el mejor resultado de la noche 1.
En una semana: Tienes un program.md refinado y docenas de mejoras validadas que un equipo humano habría tardado meses en descubrir.
Industrias listas para este patrón
Cualquier campo que implique experimentación sistemática puede adoptar el bucle autoresearch:
Machine learning — el caso de uso original. Ajuste de hiperparámetros, búsqueda de arquitectura, experimentos de regularización.
Optimización de software — ajuste de rendimiento, reducción del tamaño del bundle, optimización de consultas. Donde sea que tengas una métrica medible y código modificable.
Descubrimiento de fármacos — simulaciones moleculares con afinidad de unión medible. El experimento es computacional, la métrica es numérica, el bucle es automatizable.
Modelización financiera — backtesting de estrategias de trading contra datos históricos. Métricas claras, retroalimentación rápida, gran espacio de búsqueda.
Optimización de contenido — pruebas A/B de titulares, layouts y copy con tasa de conversión como métrica.
La ventaja del Markdown
En todos los casos, la contribución del humano es la misma: un archivo Markdown que define qué optimizar, qué restricciones respetar y qué estrategias intentar.
Por eso la alfabetización en Markdown se está convirtiendo en una ventaja competitiva. Las empresas que escriben los mejores archivos program.md son las que obtienen los mejores resultados de los agentes autónomos. Y escribir buenos archivos program.md requiere conocimiento profundo del dominio organizado en un formato que la IA pueda consumir.
Las empresas que construyen bibliotecas de referencia — guardando documentación, análisis competitivos, artículos de investigación y mejores prácticas como Markdown limpio — tienen ventaja. Cuando llega el momento de escribir el program.md que dirigirá un experimento nocturno, pueden recurrir a una base de conocimiento curada en lugar de empezar desde cero.
Save convierte cualquier página web en Markdown limpio — construyendo la biblioteca de conocimiento que las empresas necesitan para escribir instrucciones de agente de IA efectivas. Prueba Save gratis.
## Continue reading
Autoresearch para todos: cómo ejecutar 100 experimentos de IA mientras duermes
El autoresearch de Karpathy ejecuta más de 100 experimentos ML en una sola noche con una sola GPU. Así funciona, qué necesitas, y por qué un script de Python de 630 líneas está cambiando la investigación de IA.
El Autoresearch de Karpathy & PROGRAM.md: la IA que hace experimentos mientras duermes
El autoresearch de Andrej Karpathy permite a agentes IA ejecutar 100+ experimentos de ML durante la noche, guiados por un solo archivo Markdown llamado program.md. Aquí está cómo funciona y por qué importa.
El commit de Git como descubrimiento científico: cómo Autoresearch convierte el control de versiones en un laboratorio de investigación
En el autoresearch de Karpathy, cada experimento exitoso es un commit de git. Cada fallido es un git reset. El control de versiones se ha convertido en la memoria de la investigación IA autónoma.
Cómo escribir un buen program.md: guía práctica para instrucciones de agentes IA
program.md es el archivo que programa agentes IA en el autoresearch de Karpathy. Aquí está cómo escribir uno que obtenga resultados — con estructura, ejemplos y mejores prácticas.
Written by
Jean-Sébastien Wallez
I've been making internet products for 10+ years. Built Save on weekends because I wanted my own reading library in clean markdown for Claude and Obsidian. Write here about web clipping, AI workflows, and the small things that make a personal knowledge base actually useful.