Autoresearch para todos: cómo ejecutar 100 experimentos de IA mientras duermes
¿Y si pudieras ejecutar 100 experimentos de machine learning de noche — en una sola GPU — sin escribir una sola línea de código?
Eso es exactamente lo que hace el autoresearch de Andrej Karpathy. Publicado el 7 de marzo de 2026, este script de Python de 630 líneas permite que agentes de IA modifiquen autónomamente el código de entrenamiento, ejecuten experimentos, evalúen resultados y sigan mejorando — mientras duermes.
En dos días, el anuncio tenía millones de vistas. Investigadores, desarrolladores y empresas ya estaban ejecutando sus propios experimentos nocturnos.
Así funciona y por qué importa.
El bucle principal
El diseño de Autoresearch es elegante en su simplicidad:
- Leer el archivo
program.md(tus instrucciones en Markdown) - Modificar
train.pybasándose en esas instrucciones - Entrenar durante exactamente 5 minutos
- Medir el resultado (validation loss)
- Conservar o descartar — si la métrica mejoró, commit; si no, git reset
- Repetir indefinidamente
A aproximadamente 12 experimentos por hora, obtienes alrededor de 100 experimentos en una sesión nocturna. Cada mejora exitosa se construye sobre la anterior, creando un efecto compuesto.
Lo que necesitas
La barrera de entrada es notablemente baja:
- Una GPU — todo el sistema está diseñado para entrenamiento en una sola GPU
- 630 líneas de Python — suficientemente pequeño para caber en la ventana de contexto de cualquier LLM
- Una clave API de LLM — Claude, GPT u otro modelo capaz
- Un archivo
program.md— tus instrucciones en Markdown diciéndole al agente qué optimizar
Eso es todo. Sin cluster. Sin configuración de entrenamiento distribuido. Sin equipo de ingeniería ML. Una persona, una GPU, un archivo Markdown.
Resultados reales
Karpathy dejó correr autoresearch durante aproximadamente dos días en un modelo depth-12. El agente de IA descubrió de forma autónoma alrededor de 20 mejoras:
- El tiempo de entrenamiento para el benchmark GPT-2 bajó de 2,02 horas a 1,80 horas
- Una mejora del 11 % sin intervención humana
- El agente encontró problemas que los humanos habían pasado por alto: mecanismos de atención sin el escalado adecuado, regularización faltante e hiperparámetros subóptimos
La idea clave: el agente descubrió cosas que investigadores ML experimentados no habían notado. No porque sea más inteligente, sino porque podía probar 100 variaciones donde un humano podría probar 5.
Por qué importan las 630 líneas
La base de código es intencionalmente diminuta. Con ~630 líneas, el archivo train.py completo cabe en la ventana de contexto de un LLM. Esta es una decisión de diseño crítica.
Si el agente puede ver todo el sistema de una vez, puede hacer modificaciones inteligentes. Entiende cómo la tasa de aprendizaje interactúa con el tamaño del batch, cómo el mecanismo de atención se conecta a la capa de salida, cómo un cambio se propaga por todo el pipeline de entrenamiento.
Dale a un agente de IA una base de código de 50.000 líneas y hará cambios locales que podrían no tener sentido globalmente. Dale 630 líneas y puede razonar sobre todo el sistema.
El presupuesto de 5 minutos
Cada experimento dura exactamente 5 minutos. Esta restricción es brillante:
Hace los experimentos comparables. Si una ejecución tarda 3 minutos y otra 20, no puedes comparar sus resultados de forma justa. Un presupuesto de tiempo fijo significa que cada mejora se mide en igualdad de condiciones.
Permite una iteración rápida. 5 minutos es suficientemente largo para ver un progreso de entrenamiento significativo pero suficientemente corto para ejecutar 12 experimentos por hora.
Previene costos desbocados. Sin límite de tiempo, un agente podría entrenar durante horas en un solo cambio prometedor. El límite de 5 minutos mantiene el bucle de retroalimentación ajustado.
La memoria Git
Cada experimento es un commit de git. Esto le da al sistema memoria:
- Los cambios exitosos se commitean en una rama feature, construyendo una cadena de mejoras
- Los experimentos fallidos se revierten con
git reset, sin dejar rastro - El historial muestra exactamente qué se intentó, qué funcionó y qué no
Esto significa que puedes revisar el trabajo del agente como una serie de commits de git. Cada mensaje de commit explica qué cambió el agente y por qué. Es un registro de auditoría completo de la investigación autónoma.
Más allá del ML: el patrón que importa
Autoresearch trata sobre el entrenamiento de modelos de lenguaje, pero el patrón que introduce es universal:
El humano escribe instrucciones en Markdown → el agente de IA ejecuta autónomamente → los resultados se miden y conservan/descartan → el bucle se repite
Este patrón funciona en cualquier dominio donde puedas:
- Definir objetivos claros en lenguaje natural
- Medir el éxito automáticamente
- Conservar o descartar cambios según los resultados
Las empresas ya aplican este patrón más allá de la investigación ML — para optimización de código, experimentos de marketing y desarrollo de productos.
El enfoque Markdown-first
En el centro de autoresearch hay un archivo Markdown. No Python. No YAML. No una interfaz gráfica. Un archivo de texto plano que cualquiera puede leer y editar.
Esto importa porque reduce la barrera para dirigir la investigación de IA. No necesitas ser un ingeniero ML para escribir un program.md. Necesitas entender el problema, los objetivos y las restricciones. El agente se encarga de la implementación.
El cambio de habilidades es claro: de saber cómo escribir código de entrenamiento a saber cómo escribir instrucciones de agente efectivas.
Empezar
Si quieres probar el patrón autoresearch (incluso fuera del ML), empieza con estos pasos:
- Define tu métrica. ¿Qué significa “mejor” y cómo lo mides automáticamente?
- Escribe tu program.md. Establece objetivos, restricciones y estrategia en Markdown claro.
- Mantén el alcance pequeño. Como la base de código de 630 líneas de autoresearch, los sistemas más pequeños dan mejores resultados.
- Déjalo correr. El objetivo es la operación autónoma. Resiste el impulso de intervenir.
- Revisa los resultados. Consulta el historial de git para ver qué intentó el agente y qué funcionó.
Construir el conocimiento para escribir buenas instrucciones
La calidad de tu program.md depende de tu conocimiento del dominio. Cuanto más entiendas el espacio del problema, mejores serán tus instrucciones.
Aquí es donde tener una biblioteca curada de material de referencia en formato Markdown se vuelve valioso. Documentación, artículos, publicaciones de blog y ejemplos — todo guardado como Markdown limpio, listo para informar tus instrucciones de agente.
Save convierte cualquier página web en Markdown limpio — construyendo la biblioteca de referencia que necesitas para escribir instrucciones de agente de IA efectivas. Prueba Save gratis.
## Continue reading
El commit de Git como descubrimiento científico: cómo Autoresearch convierte el control de versiones en un laboratorio de investigación
En el autoresearch de Karpathy, cada experimento exitoso es un commit de git. Cada fallido es un git reset. El control de versiones se ha convertido en la memoria de la investigación IA autónoma.
El Autoresearch de Karpathy & PROGRAM.md: la IA que hace experimentos mientras duermes
El autoresearch de Andrej Karpathy permite a agentes IA ejecutar 100+ experimentos de ML durante la noche, guiados por un solo archivo Markdown llamado program.md. Aquí está cómo funciona y por qué importa.
La mejora del 19% de Shopify: cómo las empresas ya usan el patrón Autoresearch
Días después de que Karpathy publicara autoresearch, el CEO de Shopify lo ejecutó en sus propios modelos y vio una mejora del 19%. Así es como las empresas están adoptando la experimentación IA autónoma.
Cómo escribir un buen program.md: guía práctica para instrucciones de agentes IA
program.md es el archivo que programa agentes IA en el autoresearch de Karpathy. Aquí está cómo escribir uno que obtenga resultados — con estructura, ejemplos y mejores prácticas.
Written by
Jean-Sébastien Wallez
I've been making internet products for 10+ years. Built Save on weekends because I wanted my own reading library in clean markdown for Claude and Obsidian. Write here about web clipping, AI workflows, and the small things that make a personal knowledge base actually useful.