Autoresearch para todos: cómo ejecutar 100 experimentos de IA mientras duermes

¿Y si pudieras ejecutar 100 experimentos de machine learning de noche — en una sola GPU — sin escribir una sola línea de código?

Eso es exactamente lo que hace el autoresearch de Andrej Karpathy. Publicado el 7 de marzo de 2026, este script de Python de 630 líneas permite que agentes de IA modifiquen autónomamente el código de entrenamiento, ejecuten experimentos, evalúen resultados y sigan mejorando — mientras duermes.

En dos días, el anuncio tenía millones de vistas. Investigadores, desarrolladores y empresas ya estaban ejecutando sus propios experimentos nocturnos.

Así funciona y por qué importa.

El bucle principal

El diseño de Autoresearch es elegante en su simplicidad:

Leer el archivo program.md (tus instrucciones en Markdown)
Modificar train.py basándose en esas instrucciones
Entrenar durante exactamente 5 minutos
Medir el resultado (validation loss)
Conservar o descartar — si la métrica mejoró, commit; si no, git reset
Repetir indefinidamente

A aproximadamente 12 experimentos por hora, obtienes alrededor de 100 experimentos en una sesión nocturna. Cada mejora exitosa se construye sobre la anterior, creando un efecto compuesto.

Lo que necesitas

La barrera de entrada es notablemente baja:

Una GPU — todo el sistema está diseñado para entrenamiento en una sola GPU
630 líneas de Python — suficientemente pequeño para caber en la ventana de contexto de cualquier LLM
Una clave API de LLM — Claude, GPT u otro modelo capaz
Un archivo program.md — tus instrucciones en Markdown diciéndole al agente qué optimizar

Eso es todo. Sin cluster. Sin configuración de entrenamiento distribuido. Sin equipo de ingeniería ML. Una persona, una GPU, un archivo Markdown.

Resultados reales

Karpathy dejó correr autoresearch durante aproximadamente dos días en un modelo depth-12. El agente de IA descubrió de forma autónoma alrededor de 20 mejoras:

El tiempo de entrenamiento para el benchmark GPT-2 bajó de 2,02 horas a 1,80 horas
Una mejora del 11 % sin intervención humana
El agente encontró problemas que los humanos habían pasado por alto: mecanismos de atención sin el escalado adecuado, regularización faltante e hiperparámetros subóptimos

La idea clave: el agente descubrió cosas que investigadores ML experimentados no habían notado. No porque sea más inteligente, sino porque podía probar 100 variaciones donde un humano podría probar 5.

Por qué importan las 630 líneas

La base de código es intencionalmente diminuta. Con ~630 líneas, el archivo train.py completo cabe en la ventana de contexto de un LLM. Esta es una decisión de diseño crítica.

Si el agente puede ver todo el sistema de una vez, puede hacer modificaciones inteligentes. Entiende cómo la tasa de aprendizaje interactúa con el tamaño del batch, cómo el mecanismo de atención se conecta a la capa de salida, cómo un cambio se propaga por todo el pipeline de entrenamiento.

Dale a un agente de IA una base de código de 50.000 líneas y hará cambios locales que podrían no tener sentido globalmente. Dale 630 líneas y puede razonar sobre todo el sistema.

El presupuesto de 5 minutos

Cada experimento dura exactamente 5 minutos. Esta restricción es brillante:

Hace los experimentos comparables. Si una ejecución tarda 3 minutos y otra 20, no puedes comparar sus resultados de forma justa. Un presupuesto de tiempo fijo significa que cada mejora se mide en igualdad de condiciones.

Permite una iteración rápida. 5 minutos es suficientemente largo para ver un progreso de entrenamiento significativo pero suficientemente corto para ejecutar 12 experimentos por hora.

Previene costos desbocados. Sin límite de tiempo, un agente podría entrenar durante horas en un solo cambio prometedor. El límite de 5 minutos mantiene el bucle de retroalimentación ajustado.

La memoria Git

Cada experimento es un commit de git. Esto le da al sistema memoria:

Los cambios exitosos se commitean en una rama feature, construyendo una cadena de mejoras
Los experimentos fallidos se revierten con git reset, sin dejar rastro
El historial muestra exactamente qué se intentó, qué funcionó y qué no

Esto significa que puedes revisar el trabajo del agente como una serie de commits de git. Cada mensaje de commit explica qué cambió el agente y por qué. Es un registro de auditoría completo de la investigación autónoma.

Más allá del ML: el patrón que importa

Autoresearch trata sobre el entrenamiento de modelos de lenguaje, pero el patrón que introduce es universal:

El humano escribe instrucciones en Markdown → el agente de IA ejecuta autónomamente → los resultados se miden y conservan/descartan → el bucle se repite

Este patrón funciona en cualquier dominio donde puedas:

Definir objetivos claros en lenguaje natural
Medir el éxito automáticamente
Conservar o descartar cambios según los resultados

Las empresas ya aplican este patrón más allá de la investigación ML — para optimización de código, experimentos de marketing y desarrollo de productos.

El enfoque Markdown-first

En el centro de autoresearch hay un archivo Markdown. No Python. No YAML. No una interfaz gráfica. Un archivo de texto plano que cualquiera puede leer y editar.

Esto importa porque reduce la barrera para dirigir la investigación de IA. No necesitas ser un ingeniero ML para escribir un program.md. Necesitas entender el problema, los objetivos y las restricciones. El agente se encarga de la implementación.

El cambio de habilidades es claro: de saber cómo escribir código de entrenamiento a saber cómo escribir instrucciones de agente efectivas.

Empezar

Si quieres probar el patrón autoresearch (incluso fuera del ML), empieza con estos pasos:

Define tu métrica. ¿Qué significa “mejor” y cómo lo mides automáticamente?
Escribe tu program.md. Establece objetivos, restricciones y estrategia en Markdown claro.
Mantén el alcance pequeño. Como la base de código de 630 líneas de autoresearch, los sistemas más pequeños dan mejores resultados.
Déjalo correr. El objetivo es la operación autónoma. Resiste el impulso de intervenir.
Revisa los resultados. Consulta el historial de git para ver qué intentó el agente y qué funcionó.

Construir el conocimiento para escribir buenas instrucciones

La calidad de tu program.md depende de tu conocimiento del dominio. Cuanto más entiendas el espacio del problema, mejores serán tus instrucciones.

Aquí es donde tener una biblioteca curada de material de referencia en formato Markdown se vuelve valioso. Documentación, artículos, publicaciones de blog y ejemplos — todo guardado como Markdown limpio, listo para informar tus instrucciones de agente.

Save convierte cualquier página web en Markdown limpio — construyendo la biblioteca de referencia que necesitas para escribir instrucciones de agente de IA efectivas. Prueba Save gratis.

Autoresearch para todos: cómo ejecutar 100 experimentos de IA mientras duermes

El bucle principal

Lo que necesitas

Resultados reales

Por qué importan las 630 líneas

El presupuesto de 5 minutos

La memoria Git

Más allá del ML: el patrón que importa

El enfoque Markdown-first

Empezar

Construir el conocimiento para escribir buenas instrucciones

## Continue reading

El commit de Git como descubrimiento científico: cómo Autoresearch convierte el control de versiones en un laboratorio de investigación

El Autoresearch de Karpathy & PROGRAM.md: la IA que hace experimentos mientras duermes

La mejora del 19% de Shopify: cómo las empresas ya usan el patrón Autoresearch

Cómo escribir un buen program.md: guía práctica para instrucciones de agentes IA

Jean-Sébastien Wallez