El commit de Git como descubrimiento científico: cómo Autoresearch convierte el control de versiones en un laboratorio de investigación

En el desarrollo de software tradicional, un commit de git significa “este código funciona”. En el autoresearch de Karpathy, un commit de git significa algo diferente: “este cambio mejoró el modelo de forma medible”.

Cada commit es un pequeño descubrimiento científico. Cada git reset es una hipótesis que no dio resultado. El git log se convierte en un diario de investigación, escrito automáticamente por un agente de IA.

Este es el control de versiones reimaginado como herramienta de investigación.

La decisión binaria

El uso de git en autoresearch es elegantemente simple:

El agente modifica train.py
El entrenamiento corre durante 5 minutos
Se mide el validation loss
Si mejoró: git commit — el cambio se conserva
Si no mejoró: git reset — el cambio nunca ocurrió

Sin pull requests. Sin revisión de código. Sin conflictos de merge. Solo una decisión binaria: ¿este cambio mejoró las cosas o no?

Esto crea un historial limpio y lineal de mejoras. Cada commit en el log representa un paso validado hacia adelante. Sin ruido — sin commits “WIP”, sin commits “arreglar typo”, sin cadenas “revert revert”. Solo una secuencia de cambios que cada uno mejoró el modelo de forma medible.

El git log como diario de investigación

Después de una sesión nocturna de autoresearch, el git log se lee como un cuaderno de investigación:

Cada mensaje de commit (escrito por el agente de IA) describe qué se cambió y qué efecto tuvo. El diff muestra exactamente qué código se modificó. La mejora en el validation loss queda registrada.

Esto es radicalmente más auditable que la investigación ML tradicional. En lugar de notas de un investigador que dicen “intenté ajustar la tasa de aprendizaje, pareció ayudar”, tienes un diff exacto, una medición exacta y un resultado reproducible.

Memoria entre sesiones

Git le da a autoresearch algo que los agentes de IA necesitan desesperadamente: memoria persistente.

Cuando inicias una nueva sesión de autoresearch, el agente puede leer el historial de git para entender qué se intentó antes. Puede ver qué direcciones produjeron mejoras y cuáles no. Esto evita que el agente reintente experimentos fallidos y le ayuda a construir sobre lo que funcionó.

Esto es Markdown más git trabajando juntos: el archivo program.md proporciona dirección estratégica (qué intentar), y el historial de git proporciona contexto táctico (qué se ha intentado).

El efecto compuesto

Porque cada commit exitoso se convierte en la nueva línea base, las mejoras se acumulan. El agente no empieza desde cero cada noche — empieza desde el mejor resultado logrado hasta ahora.

En la ejecución de dos días de Karpathy, se acumularon unas 20 mejoras. Cada una era pequeña, pero juntas redujeron el tiempo de entrenamiento de GPT-2 en un 11%. El agente encontró optimizaciones en escalado de atención, regularización e hiperparámetros que se construían unas sobre otras.

Este es el poder del enfoque basado en git: crea naturalmente un trinquete. El progreso queda bloqueado como commits. Los fallos se descartan. La base de código solo avanza.

Lo que se revierte

Los experimentos fallidos — las operaciones git reset — son tan interesantes como los éxitos. En una ejecución nocturna típica, alrededor del 70-80% de los experimentos se revierten.

Estos experimentos revertidos no son un desperdicio. Son resultados negativos que informan las decisiones futuras del agente. Con memoria cross-agent e historial de git compartido, un sistema de autoresearch distribuido puede aprender de los fallos en todo el enjambre.

Git como base de datos de experimentos

La investigación ML tradicional usa herramientas de seguimiento de experimentos — MLflow, Weights & Biases, Neptune — para registrar hiperparámetros, métricas y artefactos.

Autoresearch reemplaza todo esto con git. El historial de commits ES el log de experimentos. Los diffs SON los cambios de hiperparámetros. Los mensajes de commits SON las descripciones de los experimentos.

Esta simplificación es poderosa. No hay base de datos de experimentos separada que mantener. No hay dashboard que configurar. No hay esquema que definir. Solo git, que todo desarrollador ya conoce.

El patrón más amplio

El patrón git-como-diario-de-investigación funciona más allá del entrenamiento ML:

Optimización de código: Cada commit representa un cambio que hizo el código más rápido
Cobertura de pruebas: Cada commit representa un cambio que mejoró la cobertura de pruebas
Corrección de bugs: Cada commit representa un arreglo que resolvió una prueba fallida
Optimización de contenido: Cada commit representa un cambio que mejoró una métrica medible

Cualquier dominio donde puedas medir automáticamente “mejor” y “peor” puede usar git como rastreador de experimentos.

El papel del humano: leer el log

En la ingeniería agéntica, la rutina matutina del humano después de una sesión nocturna de autoresearch es leer el git log.

Esta es una habilidad diferente a escribir código. Estás evaluando una serie de cambios generados por IA, entendiendo por qué cada uno funcionó, y decidiendo si la dirección general es correcta. Basándote en esta revisión, actualizas tu program.md para dirigir la siguiente sesión.

El git log es el canal de comunicación entre el humano y el agente. El agente se comunica a través de commits. El humano se comunica a través de las actualizaciones de program.md. Markdown fluye en ambas direcciones.

Construir conocimiento compatible con git

Escribir archivos program.md efectivos — el tipo que produce historiales de git limpios y significativos — requiere entender tanto el dominio como las herramientas. Las mejores instrucciones de agente provienen de personas que han estudiado el espacio del problema en profundidad.

Guardar material de referencia como Markdown limpio crea una base de conocimiento de la que puedes sacar al escribir instrucciones de agente. Documentación, artículos de investigación y mejores prácticas, todos en el formato que fluye naturalmente hacia un program.md y finalmente hacia un historial de git de descubrimientos.

Save convierte cualquier página web en Markdown limpio — construyendo la biblioteca de conocimiento que impulsa instrucciones de agente de IA efectivas e investigación autónoma. Prueba Save gratis.

El commit de Git como descubrimiento científico: cómo Autoresearch convierte el control de versiones en un laboratorio de investigación

La decisión binaria

El git log como diario de investigación

Memoria entre sesiones

El efecto compuesto

Lo que se revierte

Git como base de datos de experimentos

El patrón más amplio

El papel del humano: leer el log

Construir conocimiento compatible con git

## Continue reading

Autoresearch para todos: cómo ejecutar 100 experimentos de IA mientras duermes

Cómo escribir un buen program.md: guía práctica para instrucciones de agentes IA

El Autoresearch de Karpathy & PROGRAM.md: la IA que hace experimentos mientras duermes

De README.md a PROGRAM.md: Markdown ya es un lenguaje de programación

Jean-Sébastien Wallez