← Volver al blog

Cómo convertir artículos de arXiv a Markdown para investigación en IA

· Save Team
arxivresearchacademicaimarkdown

Los artículos de arXiv son PDFs. Los PDFs son terribles para los flujos de trabajo de IA. No se buscan bien, desperdician tokens cuando se pasan a los LLM y no pueden combinarse fácilmente con otros materiales de investigación en una base de conocimiento.

Si estás haciendo investigación en IA --- o en cualquier campo que dependa de arXiv --- convertir los artículos a Markdown lo cambia todo.

¿Por qué Markdown para artículos de investigación?

Los LLM entienden Markdown de forma nativa. Dale a Claude o ChatGPT un PDF y luchará con el formateo, los saltos de página y los diseños de dos columnas. Dale Markdown y lo lee perfectamente --- cada ecuación, cada bloque de código, cada referencia.

10 veces menos tokens. Un artículo típico de arXiv tiene 200-500 KB en PDF. El mismo contenido en Markdown es 10-30 KB. Eso significa que puedes meter 10 veces más artículos en una sola ventana de contexto de Claude.

Buscable en toda tu biblioteca. Con 50 artículos como archivos Markdown en una carpeta, puedes buscar cualquier concepto en todos ellos con grep en milisegundos. Intenta eso con PDFs.

Funciona con Obsidian. Los artículos como archivos Markdown en Obsidian se vuelven enlazados, etiquetados y buscables. Añade tus propias notas en línea. Crea conexiones entre artículos con [[wikilinks]].

Cómo guardar artículos de arXiv como Markdown

Método 1: extensión Save (recomendado)

Save convierte la página de resumen de arXiv (y muchos artículos renderizados en HTML) a Markdown limpio.

  1. Abre la página del artículo de arXiv (p.ej., arxiv.org/abs/2401.12345)
  2. Haz clic en el icono de la extensión Save
  3. Obtén un archivo Markdown con el título, los autores, el resumen y el contenido disponible

Para artículos con versiones HTML (cada vez más comunes en arXiv), Save extrae el contenido completo del artículo incluyendo ecuaciones, referencias a figuras y citas.

Método 2: HTML de arXiv + Save

Muchos artículos recientes tienen una versión HTML en arXiv (busca el enlace “HTML” junto al PDF). Abre la versión HTML y usa Save --- obtendrás el artículo completo como Markdown limpio.

Método 3: Semantic Scholar o Papers With Code

Estos sitios a menudo tienen renderizados HTML más limpios de los artículos. Abre la página del artículo y usa Save.

Construir una base de conocimiento de investigación

El verdadero poder viene de acumular artículos con el tiempo:

research/
  attention/
    attention-is-all-you-need.md
    flash-attention-v2.md
    multi-head-latent-attention.md
  scaling/
    chinchilla-scaling-laws.md
    scaling-data-constrained.md
  agents/
    toolformer.md
    react-prompting.md
    mcp-protocol.md

Apunta Claude Code hacia esta carpeta:

cd research
claude

Ahora puedes preguntar: “Compara los mecanismos de atención en estos artículos” o “¿Cuáles son los hallazgos clave sobre las leyes de escalado?” Claude lee todos tus artículos y sintetiza respuestas basadas en investigación real.

El patrón Karpathy

Andrej Karpathy describió este enfoque: construir una wiki personal de archivos Markdown y dejar que un LLM investigue a través de ellos. Para investigadores de IA, esto significa:

  1. Guardar cada artículo importante como Markdown
  2. Organizar por tema
  3. Añadir tus propias notas y anotaciones
  4. Dejar que Claude o ChatGPT trabaje con toda la colección

Después de unos meses, tienes un asistente de investigación personal que conoce cada artículo que has leído.

Empezar

Instala Save y comienza con el próximo artículo de arXiv que leas. Con el tiempo, tu biblioteca de investigación Markdown se convierte en algo que ninguna IA genérica puede igualar.


Convierte artículos de arXiv en una base de conocimiento buscable y legible por IA. Instala Save --- gratis para empezar.