Comment convertir des articles arXiv en Markdown pour la recherche en IA

Les articles arXiv sont des PDF. Les PDF sont mauvais pour les workflows IA. Ils ne se consultent pas bien, ils gaspillent des tokens quand on les passe aux LLM, et on ne peut pas facilement les combiner avec d’autres matériaux de recherche dans une base de connaissances.

Si vous faites de la recherche en IA --- ou dans n’importe quel domaine qui s’appuie sur arXiv --- convertir les articles en Markdown change tout.

Pourquoi Markdown pour les articles de recherche ?

Les LLM comprennent Markdown nativement. Donnez un PDF à Claude ou ChatGPT et il se débattra avec la mise en forme, les sauts de page et les mises en page en deux colonnes. Donnez-lui du Markdown et il lit parfaitement --- chaque équation, chaque bloc de code, chaque référence.

10 fois moins de tokens. Un article arXiv typique fait 200-500 Ko en PDF. Le même contenu en Markdown fait 10-30 Ko. Cela signifie que vous pouvez faire tenir 10 fois plus d’articles dans une seule fenêtre de contexte Claude.

Consultable dans toute votre bibliothèque. Avec 50 articles en fichiers Markdown dans un dossier, vous pouvez chercher n’importe quel concept dans tous en quelques millisecondes avec grep. Essayez ça avec des PDF.

Fonctionne avec Obsidian. Les articles en fichiers Markdown dans Obsidian deviennent liés, tagués et consultables. Ajoutez vos propres notes en ligne. Créez des liens entre les articles avec des [[wikiliens]].

Comment enregistrer des articles arXiv en Markdown

Méthode 1 : extension Save (recommandée)

Save convertit la page abstraite arXiv (et de nombreux articles rendus en HTML) en Markdown propre.

Ouvrir la page d’article arXiv (ex. arxiv.org/abs/2401.12345)
Cliquer sur l’icône de l’extension Save
Obtenir un fichier Markdown avec le titre, les auteurs, l’abstract et le contenu disponible

Pour les articles avec des versions HTML (de plus en plus courantes sur arXiv), Save extrait le contenu complet de l’article, y compris les équations, les références aux figures et les citations.

Méthode 2 : HTML arXiv + Save

De nombreux articles récents ont une version HTML sur arXiv (cherchez le lien « HTML » à côté du PDF). Ouvrez la version HTML et utilisez Save --- vous obtiendrez l’article complet en Markdown propre.

Méthode 3 : Semantic Scholar ou Papers With Code

Ces sites ont souvent des rendus HTML plus propres des articles. Ouvrez la page de l’article et utilisez Save.

Construire une base de connaissances de recherche

La vraie puissance vient de l’accumulation d’articles au fil du temps :

research/
  attention/
    attention-is-all-you-need.md
    flash-attention-v2.md
    multi-head-latent-attention.md
  scaling/
    chinchilla-scaling-laws.md
    scaling-data-constrained.md
  agents/
    toolformer.md
    react-prompting.md
    mcp-protocol.md

Pointez Claude Code sur ce dossier :

cd research
claude

Maintenant vous pouvez demander : « Compare les mécanismes d’attention dans ces articles » ou « Quels sont les résultats clés sur les lois de scaling ? » Claude lit tous vos articles et synthétise des réponses ancrées dans la recherche réelle.

Le schéma Karpathy

Andrej Karpathy a décrit cette approche : construire un wiki personnel de fichiers Markdown, laisser un LLM faire des recherches dessus. Pour les chercheurs en IA, cela signifie :

Enregistrer chaque article important en Markdown
Organiser par sujet
Ajouter ses propres notes et annotations
Laisser Claude ou ChatGPT travailler avec l’ensemble de la collection

Après quelques mois, vous avez un assistant de recherche personnel qui connaît chaque article que vous avez lu.

Pour commencer

Installez Save et commencez avec le prochain article arXiv que vous lisez. Au fil du temps, votre bibliothèque de recherche Markdown se transforme en quelque chose qu’aucune IA générique ne peut égaler.

Transformez des articles arXiv en une base de connaissances consultable et lisible par IA. Installez Save --- gratuit pour commencer.

Comment convertir des articles arXiv en Markdown pour la recherche en IA

Pourquoi Markdown pour les articles de recherche ?

Comment enregistrer des articles arXiv en Markdown

Méthode 1 : extension Save (recommandée)

Méthode 2 : HTML arXiv + Save

Méthode 3 : Semantic Scholar ou Papers With Code

Construire une base de connaissances de recherche

Le schéma Karpathy

Pour commencer

## Continue reading

Comment enregistrer des articles arXiv en Markdown

Comment sauvegarder des articles de recherche dans Obsidian en Markdown propre

Pourquoi Markdown est le meilleur format pour les prompts IA

Comment enregistrer une conversation Claude en Markdown (Artifacts, citations, Projects)

Jean-Sébastien Wallez