Comment convertir des articles arXiv en Markdown pour la recherche en IA
Les articles arXiv sont des PDF. Les PDF sont mauvais pour les workflows IA. Ils ne se consultent pas bien, ils gaspillent des tokens quand on les passe aux LLM, et on ne peut pas facilement les combiner avec d’autres matériaux de recherche dans une base de connaissances.
Si vous faites de la recherche en IA --- ou dans n’importe quel domaine qui s’appuie sur arXiv --- convertir les articles en Markdown change tout.
Pourquoi Markdown pour les articles de recherche ?
Les LLM comprennent Markdown nativement. Donnez un PDF à Claude ou ChatGPT et il se débattra avec la mise en forme, les sauts de page et les mises en page en deux colonnes. Donnez-lui du Markdown et il lit parfaitement --- chaque équation, chaque bloc de code, chaque référence.
10 fois moins de tokens. Un article arXiv typique fait 200-500 Ko en PDF. Le même contenu en Markdown fait 10-30 Ko. Cela signifie que vous pouvez faire tenir 10 fois plus d’articles dans une seule fenêtre de contexte Claude.
Consultable dans toute votre bibliothèque. Avec 50 articles en fichiers Markdown dans un dossier, vous pouvez chercher n’importe quel concept dans tous en quelques millisecondes avec grep. Essayez ça avec des PDF.
Fonctionne avec Obsidian. Les articles en fichiers Markdown dans Obsidian deviennent liés, tagués et consultables. Ajoutez vos propres notes en ligne. Créez des liens entre les articles avec des [[wikiliens]].
Comment enregistrer des articles arXiv en Markdown
Méthode 1 : extension Save (recommandée)
Save convertit la page abstraite arXiv (et de nombreux articles rendus en HTML) en Markdown propre.
- Ouvrir la page d’article arXiv (ex.
arxiv.org/abs/2401.12345) - Cliquer sur l’icône de l’extension Save
- Obtenir un fichier Markdown avec le titre, les auteurs, l’abstract et le contenu disponible
Pour les articles avec des versions HTML (de plus en plus courantes sur arXiv), Save extrait le contenu complet de l’article, y compris les équations, les références aux figures et les citations.
Méthode 2 : HTML arXiv + Save
De nombreux articles récents ont une version HTML sur arXiv (cherchez le lien « HTML » à côté du PDF). Ouvrez la version HTML et utilisez Save --- vous obtiendrez l’article complet en Markdown propre.
Méthode 3 : Semantic Scholar ou Papers With Code
Ces sites ont souvent des rendus HTML plus propres des articles. Ouvrez la page de l’article et utilisez Save.
Construire une base de connaissances de recherche
La vraie puissance vient de l’accumulation d’articles au fil du temps :
research/
attention/
attention-is-all-you-need.md
flash-attention-v2.md
multi-head-latent-attention.md
scaling/
chinchilla-scaling-laws.md
scaling-data-constrained.md
agents/
toolformer.md
react-prompting.md
mcp-protocol.md
Pointez Claude Code sur ce dossier :
cd research
claude
Maintenant vous pouvez demander : « Compare les mécanismes d’attention dans ces articles » ou « Quels sont les résultats clés sur les lois de scaling ? » Claude lit tous vos articles et synthétise des réponses ancrées dans la recherche réelle.
Le schéma Karpathy
Andrej Karpathy a décrit cette approche : construire un wiki personnel de fichiers Markdown, laisser un LLM faire des recherches dessus. Pour les chercheurs en IA, cela signifie :
- Enregistrer chaque article important en Markdown
- Organiser par sujet
- Ajouter ses propres notes et annotations
- Laisser Claude ou ChatGPT travailler avec l’ensemble de la collection
Après quelques mois, vous avez un assistant de recherche personnel qui connaît chaque article que vous avez lu.
Pour commencer
Installez Save et commencez avec le prochain article arXiv que vous lisez. Au fil du temps, votre bibliothèque de recherche Markdown se transforme en quelque chose qu’aucune IA générique ne peut égaler.
Transformez des articles arXiv en une base de connaissances consultable et lisible par IA. Installez Save --- gratuit pour commencer.