Hoe arXiv-papers Converteren naar Markdown voor AI-onderzoek
arXiv-papers zijn PDF’s. PDF’s zijn verschrikkelijk voor AI-workflows. Ze zijn niet goed doorzoekbaar, verspillen tokens wanneer ze aan LLM’s worden gevoerd, en kunnen niet gemakkelijk worden gecombineerd met ander onderzoeksmateriaal in een kennisbase.
Als je AI-onderzoek doet — of in een vakgebied werkt dat afhankelijk is van arXiv — verandert het converteren van papers naar Markdown alles.
Waarom Markdown voor Onderzoekspapers?
LLM’s begrijpen Markdown van nature. Geef Claude of ChatGPT een PDF en het worstelt met opmaak, pagina-onderbrekingen en lay-outs in twee kolommen. Geef het Markdown en het leest perfect — elke vergelijking, elk codeblok, elke referentie.
10x minder tokens. Een typische arXiv-paper is 200-500KB als PDF. Dezelfde inhoud in Markdown is 10-30KB. Dat betekent dat je 10x meer papers in een enkel Claude-contextvenster kunt stoppen.
Doorzoekbaar in je hele bibliotheek. Met 50 papers als Markdown-bestanden in een map kun je in milliseconden door alle ervan zoeken naar een concept. Probeer dat maar met PDF’s.
Werkt met Obsidian. Papers als Markdown-bestanden in Obsidian worden gelinkt, getagd en doorzoekbaar. Voeg je eigen notities inline toe. Maak verbindingen tussen papers met [[wikilinks]].
Hoe arXiv-papers als Markdown Opslaan
Methode 1: Save-extensie (Aanbevolen)
Save converteert de arXiv-abstractpagina (en veel HTML-gerenderde papers) naar schone Markdown.
- Open de arXiv-paperpagina (bijv.
arxiv.org/abs/2401.12345) - Klik op het Save-extensie-icoontje
- Ontvang een Markdown-bestand met de titel, auteurs, samenvatting en beschikbare inhoud
Voor papers met HTML-versies (steeds gebruikelijker op arXiv) extraheert Save de volledige paperinhoud inclusief vergelijkingen, figuurverwijzingen en citaties.
Methode 2: arXiv HTML + Save
Veel recente papers hebben een HTML-versie op arXiv (zoek naar de “HTML”-link naast de PDF). Open de HTML-versie en gebruik Save — je krijgt de volledige paper als schone Markdown.
Methode 3: Semantic Scholar of Papers With Code
Deze sites hebben vaak schonere HTML-weergaven van papers. Open de paperpagina en gebruik Save.
Een Onderzoekskennisbase Bouwen
De echte kracht komt van het accumuleren van papers in de loop van de tijd:
research/
attention/
attention-is-all-you-need.md
flash-attention-v2.md
multi-head-latent-attention.md
scaling/
chinchilla-scaling-laws.md
scaling-data-constrained.md
agents/
toolformer.md
react-prompting.md
mcp-protocol.md
Wijs Claude Code naar deze map:
cd research
claude
Nu kun je vragen: “Vergelijk de aandachtsmechanismen in deze papers” of “Wat zijn de kernbevindingen over schaalwetten?” Claude leest al je papers en synthetiseert antwoorden gebaseerd op daadwerkelijk onderzoek.
Het Karpathy-patroon
Andrej Karpathy beschreef deze aanpak: bouw een persoonlijke wiki van markdown-bestanden, laat een LLM erdoorheen onderzoeken. Voor AI-onderzoekers betekent dit:
- Sla elke belangrijke paper op als Markdown
- Organiseer per onderwerp
- Voeg je eigen notities en annotaties toe
- Laat Claude of ChatGPT met de volledige collectie werken
Na een paar maanden heb je een persoonlijke onderzoeksassistent die elke paper kent die je hebt gelezen.
Aan de Slag
Installeer Save en begin met de volgende arXiv-paper die je leest. In de loop van de tijd groeit je Markdown-onderzoeksbibliotheek uit tot iets wat geen generieke AI kan evenaren.
Zet arXiv-papers om in een doorzoekbare, AI-leesbare kennisbase. Installeer Save — gratis te beginnen.