← Zurück zum Blog

arXiv-Paper für KI-Forschung in Markdown konvertieren

· Save Team
arxivresearchacademicaimarkdown

arXiv-Paper sind PDFs. PDFs sind schlecht für KI-Workflows. Sie lassen sich nicht gut durchsuchen, verschwenden Tokens, wenn man sie an LLMs übergibt, und können nicht leicht mit anderen Forschungsmaterialien in einer Wissensdatenbank kombiniert werden.

Wenn du KI-Forschung betreibst --- oder in irgendeinem Bereich, der auf arXiv angewiesen ist --- verändert die Konvertierung von Papern in Markdown alles.

Warum Markdown für Forschungsarbeiten?

LLMs verstehen Markdown nativ. Gib Claude oder ChatGPT ein PDF und es kämpft mit Formatierung, Seitenumbrüchen und zweispaltigen Layouts. Gib ihm Markdown und es liest perfekt --- jede Gleichung, jeden Codeblock, jede Referenz.

10x weniger Tokens. Ein typisches arXiv-Paper ist als PDF 200-500 KB groß. Derselbe Inhalt in Markdown ist 10-30 KB. Das bedeutet, du kannst 10x mehr Paper in ein einziges Claude-Kontextfenster packen.

Durchsuchbar in deiner gesamten Bibliothek. Mit 50 Papern als Markdown-Dateien in einem Ordner kannst du in Millisekunden mit grep nach einem beliebigen Konzept über alle suchen. Versuch das mit PDFs.

Funktioniert mit Obsidian. Paper als Markdown-Dateien in Obsidian werden verlinkt, mit Tags versehen und durchsuchbar. Füge deine eigenen Notizen inline hinzu. Erstelle Verbindungen zwischen Papern mit [[wikilinks]].

Wie man arXiv-Paper als Markdown speichert

Methode 1: Save-Erweiterung (empfohlen)

Save konvertiert die arXiv-Abstract-Seite (und viele HTML-gerenderte Paper) in sauberes Markdown.

  1. Die arXiv-Papierseite öffnen (z.B. arxiv.org/abs/2401.12345)
  2. Das Save-Erweiterungssymbol anklicken
  3. Eine Markdown-Datei mit Titel, Autoren, Abstract und verfügbarem Inhalt erhalten

Bei Papern mit HTML-Versionen (auf arXiv immer häufiger), extrahiert Save den vollständigen Papierinhalt einschließlich Gleichungen, Abbildungsreferenzen und Zitate.

Methode 2: arXiv HTML + Save

Viele neuere Paper haben eine HTML-Version auf arXiv (nach dem „HTML”-Link neben dem PDF suchen). Die HTML-Version öffnen und Save verwenden --- du erhältst das vollständige Paper als sauberes Markdown.

Methode 3: Semantic Scholar oder Papers With Code

Diese Seiten haben oft sauberere HTML-Renderings von Papern. Die Papierseite öffnen und Save verwenden.

Eine Forschungs-Wissensdatenbank aufbauen

Die wahre Stärke entsteht durch die Anhäufung von Papern über die Zeit:

research/
  attention/
    attention-is-all-you-need.md
    flash-attention-v2.md
    multi-head-latent-attention.md
  scaling/
    chinchilla-scaling-laws.md
    scaling-data-constrained.md
  agents/
    toolformer.md
    react-prompting.md
    mcp-protocol.md

Claude Code auf diesen Ordner zeigen:

cd research
claude

Jetzt kannst du fragen: „Vergleiche die Aufmerksamkeitsmechanismen in diesen Papern” oder „Was sind die wichtigsten Erkenntnisse zu Skalierungsgesetzen?” Claude liest alle deine Paper und synthetisiert Antworten, die in echten Forschungsergebnissen verankert sind.

Das Karpathy-Muster

Andrej Karpathy beschrieb diesen Ansatz: ein persönliches Wiki aus Markdown-Dateien aufbauen und ein LLM damit recherchieren lassen. Für KI-Forscher bedeutet das:

  1. Jedes wichtige Paper als Markdown speichern
  2. Nach Thema organisieren
  3. Eigene Notizen und Anmerkungen hinzufügen
  4. Claude oder ChatGPT mit der gesamten Sammlung arbeiten lassen

Nach ein paar Monaten hast du einen persönlichen Forschungsassistenten, der jedes Paper kennt, das du gelesen hast.

Loslegen

Save installieren und mit dem nächsten arXiv-Paper beginnen, das du liest. Mit der Zeit wächst deine Markdown-Forschungsbibliothek zu etwas, das keine generische KI erreichen kann.


Verwandle arXiv-Paper in eine durchsuchbare, KI-lesbare Wissensdatenbank. Save installieren --- kostenlos zum Starten.