← Torna al blog

Come Convertire i Paper di arXiv in Markdown per la Ricerca AI

· Save Team
arxivresearchacademicaimarkdown

I paper di arXiv sono PDF. I PDF sono terribili per i flussi di lavoro AI. Non si cercano bene, sprecano token quando vengono forniti agli LLM e non possono essere facilmente combinati con altri materiali di ricerca in una base di conoscenza.

Se fai ricerca sull’AI --- o in qualsiasi campo che si affida ad arXiv --- convertire i paper in Markdown cambia tutto.

Perché Markdown per i Paper di Ricerca?

Gli LLM capiscono Markdown nativamente. Dai a Claude o ChatGPT un PDF e avrà difficoltà con la formattazione, le interruzioni di pagina e i layout a due colonne. Dagli Markdown e lo legge perfettamente --- ogni equazione, ogni blocco di codice, ogni riferimento.

10 volte meno token. Un tipico paper di arXiv è da 200-500KB come PDF. Lo stesso contenuto in Markdown è 10-30KB. Ciò significa che puoi inserire 10 volte più paper in una singola finestra di contesto di Claude.

Ricercabile in tutta la tua biblioteca. Con 50 paper come file Markdown in una cartella, puoi fare una ricerca grep per qualsiasi concetto in tutti in millisecondi. Prova a farlo con i PDF.

Funziona con Obsidian. I paper come file Markdown in Obsidian diventano collegati, taggati e ricercabili. Aggiungi le tue note inline. Crea connessioni tra i paper con [[wikilinks]].

Come Salvare i Paper di arXiv come Markdown

Metodo 1: Estensione Save (Consigliato)

Save converte la pagina abstract di arXiv (e molti paper renderizzati in HTML) in Markdown pulito.

  1. Apri la pagina del paper su arXiv (es. arxiv.org/abs/2401.12345)
  2. Clicca sull’icona dell’estensione Save
  3. Ottieni un file Markdown con il titolo, gli autori, l’abstract e il contenuto disponibile

Per i paper con versioni HTML (sempre più comuni su arXiv), Save estrae il contenuto completo del paper incluse equazioni, riferimenti alle figure e citazioni.

Metodo 2: arXiv HTML + Save

Molti paper recenti hanno una versione HTML su arXiv (cerca il link “HTML” accanto al PDF). Apri la versione HTML e usa Save --- otterrai il paper completo come Markdown pulito.

Metodo 3: Semantic Scholar o Papers With Code

Questi siti hanno spesso rendering HTML più puliti dei paper. Apri la pagina del paper e usa Save.

Costruire una Base di Conoscenza di Ricerca

Il vero potere viene dall’accumulo di paper nel tempo:

research/
  attention/
    attention-is-all-you-need.md
    flash-attention-v2.md
    multi-head-latent-attention.md
  scaling/
    chinchilla-scaling-laws.md
    scaling-data-constrained.md
  agents/
    toolformer.md
    react-prompting.md
    mcp-protocol.md

Punta Claude Code a questa cartella:

cd research
claude

Ora puoi chiedere: “Confronta i meccanismi di attenzione in questi paper” o “Quali sono i risultati chiave sulle leggi di scaling?” Claude legge tutti i tuoi paper e sintetizza risposte basate sulla ricerca reale.

Il Pattern Karpathy

Andrej Karpathy ha descritto questo approccio: costruisci un wiki personale di file markdown, lascia che un LLM faccia ricerche attraverso di essi. Per i ricercatori AI, questo significa:

  1. Salva ogni paper importante come Markdown
  2. Organizza per argomento
  3. Aggiungi le tue note e annotazioni
  4. Lascia che Claude o ChatGPT lavori con l’intera collezione

Dopo qualche mese, hai un assistente di ricerca personale che conosce ogni paper che hai letto.

Per Iniziare

Installa Save e inizia con il prossimo paper di arXiv che leggi. Nel tempo, la tua biblioteca di ricerca Markdown si moltiplica in qualcosa che nessuna AI generica può eguagliare.


Trasforma i paper di arXiv in una base di conoscenza ricercabile e leggibile dall’AI. Installa Save --- gratuito per iniziare.