← Wróć do bloga

Jak Konwertować Artykuły arXiv do Markdown dla Badań AI

· Save Team
arxivresearchacademicaimarkdown

Artykuły arXiv to pliki PDF. PDF-y są okropne dla przepływów pracy AI. Nie przeszukują się dobrze, marnują tokeny gdy są podawane LLM-om i nie mogą być łatwo łączone z innymi materiałami badawczymi w bazie wiedzy.

Jeśli prowadzisz badania AI — lub w jakiejkolwiek dziedzinie zależnej od arXiv — konwertowanie artykułów do Markdown zmienia wszystko.

Dlaczego Markdown dla Artykułów Badawczych?

LLM-y rozumieją Markdown naturalnie. Podaj Claude lub ChatGPT PDF i będzie się zmagać z formatowaniem, przerwami stron i układami dwukolumnowymi. Podaj Markdown i czyta idealnie — każde równanie, każdy blok kodu, każde odniesienie.

10x mniej tokenów. Typowy artykuł arXiv ma 200-500KB jako PDF. Ta sama treść w Markdown to 10-30KB. Oznacza to, że możesz zmieścić 10x więcej artykułów w jednym oknie kontekstowym Claude.

Przeszukiwalny w całej bibliotece. Mając 50 artykułów jako pliki Markdown w folderze, możesz grep przez wszystkie je w poszukiwaniu dowolnego pojęcia w milisekundach. Spróbuj tego z PDF-ami.

Działa z Obsidian. Artykuły jako pliki Markdown w Obsidian stają się połączone, otagowane i przeszukiwalne. Dodaj własne notatki inline. Twórz połączenia między artykułami z [[wikilinks]].

Jak Zapisywać Artykuły arXiv jako Markdown

Metoda 1: Rozszerzenie Save (Zalecane)

Save konwertuje stronę abstraktu arXiv (i wiele artykułów renderowanych jako HTML) do czystego Markdown.

  1. Otwórz stronę artykułu arXiv (np. arxiv.org/abs/2401.12345)
  2. Kliknij ikonę rozszerzenia Save
  3. Otrzymaj plik Markdown z tytułem, autorami, abstraktem i dostępną treścią

Dla artykułów z wersjami HTML (coraz częstszymi na arXiv), Save ekstrahuje pełną treść artykułu, w tym równania, odwołania do rysunków i cytowania.

Metoda 2: arXiv HTML + Save

Wiele nowszych artykułów ma wersję HTML na arXiv (szukaj linku “HTML” obok PDF). Otwórz wersję HTML i użyj Save — otrzymasz pełny artykuł jako czysty Markdown.

Metoda 3: Semantic Scholar lub Papers With Code

Te strony często mają czystsze renderowania HTML artykułów. Otwórz stronę artykułu i użyj Save.

Budowanie Bazy Wiedzy Badawczej

Prawdziwa moc pochodzi z akumulowania artykułów w czasie:

research/
  attention/
    attention-is-all-you-need.md
    flash-attention-v2.md
    multi-head-latent-attention.md
  scaling/
    chinchilla-scaling-laws.md
    scaling-data-constrained.md
  agents/
    toolformer.md
    react-prompting.md
    mcp-protocol.md

Wskaż Claude Code na ten folder:

cd research
claude

Teraz możesz zapytać: “Porównaj mechanizmy uwagi w tych artykułach” lub “Jakie są kluczowe wyniki dotyczące praw skalowania?” Claude czyta wszystkie twoje artykuły i syntetyzuje odpowiedzi oparte na faktycznych badaniach.

Wzorzec Karpathy’ego

Andrej Karpathy opisał to podejście: zbuduj osobistą wiki plików markdown, pozwól LLM badać przez nie. Dla badaczy AI oznacza to:

  1. Zapisz każdy ważny artykuł jako Markdown
  2. Organizuj według tematu
  3. Dodaj własne notatki i adnotacje
  4. Pozwól Claude lub ChatGPT pracować z całą kolekcją

Po kilku miesiącach masz osobistego asystenta badawczego, który zna każdy artykuł, który przeczytałeś.

Pierwsze Kroki

Zainstaluj Save i zacznij od następnego artykułu arXiv, który czytasz. Z czasem twoja biblioteka badań Markdown narastać do czegoś, czego żadne generyczne AI nie może dorównać.


Zamień artykuły arXiv w przeszukiwalną, czytelną dla AI bazę wiedzy. Zainstaluj Save — bezpłatnie na start.