Jak Konwertować Artykuły arXiv do Markdown dla Badań AI
Artykuły arXiv to pliki PDF. PDF-y są okropne dla przepływów pracy AI. Nie przeszukują się dobrze, marnują tokeny gdy są podawane LLM-om i nie mogą być łatwo łączone z innymi materiałami badawczymi w bazie wiedzy.
Jeśli prowadzisz badania AI — lub w jakiejkolwiek dziedzinie zależnej od arXiv — konwertowanie artykułów do Markdown zmienia wszystko.
Dlaczego Markdown dla Artykułów Badawczych?
LLM-y rozumieją Markdown naturalnie. Podaj Claude lub ChatGPT PDF i będzie się zmagać z formatowaniem, przerwami stron i układami dwukolumnowymi. Podaj Markdown i czyta idealnie — każde równanie, każdy blok kodu, każde odniesienie.
10x mniej tokenów. Typowy artykuł arXiv ma 200-500KB jako PDF. Ta sama treść w Markdown to 10-30KB. Oznacza to, że możesz zmieścić 10x więcej artykułów w jednym oknie kontekstowym Claude.
Przeszukiwalny w całej bibliotece. Mając 50 artykułów jako pliki Markdown w folderze, możesz grep przez wszystkie je w poszukiwaniu dowolnego pojęcia w milisekundach. Spróbuj tego z PDF-ami.
Działa z Obsidian. Artykuły jako pliki Markdown w Obsidian stają się połączone, otagowane i przeszukiwalne. Dodaj własne notatki inline. Twórz połączenia między artykułami z [[wikilinks]].
Jak Zapisywać Artykuły arXiv jako Markdown
Metoda 1: Rozszerzenie Save (Zalecane)
Save konwertuje stronę abstraktu arXiv (i wiele artykułów renderowanych jako HTML) do czystego Markdown.
- Otwórz stronę artykułu arXiv (np.
arxiv.org/abs/2401.12345) - Kliknij ikonę rozszerzenia Save
- Otrzymaj plik Markdown z tytułem, autorami, abstraktem i dostępną treścią
Dla artykułów z wersjami HTML (coraz częstszymi na arXiv), Save ekstrahuje pełną treść artykułu, w tym równania, odwołania do rysunków i cytowania.
Metoda 2: arXiv HTML + Save
Wiele nowszych artykułów ma wersję HTML na arXiv (szukaj linku “HTML” obok PDF). Otwórz wersję HTML i użyj Save — otrzymasz pełny artykuł jako czysty Markdown.
Metoda 3: Semantic Scholar lub Papers With Code
Te strony często mają czystsze renderowania HTML artykułów. Otwórz stronę artykułu i użyj Save.
Budowanie Bazy Wiedzy Badawczej
Prawdziwa moc pochodzi z akumulowania artykułów w czasie:
research/
attention/
attention-is-all-you-need.md
flash-attention-v2.md
multi-head-latent-attention.md
scaling/
chinchilla-scaling-laws.md
scaling-data-constrained.md
agents/
toolformer.md
react-prompting.md
mcp-protocol.md
Wskaż Claude Code na ten folder:
cd research
claude
Teraz możesz zapytać: “Porównaj mechanizmy uwagi w tych artykułach” lub “Jakie są kluczowe wyniki dotyczące praw skalowania?” Claude czyta wszystkie twoje artykuły i syntetyzuje odpowiedzi oparte na faktycznych badaniach.
Wzorzec Karpathy’ego
Andrej Karpathy opisał to podejście: zbuduj osobistą wiki plików markdown, pozwól LLM badać przez nie. Dla badaczy AI oznacza to:
- Zapisz każdy ważny artykuł jako Markdown
- Organizuj według tematu
- Dodaj własne notatki i adnotacje
- Pozwól Claude lub ChatGPT pracować z całą kolekcją
Po kilku miesiącach masz osobistego asystenta badawczego, który zna każdy artykuł, który przeczytałeś.
Pierwsze Kroki
Zainstaluj Save i zacznij od następnego artykułu arXiv, który czytasz. Z czasem twoja biblioteka badań Markdown narastać do czegoś, czego żadne generyczne AI nie może dorównać.
Zamień artykuły arXiv w przeszukiwalną, czytelną dla AI bazę wiedzy. Zainstaluj Save — bezpłatnie na start.