Cara Mengonversi Makalah arXiv ke Markdown untuk Penelitian AI
Makalah arXiv adalah PDF. PDF sangat buruk untuk alur kerja AI. Pencariannya tidak bagus, mereka membuang token saat dimasukkan ke LLM, dan tidak bisa dengan mudah digabungkan dengan materi penelitian lain dalam basis pengetahuan.
Jika Anda melakukan penelitian AI --- atau bidang apa pun yang mengandalkan arXiv --- mengonversi makalah ke Markdown mengubah segalanya.
Mengapa Markdown untuk Makalah Penelitian?
LLM memahami Markdown secara alami. Berikan Claude atau ChatGPT sebuah PDF dan ia kesulitan dengan pemformatan, pemisah halaman, dan tata letak dua kolom. Berikan Markdown dan ia membaca dengan sempurna --- setiap persamaan, setiap blok kode, setiap referensi.
10x lebih sedikit token. Makalah arXiv tipikal berukuran 200-500KB sebagai PDF. Konten yang sama dalam Markdown hanya 10-30KB. Artinya Anda dapat memasukkan 10x lebih banyak makalah dalam satu jendela konteks Claude.
Dapat dicari di seluruh perpustakaan Anda. Dengan 50 makalah sebagai file Markdown dalam sebuah folder, Anda bisa grep untuk konsep apa pun di semua makalah dalam milidetik. Coba itu dengan PDF.
Berfungsi dengan Obsidian. Makalah sebagai file Markdown di Obsidian menjadi tertaut, bertag, dan dapat dicari. Tambahkan catatan Anda sendiri secara inline. Buat koneksi antar makalah dengan [[wikilinks]].
Cara Menyimpan Makalah arXiv sebagai Markdown
Metode 1: Ekstensi Save (Direkomendasikan)
Save mengonversi halaman abstrak arXiv (dan banyak makalah yang dirender HTML) ke Markdown bersih.
- Buka halaman makalah arXiv (misalnya
arxiv.org/abs/2401.12345) - Klik ikon ekstensi Save
- Dapatkan file Markdown dengan judul, penulis, abstrak, dan konten yang tersedia
Untuk makalah dengan versi HTML (semakin umum di arXiv), Save mengekstrak konten makalah lengkap termasuk persamaan, referensi gambar, dan kutipan.
Metode 2: arXiv HTML + Save
Banyak makalah terbaru memiliki versi HTML di arXiv (cari tautan “HTML” di sebelah PDF). Buka versi HTML dan gunakan Save --- Anda akan mendapatkan makalah lengkap sebagai Markdown bersih.
Metode 3: Semantic Scholar atau Papers With Code
Situs-situs ini sering memiliki rendering HTML yang lebih bersih dari makalah. Buka halaman makalah dan gunakan Save.
Membangun Basis Pengetahuan Penelitian
Kekuatan nyata datang dari mengumpulkan makalah dari waktu ke waktu:
research/
attention/
attention-is-all-you-need.md
flash-attention-v2.md
multi-head-latent-attention.md
scaling/
chinchilla-scaling-laws.md
scaling-data-constrained.md
agents/
toolformer.md
react-prompting.md
mcp-protocol.md
Arahkan Claude Code ke folder ini:
cd research
claude
Sekarang Anda bisa bertanya: “Bandingkan mekanisme perhatian dalam makalah-makalah ini” atau “Apa temuan utama tentang hukum scaling?” Claude membaca semua makalah Anda dan mensintesis jawaban berdasarkan penelitian nyata.
Pola Karpathy
Andrej Karpathy mendeskripsikan pendekatan ini: bangun wiki pribadi dari file markdown, biarkan LLM meneliti di dalamnya. Untuk peneliti AI, ini berarti:
- Simpan setiap makalah penting sebagai Markdown
- Organisir berdasarkan topik
- Tambahkan catatan dan anotasi Anda sendiri
- Biarkan Claude atau ChatGPT bekerja dengan seluruh koleksi
Setelah beberapa bulan, Anda memiliki asisten penelitian pribadi yang mengetahui setiap makalah yang pernah Anda baca.
Mulai
Instal Save dan mulai dengan makalah arXiv berikutnya yang Anda baca. Seiring waktu, perpustakaan penelitian Markdown Anda berkembang menjadi sesuatu yang tidak bisa ditandingi AI generik mana pun.
Ubah makalah arXiv menjadi basis pengetahuan yang dapat dicari dan dibaca AI. Instal Save --- gratis untuk memulai.