如何將 arXiv 論文轉換為 Markdown 用於 AI 研究
arXiv 論文是 PDF 格式。而 PDF 對 AI 工作流來說糟糕透頂。搜尋效果差,傳給 LLM 時浪費令牌,也無法輕鬆與知識庫中的其他研究資料整合。
如果你正在做 AI 研究——或任何依賴 arXiv 的領域——將論文轉換為 Markdown 會改變一切。
為什麼研究論文要用 Markdown?
LLM 原生理解 Markdown。 給 Claude 或 ChatGPT 傳 PDF,它會在格式、分頁符和雙欄版面上掙扎。傳 Markdown 則能完美閱讀——每個公式、每個程式碼區塊、每個參考文獻都清晰可辨。
減少 10 倍令牌消耗。 一篇典型的 arXiv 論文 PDF 版本為 200-500KB。同樣的內容轉為 Markdown 只有 10-30KB。這意味著你在單個 Claude 上下文視窗中可以放入 10 倍數量的論文。
跨整個資料庫可搜尋。 在一個資料夾中有 50 篇 Markdown 格式的論文,你可以在毫秒內搜尋所有論文中的任何概念。用 PDF 試試?
與 Obsidian 完美配合。 Obsidian 中的 Markdown 格式論文可以被連結、打標籤和搜尋。內聯添加你自己的筆記。使用 [[wikilinks]] 在論文之間建立連接。
如何將 arXiv 論文儲存為 Markdown
方法一:Save 擴充功能(推薦)
Save 可將 arXiv 摘要頁面(以及許多 HTML 渲染的論文)轉換為乾淨的 Markdown。
- 打開 arXiv 論文頁面(例如
arxiv.org/abs/2401.12345) - 點擊 Save 擴充功能圖示
- 獲取包含標題、作者、摘要和可用內容的 Markdown 檔案
對於有 HTML 版本的論文(在 arXiv 上越來越普遍),Save 可以提取完整的論文內容,包括公式、圖表引用和參考文獻。
方法二:arXiv HTML + Save
許多近期論文在 arXiv 上都有 HTML 版本(在 PDF 旁邊尋找「HTML」連結)。打開 HTML 版本並使用 Save——你將獲得完整的乾淨 Markdown 論文。
方法三:Semantic Scholar 或 Papers With Code
這些網站通常有更乾淨的論文 HTML 渲染。打開論文頁面並使用 Save。
建構研究知識庫
真正的力量來自隨時間積累的論文:
research/
attention/
attention-is-all-you-need.md
flash-attention-v2.md
multi-head-latent-attention.md
scaling/
chinchilla-scaling-laws.md
scaling-data-constrained.md
agents/
toolformer.md
react-prompting.md
mcp-protocol.md
將 Claude Code 指向這個資料夾:
cd research
claude
現在你可以問:「比較這些論文中的注意力機制」或「擴展定律的關鍵發現是什麼?」Claude 閱讀你所有的論文並給出基於實際研究的綜合答案。
Karpathy 模式
Andrej Karpathy 描述過這種方法:建構一個 Markdown 檔案的個人維基,讓 LLM 在其中進行研究。對 AI 研究人員來說,這意味著:
- 將每篇重要論文儲存為 Markdown
- 按主題整理
- 添加你自己的筆記和注釋
- 讓 Claude 或 ChatGPT 處理完整的收藏
幾個月後,你就擁有了一個了解你讀過的每篇論文的個人研究助手。
開始
安裝 Save,從你閱讀的下一篇 arXiv 論文開始。隨著時間的推移,你的 Markdown 研究資料庫會複合增長成任何通用 AI 都無法媲美的東西。
將 arXiv 論文變成可搜尋的、AI 可讀的知識庫。安裝 Save —— 免費開始。