← 返回部落格

如何將 arXiv 論文轉換為 Markdown 用於 AI 研究

· Save Team
arxivresearchacademicaimarkdown

arXiv 論文是 PDF 格式。而 PDF 對 AI 工作流來說糟糕透頂。搜尋效果差,傳給 LLM 時浪費令牌,也無法輕鬆與知識庫中的其他研究資料整合。

如果你正在做 AI 研究——或任何依賴 arXiv 的領域——將論文轉換為 Markdown 會改變一切。

為什麼研究論文要用 Markdown?

LLM 原生理解 Markdown。 給 Claude 或 ChatGPT 傳 PDF,它會在格式、分頁符和雙欄版面上掙扎。傳 Markdown 則能完美閱讀——每個公式、每個程式碼區塊、每個參考文獻都清晰可辨。

減少 10 倍令牌消耗。 一篇典型的 arXiv 論文 PDF 版本為 200-500KB。同樣的內容轉為 Markdown 只有 10-30KB。這意味著你在單個 Claude 上下文視窗中可以放入 10 倍數量的論文。

跨整個資料庫可搜尋。 在一個資料夾中有 50 篇 Markdown 格式的論文,你可以在毫秒內搜尋所有論文中的任何概念。用 PDF 試試?

與 Obsidian 完美配合。 Obsidian 中的 Markdown 格式論文可以被連結、打標籤和搜尋。內聯添加你自己的筆記。使用 [[wikilinks]] 在論文之間建立連接。

如何將 arXiv 論文儲存為 Markdown

方法一:Save 擴充功能(推薦)

Save 可將 arXiv 摘要頁面(以及許多 HTML 渲染的論文)轉換為乾淨的 Markdown。

  1. 打開 arXiv 論文頁面(例如 arxiv.org/abs/2401.12345
  2. 點擊 Save 擴充功能圖示
  3. 獲取包含標題、作者、摘要和可用內容的 Markdown 檔案

對於有 HTML 版本的論文(在 arXiv 上越來越普遍),Save 可以提取完整的論文內容,包括公式、圖表引用和參考文獻。

方法二:arXiv HTML + Save

許多近期論文在 arXiv 上都有 HTML 版本(在 PDF 旁邊尋找「HTML」連結)。打開 HTML 版本並使用 Save——你將獲得完整的乾淨 Markdown 論文。

方法三:Semantic Scholar 或 Papers With Code

這些網站通常有更乾淨的論文 HTML 渲染。打開論文頁面並使用 Save。

建構研究知識庫

真正的力量來自隨時間積累的論文:

research/
  attention/
    attention-is-all-you-need.md
    flash-attention-v2.md
    multi-head-latent-attention.md
  scaling/
    chinchilla-scaling-laws.md
    scaling-data-constrained.md
  agents/
    toolformer.md
    react-prompting.md
    mcp-protocol.md

將 Claude Code 指向這個資料夾:

cd research
claude

現在你可以問:「比較這些論文中的注意力機制」或「擴展定律的關鍵發現是什麼?」Claude 閱讀你所有的論文並給出基於實際研究的綜合答案。

Karpathy 模式

Andrej Karpathy 描述過這種方法:建構一個 Markdown 檔案的個人維基,讓 LLM 在其中進行研究。對 AI 研究人員來說,這意味著:

  1. 將每篇重要論文儲存為 Markdown
  2. 按主題整理
  3. 添加你自己的筆記和注釋
  4. 讓 Claude 或 ChatGPT 處理完整的收藏

幾個月後,你就擁有了一個了解你讀過的每篇論文的個人研究助手。

開始

安裝 Save,從你閱讀的下一篇 arXiv 論文開始。隨著時間的推移,你的 Markdown 研究資料庫會複合增長成任何通用 AI 都無法媲美的東西。


將 arXiv 論文變成可搜尋的、AI 可讀的知識庫。安裝 Save —— 免費開始。