如何将 arXiv 论文转换为 Markdown 用于 AI 研究
arXiv 论文是 PDF 格式。而 PDF 对 AI 工作流来说糟糕透顶。搜索效果差,传给 LLM 时浪费令牌,也无法轻松与知识库中的其他研究资料整合。
如果你正在做 AI 研究——或任何依赖 arXiv 的领域——将论文转换为 Markdown 会改变一切。
为什么研究论文要用 Markdown?
LLM 原生理解 Markdown。 给 Claude 或 ChatGPT 传 PDF,它会在格式、分页符和双栏布局上挣扎。传 Markdown 则能完美阅读——每个公式、每个代码块、每个参考文献都清晰可辨。
减少 10 倍令牌消耗。 一篇典型的 arXiv 论文 PDF 版本为 200-500KB。同样的内容转为 Markdown 只有 10-30KB。这意味着你在单个 Claude 上下文窗口中可以放入 10 倍数量的论文。
跨整个资料库可搜索。 在一个文件夹中有 50 篇 Markdown 格式的论文,你可以在毫秒内搜索所有论文中的任何概念。用 PDF 试试?
与 Obsidian 完美配合。 Obsidian 中的 Markdown 格式论文可以被链接、打标签和搜索。内联添加你自己的笔记。使用 [[wikilinks]] 在论文之间创建连接。
如何将 arXiv 论文保存为 Markdown
方法一:Save 扩展(推荐)
Save 可将 arXiv 摘要页面(以及许多 HTML 渲染的论文)转换为干净的 Markdown。
- 打开 arXiv 论文页面(例如
arxiv.org/abs/2401.12345) - 点击 Save 扩展图标
- 获取包含标题、作者、摘要和可用内容的 Markdown 文件
对于有 HTML 版本的论文(在 arXiv 上越来越普遍),Save 可以提取完整的论文内容,包括公式、图表引用和参考文献。
方法二:arXiv HTML + Save
许多近期论文在 arXiv 上都有 HTML 版本(在 PDF 旁边寻找「HTML」链接)。打开 HTML 版本并使用 Save——你将获得完整的干净 Markdown 论文。
方法三:Semantic Scholar 或 Papers With Code
这些网站通常有更干净的论文 HTML 渲染。打开论文页面并使用 Save。
构建研究知识库
真正的力量来自随时间积累的论文:
research/
attention/
attention-is-all-you-need.md
flash-attention-v2.md
multi-head-latent-attention.md
scaling/
chinchilla-scaling-laws.md
scaling-data-constrained.md
agents/
toolformer.md
react-prompting.md
mcp-protocol.md
将 Claude Code 指向这个文件夹:
cd research
claude
现在你可以问:「比较这些论文中的注意力机制」或「扩展定律的关键发现是什么?」Claude 阅读你所有的论文并给出基于实际研究的综合答案。
Karpathy 模式
Andrej Karpathy 描述过这种方法:构建一个 Markdown 文件的个人维基,让 LLM 在其中进行研究。对 AI 研究人员来说,这意味着:
- 将每篇重要论文保存为 Markdown
- 按主题整理
- 添加你自己的笔记和注释
- 让 Claude 或 ChatGPT 处理完整的收藏
几个月后,你就拥有了一个了解你读过的每篇论文的个人研究助手。
开始
安装 Save,从你阅读的下一篇 arXiv 论文开始。随着时间的推移,你的 Markdown 研究资料库会复合增长成任何通用 AI 都无法媲美的东西。
将 arXiv 论文变成可搜索的、AI 可读的知识库。安装 Save —— 免费开始。