如何将任意网页保存为 Markdown(3 种方法)
你想把网页保存为 Markdown 文件。也许你正在构建知识库、存档文档,或者只是想保留一篇文章的干净副本。以下是三种方法,从最简单到最技术化。
方法一:Save 扩展(最简单)
Save 是一款 Chrome 扩展,一键将任意网页转换为整洁的 Markdown。
使用方法:
- 从 Chrome 网上应用店安装 Save
- 访问任意网页
- 点击 Save 图标
- 一个
.md文件自动下载到你的电脑
优点:
- AI 驱动的提取功能,自动去除广告、导航和杂乱内容
- 保留标题、列表、代码块、表格和链接
- 适用于难处理的页面:YouTube(完整字幕)、Twitter 长帖、Reddit、Confluence、付费内容
- 无需终端、无需 API 密钥、无需配置
- 输出干净、结构化的 Markdown,可直接用于 Obsidian、VS Code 或 AI 工具
最适合: 任何想要获得干净 Markdown 而无需接触终端的用户。
方法二:命令行工具
有几款 CLI 工具可以将 HTML 转换为 Markdown:
Pandoc
文档转换的瑞士军刀:
# 从 URL(获取并转换)
curl -s https://example.com/article | pandoc -f html -t markdown -o article.md
# 从本地 HTML 文件
pandoc input.html -o output.md
优点: 功能强大,处理复杂文档,支持多种输出格式。 缺点: 获取的是原始 HTML(包含导航、广告、脚本),输出通常需要手动清理。
Defuddle
专注于提取可读内容的新工具:
npm install -g defuddle
defuddle parse https://example.com/article --md
优点: 去除导航和杂乱内容,专注于文章正文。 缺点: 需要 Node.js,不能处理所有页面类型。
Jina Reader
返回 Markdown 的托管 API:
curl -s "https://r.jina.ai/https://example.com/article"
优点: 无需安装,通过 HTTP 使用。 缺点: 有频率限制,需要网络连接,依赖第三方,不能很好地处理 JavaScript 渲染的页面。
最适合: 熟悉终端且需要批量转换页面的开发者。
方法三:手动复制粘贴
低技术含量的方法:
- 全选页面内容(Cmd+A 或 Ctrl+A)
- 复制(Cmd+C 或 Ctrl+C)
- 粘贴到 Markdown 编辑器
- 手动修复格式
优点: 无需工具。 缺点: 复制所有内容(导航、广告、页脚)。格式丢失。表格损坏。代码块消失。链接变为纯文本。对于短文以外的内容,操作费时。
最适合: 只需要几段文字的临时保存。
对比
| 功能 | Save 扩展 | CLI 工具 | 复制粘贴 |
|---|---|---|---|
| 安装时间 | 10 秒 | 5-30 分钟 | 无 |
| 一键保存 | 是 | 否 | 否 |
| 干净输出 | AI 提取 | 参差不齐 | 需手动清理 |
| YouTube 字幕 | 是 | 否 | 否 |
| Twitter 长帖 | 是 | 否 | 部分 |
| Confluence/维基 | 是 | 部分 | 混乱 |
| 保留代码块 | 是 | 通常保留 | 否 |
| 保留表格 | 是 | 通常保留 | 否 |
| 离线使用 | 否 | 是(Pandoc) | 是 |
| 费用 | 有免费版 | 免费 | 免费 |
为什么将网页保存为 Markdown?
如果你在看这篇文章,你可能已经知道原因了。但这里解释一下为什么 Markdown 在保存网页内容方面优于其他格式:
体积小。 一篇典型文章的 Markdown 文件约为 5KB,而 HTML 文件超过 100KB。这意味着 20 倍的存储节省,以及如果将其输入 AI,则节省 20 倍的 token。
可移植。 在任何文本编辑器、任何笔记应用(Obsidian、Notion、Logseq)或任何开发工具中都能打开。无供应商锁定。
可搜索。 在数百个 Markdown 文件中用 grep 搜索只需毫秒。PDF 做不到这点。
LLM 喜欢它。 Claude、ChatGPT 和其他 AI 工具是在数百万 Markdown 文档上训练的。输入 Markdown 比输入原始 HTML 或 PDF 能产生更好的结果。
永久保存。 纯文本文件是最持久的数字格式。你的 .md 文件 50 年后仍可读取,而书签 5 年都未必能存活。
开始使用
开始将网页保存为 Markdown 最快的方式:从 Chrome 网上应用店安装 Save。免费开始,10 秒即可完成安装。
再也不会丢失网页了。Save 一键将任意页面转换为整洁的 Markdown。