← 返回博客

如何将任意网页保存为 Markdown(3 种方法)

· Save Team
markdownweb-clipperhow-toproductivity

你想把网页保存为 Markdown 文件。也许你正在构建知识库、存档文档,或者只是想保留一篇文章的干净副本。以下是三种方法,从最简单到最技术化。

方法一:Save 扩展(最简单)

Save 是一款 Chrome 扩展,一键将任意网页转换为整洁的 Markdown。

使用方法:

  1. 从 Chrome 网上应用店安装 Save
  2. 访问任意网页
  3. 点击 Save 图标
  4. 一个 .md 文件自动下载到你的电脑

优点:

  • AI 驱动的提取功能,自动去除广告、导航和杂乱内容
  • 保留标题、列表、代码块、表格和链接
  • 适用于难处理的页面:YouTube(完整字幕)、Twitter 长帖、Reddit、Confluence、付费内容
  • 无需终端、无需 API 密钥、无需配置
  • 输出干净、结构化的 Markdown,可直接用于 Obsidian、VS Code 或 AI 工具

最适合: 任何想要获得干净 Markdown 而无需接触终端的用户。

方法二:命令行工具

有几款 CLI 工具可以将 HTML 转换为 Markdown:

Pandoc

文档转换的瑞士军刀:

# 从 URL(获取并转换)
curl -s https://example.com/article | pandoc -f html -t markdown -o article.md

# 从本地 HTML 文件
pandoc input.html -o output.md

优点: 功能强大,处理复杂文档,支持多种输出格式。 缺点: 获取的是原始 HTML(包含导航、广告、脚本),输出通常需要手动清理。

Defuddle

专注于提取可读内容的新工具:

npm install -g defuddle
defuddle parse https://example.com/article --md

优点: 去除导航和杂乱内容,专注于文章正文。 缺点: 需要 Node.js,不能处理所有页面类型。

Jina Reader

返回 Markdown 的托管 API:

curl -s "https://r.jina.ai/https://example.com/article"

优点: 无需安装,通过 HTTP 使用。 缺点: 有频率限制,需要网络连接,依赖第三方,不能很好地处理 JavaScript 渲染的页面。

最适合: 熟悉终端且需要批量转换页面的开发者。

方法三:手动复制粘贴

低技术含量的方法:

  1. 全选页面内容(Cmd+A 或 Ctrl+A)
  2. 复制(Cmd+C 或 Ctrl+C)
  3. 粘贴到 Markdown 编辑器
  4. 手动修复格式

优点: 无需工具。 缺点: 复制所有内容(导航、广告、页脚)。格式丢失。表格损坏。代码块消失。链接变为纯文本。对于短文以外的内容,操作费时。

最适合: 只需要几段文字的临时保存。

对比

功能Save 扩展CLI 工具复制粘贴
安装时间10 秒5-30 分钟
一键保存
干净输出AI 提取参差不齐需手动清理
YouTube 字幕
Twitter 长帖部分
Confluence/维基部分混乱
保留代码块通常保留
保留表格通常保留
离线使用是(Pandoc)
费用有免费版免费免费

为什么将网页保存为 Markdown?

如果你在看这篇文章,你可能已经知道原因了。但这里解释一下为什么 Markdown 在保存网页内容方面优于其他格式:

体积小。 一篇典型文章的 Markdown 文件约为 5KB,而 HTML 文件超过 100KB。这意味着 20 倍的存储节省,以及如果将其输入 AI,则节省 20 倍的 token。

可移植。 在任何文本编辑器、任何笔记应用(Obsidian、Notion、Logseq)或任何开发工具中都能打开。无供应商锁定。

可搜索。 在数百个 Markdown 文件中用 grep 搜索只需毫秒。PDF 做不到这点。

LLM 喜欢它。 Claude、ChatGPT 和其他 AI 工具是在数百万 Markdown 文档上训练的。输入 Markdown 比输入原始 HTML 或 PDF 能产生更好的结果。

永久保存。 纯文本文件是最持久的数字格式。你的 .md 文件 50 年后仍可读取,而书签 5 年都未必能存活。

开始使用

开始将网页保存为 Markdown 最快的方式:从 Chrome 网上应用店安装 Save。免费开始,10 秒即可完成安装。


再也不会丢失网页了。Save 一键将任意页面转换为整洁的 Markdown。