← 返回博客

将任何网站转换为干净的 AI Markdown——免费 Chrome 扩展

· Save Team
tutorialaimarkdownweb-clipperfirecrawlweb-scraping

每个 AI 工作流程都从同一个问题开始:将干净的文本输入模型。网页充满了导航、广告、脚本和噪音。Markdown 去除所有这些,给你结构化文本,LLM 才能真正处理。

以下是 2026 年将任何网站转换为 Markdown 的方法——无论你是保存研究的知识工作者还是构建 AI 管道的开发者。

为什么使用 Markdown 供 AI 使用?

AI 模型在使用干净、结构化文本时效果最佳。Markdown 给它们:

  • 清晰的层次结构 — 标题、列表和部分告诉模型内容如何组织
  • 无噪音 — 没有 HTML 标签、CSS、JavaScript 或跟踪像素
  • 令牌效率 — 更少的令牌意味着更低的成本和更多的提示空间
  • 通用格式 — 每个 AI 工具都接受 Markdown:ChatGPT、Claude、Gemini、Obsidian、Notion

一个 5000 字的网页作为原始 HTML 可能是 50,000 个令牌。同样的内容在 Markdown 中呢?通常不到 3,000 个令牌。


方法 1:浏览器扩展(最简单)

最适合: 单个页面、研究、笔记、AI 提示词

Save(推荐)

从网页到 Markdown 的最快方式。安装 Chrome 扩展,在任何页面点击图标,下载干净的 Markdown。

有何不同:

  • AI 自动识别主要内容并去除杂乱
  • 针对 Amazon、YouTube、Reddit、GitHub 等 300+ 个站点特定提示词
  • YouTube 字幕被汇总成结构化笔记
  • Twitter/X 串被提取为干净的 Markdown
  • 输出针对 AI 消费优化(最少令牌)

使用方法:

  1. Chrome 应用商店安装 Save
  2. 导航到任何网页
  3. 点击 Save 图标
  4. 下载 Markdown 或复制到剪贴板
  5. 粘贴到 ChatGPT、Claude、Obsidian 或任何工具

定价: 免费(每月 3 次),Plus 无限次($5.99/月)

其他浏览器扩展

  • MarkDownload — 免费、开源、离线运行。捕获完整页面(包括导航和广告),需要手动清理。
  • Obsidian Web Clipper — 免费,直接剪藏到 Obsidian 库。基于模板,无 AI。
  • Notion Web Clipper — 保存到 Notion 数据库。质量参差不齐。

方法 2:开发者 API(用于自动化)

最适合: AI 管道、RAG 系统、构建应用、批量处理

Firecrawl

最流行的大规模将网站转换为 Markdown 的 API。发送 URL,获得干净的 Markdown。也可以爬取整个域名。

主要功能:

  • 单页爬取或全站爬取
  • JavaScript 渲染用于动态内容
  • 自定义模式的结构化数据提取
  • Python、Node.js、Go 和 Rust 的 SDK

示例:

from firecrawl import FirecrawlApp

app = FirecrawlApp(api_key="your-key")
result = app.scrape_url("https://example.com")
print(result["markdown"])

定价: 免费层(500 积分),从 $19/月起供常规使用。

Jina Reader

更简单的 API——在任何 URL 前加上 r.jina.ai/ 即可获得 Markdown。无需 SDK。

示例:

https://r.jina.ai/https://example.com

定价: 有速率限制的免费层,更高用量的付费计划。


方法 3:命令行(适合高级用户)

最适合: 批量处理、文档转换、技术工作流程

Pandoc

文档转换的瑞士军刀。在本地将 HTML 文件转换为 Markdown。

pandoc input.html -t markdown -o output.md

注意: 你需要先下载 HTML。Pandoc 不获取 URL——它转换文件。没有内容提取或清理;你获得页面上的所有内容。


对比:什么情况用什么方法?

使用场景最佳方法工具
保存文章备用扩展Save
将网页提供给 ChatGPT扩展Save
保存 YouTube 字幕扩展Save
构建 RAG 知识库APIFirecrawl
爬取文档站用于训练APIFirecrawl
从 URL 快速获取 MarkdownAPIJina Reader
批量转换本地 HTML 文件CLIPandoc
保存到 Obsidian 库扩展Obsidian Web Clipper

AI 就绪 Markdown 的最佳实践

1. 提示词之前先去除噪音

像 Save 这样的 AI 驱动工具自动处理这一步。如果你使用基本转换器,手动删除:

  • 导航菜单和页脚
  • 侧边栏内容和相关文章
  • Cookie 横幅和弹出框
  • 广告块和推广内容

2. 保留结构

保留标题(##)、列表(-)和代码块。这有助于 AI 理解内容层次并产生更好的回应。

3. 注意令牌数量

大多数 LLM 有上下文限制。干净的 Markdown 转换比原始 HTML 少用 80-90% 的令牌。当你按令牌付费或在上下文窗口内工作时,这很重要。

4. 在可用时使用站点特定提取

通用转换器对每个页面都一视同仁。Save 这样的工具对不同站点类型使用专门的提示词:

  • 电商 → 产品名称、价格、规格、评论
  • 食谱 → 食材、步骤、时间
  • YouTube → 带时间戳的字幕摘要
  • GitHub → README、代码结构

5. 考虑输出格式

  • 用于 AI 提示词 → Markdown(最少令牌,清晰结构)
  • 用于数据库 → JSON(使用 Firecrawl 的结构化提取)
  • 用于文档 → Markdown → Pandoc → PDF/DOCX

2026 年的 AI Markdown 技术栈

最高效的设置组合了多种工具:

  1. 日常研究 → Save(一键,AI 驱动)
  2. 构建 AI 应用 → Firecrawl(API,批量爬取)
  3. 笔记 → Save + Obsidian 或 Notion
  4. AI 提示词 → Save → 粘贴到 ChatGPT/Claude

你不必只选一个,在每种情境下使用合适的工具。


开始使用

开始将网页转换为 AI 就绪 Markdown 的最快方式:

从 Chrome 应用商店安装 Save — 一键,干净的 Markdown,零设置。


有问题?联系 [email protected]