将任何网站转换为干净的 AI Markdown——免费 Chrome 扩展
每个 AI 工作流程都从同一个问题开始:将干净的文本输入模型。网页充满了导航、广告、脚本和噪音。Markdown 去除所有这些,给你结构化文本,LLM 才能真正处理。
以下是 2026 年将任何网站转换为 Markdown 的方法——无论你是保存研究的知识工作者还是构建 AI 管道的开发者。
为什么使用 Markdown 供 AI 使用?
AI 模型在使用干净、结构化文本时效果最佳。Markdown 给它们:
- 清晰的层次结构 — 标题、列表和部分告诉模型内容如何组织
- 无噪音 — 没有 HTML 标签、CSS、JavaScript 或跟踪像素
- 令牌效率 — 更少的令牌意味着更低的成本和更多的提示空间
- 通用格式 — 每个 AI 工具都接受 Markdown:ChatGPT、Claude、Gemini、Obsidian、Notion
一个 5000 字的网页作为原始 HTML 可能是 50,000 个令牌。同样的内容在 Markdown 中呢?通常不到 3,000 个令牌。
方法 1:浏览器扩展(最简单)
最适合: 单个页面、研究、笔记、AI 提示词
Save(推荐)
从网页到 Markdown 的最快方式。安装 Chrome 扩展,在任何页面点击图标,下载干净的 Markdown。
有何不同:
- AI 自动识别主要内容并去除杂乱
- 针对 Amazon、YouTube、Reddit、GitHub 等 300+ 个站点特定提示词
- YouTube 字幕被汇总成结构化笔记
- Twitter/X 串被提取为干净的 Markdown
- 输出针对 AI 消费优化(最少令牌)
使用方法:
- 从 Chrome 应用商店安装 Save
- 导航到任何网页
- 点击 Save 图标
- 下载 Markdown 或复制到剪贴板
- 粘贴到 ChatGPT、Claude、Obsidian 或任何工具
定价: 免费(每月 3 次),Plus 无限次($5.99/月)
其他浏览器扩展
- MarkDownload — 免费、开源、离线运行。捕获完整页面(包括导航和广告),需要手动清理。
- Obsidian Web Clipper — 免费,直接剪藏到 Obsidian 库。基于模板,无 AI。
- Notion Web Clipper — 保存到 Notion 数据库。质量参差不齐。
方法 2:开发者 API(用于自动化)
最适合: AI 管道、RAG 系统、构建应用、批量处理
Firecrawl
最流行的大规模将网站转换为 Markdown 的 API。发送 URL,获得干净的 Markdown。也可以爬取整个域名。
主要功能:
- 单页爬取或全站爬取
- JavaScript 渲染用于动态内容
- 自定义模式的结构化数据提取
- Python、Node.js、Go 和 Rust 的 SDK
示例:
from firecrawl import FirecrawlApp
app = FirecrawlApp(api_key="your-key")
result = app.scrape_url("https://example.com")
print(result["markdown"])
定价: 免费层(500 积分),从 $19/月起供常规使用。
Jina Reader
更简单的 API——在任何 URL 前加上 r.jina.ai/ 即可获得 Markdown。无需 SDK。
示例:
https://r.jina.ai/https://example.com
定价: 有速率限制的免费层,更高用量的付费计划。
方法 3:命令行(适合高级用户)
最适合: 批量处理、文档转换、技术工作流程
Pandoc
文档转换的瑞士军刀。在本地将 HTML 文件转换为 Markdown。
pandoc input.html -t markdown -o output.md
注意: 你需要先下载 HTML。Pandoc 不获取 URL——它转换文件。没有内容提取或清理;你获得页面上的所有内容。
对比:什么情况用什么方法?
| 使用场景 | 最佳方法 | 工具 |
|---|---|---|
| 保存文章备用 | 扩展 | Save |
| 将网页提供给 ChatGPT | 扩展 | Save |
| 保存 YouTube 字幕 | 扩展 | Save |
| 构建 RAG 知识库 | API | Firecrawl |
| 爬取文档站用于训练 | API | Firecrawl |
| 从 URL 快速获取 Markdown | API | Jina Reader |
| 批量转换本地 HTML 文件 | CLI | Pandoc |
| 保存到 Obsidian 库 | 扩展 | Obsidian Web Clipper |
AI 就绪 Markdown 的最佳实践
1. 提示词之前先去除噪音
像 Save 这样的 AI 驱动工具自动处理这一步。如果你使用基本转换器,手动删除:
- 导航菜单和页脚
- 侧边栏内容和相关文章
- Cookie 横幅和弹出框
- 广告块和推广内容
2. 保留结构
保留标题(##)、列表(-)和代码块。这有助于 AI 理解内容层次并产生更好的回应。
3. 注意令牌数量
大多数 LLM 有上下文限制。干净的 Markdown 转换比原始 HTML 少用 80-90% 的令牌。当你按令牌付费或在上下文窗口内工作时,这很重要。
4. 在可用时使用站点特定提取
通用转换器对每个页面都一视同仁。Save 这样的工具对不同站点类型使用专门的提示词:
- 电商 → 产品名称、价格、规格、评论
- 食谱 → 食材、步骤、时间
- YouTube → 带时间戳的字幕摘要
- GitHub → README、代码结构
5. 考虑输出格式
- 用于 AI 提示词 → Markdown(最少令牌,清晰结构)
- 用于数据库 → JSON(使用 Firecrawl 的结构化提取)
- 用于文档 → Markdown → Pandoc → PDF/DOCX
2026 年的 AI Markdown 技术栈
最高效的设置组合了多种工具:
- 日常研究 → Save(一键,AI 驱动)
- 构建 AI 应用 → Firecrawl(API,批量爬取)
- 笔记 → Save + Obsidian 或 Notion
- AI 提示词 → Save → 粘贴到 ChatGPT/Claude
你不必只选一个,在每种情境下使用合适的工具。
开始使用
开始将网页转换为 AI 就绪 Markdown 的最快方式:
从 Chrome 应用商店安装 Save — 一键,干净的 Markdown,零设置。
有问题?联系 [email protected]