← 返回博客

如何将 Confluence 页面导出为 Markdown(2026 指南)

· Save Team
confluencemarkdowndocumentationenterprisemigration

Confluence 不想让你离开。Atlassian 以专有 XML 格式存储你的内容,不提供 Markdown 导出,并使批量提取变得痛苦。如果你曾经尝试过从 Confluence 提取干净的文本,你就知道那种挫败感。

本指南涵盖将 Confluence 页面导出为 Markdown 的每种方法——从单个页面到整个空间。

为什么要将 Confluence 导出为 Markdown?

团队离开 Confluence 有很多原因:

  • 迁移到新工具 — 转移到期望 Markdown 的 Notion、GitBook、Docusaurus 或静态网站生成器
  • 归档知识库 — 在 Atlassian 许可证到期前保存团队文档
  • 构建 AI 知识库 — 将干净的文档提供给 Claude、ChatGPT 或内部 LLM
  • 备份关键文档 — 拥有不依赖 Atlassian 服务器的便携副本
  • 摆脱供应商锁定 — 以通用格式拥有自己的内容

方法 1:Save(单个页面最快)

Save 是一个 Chrome 扩展,只需一键即可将任何 Confluence 页面转换为干净的 Markdown。

工作原理:

  1. 在 Chrome 中打开任意 Confluence 页面
  2. 点击 Save 扩展图标
  3. 立即下载一个 .md 文件

你得到什么:

  • 具有标题层次结构的完整页面文本
  • 格式化为 Markdown 表格的表格
  • 带有语言标签的代码块
  • 转换为块引用的信息面板
  • 展开/折叠部分(完全展开)
  • 干净的元数据:页面标题、空间名称、最后更新日期
  • 保留内部和外部链接

什么被移除:

  • Atlassian 宏和专有格式
  • 导航框架、侧边栏和菜单
  • 所见即所得编辑器产物
  • 内联样式和 CSS

最适合: 保存单个页面或小批量。如果你需要 5-50 个页面,这是最快的方法。

示例输出

来自典型 Confluence 运行手册:

# 部署运行手册 --- 生产 API

**空间:** Engineering
**最后更新:** 2026 年 3 月 12 日

---

## 部署前检查清单

- [ ] `main` 上的所有 CI 检查通过
- [ ] 数据库迁移已审查和批准
- [ ] 为渐进式推出配置了功能标志
- [ ] 已记录回滚计划

## 部署步骤

### 1. 创建发布分支

\`\`\`bash
git checkout -b release/v2.4.0 main
git push origin release/v2.4.0
\`\`\`

### 2. 运行数据库迁移

\`\`\`sql
ALTER TABLE users ADD COLUMN preferences JSONB DEFAULT '{}';
CREATE INDEX idx_users_preferences ON users USING GIN (preferences);
\`\`\`

方法 2:Confluence 内置导出(HTML,然后转换)

Confluence 可以将页面导出为 HTML。然后你可以使用 Pandoc 等工具将 HTML 转换为 Markdown。

步骤:

  1. 进入页面 → 菜单 → 导出为 PDF/Word/HTML
  2. 选择 HTML 导出
  3. 用 Pandoc 转换:pandoc input.html -o output.md

这种方法的问题:

  • HTML 导出包含 Atlassian 的 CSS、宏和内联样式
  • 转换过程中表格经常损坏
  • 代码块丢失语言标签
  • 图片引用的是可能以后失效的 Confluence URL
  • 嵌套页面需要导出整个空间

这种方法可行,但产生的输出质量较差,需要手动清理。

方法 3:空间导出 + 批量转换

导出整个 Confluence 空间:

  1. 进入空间设置内容工具导出
  2. 选择 HTML 格式
  3. 下载 ZIP 存档
  4. 使用脚本批量将 HTML 文件转换为 Markdown

问题: Confluence 空间导出产生深度嵌套的 HTML,带有损坏的相对链接、重复的导航元素和 Atlassian 特定的标记。以编程方式清理这些是一个周末项目。

方法 4:Confluence REST API

用于程序化访问:

curl -u [email protected]:API_TOKEN \
  "https://your-domain.atlassian.net/wiki/rest/api/content/PAGE_ID?expand=body.storage" \
  | jq -r '.body.storage.value' > page.html

这给你原始存储格式(类似 XHTML)。你需要:

  1. 解析 Atlassian 存储格式
  2. 处理宏、嵌入和特殊元素
  3. 转换为 Markdown
  4. 对每个页面重复此过程

最适合: 构建迁移管道的工程团队。对大多数用例来说过于复杂。

应该使用哪种方法?

场景最佳方法
快速保存 1-50 个页面Save 扩展 — 每页一键
归档整个空间空间导出 + Pandoc — 批量但质量较差
构建迁移管道REST API — 程序化但复杂
关键文档的快速备份Save 扩展 — 最干净的输出
将文档提供给 LLMSave 扩展 — Markdown 是 LLM 原生的

对大多数人来说,Save 是答案。它无需设置即可产生最干净的 Markdown,并自动处理 Confluence 的专有格式。

让 Confluence 内容变得有用

将页面导出为 Markdown 后,你可以:

  • 用 grep、VS Code 或 Obsidian 搜索所有内容
  • 将其提供给 Claude 或 ChatGPT 获取关于文档的即时答案
  • 在 Git 中进行版本控制 — 像代码一样跟踪文档变更
  • 导入到任何工具 — Notion、Obsidian、GitBook、Docusaurus 或静态网站生成器
  • 永久保存 — Markdown 文件是纯文本。50 年后仍可读

开始

安装 Save 并立即在 Confluence 页面上试用。免费开始,几秒钟内就能看到干净的 Markdown。


摆脱 Confluence 不必痛苦。Save 只需一键即可将任何页面转换为干净的 Markdown。