如何將 YouTube 影片儲存為 Markdown(逐字稿、摘要、時間戳)

·

YouTube 不想讓你把內容帶走。沒有匯出按鈕,沒有逐字稿下載,沒有「複製到筆記」的選項。字幕側邊欄給你的是沒有標點的原始字幕區塊。如果你曾經試著把 YouTube 影片當作上下文貼進 Claude 或 ChatGPT,你就知道問題在哪了 --- 貼 URL 對模型來說什麼也沒給,因為模型沒辦法看影片。

這份指南涵蓋把 YouTube 影片轉成乾淨 Markdown 的每一種方法 --- 從一段演講到數小時的 podcast 都包含在內。

為什麼要把 YouTube 影片儲存為 Markdown?

Markdown 是逐字稿無論要去到哪裡都能用的格式:

  • 餵給 LLM --- Claude、ChatGPT、Gemini 和本地模型都原生地把 Markdown 當作上下文來讀
  • 丟進 Obsidian 或 Notion --- 一個檔案、完全可搜尋、標題層級也整齊
  • 引用某個具體的時間戳 --- 在兩小時的演講裡回到「第 34 分鐘」只差一次搜尋
  • 在演講被下架前先存檔 --- 頻道會被刪除、影片會被設為私密,你的筆記不該依賴 YouTube 的可用性
  • 翻譯外語影片 --- 一旦變成文字,任何翻譯工具都能直接處理

2026 年驅動絕大多數 YouTube-to-Markdown 流量的使用情境是第一種:大家想就剛看完的影片去問 LLM,但是貼 URL 沒用。

方法 1:Save(最快、一鍵搞定)

Save 是一個 Chrome 擴充功能,能用一鍵把任何 YouTube 頁面變成 Markdown 檔。它用 Whisper 等級的模型轉錄音訊,再跑一段簡短的清理,產出的東西真的讀起來像散文,而不是原始字幕。

運作方式:

  1. 在 Chrome 中開啟 YouTube 影片
  2. 按下工具列上的 Save 擴充功能圖示
  3. .md 檔會立刻下載(已連線 Save Vault 的話會落到那裡)

你會得到:

  • 頂端 AI 生成的摘要,讓你能在閱讀前先掃過
  • 用條列方式列出的重點
  • 完整逐字稿,每隔幾分鐘標一次時間戳
  • 影片有章節時的章節標題
  • 含有標題、頻道、發布日期、時長、URL 的 frontmatter
  • 多於一個聲音時加上的講者標記

會被去掉的:

  • 推薦影片側邊欄與 YouTube 導覽元件
  • 逐字稿中的廣告時段與贊助商片段
  • 留言(除非明確開啟)
  • 自動字幕中重複出現的字幕雜訊

**最適合:**研究者、AI 使用者、學生、podcast 聽眾。如果你需要一份乾淨的逐字稿,要貼進 Claude 或在 Obsidian 中閱讀,這是最乾淨的路徑。

輸出範例

儲存 Karpathy 一段 60 分鐘的演講會產出:

---
title: "[1hr Talk] Intro to Large Language Models"
channel: Andrej Karpathy
url: https://youtube.com/watch?v=zjkBMFhNj_g
duration: 60m
date: 2024-01-15
---

## Summary

Karpathy walks through what an LLM is at the level of bytes on a hard drive,
how training works in practice, and where the discipline is heading. The
core framing: LLMs are file compressors with a thinking layer on top, the
training stack is straightforward but the data work is brutal, and prompt
engineering is becoming software engineering.

## Key Points

- An LLM at rest is two files (parameters and run.c)
- Training is next-token prediction on the internet
- Fine-tuning is what makes models useful for a task
- Scaling laws still hold, but data quality matters more now
- Tool use is the next leap

## Full Transcript

[00:00] Hi everyone, so I've been wanting to do this talk for a while.
We have a lot of really exciting topics to cover...

[02:34] So let's start with what an LLM actually is, at the level of
bytes on a hard drive...

那個檔案距離成為可用的 Claude 上下文只差一次貼上,距離成為永久的 Obsidian 筆記只差一次按鍵。

方法 2:YouTube 的字幕(免費、雜亂)

YouTube 透過 CC 側邊欄提供自動生成的字幕。你可以把它擷取出來再手動重排格式。

步驟:

  1. 開啟影片、按下 ... 選單、選擇開啟逐字稿
  2. 把有時間戳的每一行複製到文字編輯器
  3. 把時間戳去掉、補上標點、手動修正講者切換

這個做法的問題:

  • 自動字幕沒有標點也沒有句子邊界
  • 講者切換完全沒有標記
  • 音樂、掌聲、靜默會被表示成 [Music] / [Applause] 這種雜訊
  • 長停頓與填充詞(「嗯」、「呃」、「就是」)不會被拿掉
  • 沒花 30 分鐘整理,輸出幾乎不能拿來當 LLM 上下文

3 分鐘的短片還可以。再長一點就崩了。

方法 3:本機跑 yt-dlp + Whisper

如果你想要完全控制,可以自己對音訊跑 Whisper。

yt-dlp -x --audio-format mp3 "https://youtube.com/watch?v=VIDEO_ID"
whisper VIDEO_ID.mp3 --model medium --output_format txt

**最適合:**大規模做逐字稿的工程團隊,或基於隱私考量在離線環境跑 Whisper 的任何人。需要 Python 環境、幾 GB 的硬碟空間放模型,以及一塊 GPU 或足夠的耐心。

這個做法的問題:

  • 沒有摘要、沒有重點、沒有乾淨的結構 --- 只有原始的逐字稿文字
  • 講者分離需要另外的模型(pyannote.audio 或類似的)
  • YouTube 頁面上的章節標記不會被還原
  • 清理 pass(標點、段落、去填充詞)是另一個步驟

如果你在建管線,這是對的方法。對單一影片來說就是殺雞用牛刀。

方法 4:第三方逐字稿服務

像 Descript、Otter.ai、Sonix 這類工具可以吃 YouTube URL 並產出逐字稿。

**最適合:**也需要剪輯、講者辨識、逐字稿團隊協作的 podcaster 與內容團隊。

對 Markdown 使用情境的問題:

  • 輸出通常是專有格式(Descript 專案、Otter 筆記),不是乾淨的 Markdown
  • 多數是按分鐘計費的付費服務,累積起來很快
  • 逐字稿很少被結構化成摘要 + 重點 + 內文
  • 是為影片剪輯工作流而設計,不是為餵 AI 模型

你該用哪個方法?

情境最佳方法
把影片貼到 Claude 或 ChatGPTSave --- 一鍵、結構化輸出
把 podcast 存起來之後再讀Save --- 摘要讓長內容可以快速掃過
引用兩小時演講中的某個瞬間Save --- 時間戳保留
建立內部逐字稿管線yt-dlp + Whisper --- 可程式化、離線
為影片剪輯做逐字稿Descript 或 Otter --- 為那種工作流設計
快速拿到 3 分鐘短片的粗略逐字稿YouTube CC --- 免費、快、雜亂

對大多數人來說 --- 特別是任何把 YouTube 內容當作 AI 上下文的人 --- Save 就是答案。它不用任何設定就產出最乾淨的 Markdown,而且處理長影片的速度跟處理一則推文一樣快。

Save 能處理的邊角案例

  • 長影片(2 到 4 小時)。 Save 會把音訊切成片段、再以連續的時間戳把逐字稿縫回去。頂端的摘要是關鍵,沒有它沒人會讀三萬字。
  • 多位講者。 Whisper 會做基本的講者分離。當聲音超過一個時,Save 會加上講者標記。在來回快速的訪談節目中不一定完美,但在 podcast 和會議論壇上通常是對的。
  • 多語言影片。 如果音訊是法語,逐字稿就保留法語。沒有強制翻譯。如果你想要英文版,事後請 Claude 翻譯一下。
  • 自動字幕被關閉。 沒差。Save 直接轉錄音訊,不依賴 YouTube 的 CC 軌。
  • Shorts。 同樣的管線,只是更快。輸出比較短,但仍然帶有元資料 frontmatter 與一段摘要。
  • 限制觀看或會員專屬的影片。 Save 看到的就是你已登入瀏覽器看到的。你能看,Save 就能轉。
  • 直播(結束之後)。 YouTube 處理完封存的 VOD 之後就可以用。進行中的直播不支援。

跟你的工作流配在一起

Markdown 輸出在你需要它的任何地方都能用:

  • Claude / ChatGPT / Gemini --- 把檔案貼上去,針對影片追問
  • Obsidian --- 丟進你的 vault、連到相關筆記、跨所有儲存過的演講搜尋
  • Notion --- 直接貼上,標題與程式碼區塊渲染正常
  • Apple Notes --- 透過 Markdown 分享延伸功能乾淨匯入
  • Save Vault --- 連線之後,每次 YouTube 儲存都會自動進來,附帶反向連結與標籤

FAQ

Save 在 YouTube 行動版網站或 app 上能用嗎? 這個擴充功能目前只支援桌面版 Chrome。在手機上的話,把 URL 複製起來去桌面版開,或者貼到 Mac 上的 Save Vault(它有 URL 處理器)。

那 YouTube Music 或播放清單呢? 只支援單一影片。播放清單不會被當作一份文件去爬。MV 可以處理,但逐字稿就只是歌詞(如果有的話)。

我可以只要摘要、不要完整逐字稿嗎? 可以。擴充功能讓你選:只要逐字稿、只要摘要、或兩者都要。預設是兩者都要,因為在多數影片上兩者都不長。

章節會被保留嗎? 如果影片有章節標記,Save 會把它們用作逐字稿中的小節標題。長影片會變得好導覽很多。

逐字稿會包含填充詞嗎? 清理 pass 會把多數的「嗯」、「呃」與錯誤開頭去掉。它保留講者的聲音與語氣,只清掉那些讓原始逐字稿難讀的口語雜音。

逐字稿精準到可以引用嗎? 正常語速的話,可以。對那種充滿罕見專有名詞的高度技術性內容,記得對照影片核對拼字。Save 用的是 Whisper 等級的模型,在英文上是 state of the art,在多數主要語言上也非常好。

多少錢? Save 有免費方案,可以讓你拿幾支影片試用。再往上,一份小額訂閱負擔轉錄成本。

相關的 Save 指南

## Continue reading

Jean-Sébastien Wallez

Written by

Jean-Sébastien Wallez

I've been making internet products for 10+ years. Built Save on weekends because I wanted my own reading library in clean markdown for Claude and Obsidian. Write here about web clipping, AI workflows, and the small things that make a personal knowledge base actually useful.