如何將 YouTube 影片儲存為 Markdown(逐字稿、摘要、時間戳)

YouTube 不想讓你把內容帶走。沒有匯出按鈕,沒有逐字稿下載,沒有「複製到筆記」的選項。字幕側邊欄給你的是沒有標點的原始字幕區塊。如果你曾經試著把 YouTube 影片當作上下文貼進 Claude 或 ChatGPT,你就知道問題在哪了 --- 貼 URL 對模型來說什麼也沒給,因為模型沒辦法看影片。

這份指南涵蓋把 YouTube 影片轉成乾淨 Markdown 的每一種方法 --- 從一段演講到數小時的 podcast 都包含在內。

為什麼要把 YouTube 影片儲存為 Markdown?

Markdown 是逐字稿無論要去到哪裡都能用的格式:

餵給 LLM --- Claude、ChatGPT、Gemini 和本地模型都原生地把 Markdown 當作上下文來讀
丟進 Obsidian 或 Notion --- 一個檔案、完全可搜尋、標題層級也整齊
引用某個具體的時間戳 --- 在兩小時的演講裡回到「第 34 分鐘」只差一次搜尋
在演講被下架前先存檔 --- 頻道會被刪除、影片會被設為私密,你的筆記不該依賴 YouTube 的可用性
翻譯外語影片 --- 一旦變成文字,任何翻譯工具都能直接處理

2026 年驅動絕大多數 YouTube-to-Markdown 流量的使用情境是第一種:大家想就剛看完的影片去問 LLM,但是貼 URL 沒用。

方法 1:Save(最快、一鍵搞定)

Save 是一個 Chrome 擴充功能,能用一鍵把任何 YouTube 頁面變成 Markdown 檔。它用 Whisper 等級的模型轉錄音訊,再跑一段簡短的清理,產出的東西真的讀起來像散文,而不是原始字幕。

運作方式:

在 Chrome 中開啟 YouTube 影片
按下工具列上的 Save 擴充功能圖示
.md 檔會立刻下載(已連線 Save Vault 的話會落到那裡)

你會得到:

頂端 AI 生成的摘要,讓你能在閱讀前先掃過
用條列方式列出的重點
完整逐字稿,每隔幾分鐘標一次時間戳
影片有章節時的章節標題
含有標題、頻道、發布日期、時長、URL 的 frontmatter
多於一個聲音時加上的講者標記

會被去掉的:

推薦影片側邊欄與 YouTube 導覽元件
逐字稿中的廣告時段與贊助商片段
留言(除非明確開啟)
自動字幕中重複出現的字幕雜訊

**最適合:**研究者、AI 使用者、學生、podcast 聽眾。如果你需要一份乾淨的逐字稿,要貼進 Claude 或在 Obsidian 中閱讀,這是最乾淨的路徑。

輸出範例

儲存 Karpathy 一段 60 分鐘的演講會產出:

---
title: "[1hr Talk] Intro to Large Language Models"
channel: Andrej Karpathy
url: https://youtube.com/watch?v=zjkBMFhNj_g
duration: 60m
date: 2024-01-15
---

## Summary

Karpathy walks through what an LLM is at the level of bytes on a hard drive,
how training works in practice, and where the discipline is heading. The
core framing: LLMs are file compressors with a thinking layer on top, the
training stack is straightforward but the data work is brutal, and prompt
engineering is becoming software engineering.

## Key Points

- An LLM at rest is two files (parameters and run.c)
- Training is next-token prediction on the internet
- Fine-tuning is what makes models useful for a task
- Scaling laws still hold, but data quality matters more now
- Tool use is the next leap

## Full Transcript

[00:00] Hi everyone, so I've been wanting to do this talk for a while.
We have a lot of really exciting topics to cover...

[02:34] So let's start with what an LLM actually is, at the level of
bytes on a hard drive...

那個檔案距離成為可用的 Claude 上下文只差一次貼上,距離成為永久的 Obsidian 筆記只差一次按鍵。

方法 2:YouTube 的字幕(免費、雜亂)

YouTube 透過 CC 側邊欄提供自動生成的字幕。你可以把它擷取出來再手動重排格式。

步驟:

開啟影片、按下 ... 選單、選擇開啟逐字稿
把有時間戳的每一行複製到文字編輯器
把時間戳去掉、補上標點、手動修正講者切換

這個做法的問題:

自動字幕沒有標點也沒有句子邊界
講者切換完全沒有標記
音樂、掌聲、靜默會被表示成 [Music] / [Applause] 這種雜訊
長停頓與填充詞(「嗯」、「呃」、「就是」)不會被拿掉
沒花 30 分鐘整理,輸出幾乎不能拿來當 LLM 上下文

3 分鐘的短片還可以。再長一點就崩了。

方法 3:本機跑 yt-dlp + Whisper

如果你想要完全控制,可以自己對音訊跑 Whisper。

yt-dlp -x --audio-format mp3 "https://youtube.com/watch?v=VIDEO_ID"
whisper VIDEO_ID.mp3 --model medium --output_format txt

**最適合:**大規模做逐字稿的工程團隊,或基於隱私考量在離線環境跑 Whisper 的任何人。需要 Python 環境、幾 GB 的硬碟空間放模型,以及一塊 GPU 或足夠的耐心。

這個做法的問題:

沒有摘要、沒有重點、沒有乾淨的結構 --- 只有原始的逐字稿文字
講者分離需要另外的模型(pyannote.audio 或類似的)
YouTube 頁面上的章節標記不會被還原
清理 pass(標點、段落、去填充詞)是另一個步驟

如果你在建管線,這是對的方法。對單一影片來說就是殺雞用牛刀。

方法 4:第三方逐字稿服務

像 Descript、Otter.ai、Sonix 這類工具可以吃 YouTube URL 並產出逐字稿。

**最適合:**也需要剪輯、講者辨識、逐字稿團隊協作的 podcaster 與內容團隊。

對 Markdown 使用情境的問題:

輸出通常是專有格式(Descript 專案、Otter 筆記),不是乾淨的 Markdown
多數是按分鐘計費的付費服務,累積起來很快
逐字稿很少被結構化成摘要 + 重點 + 內文
是為影片剪輯工作流而設計,不是為餵 AI 模型

你該用哪個方法?

情境	最佳方法
把影片貼到 Claude 或 ChatGPT	Save --- 一鍵、結構化輸出
把 podcast 存起來之後再讀	Save --- 摘要讓長內容可以快速掃過
引用兩小時演講中的某個瞬間	Save --- 時間戳保留
建立內部逐字稿管線	yt-dlp + Whisper --- 可程式化、離線
為影片剪輯做逐字稿	Descript 或 Otter --- 為那種工作流設計
快速拿到 3 分鐘短片的粗略逐字稿	YouTube CC --- 免費、快、雜亂

對大多數人來說 --- 特別是任何把 YouTube 內容當作 AI 上下文的人 --- Save 就是答案。它不用任何設定就產出最乾淨的 Markdown,而且處理長影片的速度跟處理一則推文一樣快。

Save 能處理的邊角案例

長影片(2 到 4 小時)。 Save 會把音訊切成片段、再以連續的時間戳把逐字稿縫回去。頂端的摘要是關鍵,沒有它沒人會讀三萬字。
多位講者。 Whisper 會做基本的講者分離。當聲音超過一個時,Save 會加上講者標記。在來回快速的訪談節目中不一定完美,但在 podcast 和會議論壇上通常是對的。
多語言影片。 如果音訊是法語,逐字稿就保留法語。沒有強制翻譯。如果你想要英文版,事後請 Claude 翻譯一下。
自動字幕被關閉。 沒差。Save 直接轉錄音訊,不依賴 YouTube 的 CC 軌。
Shorts。 同樣的管線,只是更快。輸出比較短,但仍然帶有元資料 frontmatter 與一段摘要。
限制觀看或會員專屬的影片。 Save 看到的就是你已登入瀏覽器看到的。你能看,Save 就能轉。
直播(結束之後)。 YouTube 處理完封存的 VOD 之後就可以用。進行中的直播不支援。

跟你的工作流配在一起

Markdown 輸出在你需要它的任何地方都能用:

Claude / ChatGPT / Gemini --- 把檔案貼上去,針對影片追問
Obsidian --- 丟進你的 vault、連到相關筆記、跨所有儲存過的演講搜尋
Notion --- 直接貼上,標題與程式碼區塊渲染正常
Apple Notes --- 透過 Markdown 分享延伸功能乾淨匯入
Save Vault --- 連線之後,每次 YouTube 儲存都會自動進來,附帶反向連結與標籤

FAQ

Save 在 YouTube 行動版網站或 app 上能用嗎? 這個擴充功能目前只支援桌面版 Chrome。在手機上的話,把 URL 複製起來去桌面版開,或者貼到 Mac 上的 Save Vault(它有 URL 處理器)。

那 YouTube Music 或播放清單呢? 只支援單一影片。播放清單不會被當作一份文件去爬。MV 可以處理,但逐字稿就只是歌詞(如果有的話)。

我可以只要摘要、不要完整逐字稿嗎? 可以。擴充功能讓你選:只要逐字稿、只要摘要、或兩者都要。預設是兩者都要,因為在多數影片上兩者都不長。

章節會被保留嗎? 如果影片有章節標記,Save 會把它們用作逐字稿中的小節標題。長影片會變得好導覽很多。

逐字稿會包含填充詞嗎? 清理 pass 會把多數的「嗯」、「呃」與錯誤開頭去掉。它保留講者的聲音與語氣,只清掉那些讓原始逐字稿難讀的口語雜音。

逐字稿精準到可以引用嗎? 正常語速的話,可以。對那種充滿罕見專有名詞的高度技術性內容,記得對照影片核對拼字。Save 用的是 Whisper 等級的模型,在英文上是 state of the art,在多數主要語言上也非常好。

多少錢? Save 有免費方案,可以讓你拿幾支影片試用。再往上,一份小額訂閱負擔轉錄成本。

如何將 YouTube 影片儲存為 Markdown(逐字稿、摘要、時間戳)

為什麼要把 YouTube 影片儲存為 Markdown?

方法 1:Save(最快、一鍵搞定)

輸出範例

方法 2:YouTube 的字幕(免費、雜亂)

方法 3:本機跑 yt-dlp + Whisper

方法 4:第三方逐字稿服務

你該用哪個方法?

Save 能處理的邊角案例

跟你的工作流配在一起

FAQ

相關的 Save 指南

## Continue reading

如何將 ChatGPT 對話儲存為 Markdown（每輪對話、程式碼區塊完整保留）

如何將 Reddit 串文儲存為 Markdown（含留言與上下文）

如何將 Claude 對話儲存為 Markdown（Artifacts、引用、Projects）

如何將 Substack 貼文儲存為 Markdown(支援付費牆,無交叉推廣)

Jean-Sébastien Wallez