如何將 YouTube 影片儲存為 Markdown(逐字稿、摘要、時間戳)
YouTube 不想讓你把內容帶走。沒有匯出按鈕,沒有逐字稿下載,沒有「複製到筆記」的選項。字幕側邊欄給你的是沒有標點的原始字幕區塊。如果你曾經試著把 YouTube 影片當作上下文貼進 Claude 或 ChatGPT,你就知道問題在哪了 --- 貼 URL 對模型來說什麼也沒給,因為模型沒辦法看影片。
這份指南涵蓋把 YouTube 影片轉成乾淨 Markdown 的每一種方法 --- 從一段演講到數小時的 podcast 都包含在內。
為什麼要把 YouTube 影片儲存為 Markdown?
Markdown 是逐字稿無論要去到哪裡都能用的格式:
- 餵給 LLM --- Claude、ChatGPT、Gemini 和本地模型都原生地把 Markdown 當作上下文來讀
- 丟進 Obsidian 或 Notion --- 一個檔案、完全可搜尋、標題層級也整齊
- 引用某個具體的時間戳 --- 在兩小時的演講裡回到「第 34 分鐘」只差一次搜尋
- 在演講被下架前先存檔 --- 頻道會被刪除、影片會被設為私密,你的筆記不該依賴 YouTube 的可用性
- 翻譯外語影片 --- 一旦變成文字,任何翻譯工具都能直接處理
2026 年驅動絕大多數 YouTube-to-Markdown 流量的使用情境是第一種:大家想就剛看完的影片去問 LLM,但是貼 URL 沒用。
方法 1:Save(最快、一鍵搞定)
Save 是一個 Chrome 擴充功能,能用一鍵把任何 YouTube 頁面變成 Markdown 檔。它用 Whisper 等級的模型轉錄音訊,再跑一段簡短的清理,產出的東西真的讀起來像散文,而不是原始字幕。
運作方式:
- 在 Chrome 中開啟 YouTube 影片
- 按下工具列上的 Save 擴充功能圖示
.md檔會立刻下載(已連線 Save Vault 的話會落到那裡)
你會得到:
- 頂端 AI 生成的摘要,讓你能在閱讀前先掃過
- 用條列方式列出的重點
- 完整逐字稿,每隔幾分鐘標一次時間戳
- 影片有章節時的章節標題
- 含有標題、頻道、發布日期、時長、URL 的 frontmatter
- 多於一個聲音時加上的講者標記
會被去掉的:
- 推薦影片側邊欄與 YouTube 導覽元件
- 逐字稿中的廣告時段與贊助商片段
- 留言(除非明確開啟)
- 自動字幕中重複出現的字幕雜訊
**最適合:**研究者、AI 使用者、學生、podcast 聽眾。如果你需要一份乾淨的逐字稿,要貼進 Claude 或在 Obsidian 中閱讀,這是最乾淨的路徑。
輸出範例
儲存 Karpathy 一段 60 分鐘的演講會產出:
---
title: "[1hr Talk] Intro to Large Language Models"
channel: Andrej Karpathy
url: https://youtube.com/watch?v=zjkBMFhNj_g
duration: 60m
date: 2024-01-15
---
## Summary
Karpathy walks through what an LLM is at the level of bytes on a hard drive,
how training works in practice, and where the discipline is heading. The
core framing: LLMs are file compressors with a thinking layer on top, the
training stack is straightforward but the data work is brutal, and prompt
engineering is becoming software engineering.
## Key Points
- An LLM at rest is two files (parameters and run.c)
- Training is next-token prediction on the internet
- Fine-tuning is what makes models useful for a task
- Scaling laws still hold, but data quality matters more now
- Tool use is the next leap
## Full Transcript
[00:00] Hi everyone, so I've been wanting to do this talk for a while.
We have a lot of really exciting topics to cover...
[02:34] So let's start with what an LLM actually is, at the level of
bytes on a hard drive...
那個檔案距離成為可用的 Claude 上下文只差一次貼上,距離成為永久的 Obsidian 筆記只差一次按鍵。
方法 2:YouTube 的字幕(免費、雜亂)
YouTube 透過 CC 側邊欄提供自動生成的字幕。你可以把它擷取出來再手動重排格式。
步驟:
- 開啟影片、按下
...選單、選擇開啟逐字稿 - 把有時間戳的每一行複製到文字編輯器
- 把時間戳去掉、補上標點、手動修正講者切換
這個做法的問題:
- 自動字幕沒有標點也沒有句子邊界
- 講者切換完全沒有標記
- 音樂、掌聲、靜默會被表示成
[Music]/[Applause]這種雜訊 - 長停頓與填充詞(「嗯」、「呃」、「就是」)不會被拿掉
- 沒花 30 分鐘整理,輸出幾乎不能拿來當 LLM 上下文
3 分鐘的短片還可以。再長一點就崩了。
方法 3:本機跑 yt-dlp + Whisper
如果你想要完全控制,可以自己對音訊跑 Whisper。
yt-dlp -x --audio-format mp3 "https://youtube.com/watch?v=VIDEO_ID"
whisper VIDEO_ID.mp3 --model medium --output_format txt
**最適合:**大規模做逐字稿的工程團隊,或基於隱私考量在離線環境跑 Whisper 的任何人。需要 Python 環境、幾 GB 的硬碟空間放模型,以及一塊 GPU 或足夠的耐心。
這個做法的問題:
- 沒有摘要、沒有重點、沒有乾淨的結構 --- 只有原始的逐字稿文字
- 講者分離需要另外的模型(
pyannote.audio或類似的) - YouTube 頁面上的章節標記不會被還原
- 清理 pass(標點、段落、去填充詞)是另一個步驟
如果你在建管線,這是對的方法。對單一影片來說就是殺雞用牛刀。
方法 4:第三方逐字稿服務
像 Descript、Otter.ai、Sonix 這類工具可以吃 YouTube URL 並產出逐字稿。
**最適合:**也需要剪輯、講者辨識、逐字稿團隊協作的 podcaster 與內容團隊。
對 Markdown 使用情境的問題:
- 輸出通常是專有格式(Descript 專案、Otter 筆記),不是乾淨的 Markdown
- 多數是按分鐘計費的付費服務,累積起來很快
- 逐字稿很少被結構化成摘要 + 重點 + 內文
- 是為影片剪輯工作流而設計,不是為餵 AI 模型
你該用哪個方法?
| 情境 | 最佳方法 |
|---|---|
| 把影片貼到 Claude 或 ChatGPT | Save --- 一鍵、結構化輸出 |
| 把 podcast 存起來之後再讀 | Save --- 摘要讓長內容可以快速掃過 |
| 引用兩小時演講中的某個瞬間 | Save --- 時間戳保留 |
| 建立內部逐字稿管線 | yt-dlp + Whisper --- 可程式化、離線 |
| 為影片剪輯做逐字稿 | Descript 或 Otter --- 為那種工作流設計 |
| 快速拿到 3 分鐘短片的粗略逐字稿 | YouTube CC --- 免費、快、雜亂 |
對大多數人來說 --- 特別是任何把 YouTube 內容當作 AI 上下文的人 --- Save 就是答案。它不用任何設定就產出最乾淨的 Markdown,而且處理長影片的速度跟處理一則推文一樣快。
Save 能處理的邊角案例
- 長影片(2 到 4 小時)。 Save 會把音訊切成片段、再以連續的時間戳把逐字稿縫回去。頂端的摘要是關鍵,沒有它沒人會讀三萬字。
- 多位講者。 Whisper 會做基本的講者分離。當聲音超過一個時,Save 會加上講者標記。在來回快速的訪談節目中不一定完美,但在 podcast 和會議論壇上通常是對的。
- 多語言影片。 如果音訊是法語,逐字稿就保留法語。沒有強制翻譯。如果你想要英文版,事後請 Claude 翻譯一下。
- 自動字幕被關閉。 沒差。Save 直接轉錄音訊,不依賴 YouTube 的 CC 軌。
- Shorts。 同樣的管線,只是更快。輸出比較短,但仍然帶有元資料 frontmatter 與一段摘要。
- 限制觀看或會員專屬的影片。 Save 看到的就是你已登入瀏覽器看到的。你能看,Save 就能轉。
- 直播(結束之後)。 YouTube 處理完封存的 VOD 之後就可以用。進行中的直播不支援。
跟你的工作流配在一起
Markdown 輸出在你需要它的任何地方都能用:
- Claude / ChatGPT / Gemini --- 把檔案貼上去,針對影片追問
- Obsidian --- 丟進你的 vault、連到相關筆記、跨所有儲存過的演講搜尋
- Notion --- 直接貼上,標題與程式碼區塊渲染正常
- Apple Notes --- 透過 Markdown 分享延伸功能乾淨匯入
- Save Vault --- 連線之後,每次 YouTube 儲存都會自動進來,附帶反向連結與標籤
FAQ
Save 在 YouTube 行動版網站或 app 上能用嗎? 這個擴充功能目前只支援桌面版 Chrome。在手機上的話,把 URL 複製起來去桌面版開,或者貼到 Mac 上的 Save Vault(它有 URL 處理器)。
那 YouTube Music 或播放清單呢? 只支援單一影片。播放清單不會被當作一份文件去爬。MV 可以處理,但逐字稿就只是歌詞(如果有的話)。
我可以只要摘要、不要完整逐字稿嗎? 可以。擴充功能讓你選:只要逐字稿、只要摘要、或兩者都要。預設是兩者都要,因為在多數影片上兩者都不長。
章節會被保留嗎? 如果影片有章節標記,Save 會把它們用作逐字稿中的小節標題。長影片會變得好導覽很多。
逐字稿會包含填充詞嗎? 清理 pass 會把多數的「嗯」、「呃」與錯誤開頭去掉。它保留講者的聲音與語氣,只清掉那些讓原始逐字稿難讀的口語雜音。
逐字稿精準到可以引用嗎? 正常語速的話,可以。對那種充滿罕見專有名詞的高度技術性內容,記得對照影片核對拼字。Save 用的是 Whisper 等級的模型,在英文上是 state of the art,在多數主要語言上也非常好。
多少錢? Save 有免費方案,可以讓你拿幾支影片試用。再往上,一份小額訂閱負擔轉錄成本。
相關的 Save 指南
- 把 Reddit 討論串儲存為 Markdown --- 保留留言巢狀結構的討論串
- 把 ChatGPT 對話儲存為 Markdown --- 每一輪、程式碼區塊完整保留
- 把 GitHub 儲存庫與 issue 儲存為 Markdown --- README、issue、PR 討論全部彙整成一個檔案
- 把 Notion 頁面儲存為 Markdown --- 折疊展開、資料庫變成表格
- 把 Twitter / X 推文串儲存為 Markdown --- 每一則推文按順序、附上來源
## Continue reading
如何將 ChatGPT 對話儲存為 Markdown(每輪對話、程式碼區塊完整保留)
將任何 ChatGPT 對話轉換為乾淨的 Markdown:每輪對話、程式碼區塊、表格、引用。給研究者和 AI 使用者的 2026 完整指南。
如何將 Reddit 串文儲存為 Markdown(含留言與上下文)
將任何 Reddit 串文轉換為乾淨的 Markdown,保留巢狀留言、karma、flair 和 OP 標記。2026 年研究人員與 AI 使用者完整指南。
如何將 Claude 對話儲存為 Markdown(Artifacts、引用、Projects)
將 Claude 對話轉換為乾淨的 Markdown:每個回合、Artifacts 作為程式碼區塊、保留引用。給研究者與 AI 使用者的完整指南。
如何將 Substack 貼文儲存為 Markdown(支援付費牆,無交叉推廣)
將任何 Substack 電子報轉換為乾淨的 Markdown:完整內文、引文、嵌入音訊,無訂閱彈窗。2026 年研究人員和 AI 使用者完整指南。
Written by
Jean-Sébastien Wallez
I've been making internet products for 10+ years. Built Save on weekends because I wanted my own reading library in clean markdown for Claude and Obsidian. Write here about web clipping, AI workflows, and the small things that make a personal knowledge base actually useful.