YouTube 영상을 Markdown으로 저장하는 방법 (자막·요약·타임스탬프)

YouTube는 콘텐츠를 들고 나가게 두지 않습니다. 내보내기 버튼도, 자막 다운로드도, “노트에 복사” 옵션도 없습니다. 자막 사이드바는 구두점 없는 자막 블록만 던져줄 뿐입니다. YouTube 영상을 Claude나 ChatGPT에 컨텍스트로 붙여넣으려 해본 적이 있다면 문제를 알 겁니다 --- URL을 붙여도 모델에게는 아무것도 가지 않습니다, 모델은 영상을 볼 수 없으니까요.

이 가이드는 YouTube 영상을 깔끔한 Markdown으로 변환하는 모든 방법을 다룹니다 --- 한 편의 강연부터 몇 시간짜리 팟캐스트까지.

왜 YouTube 영상을 Markdown으로 저장할까?

Markdown은 자막이 가야 할 어디서든 작동하는 포맷입니다:

LLM에 먹이기 --- Claude, ChatGPT, Gemini, 그리고 로컬 모델 모두 Markdown을 컨텍스트로 네이티브하게 읽습니다
Obsidian이나 Notion에 던져 넣기 --- 한 파일, 완전 검색 가능, 제목 체계도 제대로
특정 타임스탬프 인용하기 --- 2시간짜리 강연의 “34분”으로 돌아가는 게 검색 한 번이면 끝
내려가기 전에 강연을 보관하기 --- 채널은 사라지고, 영상은 비공개로 전환됩니다. 당신의 노트가 YouTube의 가동 시간에 의존해서는 안 됩니다
외국어 영상을 번역하기 --- 텍스트가 되면, 어떤 번역 도구든 그 위에서 작동합니다

2026년 YouTube-to-Markdown 트래픽의 대부분을 이끄는 사용 사례는 첫 번째입니다: 사람들은 방금 본 영상에 대해 LLM에게 묻고 싶은데, URL 붙여넣기로는 안 됩니다.

방법 1: Save (가장 빠름, 원클릭)

Save는 어떤 YouTube 페이지든 원클릭으로 Markdown 파일로 바꾸는 Chrome 확장 프로그램입니다. Whisper 급 모델로 오디오를 받아쓰고, 짧은 정리 패스를 거쳐, 실제로 산문처럼 읽히는 결과물을 만들어냅니다, 자막 덩어리가 아니라요.

작동 방식:

Chrome에서 YouTube 영상을 엽니다
툴바의 Save 확장 아이콘을 클릭합니다
.md 파일이 즉시 다운로드됩니다 (Save Vault가 연결되어 있다면 거기로 들어옵니다)

얻는 것:

읽기 전에 훑어볼 수 있도록 상단에 AI 생성 요약
핵심 포인트는 글머리 기호 목록으로
몇 분마다 타임스탬프가 찍힌 전체 자막
영상에 챕터가 있으면 챕터 제목
제목, 채널, 게시 날짜, 길이, URL이 담긴 프론트매터
목소리가 두 개 이상일 때 화자 라벨

제거되는 것:

추천 영상 사이드바와 YouTube 내비게이션 UI
자막 안의 광고 시간대와 스폰서 구간
댓글 (명시적으로 옵트인하지 않는 한)
자동 생성 자막의 반복적인 자막 아티팩트

가장 적합한 경우: 연구자, AI 사용자, 학생, 팟캐스트 청취자. Claude에 붙여넣거나 Obsidian에서 읽을 깔끔한 자막이 필요하다면, 이게 가장 깔끔한 길입니다.

출력 예시

60분짜리 Karpathy 강연을 저장하면 이렇게 나옵니다:

---
title: "[1hr Talk] Intro to Large Language Models"
channel: Andrej Karpathy
url: https://youtube.com/watch?v=zjkBMFhNj_g
duration: 60m
date: 2024-01-15
---

## Summary

Karpathy walks through what an LLM is at the level of bytes on a hard drive,
how training works in practice, and where the discipline is heading. The
core framing: LLMs are file compressors with a thinking layer on top, the
training stack is straightforward but the data work is brutal, and prompt
engineering is becoming software engineering.

## Key Points

- An LLM at rest is two files (parameters and run.c)
- Training is next-token prediction on the internet
- Fine-tuning is what makes models useful for a task
- Scaling laws still hold, but data quality matters more now
- Tool use is the next leap

## Full Transcript

[00:00] Hi everyone, so I've been wanting to do this talk for a while.
We have a lot of really exciting topics to cover...

[02:34] So let's start with what an LLM actually is, at the level of
bytes on a hard drive...

그 파일은 붙여넣기 한 번이면 쓸 만한 Claude 컨텍스트가 되고, 단축키 한 번이면 영구적인 Obsidian 노트가 됩니다.

방법 2: YouTube의 자막 (무료, 지저분함)

YouTube는 CC 사이드바를 통해 자동 생성 자막을 노출합니다. 그것을 추출해서 수동으로 다시 정리할 수 있습니다.

단계:

영상을 열고, ... 메뉴를 클릭하고, 자막 열기를 선택합니다
타임스탬프가 찍힌 줄들을 텍스트 에디터로 복사합니다
타임스탬프를 떼어내고, 구두점을 추가하고, 화자 경계를 손으로 고칩니다

이 방식의 문제점:

자동 자막은 구두점도, 문장 경계도 없습니다
화자 전환이 전혀 표시되지 않습니다
음악, 박수, 침묵은 [Music] / [Applause] 아티팩트로 표현됩니다
긴 멈춤과 채움말(“음”, “어”, “그러니까”)은 제거되지 않습니다
30분의 정리 작업 없이는 LLM 컨텍스트로 거의 못 씁니다

3분짜리 클립이라면 쓸 만합니다. 그보다 길어지면 무너집니다.

방법 3: yt-dlp + Whisper 로컬

완전한 통제를 원한다면, 오디오에 대고 직접 Whisper를 돌릴 수 있습니다.

yt-dlp -x --audio-format mp3 "https://youtube.com/watch?v=VIDEO_ID"
whisper VIDEO_ID.mp3 --model medium --output_format txt

가장 적합한 경우: 대규모로 받아쓰는 엔지니어링 팀, 또는 프라이버시를 위해 Whisper를 오프라인으로 돌리는 누구든. Python 환경, 모델용 디스크 몇 GB, 그리고 GPU 아니면 인내심이 필요합니다.

이 방식의 문제점:

요약 없음, 핵심 포인트 없음, 깔끔한 구조 없음 --- 그냥 원시 자막 텍스트
화자 다이어리제이션에는 별도 모델(pyannote.audio 등)이 필요
YouTube 페이지의 챕터 마커는 복구되지 않음
정리 패스(구두점, 단락, 채움말 제거)는 별도 단계

파이프라인을 만든다면 이게 맞는 방법입니다. 영상 한 편을 위해서는 과합니다.

방법 4: 서드파티 받아쓰기 서비스

Descript, Otter.ai, Sonix 같은 도구는 YouTube URL을 받아 자막을 만들어낼 수 있습니다.

가장 적합한 경우: 편집, 화자 식별, 자막에 대한 팀 협업까지 필요한 팟캐스터와 콘텐츠 팀.

Markdown 사용 사례에서의 문제점:

출력은 보통 독점 포맷(Descript 프로젝트, Otter 노트)이지 깔끔한 Markdown이 아닙니다
대부분 분당 요금이 빠르게 누적되는 유료 서비스입니다
자막이 요약 + 핵심 포인트 + 본문으로 구조화되는 일은 드뭅니다
영상 편집 워크플로용으로 설계되었지, AI 모델에 먹이는 용도는 아닙니다

어떤 방법을 써야 할까?

시나리오	가장 좋은 방법
영상을 Claude나 ChatGPT에 붙여넣기	Save --- 원클릭, 구조화된 출력
나중에 읽을 팟캐스트 저장	Save --- 요약 덕분에 긴 콘텐츠도 훑어볼 수 있음
2시간 강연의 특정 순간 인용	Save --- 타임스탬프 보존
사내 받아쓰기 파이프라인 구축	yt-dlp + Whisper --- 프로그래머블 & 오프라인
영상 편집용 받아쓰기	Descript 또는 Otter --- 그 워크플로를 위해 설계됨
3분 클립의 거친 자막 빠르게 얻기	YouTube CC --- 무료, 빠름, 지저분함

대부분의 사람들에게 --- 특히 YouTube 콘텐츠를 AI 컨텍스트로 쓰는 누구에게든 --- 답은 Save입니다. 설정 없이 가장 깔끔한 Markdown을 만들어내고, 긴 영상도 트윗과 같은 속도로 처리합니다.

Save가 처리하는 엣지 케이스

긴 영상 (2~4시간). Save는 오디오를 청크로 나누고 연속된 타임스탬프로 자막을 다시 꿰맵니다. 상단의 요약이 핵심입니다. 그게 없으면 아무도 3만 단어를 읽지 않습니다.
여러 화자. Whisper가 기본적인 다이어리제이션을 수행합니다. Save는 목소리가 두 개 이상일 때 화자 라벨을 추가합니다. 빠른 주고받음이 있는 인터뷰 쇼에서는 늘 완벽하지는 않지만, 팟캐스트나 컨퍼런스 패널에서는 보통 맞습니다.
다국어 영상. 오디오가 프랑스어라면 자막도 프랑스어로 남습니다. 강제 번역 없음. 영어로 원하면, Claude에게 나중에 번역해 달라고 하세요.
자동 자막 비활성화. 상관없습니다. Save는 오디오를 직접 받아쓰며 YouTube의 CC 트랙에 의존하지 않습니다.
Shorts. 같은 파이프라인, 그저 더 빠를 뿐. 출력은 더 짧지만 여전히 메타데이터 프론트매터와 요약이 있습니다.
제한된 또는 멤버 전용 영상. Save는 당신의 로그인된 브라우저가 보는 것을 봅니다. 당신이 볼 수 있다면 Save가 받아쓸 수 있습니다.
라이브 스트림 (종료 후). YouTube가 처리 완료한 보관 VOD에서 작동합니다. 진행 중인 라이브 스트림은 지원하지 않습니다.

워크플로와 결합하기

Markdown 출력은 필요한 어디서든 작동합니다:

Claude / ChatGPT / Gemini --- 파일을 붙여넣고, 영상에 대해 후속 질문
Obsidian --- 볼트에 떨어뜨리고, 관련 노트에 연결하고, 저장한 모든 강연을 가로질러 검색
Notion --- 바로 붙여넣기, 제목과 코드 블록이 올바르게 렌더링
Apple Notes --- Markdown 공유 확장을 통한 깔끔한 가져오기
Save Vault --- 연결되어 있다면, 모든 YouTube 저장이 백링크와 태그와 함께 자동으로 거기 들어갑니다

FAQ

Save는 YouTube 모바일 사이트나 앱에서 작동하나요? 확장 프로그램은 지금은 데스크톱 Chrome 전용입니다. 모바일에서는 URL을 복사해 데스크톱에서 열거나, Mac의 Save Vault에 붙여넣으세요 (URL 핸들러가 있습니다).

YouTube Music이나 재생목록은요? 단일 영상만 가능합니다. 재생목록은 하나의 문서로 크롤링되지 않습니다. 뮤직 비디오는 작동하지만, 자막은 가사가 있다면 가사일 뿐입니다.

전체 자막 없이 요약만 받을 수 있나요? 네. 확장 프로그램에서 선택할 수 있습니다: 자막만, 요약만, 또는 둘 다. 기본값은 둘 다입니다, 대부분의 영상에서 둘 다 짧으니까요.

챕터가 보존되나요? 영상에 챕터 마커가 있다면, Save는 그것을 자막의 섹션 제목으로 사용합니다. 긴 영상이 훨씬 탐색하기 쉬워집니다.

자막에 채움말이 포함되나요? 정리 패스가 대부분의 “음”, “어”, 그리고 잘못된 시작을 제거합니다. 화자의 목소리와 톤은 유지하면서, 원시 자막을 읽기 어렵게 만드는 언어적 소음만 걷어냅니다.

자막은 인용할 만큼 정확한가요? 보통 속도의 말이라면, 네. 드문 고유명사가 있는 매우 기술적인 내용이라면, 영상과 대조해서 철자를 확인하세요. Save는 Whisper 급 모델을 사용하는데, 영어에서는 최첨단이고 대부분의 주요 언어에서도 매우 좋습니다.

비용은 얼마인가요? Save는 무료 플랜이 있어서 몇 개 영상에서 시험해 볼 수 있습니다. 그 이상은 작은 구독료가 받아쓰기 비용을 충당합니다.

YouTube 영상을 Markdown으로 저장하는 방법 (자막·요약·타임스탬프)

왜 YouTube 영상을 Markdown으로 저장할까?

방법 1: Save (가장 빠름, 원클릭)

출력 예시

방법 2: YouTube의 자막 (무료, 지저분함)

방법 3: yt-dlp + Whisper 로컬

방법 4: 서드파티 받아쓰기 서비스

어떤 방법을 써야 할까?

Save가 처리하는 엣지 케이스

워크플로와 결합하기

FAQ

관련 Save 가이드

## Continue reading

ChatGPT 대화를 Markdown으로 저장하는 방법 (모든 턴, 코드 블록 그대로)

Reddit 스레드를 Markdown으로 저장하는 방법 (댓글과 맥락 포함)

Claude 대화를 Markdown으로 저장하는 방법 (Artifacts, 인용, Projects)

Substack 게시물을 Markdown으로 저장하는 방법(페이월 지원, 교차 홍보 제거)

Jean-Sébastien Wallez