Como salvar um vídeo do YouTube em Markdown (transcrição, resumo, timestamps)

O YouTube não quer que você saia com o conteúdo. Não tem botão de exportar, nem download de transcrição, nem opção de “copiar para notas”. A barra lateral de legendas te entrega blocos brutos de legendas sem pontuação. Se você já tentou jogar um vídeo do YouTube no Claude ou ChatGPT como contexto, já conhece o problema --- colar a URL não dá nada ao modelo, porque o modelo não consegue assistir.

Este guia cobre todos os métodos para converter um vídeo do YouTube em Markdown limpo --- de uma palestra avulsa a um podcast de várias horas.

Por que salvar vídeos do YouTube em Markdown?

Markdown é o formato que funciona em qualquer lugar para onde uma transcrição precise ir:

Mandar para um LLM --- Claude, ChatGPT, Gemini e modelos locais leem Markdown nativamente como contexto
Soltar no Obsidian ou no Notion --- um arquivo, totalmente pesquisável, com hierarquia de títulos certa
Citar um timestamp específico --- voltar para o “minuto 34” de uma palestra de 2 horas está a uma busca de distância
Arquivar uma palestra antes que ela seja tirada do ar --- canais somem, vídeos viram privados, suas notas não deveriam depender do uptime do YouTube
Traduzir um vídeo em outro idioma --- assim que é texto, qualquer ferramenta de tradução funciona em cima

O caso de uso que move a maior parte do tráfego YouTube-para-Markdown em 2026 é o primeiro: as pessoas querem fazer perguntas a um LLM sobre um vídeo que acabaram de assistir, e colar a URL não funciona.

Método 1: Save (mais rápido, um clique)

Save é uma extensão do Chrome que transforma qualquer página do YouTube num arquivo Markdown com um clique. Ela transcreve o áudio com um modelo de classe Whisper, faz uma passada curta de limpeza e produz algo que realmente lê como prosa, não como legendas cruas.

Como funciona:

Abra o vídeo do YouTube no Chrome
Clique no ícone da extensão Save na sua barra de ferramentas
Um arquivo .md baixa instantaneamente (ou cai no seu Save Vault se estiver conectado)

O que você recebe:

Resumo gerado por IA no topo para você bater o olho antes de ler
Pontos-chave em forma de lista com marcadores
Transcrição completa com timestamps a cada poucos minutos
Títulos de capítulos quando o vídeo tem
Frontmatter com título, canal, data de publicação, duração e URL
Rótulos de locutor quando há mais de uma voz

O que é removido:

Barra lateral de vídeos recomendados e elementos de navegação do YouTube
Intervalos de anúncio e segmentos de patrocínio dentro da transcrição
Comentários (a menos que ativados explicitamente)
Artefatos repetidos de legendas auto-geradas

Ideal para: pesquisadores, usuários de IA, estudantes, ouvintes de podcast. Se você precisa de uma transcrição limpa que vai colar no Claude ou ler no Obsidian, esse é o caminho mais direto.

Exemplo de saída

Salvar uma palestra de 60 minutos do Karpathy produz:

---
title: "[1hr Talk] Intro to Large Language Models"
channel: Andrej Karpathy
url: https://youtube.com/watch?v=zjkBMFhNj_g
duration: 60m
date: 2024-01-15
---

## Summary

Karpathy walks through what an LLM is at the level of bytes on a hard drive,
how training works in practice, and where the discipline is heading. The
core framing: LLMs are file compressors with a thinking layer on top, the
training stack is straightforward but the data work is brutal, and prompt
engineering is becoming software engineering.

## Key Points

- An LLM at rest is two files (parameters and run.c)
- Training is next-token prediction on the internet
- Fine-tuning is what makes models useful for a task
- Scaling laws still hold, but data quality matters more now
- Tool use is the next leap

## Full Transcript

[00:00] Hi everyone, so I've been wanting to do this talk for a while.
We have a lot of really exciting topics to cover...

[02:34] So let's start with what an LLM actually is, at the level of
bytes on a hard drive...

Esse arquivo está a um colar de virar contexto utilizável para o Claude, a uma tecla de virar uma nota permanente no Obsidian.

Método 2: as legendas do YouTube (grátis, bagunçado)

O YouTube expõe legendas auto-geradas pela barra lateral de CC. Você pode extraí-las e reformatar manualmente.

Passos:

Abra o vídeo, clique no menu ..., escolha Abrir transcrição
Copie as linhas com timestamps num editor de texto
Tire os timestamps, adicione pontuação, corrija os trechos de cada locutor na mão

Problemas dessa abordagem:

Legendas automáticas não têm pontuação nem fronteiras de frase
Trocas de locutor não são marcadas de jeito nenhum
Música, aplausos e silêncio aparecem como artefatos [Music] / [Applause]
Pausas longas e palavras de preenchimento (“hum”, “é”, “tipo”) não são removidas
A saída raramente serve como contexto para LLM sem 30 minutos de limpeza

Aceitável para um clipe de 3 minutos. Desmorona em qualquer coisa mais longa.

Método 3: yt-dlp + Whisper localmente

Para controle total, você pode rodar o Whisper você mesmo em cima do áudio.

yt-dlp -x --audio-format mp3 "https://youtube.com/watch?v=VIDEO_ID"
whisper VIDEO_ID.mp3 --model medium --output_format txt

Ideal para: times de engenharia que transcrevem em escala, ou qualquer um rodando Whisper offline por privacidade. Exige um ambiente Python, alguns GB de disco para o modelo, e ou uma GPU ou paciência.

Problemas dessa abordagem:

Sem resumo, sem pontos-chave, sem estrutura limpa --- apenas texto cru da transcrição
A diarização de locutores precisa de um modelo separado (pyannote.audio ou similar)
Os marcadores de capítulo da página do YouTube não são recuperados
A passada de limpeza (pontuação, parágrafos, remoção de preenchimento) é um passo separado

Esse é o método certo se você está construindo um pipeline. É exagero para um vídeo só.

Método 4: serviços de transcrição de terceiros

Ferramentas como Descript, Otter.ai e Sonix conseguem ingerir uma URL do YouTube e produzir uma transcrição.

Ideal para: podcasters e times de conteúdo que também precisam de edição, identificação de locutores e colaboração em equipe sobre a transcrição.

Problemas para o caso de uso Markdown:

A saída geralmente é em formato proprietário (projeto Descript, notas Otter), não Markdown limpo
A maioria são serviços pagos com tarifa por minuto que vai acumulando rápido
A transcrição raramente é estruturada em resumo + pontos-chave + corpo
Projetados para fluxos de edição de vídeo, não para alimentar modelos de IA

Qual método você deve usar?

Cenário	Melhor método
Colar um vídeo no Claude ou ChatGPT	Save --- um clique, saída estruturada
Salvar um podcast para ler depois	Save --- o resumo torna conteúdos longos escaneáveis
Citar um momento específico em uma palestra de 2 horas	Save --- timestamps preservados
Construir um pipeline interno de transcrição	yt-dlp + Whisper --- programável e offline
Transcrever para edição de vídeo	Descript ou Otter --- projetados para esse fluxo
Conseguir uma transcrição rápida e tosca de um clipe de 3 min	CC do YouTube --- grátis, rápido, bagunçado

Para a maioria das pessoas --- principalmente quem usa conteúdo do YouTube como contexto para IA --- Save é a resposta. Ele produz o Markdown mais limpo sem configuração, e dá conta de vídeo longo na mesma velocidade que um tweet.

Casos extremos que o Save resolve

Vídeos longos (de 2 a 4 horas). O Save fatia o áudio em pedaços e costura a transcrição com timestamps contínuos. O resumo no topo é a peça-chave. Sem ele, ninguém vai ler 30 mil palavras.
Vários locutores. O Whisper faz uma diarização básica. O Save adiciona rótulos de locutor quando há mais de uma voz. Nem sempre perfeito em programas de entrevista com bate-volta rápido, mas geralmente certo em podcasts e painéis de conferência.
Vídeos multilíngues. Se o áudio é em francês, a transcrição fica em francês. Sem tradução forçada. Se quiser em inglês, peça ao Claude para traduzir depois.
Legendas automáticas desativadas. Não importa. O Save transcreve o áudio direto, não depende da trilha CC do YouTube.
Shorts. Mesmo pipeline, só que mais rápido. A saída é menor mas ainda tem o frontmatter de metadados e um resumo.
Vídeos restritos ou só para membros. O Save vê o que seu navegador logado vê. Se você consegue assistir, o Save consegue transcrever.
Lives (depois que acabam). Funciona no VOD arquivado assim que o YouTube termina de processar. Lives em andamento não são suportadas.

Combine com o seu fluxo de trabalho

A saída em Markdown funciona em qualquer lugar que você precise:

Claude / ChatGPT / Gemini --- cole o arquivo, faça perguntas de acompanhamento sobre o vídeo
Obsidian --- jogue no seu vault, ligue a notas relacionadas, busque em todas as palestras que você salvou
Notion --- cole direto, títulos e blocos de código renderizam certo
Apple Notes --- import limpo via a extensão de compartilhamento Markdown
Save Vault --- se você conectou um, cada save do YouTube cai lá automaticamente com backlinks e tags

FAQ

O Save funciona no site mobile ou no app do YouTube? A extensão é só Chrome desktop por enquanto. No mobile, copie a URL e abra no desktop, ou cole num Save Vault no Mac (que tem um manipulador de URL).

E o YouTube Music ou playlists? Só vídeos individuais. Playlists não são rastreadas como um documento só. Videoclipes funcionam, mas a transcrição é só a letra, se houver.

Posso pegar só o resumo, sem a transcrição completa? Sim. A extensão deixa você escolher: só transcrição, só resumo, ou os dois. O padrão é os dois, porque os dois são curtos na maioria dos vídeos.

Os capítulos são preservados? Se o vídeo tem marcadores de capítulo, o Save usa eles como títulos de seção na transcrição. Vídeos longos ficam muito mais fáceis de navegar.

A transcrição inclui palavras de preenchimento? A passada de limpeza remove a maior parte dos “hum”, “é” e falsos começos. Mantém a voz e o tom do locutor, só limpa o ruído verbal que torna transcrições cruas difíceis de ler.

A transcrição é precisa o suficiente para citar? Para fala em ritmo normal, sim. Para conteúdo muito técnico com nomes próprios raros, confira a grafia contra o vídeo. O Save usa um modelo de classe Whisper, que é estado da arte em inglês e muito bom para a maioria dos idiomas principais.

Quanto custa? O Save tem um plano gratuito para você experimentar em alguns vídeos. Depois disso, uma pequena assinatura cobre os custos de transcrição.

Guias Save relacionados

Salvar threads do Reddit em Markdown --- threads com o aninhamento de comentários preservado
Salvar conversas do ChatGPT em Markdown --- cada turno, com blocos de código intactos
Salvar repos e issues do GitHub em Markdown --- README, issues, discussões de PR, tudo em um arquivo
Salvar páginas do Notion em Markdown --- toggles expandidos, bancos de dados como tabelas
Salvar threads do Twitter / X em Markdown --- cada tweet, em ordem, com atribuição

Como salvar um vídeo do YouTube em Markdown (transcrição, resumo, timestamps)

Por que salvar vídeos do YouTube em Markdown?

Método 1: Save (mais rápido, um clique)

Exemplo de saída

Método 2: as legendas do YouTube (grátis, bagunçado)

Método 3: yt-dlp + Whisper localmente

Método 4: serviços de transcrição de terceiros

Qual método você deve usar?

Casos extremos que o Save resolve

Combine com o seu fluxo de trabalho

FAQ

Guias Save relacionados

## Continue reading

Como salvar uma conversa do ChatGPT como Markdown (cada turno, blocos de código intactos)

Como Salvar uma Thread do Reddit em Markdown (Com Comentários e Contexto)

Como salvar uma conversa do Claude como Markdown (Artifacts, citações, Projects)

Como salvar um post do Substack em Markdown (com paywall, sem cross-promo)

Jean-Sébastien Wallez