Como salvar um vídeo do YouTube em Markdown (transcrição, resumo, timestamps)
O YouTube não quer que você saia com o conteúdo. Não tem botão de exportar, nem download de transcrição, nem opção de “copiar para notas”. A barra lateral de legendas te entrega blocos brutos de legendas sem pontuação. Se você já tentou jogar um vídeo do YouTube no Claude ou ChatGPT como contexto, já conhece o problema --- colar a URL não dá nada ao modelo, porque o modelo não consegue assistir.
Este guia cobre todos os métodos para converter um vídeo do YouTube em Markdown limpo --- de uma palestra avulsa a um podcast de várias horas.
Por que salvar vídeos do YouTube em Markdown?
Markdown é o formato que funciona em qualquer lugar para onde uma transcrição precise ir:
- Mandar para um LLM --- Claude, ChatGPT, Gemini e modelos locais leem Markdown nativamente como contexto
- Soltar no Obsidian ou no Notion --- um arquivo, totalmente pesquisável, com hierarquia de títulos certa
- Citar um timestamp específico --- voltar para o “minuto 34” de uma palestra de 2 horas está a uma busca de distância
- Arquivar uma palestra antes que ela seja tirada do ar --- canais somem, vídeos viram privados, suas notas não deveriam depender do uptime do YouTube
- Traduzir um vídeo em outro idioma --- assim que é texto, qualquer ferramenta de tradução funciona em cima
O caso de uso que move a maior parte do tráfego YouTube-para-Markdown em 2026 é o primeiro: as pessoas querem fazer perguntas a um LLM sobre um vídeo que acabaram de assistir, e colar a URL não funciona.
Método 1: Save (mais rápido, um clique)
Save é uma extensão do Chrome que transforma qualquer página do YouTube num arquivo Markdown com um clique. Ela transcreve o áudio com um modelo de classe Whisper, faz uma passada curta de limpeza e produz algo que realmente lê como prosa, não como legendas cruas.
Como funciona:
- Abra o vídeo do YouTube no Chrome
- Clique no ícone da extensão Save na sua barra de ferramentas
- Um arquivo
.mdbaixa instantaneamente (ou cai no seu Save Vault se estiver conectado)
O que você recebe:
- Resumo gerado por IA no topo para você bater o olho antes de ler
- Pontos-chave em forma de lista com marcadores
- Transcrição completa com timestamps a cada poucos minutos
- Títulos de capítulos quando o vídeo tem
- Frontmatter com título, canal, data de publicação, duração e URL
- Rótulos de locutor quando há mais de uma voz
O que é removido:
- Barra lateral de vídeos recomendados e elementos de navegação do YouTube
- Intervalos de anúncio e segmentos de patrocínio dentro da transcrição
- Comentários (a menos que ativados explicitamente)
- Artefatos repetidos de legendas auto-geradas
Ideal para: pesquisadores, usuários de IA, estudantes, ouvintes de podcast. Se você precisa de uma transcrição limpa que vai colar no Claude ou ler no Obsidian, esse é o caminho mais direto.
Exemplo de saída
Salvar uma palestra de 60 minutos do Karpathy produz:
---
title: "[1hr Talk] Intro to Large Language Models"
channel: Andrej Karpathy
url: https://youtube.com/watch?v=zjkBMFhNj_g
duration: 60m
date: 2024-01-15
---
## Summary
Karpathy walks through what an LLM is at the level of bytes on a hard drive,
how training works in practice, and where the discipline is heading. The
core framing: LLMs are file compressors with a thinking layer on top, the
training stack is straightforward but the data work is brutal, and prompt
engineering is becoming software engineering.
## Key Points
- An LLM at rest is two files (parameters and run.c)
- Training is next-token prediction on the internet
- Fine-tuning is what makes models useful for a task
- Scaling laws still hold, but data quality matters more now
- Tool use is the next leap
## Full Transcript
[00:00] Hi everyone, so I've been wanting to do this talk for a while.
We have a lot of really exciting topics to cover...
[02:34] So let's start with what an LLM actually is, at the level of
bytes on a hard drive...
Esse arquivo está a um colar de virar contexto utilizável para o Claude, a uma tecla de virar uma nota permanente no Obsidian.
Método 2: as legendas do YouTube (grátis, bagunçado)
O YouTube expõe legendas auto-geradas pela barra lateral de CC. Você pode extraí-las e reformatar manualmente.
Passos:
- Abra o vídeo, clique no menu
..., escolha Abrir transcrição - Copie as linhas com timestamps num editor de texto
- Tire os timestamps, adicione pontuação, corrija os trechos de cada locutor na mão
Problemas dessa abordagem:
- Legendas automáticas não têm pontuação nem fronteiras de frase
- Trocas de locutor não são marcadas de jeito nenhum
- Música, aplausos e silêncio aparecem como artefatos
[Music]/[Applause] - Pausas longas e palavras de preenchimento (“hum”, “é”, “tipo”) não são removidas
- A saída raramente serve como contexto para LLM sem 30 minutos de limpeza
Aceitável para um clipe de 3 minutos. Desmorona em qualquer coisa mais longa.
Método 3: yt-dlp + Whisper localmente
Para controle total, você pode rodar o Whisper você mesmo em cima do áudio.
yt-dlp -x --audio-format mp3 "https://youtube.com/watch?v=VIDEO_ID"
whisper VIDEO_ID.mp3 --model medium --output_format txt
Ideal para: times de engenharia que transcrevem em escala, ou qualquer um rodando Whisper offline por privacidade. Exige um ambiente Python, alguns GB de disco para o modelo, e ou uma GPU ou paciência.
Problemas dessa abordagem:
- Sem resumo, sem pontos-chave, sem estrutura limpa --- apenas texto cru da transcrição
- A diarização de locutores precisa de um modelo separado (
pyannote.audioou similar) - Os marcadores de capítulo da página do YouTube não são recuperados
- A passada de limpeza (pontuação, parágrafos, remoção de preenchimento) é um passo separado
Esse é o método certo se você está construindo um pipeline. É exagero para um vídeo só.
Método 4: serviços de transcrição de terceiros
Ferramentas como Descript, Otter.ai e Sonix conseguem ingerir uma URL do YouTube e produzir uma transcrição.
Ideal para: podcasters e times de conteúdo que também precisam de edição, identificação de locutores e colaboração em equipe sobre a transcrição.
Problemas para o caso de uso Markdown:
- A saída geralmente é em formato proprietário (projeto Descript, notas Otter), não Markdown limpo
- A maioria são serviços pagos com tarifa por minuto que vai acumulando rápido
- A transcrição raramente é estruturada em resumo + pontos-chave + corpo
- Projetados para fluxos de edição de vídeo, não para alimentar modelos de IA
Qual método você deve usar?
| Cenário | Melhor método |
|---|---|
| Colar um vídeo no Claude ou ChatGPT | Save --- um clique, saída estruturada |
| Salvar um podcast para ler depois | Save --- o resumo torna conteúdos longos escaneáveis |
| Citar um momento específico em uma palestra de 2 horas | Save --- timestamps preservados |
| Construir um pipeline interno de transcrição | yt-dlp + Whisper --- programável e offline |
| Transcrever para edição de vídeo | Descript ou Otter --- projetados para esse fluxo |
| Conseguir uma transcrição rápida e tosca de um clipe de 3 min | CC do YouTube --- grátis, rápido, bagunçado |
Para a maioria das pessoas --- principalmente quem usa conteúdo do YouTube como contexto para IA --- Save é a resposta. Ele produz o Markdown mais limpo sem configuração, e dá conta de vídeo longo na mesma velocidade que um tweet.
Casos extremos que o Save resolve
- Vídeos longos (de 2 a 4 horas). O Save fatia o áudio em pedaços e costura a transcrição com timestamps contínuos. O resumo no topo é a peça-chave. Sem ele, ninguém vai ler 30 mil palavras.
- Vários locutores. O Whisper faz uma diarização básica. O Save adiciona rótulos de locutor quando há mais de uma voz. Nem sempre perfeito em programas de entrevista com bate-volta rápido, mas geralmente certo em podcasts e painéis de conferência.
- Vídeos multilíngues. Se o áudio é em francês, a transcrição fica em francês. Sem tradução forçada. Se quiser em inglês, peça ao Claude para traduzir depois.
- Legendas automáticas desativadas. Não importa. O Save transcreve o áudio direto, não depende da trilha CC do YouTube.
- Shorts. Mesmo pipeline, só que mais rápido. A saída é menor mas ainda tem o frontmatter de metadados e um resumo.
- Vídeos restritos ou só para membros. O Save vê o que seu navegador logado vê. Se você consegue assistir, o Save consegue transcrever.
- Lives (depois que acabam). Funciona no VOD arquivado assim que o YouTube termina de processar. Lives em andamento não são suportadas.
Combine com o seu fluxo de trabalho
A saída em Markdown funciona em qualquer lugar que você precise:
- Claude / ChatGPT / Gemini --- cole o arquivo, faça perguntas de acompanhamento sobre o vídeo
- Obsidian --- jogue no seu vault, ligue a notas relacionadas, busque em todas as palestras que você salvou
- Notion --- cole direto, títulos e blocos de código renderizam certo
- Apple Notes --- import limpo via a extensão de compartilhamento Markdown
- Save Vault --- se você conectou um, cada save do YouTube cai lá automaticamente com backlinks e tags
FAQ
O Save funciona no site mobile ou no app do YouTube? A extensão é só Chrome desktop por enquanto. No mobile, copie a URL e abra no desktop, ou cole num Save Vault no Mac (que tem um manipulador de URL).
E o YouTube Music ou playlists? Só vídeos individuais. Playlists não são rastreadas como um documento só. Videoclipes funcionam, mas a transcrição é só a letra, se houver.
Posso pegar só o resumo, sem a transcrição completa? Sim. A extensão deixa você escolher: só transcrição, só resumo, ou os dois. O padrão é os dois, porque os dois são curtos na maioria dos vídeos.
Os capítulos são preservados? Se o vídeo tem marcadores de capítulo, o Save usa eles como títulos de seção na transcrição. Vídeos longos ficam muito mais fáceis de navegar.
A transcrição inclui palavras de preenchimento? A passada de limpeza remove a maior parte dos “hum”, “é” e falsos começos. Mantém a voz e o tom do locutor, só limpa o ruído verbal que torna transcrições cruas difíceis de ler.
A transcrição é precisa o suficiente para citar? Para fala em ritmo normal, sim. Para conteúdo muito técnico com nomes próprios raros, confira a grafia contra o vídeo. O Save usa um modelo de classe Whisper, que é estado da arte em inglês e muito bom para a maioria dos idiomas principais.
Quanto custa? O Save tem um plano gratuito para você experimentar em alguns vídeos. Depois disso, uma pequena assinatura cobre os custos de transcrição.
Guias Save relacionados
- Salvar threads do Reddit em Markdown --- threads com o aninhamento de comentários preservado
- Salvar conversas do ChatGPT em Markdown --- cada turno, com blocos de código intactos
- Salvar repos e issues do GitHub em Markdown --- README, issues, discussões de PR, tudo em um arquivo
- Salvar páginas do Notion em Markdown --- toggles expandidos, bancos de dados como tabelas
- Salvar threads do Twitter / X em Markdown --- cada tweet, em ordem, com atribuição
## Continue reading
Como salvar uma conversa do ChatGPT como Markdown (cada turno, blocos de código intactos)
Converta qualquer conversa do ChatGPT em Markdown limpo: cada turno, blocos de código, tabelas, citações. Guia completo 2026 para pesquisadores e usuários de IA.
Como Salvar uma Thread do Reddit em Markdown (Com Comentários e Contexto)
Converta qualquer thread do Reddit em Markdown limpo com comentários aninhados, karma, flair e marcadores OP preservados. Guia completo 2026 para pesquisadores e usuários de IA.
Como salvar uma conversa do Claude como Markdown (Artifacts, citações, Projects)
Converta conversas do Claude em Markdown limpo: cada turno, Artifacts como blocos de código, citações preservadas. Guia completo para pesquisadores e usuários de IA.
Como salvar um post do Substack em Markdown (com paywall, sem cross-promo)
Converta qualquer newsletter do Substack em Markdown limpo: corpo completo, citações, áudio embutido, sem modais de assinatura. Guia completo 2026.
Written by
Jean-Sébastien Wallez
I've been making internet products for 10+ years. Built Save on weekends because I wanted my own reading library in clean markdown for Claude and Obsidian. Write here about web clipping, AI workflows, and the small things that make a personal knowledge base actually useful.