Como salvar um vídeo do YouTube em Markdown (transcrição, resumo, timestamps)

·

O YouTube não quer que você saia com o conteúdo. Não tem botão de exportar, nem download de transcrição, nem opção de “copiar para notas”. A barra lateral de legendas te entrega blocos brutos de legendas sem pontuação. Se você já tentou jogar um vídeo do YouTube no Claude ou ChatGPT como contexto, já conhece o problema --- colar a URL não dá nada ao modelo, porque o modelo não consegue assistir.

Este guia cobre todos os métodos para converter um vídeo do YouTube em Markdown limpo --- de uma palestra avulsa a um podcast de várias horas.

Por que salvar vídeos do YouTube em Markdown?

Markdown é o formato que funciona em qualquer lugar para onde uma transcrição precise ir:

  • Mandar para um LLM --- Claude, ChatGPT, Gemini e modelos locais leem Markdown nativamente como contexto
  • Soltar no Obsidian ou no Notion --- um arquivo, totalmente pesquisável, com hierarquia de títulos certa
  • Citar um timestamp específico --- voltar para o “minuto 34” de uma palestra de 2 horas está a uma busca de distância
  • Arquivar uma palestra antes que ela seja tirada do ar --- canais somem, vídeos viram privados, suas notas não deveriam depender do uptime do YouTube
  • Traduzir um vídeo em outro idioma --- assim que é texto, qualquer ferramenta de tradução funciona em cima

O caso de uso que move a maior parte do tráfego YouTube-para-Markdown em 2026 é o primeiro: as pessoas querem fazer perguntas a um LLM sobre um vídeo que acabaram de assistir, e colar a URL não funciona.

Método 1: Save (mais rápido, um clique)

Save é uma extensão do Chrome que transforma qualquer página do YouTube num arquivo Markdown com um clique. Ela transcreve o áudio com um modelo de classe Whisper, faz uma passada curta de limpeza e produz algo que realmente lê como prosa, não como legendas cruas.

Como funciona:

  1. Abra o vídeo do YouTube no Chrome
  2. Clique no ícone da extensão Save na sua barra de ferramentas
  3. Um arquivo .md baixa instantaneamente (ou cai no seu Save Vault se estiver conectado)

O que você recebe:

  • Resumo gerado por IA no topo para você bater o olho antes de ler
  • Pontos-chave em forma de lista com marcadores
  • Transcrição completa com timestamps a cada poucos minutos
  • Títulos de capítulos quando o vídeo tem
  • Frontmatter com título, canal, data de publicação, duração e URL
  • Rótulos de locutor quando há mais de uma voz

O que é removido:

  • Barra lateral de vídeos recomendados e elementos de navegação do YouTube
  • Intervalos de anúncio e segmentos de patrocínio dentro da transcrição
  • Comentários (a menos que ativados explicitamente)
  • Artefatos repetidos de legendas auto-geradas

Ideal para: pesquisadores, usuários de IA, estudantes, ouvintes de podcast. Se você precisa de uma transcrição limpa que vai colar no Claude ou ler no Obsidian, esse é o caminho mais direto.

Exemplo de saída

Salvar uma palestra de 60 minutos do Karpathy produz:

---
title: "[1hr Talk] Intro to Large Language Models"
channel: Andrej Karpathy
url: https://youtube.com/watch?v=zjkBMFhNj_g
duration: 60m
date: 2024-01-15
---

## Summary

Karpathy walks through what an LLM is at the level of bytes on a hard drive,
how training works in practice, and where the discipline is heading. The
core framing: LLMs are file compressors with a thinking layer on top, the
training stack is straightforward but the data work is brutal, and prompt
engineering is becoming software engineering.

## Key Points

- An LLM at rest is two files (parameters and run.c)
- Training is next-token prediction on the internet
- Fine-tuning is what makes models useful for a task
- Scaling laws still hold, but data quality matters more now
- Tool use is the next leap

## Full Transcript

[00:00] Hi everyone, so I've been wanting to do this talk for a while.
We have a lot of really exciting topics to cover...

[02:34] So let's start with what an LLM actually is, at the level of
bytes on a hard drive...

Esse arquivo está a um colar de virar contexto utilizável para o Claude, a uma tecla de virar uma nota permanente no Obsidian.

Método 2: as legendas do YouTube (grátis, bagunçado)

O YouTube expõe legendas auto-geradas pela barra lateral de CC. Você pode extraí-las e reformatar manualmente.

Passos:

  1. Abra o vídeo, clique no menu ..., escolha Abrir transcrição
  2. Copie as linhas com timestamps num editor de texto
  3. Tire os timestamps, adicione pontuação, corrija os trechos de cada locutor na mão

Problemas dessa abordagem:

  • Legendas automáticas não têm pontuação nem fronteiras de frase
  • Trocas de locutor não são marcadas de jeito nenhum
  • Música, aplausos e silêncio aparecem como artefatos [Music] / [Applause]
  • Pausas longas e palavras de preenchimento (“hum”, “é”, “tipo”) não são removidas
  • A saída raramente serve como contexto para LLM sem 30 minutos de limpeza

Aceitável para um clipe de 3 minutos. Desmorona em qualquer coisa mais longa.

Método 3: yt-dlp + Whisper localmente

Para controle total, você pode rodar o Whisper você mesmo em cima do áudio.

yt-dlp -x --audio-format mp3 "https://youtube.com/watch?v=VIDEO_ID"
whisper VIDEO_ID.mp3 --model medium --output_format txt

Ideal para: times de engenharia que transcrevem em escala, ou qualquer um rodando Whisper offline por privacidade. Exige um ambiente Python, alguns GB de disco para o modelo, e ou uma GPU ou paciência.

Problemas dessa abordagem:

  • Sem resumo, sem pontos-chave, sem estrutura limpa --- apenas texto cru da transcrição
  • A diarização de locutores precisa de um modelo separado (pyannote.audio ou similar)
  • Os marcadores de capítulo da página do YouTube não são recuperados
  • A passada de limpeza (pontuação, parágrafos, remoção de preenchimento) é um passo separado

Esse é o método certo se você está construindo um pipeline. É exagero para um vídeo só.

Método 4: serviços de transcrição de terceiros

Ferramentas como Descript, Otter.ai e Sonix conseguem ingerir uma URL do YouTube e produzir uma transcrição.

Ideal para: podcasters e times de conteúdo que também precisam de edição, identificação de locutores e colaboração em equipe sobre a transcrição.

Problemas para o caso de uso Markdown:

  • A saída geralmente é em formato proprietário (projeto Descript, notas Otter), não Markdown limpo
  • A maioria são serviços pagos com tarifa por minuto que vai acumulando rápido
  • A transcrição raramente é estruturada em resumo + pontos-chave + corpo
  • Projetados para fluxos de edição de vídeo, não para alimentar modelos de IA

Qual método você deve usar?

CenárioMelhor método
Colar um vídeo no Claude ou ChatGPTSave --- um clique, saída estruturada
Salvar um podcast para ler depoisSave --- o resumo torna conteúdos longos escaneáveis
Citar um momento específico em uma palestra de 2 horasSave --- timestamps preservados
Construir um pipeline interno de transcriçãoyt-dlp + Whisper --- programável e offline
Transcrever para edição de vídeoDescript ou Otter --- projetados para esse fluxo
Conseguir uma transcrição rápida e tosca de um clipe de 3 minCC do YouTube --- grátis, rápido, bagunçado

Para a maioria das pessoas --- principalmente quem usa conteúdo do YouTube como contexto para IA --- Save é a resposta. Ele produz o Markdown mais limpo sem configuração, e dá conta de vídeo longo na mesma velocidade que um tweet.

Casos extremos que o Save resolve

  • Vídeos longos (de 2 a 4 horas). O Save fatia o áudio em pedaços e costura a transcrição com timestamps contínuos. O resumo no topo é a peça-chave. Sem ele, ninguém vai ler 30 mil palavras.
  • Vários locutores. O Whisper faz uma diarização básica. O Save adiciona rótulos de locutor quando há mais de uma voz. Nem sempre perfeito em programas de entrevista com bate-volta rápido, mas geralmente certo em podcasts e painéis de conferência.
  • Vídeos multilíngues. Se o áudio é em francês, a transcrição fica em francês. Sem tradução forçada. Se quiser em inglês, peça ao Claude para traduzir depois.
  • Legendas automáticas desativadas. Não importa. O Save transcreve o áudio direto, não depende da trilha CC do YouTube.
  • Shorts. Mesmo pipeline, só que mais rápido. A saída é menor mas ainda tem o frontmatter de metadados e um resumo.
  • Vídeos restritos ou só para membros. O Save vê o que seu navegador logado vê. Se você consegue assistir, o Save consegue transcrever.
  • Lives (depois que acabam). Funciona no VOD arquivado assim que o YouTube termina de processar. Lives em andamento não são suportadas.

Combine com o seu fluxo de trabalho

A saída em Markdown funciona em qualquer lugar que você precise:

  • Claude / ChatGPT / Gemini --- cole o arquivo, faça perguntas de acompanhamento sobre o vídeo
  • Obsidian --- jogue no seu vault, ligue a notas relacionadas, busque em todas as palestras que você salvou
  • Notion --- cole direto, títulos e blocos de código renderizam certo
  • Apple Notes --- import limpo via a extensão de compartilhamento Markdown
  • Save Vault --- se você conectou um, cada save do YouTube cai lá automaticamente com backlinks e tags

FAQ

O Save funciona no site mobile ou no app do YouTube? A extensão é só Chrome desktop por enquanto. No mobile, copie a URL e abra no desktop, ou cole num Save Vault no Mac (que tem um manipulador de URL).

E o YouTube Music ou playlists? Só vídeos individuais. Playlists não são rastreadas como um documento só. Videoclipes funcionam, mas a transcrição é só a letra, se houver.

Posso pegar só o resumo, sem a transcrição completa? Sim. A extensão deixa você escolher: só transcrição, só resumo, ou os dois. O padrão é os dois, porque os dois são curtos na maioria dos vídeos.

Os capítulos são preservados? Se o vídeo tem marcadores de capítulo, o Save usa eles como títulos de seção na transcrição. Vídeos longos ficam muito mais fáceis de navegar.

A transcrição inclui palavras de preenchimento? A passada de limpeza remove a maior parte dos “hum”, “é” e falsos começos. Mantém a voz e o tom do locutor, só limpa o ruído verbal que torna transcrições cruas difíceis de ler.

A transcrição é precisa o suficiente para citar? Para fala em ritmo normal, sim. Para conteúdo muito técnico com nomes próprios raros, confira a grafia contra o vídeo. O Save usa um modelo de classe Whisper, que é estado da arte em inglês e muito bom para a maioria dos idiomas principais.

Quanto custa? O Save tem um plano gratuito para você experimentar em alguns vídeos. Depois disso, uma pequena assinatura cobre os custos de transcrição.

Guias Save relacionados

## Continue reading

Jean-Sébastien Wallez

Written by

Jean-Sébastien Wallez

I've been making internet products for 10+ years. Built Save on weekends because I wanted my own reading library in clean markdown for Claude and Obsidian. Write here about web clipping, AI workflows, and the small things that make a personal knowledge base actually useful.

## try save

Pronto para salvar de forma mais inteligente?

Converta qualquer página da web em Markdown com um clique.

Adicionar ao Chrome 🐿️