Come salvare un video YouTube in Markdown (trascrizione, riassunto, timestamp)
YouTube non vuole che tu te ne vada con il contenuto. Non c’è un pulsante di esportazione, non c’è download della trascrizione, non c’è l’opzione «copia negli appunti». La barra laterale dei sottotitoli ti dà blocchi di sottotitoli grezzi senza punteggiatura. Se hai mai provato a incollare un video YouTube in Claude o ChatGPT come contesto, conosci il problema --- incollare l’URL non dà nulla al modello, perché il modello non può guardare.
Questa guida copre ogni metodo per convertire un video YouTube in Markdown pulito --- da un singolo intervento a un podcast di più ore.
Perché salvare i video YouTube in Markdown?
Markdown è il formato che funziona ovunque debba andare una trascrizione:
- Darlo in pasto a un LLM --- Claude, ChatGPT, Gemini e i modelli locali leggono tutti Markdown nativamente come contesto
- Buttarlo in Obsidian o Notion --- un file, completamente ricercabile, con titoli ben formati
- Citare un timestamp specifico --- tornare al «minuto 34» di un talk di 2 ore è a una ricerca di distanza
- Archiviare un talk prima che venga rimosso --- i canali vengono rimossi, i video diventano privati, le tue note non dovrebbero dipendere dall’uptime di YouTube
- Tradurre un video in lingua straniera --- una volta che è testo, qualsiasi strumento di traduzione ci lavora sopra
Il caso d’uso che muove la maggior parte del traffico YouTube-a-Markdown nel 2026 è il primo: la gente vuole fare domande a un LLM su un video appena visto, e incollare l’URL non funziona.
Metodo 1: Save (il più veloce, un clic)
Save è un’estensione Chrome che trasforma qualsiasi pagina YouTube in un file Markdown con un clic. Trascrive l’audio con un modello di classe Whisper, fa una breve passata di pulizia e produce qualcosa che si legge davvero come prosa, non come sottotitoli grezzi.
Come funziona:
- Apri il video YouTube in Chrome
- Clicca sull’icona dell’estensione Save nella barra degli strumenti
- Un file
.mdviene scaricato istantaneamente (o atterra nel tuo Save Vault se connesso)
Cosa ottieni:
- Riassunto generato dall’AI in cima così puoi scorrere prima di leggere
- Punti chiave in elenco puntato
- Trascrizione completa con timestamp ogni pochi minuti
- Titoli di capitolo quando il video ne ha
- Frontmatter con titolo, canale, data di pubblicazione, durata e URL
- Etichette dei relatori quando c’è più di una voce
Cosa viene rimosso:
- Barra laterale dei video consigliati e cromature della navigazione YouTube
- Pause pubblicitarie e segmenti sponsor all’interno della trascrizione
- Commenti (a meno che non sia esplicitamente attivato)
- Artefatti ripetuti dei sottotitoli auto-generati
Ideale per: ricercatori, utenti di AI, studenti, ascoltatori di podcast. Se ti serve una trascrizione pulita da incollare in Claude o leggere in Obsidian, questa è la via più pulita.
Esempio di output
Salvare un talk di 60 minuti di Karpathy produce:
---
title: "[1hr Talk] Intro to Large Language Models"
channel: Andrej Karpathy
url: https://youtube.com/watch?v=zjkBMFhNj_g
duration: 60m
date: 2024-01-15
---
## Summary
Karpathy walks through what an LLM is at the level of bytes on a hard drive,
how training works in practice, and where the discipline is heading. The
core framing: LLMs are file compressors with a thinking layer on top, the
training stack is straightforward but the data work is brutal, and prompt
engineering is becoming software engineering.
## Key Points
- An LLM at rest is two files (parameters and run.c)
- Training is next-token prediction on the internet
- Fine-tuning is what makes models useful for a task
- Scaling laws still hold, but data quality matters more now
- Tool use is the next leap
## Full Transcript
[00:00] Hi everyone, so I've been wanting to do this talk for a while.
We have a lot of really exciting topics to cover...
[02:34] So let's start with what an LLM actually is, at the level of
bytes on a hard drive...
Quel file è a un incolla dall’essere contesto utilizzabile per Claude, a un tasto dall’essere una nota permanente in Obsidian.
Metodo 2: i sottotitoli di YouTube (gratis, sporco)
YouTube espone sottotitoli auto-generati tramite la barra laterale CC. Puoi estrarli e riformattarli a mano.
Passaggi:
- Apri il video, clicca sul menu
..., scegli Apri trascrizione - Copia le righe con timestamp in un editor di testo
- Togli i timestamp, aggiungi la punteggiatura, sistema i cambi di parlante a mano
Problemi di questo approccio:
- I sottotitoli automatici non hanno punteggiatura né confini di frase
- I cambi di parlante non sono segnati per niente
- Musica, applausi e silenzio compaiono come artefatti
[Music]/[Applause] - Le pause lunghe e i riempitivi («uhm», «ehm», «tipo») non vengono tolti
- L’output è raramente usabile come contesto per LLM senza 30 minuti di pulizia
Va bene per una clip di 3 minuti. Crolla su qualsiasi cosa più lunga.
Metodo 3: yt-dlp + Whisper in locale
Per il controllo completo, puoi eseguire Whisper da solo sull’audio.
yt-dlp -x --audio-format mp3 "https://youtube.com/watch?v=VIDEO_ID"
whisper VIDEO_ID.mp3 --model medium --output_format txt
Ideale per: team di ingegneria che trascrivono su larga scala, o chiunque faccia girare Whisper offline per privacy. Richiede un ambiente Python, qualche GB di disco per il modello e o una GPU o pazienza.
Problemi di questo approccio:
- Niente riassunto, niente punti chiave, nessuna struttura pulita --- solo testo grezzo della trascrizione
- La diarizzazione dei parlanti richiede un modello separato (
pyannote.audioo simili) - I marcatori di capitolo dalla pagina YouTube non vengono recuperati
- La passata di pulizia (punteggiatura, paragrafi, rimozione dei riempitivi) è un passaggio separato
Questo è il metodo giusto se stai costruendo una pipeline. È sproporzionato per un singolo video.
Metodo 4: servizi di trascrizione di terze parti
Strumenti come Descript, Otter.ai e Sonix possono ingerire un URL YouTube e produrre una trascrizione.
Ideale per: podcaster e team di contenuti che hanno anche bisogno di editing, identificazione dei parlanti e collaborazione di squadra sulla trascrizione.
Problemi per il caso d’uso Markdown:
- L’output è di solito in formato proprietario (progetto Descript, note Otter), non Markdown pulito
- La maggior parte sono servizi a pagamento con tariffe al minuto che si sommano in fretta
- La trascrizione raramente è strutturata in riassunto + punti chiave + corpo
- Progettati per flussi di lavoro di video editing, non per alimentare modelli AI
Quale metodo dovresti usare?
| Scenario | Metodo migliore |
|---|---|
| Incollare un video in Claude o ChatGPT | Save --- un clic, output strutturato |
| Salvare un podcast da leggere più tardi | Save --- il riassunto rende i contenuti lunghi scorribili |
| Citare un momento specifico in un talk di 2 ore | Save --- timestamp preservati |
| Costruire una pipeline interna di trascrizione | yt-dlp + Whisper --- programmabile e offline |
| Trascrivere per l’editing video | Descript o Otter --- progettati per quel flusso |
| Ottenere una trascrizione veloce e grezza di una clip di 3 minuti | CC di YouTube --- gratis, veloce, sporco |
Per la maggior parte delle persone --- soprattutto chi usa contenuti YouTube come contesto AI --- Save è la risposta. Produce il Markdown più pulito senza alcuna configurazione, e gestisce i video lunghi alla stessa velocità di un tweet.
Casi limite che Save gestisce
- Video lunghi (da 2 a 4 ore). Save divide l’audio in pezzi e ricuce la trascrizione con timestamp continui. Il riassunto in cima è il pezzo chiave. Senza, nessuno legge 30.000 parole.
- Più parlanti. Whisper fa una diarizzazione di base. Save aggiunge etichette dei parlanti quando c’è più di una voce. Non sempre perfetto su show di interviste con botta-e-risposta rapido, ma di solito corretto su podcast e panel di conferenze.
- Video multilingue. Se l’audio è in francese, la trascrizione resta in francese. Niente traduzione forzata. Se la vuoi in inglese, chiedi a Claude di tradurla dopo.
- Sottotitoli automatici disattivati. Non importa. Save trascrive l’audio direttamente, non dipende dalla traccia CC di YouTube.
- Shorts. Stessa pipeline, solo più veloce. L’output è più breve ma ha comunque il frontmatter dei metadati e un riassunto.
- Video con restrizioni o riservati ai membri. Save vede ciò che vede il tuo browser autenticato. Se puoi guardarlo, Save può trascriverlo.
- Dirette (dopo la fine). Funziona sul VOD archiviato una volta che YouTube finisce di processarlo. Le dirette in corso non sono supportate.
Abbinalo al tuo flusso di lavoro
L’output Markdown funziona ovunque ti serva:
- Claude / ChatGPT / Gemini --- incolla il file, fai domande di approfondimento sul video
- Obsidian --- mettilo nel tuo vault, collegalo a note correlate, cerca tra tutti i tuoi talk salvati
- Notion --- incolla direttamente, titoli e blocchi di codice vengono renderizzati correttamente
- Apple Notes --- import pulito tramite l’estensione di condivisione Markdown
- Save Vault --- se ne hai uno connesso, ogni salvataggio YouTube ci atterra automaticamente con backlink e tag
FAQ
Save funziona sul sito mobile o sull’app di YouTube? L’estensione è solo Chrome desktop per ora. Su mobile, copia l’URL e aprilo su desktop, oppure incollalo in un Save Vault su Mac (che ha un gestore di URL).
E YouTube Music o le playlist? Solo video singoli. Le playlist non vengono crawlate come un unico documento. I videoclip funzionano, ma la trascrizione è solo il testo della canzone se c’è.
Posso avere solo il riassunto, senza la trascrizione completa? Sì. L’estensione ti fa scegliere: solo trascrizione, solo riassunto, o entrambi. Di default entrambi, perché su gran parte dei video entrambi sono brevi.
Conserva i capitoli? Se il video ha marcatori di capitolo, Save li usa come titoli di sezione nella trascrizione. I video lunghi diventano molto più facili da navigare.
La trascrizione include i riempitivi? La passata di pulizia rimuove la maggior parte degli «uhm», «ehm» e partenze false. Mantiene voce e tono del parlante, solo ripulite dal rumore verbale che rende difficili da leggere le trascrizioni grezze.
La trascrizione è abbastanza accurata da poter essere citata? Per parlato a velocità normale, sì. Per contenuti molto tecnici con nomi propri rari, ricontrolla l’ortografia rispetto al video. Save usa un modello di classe Whisper, che è lo stato dell’arte per l’inglese e molto buono per la maggior parte delle lingue principali.
Quanto costa? Save ha un piano gratuito così puoi provarlo su qualche video. Oltre, un piccolo abbonamento copre i costi di trascrizione.
Guide Save correlate
- Salvare thread Reddit in Markdown --- thread con la nidificazione dei commenti preservata
- Salvare conversazioni ChatGPT in Markdown --- ogni turno, con i blocchi di codice intatti
- Salvare repo e issue GitHub in Markdown --- README, issue, discussioni PR, tutto in un file
- Salvare pagine Notion in Markdown --- toggle espansi, database come tabelle
- Salvare thread Twitter / X in Markdown --- ogni tweet, in ordine, con attribuzione
## Continue reading
Come salvare una conversazione ChatGPT come Markdown (ogni turno, blocchi di codice intatti)
Converti qualsiasi conversazione ChatGPT in Markdown pulito: ogni turno, blocchi di codice, tabelle, citazioni. Guida completa 2026 per ricercatori e utenti AI.
Come salvare un thread di Reddit in Markdown (con commenti e contesto)
Converti qualsiasi thread di Reddit in Markdown pulito con commenti annidati, karma, flair e marker OP preservati. Guida completa 2026 per ricercatori e utenti di IA.
Come salvare una conversazione di Claude come Markdown (Artifacts, citazioni, Projects)
Converti le conversazioni di Claude in Markdown pulito: ogni turno, Artifacts come blocchi di codice, citazioni conservate. Guida completa per ricercatori e utenti AI.
Come salvare un post Substack come Markdown (paywall gestito, senza cross-promo)
Converti qualsiasi newsletter Substack in Markdown pulito: corpo completo, citazioni, audio incorporato, senza modali di iscrizione. Guida completa 2026.
Written by
Jean-Sébastien Wallez
I've been making internet products for 10+ years. Built Save on weekends because I wanted my own reading library in clean markdown for Claude and Obsidian. Write here about web clipping, AI workflows, and the small things that make a personal knowledge base actually useful.