Come salvare un video YouTube in Markdown (trascrizione, riassunto, timestamp)

YouTube non vuole che tu te ne vada con il contenuto. Non c’è un pulsante di esportazione, non c’è download della trascrizione, non c’è l’opzione «copia negli appunti». La barra laterale dei sottotitoli ti dà blocchi di sottotitoli grezzi senza punteggiatura. Se hai mai provato a incollare un video YouTube in Claude o ChatGPT come contesto, conosci il problema --- incollare l’URL non dà nulla al modello, perché il modello non può guardare.

Questa guida copre ogni metodo per convertire un video YouTube in Markdown pulito --- da un singolo intervento a un podcast di più ore.

Perché salvare i video YouTube in Markdown?

Markdown è il formato che funziona ovunque debba andare una trascrizione:

Darlo in pasto a un LLM --- Claude, ChatGPT, Gemini e i modelli locali leggono tutti Markdown nativamente come contesto
Buttarlo in Obsidian o Notion --- un file, completamente ricercabile, con titoli ben formati
Citare un timestamp specifico --- tornare al «minuto 34» di un talk di 2 ore è a una ricerca di distanza
Archiviare un talk prima che venga rimosso --- i canali vengono rimossi, i video diventano privati, le tue note non dovrebbero dipendere dall’uptime di YouTube
Tradurre un video in lingua straniera --- una volta che è testo, qualsiasi strumento di traduzione ci lavora sopra

Il caso d’uso che muove la maggior parte del traffico YouTube-a-Markdown nel 2026 è il primo: la gente vuole fare domande a un LLM su un video appena visto, e incollare l’URL non funziona.

Metodo 1: Save (il più veloce, un clic)

Save è un’estensione Chrome che trasforma qualsiasi pagina YouTube in un file Markdown con un clic. Trascrive l’audio con un modello di classe Whisper, fa una breve passata di pulizia e produce qualcosa che si legge davvero come prosa, non come sottotitoli grezzi.

Come funziona:

Apri il video YouTube in Chrome
Clicca sull’icona dell’estensione Save nella barra degli strumenti
Un file .md viene scaricato istantaneamente (o atterra nel tuo Save Vault se connesso)

Cosa ottieni:

Riassunto generato dall’AI in cima così puoi scorrere prima di leggere
Punti chiave in elenco puntato
Trascrizione completa con timestamp ogni pochi minuti
Titoli di capitolo quando il video ne ha
Frontmatter con titolo, canale, data di pubblicazione, durata e URL
Etichette dei relatori quando c’è più di una voce

Cosa viene rimosso:

Barra laterale dei video consigliati e cromature della navigazione YouTube
Pause pubblicitarie e segmenti sponsor all’interno della trascrizione
Commenti (a meno che non sia esplicitamente attivato)
Artefatti ripetuti dei sottotitoli auto-generati

Ideale per: ricercatori, utenti di AI, studenti, ascoltatori di podcast. Se ti serve una trascrizione pulita da incollare in Claude o leggere in Obsidian, questa è la via più pulita.

Esempio di output

Salvare un talk di 60 minuti di Karpathy produce:

---
title: "[1hr Talk] Intro to Large Language Models"
channel: Andrej Karpathy
url: https://youtube.com/watch?v=zjkBMFhNj_g
duration: 60m
date: 2024-01-15
---

## Summary

Karpathy walks through what an LLM is at the level of bytes on a hard drive,
how training works in practice, and where the discipline is heading. The
core framing: LLMs are file compressors with a thinking layer on top, the
training stack is straightforward but the data work is brutal, and prompt
engineering is becoming software engineering.

## Key Points

- An LLM at rest is two files (parameters and run.c)
- Training is next-token prediction on the internet
- Fine-tuning is what makes models useful for a task
- Scaling laws still hold, but data quality matters more now
- Tool use is the next leap

## Full Transcript

[00:00] Hi everyone, so I've been wanting to do this talk for a while.
We have a lot of really exciting topics to cover...

[02:34] So let's start with what an LLM actually is, at the level of
bytes on a hard drive...

Quel file è a un incolla dall’essere contesto utilizzabile per Claude, a un tasto dall’essere una nota permanente in Obsidian.

Metodo 2: i sottotitoli di YouTube (gratis, sporco)

YouTube espone sottotitoli auto-generati tramite la barra laterale CC. Puoi estrarli e riformattarli a mano.

Passaggi:

Apri il video, clicca sul menu ..., scegli Apri trascrizione
Copia le righe con timestamp in un editor di testo
Togli i timestamp, aggiungi la punteggiatura, sistema i cambi di parlante a mano

Problemi di questo approccio:

I sottotitoli automatici non hanno punteggiatura né confini di frase
I cambi di parlante non sono segnati per niente
Musica, applausi e silenzio compaiono come artefatti [Music] / [Applause]
Le pause lunghe e i riempitivi («uhm», «ehm», «tipo») non vengono tolti
L’output è raramente usabile come contesto per LLM senza 30 minuti di pulizia

Va bene per una clip di 3 minuti. Crolla su qualsiasi cosa più lunga.

Metodo 3: yt-dlp + Whisper in locale

Per il controllo completo, puoi eseguire Whisper da solo sull’audio.

yt-dlp -x --audio-format mp3 "https://youtube.com/watch?v=VIDEO_ID"
whisper VIDEO_ID.mp3 --model medium --output_format txt

Ideale per: team di ingegneria che trascrivono su larga scala, o chiunque faccia girare Whisper offline per privacy. Richiede un ambiente Python, qualche GB di disco per il modello e o una GPU o pazienza.

Problemi di questo approccio:

Niente riassunto, niente punti chiave, nessuna struttura pulita --- solo testo grezzo della trascrizione
La diarizzazione dei parlanti richiede un modello separato (pyannote.audio o simili)
I marcatori di capitolo dalla pagina YouTube non vengono recuperati
La passata di pulizia (punteggiatura, paragrafi, rimozione dei riempitivi) è un passaggio separato

Questo è il metodo giusto se stai costruendo una pipeline. È sproporzionato per un singolo video.

Metodo 4: servizi di trascrizione di terze parti

Strumenti come Descript, Otter.ai e Sonix possono ingerire un URL YouTube e produrre una trascrizione.

Ideale per: podcaster e team di contenuti che hanno anche bisogno di editing, identificazione dei parlanti e collaborazione di squadra sulla trascrizione.

Problemi per il caso d’uso Markdown:

L’output è di solito in formato proprietario (progetto Descript, note Otter), non Markdown pulito
La maggior parte sono servizi a pagamento con tariffe al minuto che si sommano in fretta
La trascrizione raramente è strutturata in riassunto + punti chiave + corpo
Progettati per flussi di lavoro di video editing, non per alimentare modelli AI

Quale metodo dovresti usare?

Scenario	Metodo migliore
Incollare un video in Claude o ChatGPT	Save --- un clic, output strutturato
Salvare un podcast da leggere più tardi	Save --- il riassunto rende i contenuti lunghi scorribili
Citare un momento specifico in un talk di 2 ore	Save --- timestamp preservati
Costruire una pipeline interna di trascrizione	yt-dlp + Whisper --- programmabile e offline
Trascrivere per l’editing video	Descript o Otter --- progettati per quel flusso
Ottenere una trascrizione veloce e grezza di una clip di 3 minuti	CC di YouTube --- gratis, veloce, sporco

Per la maggior parte delle persone --- soprattutto chi usa contenuti YouTube come contesto AI --- Save è la risposta. Produce il Markdown più pulito senza alcuna configurazione, e gestisce i video lunghi alla stessa velocità di un tweet.

Casi limite che Save gestisce

Video lunghi (da 2 a 4 ore). Save divide l’audio in pezzi e ricuce la trascrizione con timestamp continui. Il riassunto in cima è il pezzo chiave. Senza, nessuno legge 30.000 parole.
Più parlanti. Whisper fa una diarizzazione di base. Save aggiunge etichette dei parlanti quando c’è più di una voce. Non sempre perfetto su show di interviste con botta-e-risposta rapido, ma di solito corretto su podcast e panel di conferenze.
Video multilingue. Se l’audio è in francese, la trascrizione resta in francese. Niente traduzione forzata. Se la vuoi in inglese, chiedi a Claude di tradurla dopo.
Sottotitoli automatici disattivati. Non importa. Save trascrive l’audio direttamente, non dipende dalla traccia CC di YouTube.
Shorts. Stessa pipeline, solo più veloce. L’output è più breve ma ha comunque il frontmatter dei metadati e un riassunto.
Video con restrizioni o riservati ai membri. Save vede ciò che vede il tuo browser autenticato. Se puoi guardarlo, Save può trascriverlo.
Dirette (dopo la fine). Funziona sul VOD archiviato una volta che YouTube finisce di processarlo. Le dirette in corso non sono supportate.

Abbinalo al tuo flusso di lavoro

L’output Markdown funziona ovunque ti serva:

Claude / ChatGPT / Gemini --- incolla il file, fai domande di approfondimento sul video
Obsidian --- mettilo nel tuo vault, collegalo a note correlate, cerca tra tutti i tuoi talk salvati
Notion --- incolla direttamente, titoli e blocchi di codice vengono renderizzati correttamente
Apple Notes --- import pulito tramite l’estensione di condivisione Markdown
Save Vault --- se ne hai uno connesso, ogni salvataggio YouTube ci atterra automaticamente con backlink e tag

FAQ

Save funziona sul sito mobile o sull’app di YouTube? L’estensione è solo Chrome desktop per ora. Su mobile, copia l’URL e aprilo su desktop, oppure incollalo in un Save Vault su Mac (che ha un gestore di URL).

E YouTube Music o le playlist? Solo video singoli. Le playlist non vengono crawlate come un unico documento. I videoclip funzionano, ma la trascrizione è solo il testo della canzone se c’è.

Posso avere solo il riassunto, senza la trascrizione completa? Sì. L’estensione ti fa scegliere: solo trascrizione, solo riassunto, o entrambi. Di default entrambi, perché su gran parte dei video entrambi sono brevi.

Conserva i capitoli? Se il video ha marcatori di capitolo, Save li usa come titoli di sezione nella trascrizione. I video lunghi diventano molto più facili da navigare.

La trascrizione include i riempitivi? La passata di pulizia rimuove la maggior parte degli «uhm», «ehm» e partenze false. Mantiene voce e tono del parlante, solo ripulite dal rumore verbale che rende difficili da leggere le trascrizioni grezze.

La trascrizione è abbastanza accurata da poter essere citata? Per parlato a velocità normale, sì. Per contenuti molto tecnici con nomi propri rari, ricontrolla l’ortografia rispetto al video. Save usa un modello di classe Whisper, che è lo stato dell’arte per l’inglese e molto buono per la maggior parte delle lingue principali.

Quanto costa? Save ha un piano gratuito così puoi provarlo su qualche video. Oltre, un piccolo abbonamento copre i costi di trascrizione.

Guide Save correlate

Salvare thread Reddit in Markdown --- thread con la nidificazione dei commenti preservata
Salvare conversazioni ChatGPT in Markdown --- ogni turno, con i blocchi di codice intatti
Salvare repo e issue GitHub in Markdown --- README, issue, discussioni PR, tutto in un file
Salvare pagine Notion in Markdown --- toggle espansi, database come tabelle
Salvare thread Twitter / X in Markdown --- ogni tweet, in ordine, con attribuzione

Come salvare un video YouTube in Markdown (trascrizione, riassunto, timestamp)

Perché salvare i video YouTube in Markdown?

Metodo 1: Save (il più veloce, un clic)

Esempio di output

Metodo 2: i sottotitoli di YouTube (gratis, sporco)

Metodo 3: yt-dlp + Whisper in locale

Metodo 4: servizi di trascrizione di terze parti

Quale metodo dovresti usare?

Casi limite che Save gestisce

Abbinalo al tuo flusso di lavoro

FAQ

Guide Save correlate

## Continue reading

Come salvare una conversazione ChatGPT come Markdown (ogni turno, blocchi di codice intatti)

Come salvare un thread di Reddit in Markdown (con commenti e contesto)

Come salvare una conversazione di Claude come Markdown (Artifacts, citazioni, Projects)

Come salvare un post Substack come Markdown (paywall gestito, senza cross-promo)

Jean-Sébastien Wallez