Comment enregistrer n'importe quelle page web en Markdown (3 méthodes)
Vous voulez enregistrer une page web en fichier Markdown. Peut-être que vous construisez une base de connaissances, archivez de la documentation, ou vous voulez simplement une copie propre d’un article. Voici trois façons de le faire, de la plus simple à la plus technique.
Méthode 1 : l’extension Save (la plus simple)
Save est une extension Chrome qui convertit n’importe quelle page web en Markdown propre en un seul clic.
Comment ça fonctionne :
- Installer Save depuis le Chrome Web Store
- Visiter n’importe quelle page web
- Cliquer sur l’icône Save
- Un fichier
.mdse télécharge sur votre ordinateur
Ce qui la rend bonne :
- L’extraction par IA supprime les publicités, la navigation et le bruit
- Préserve les titres, listes, blocs de code, tableaux et liens
- Fonctionne sur les pages difficiles : YouTube (transcriptions complètes), fils Twitter, Reddit, Confluence, contenu payant
- Pas de terminal, pas de clés API, pas de configuration
- La sortie est du Markdown propre et structuré, prêt pour Obsidian, VS Code ou les outils IA
Idéal pour : Quiconque veut du Markdown propre sans toucher à un terminal.
Méthode 2 : les outils en ligne de commande
Plusieurs outils CLI convertissent HTML en Markdown :
Pandoc
Le couteau suisse de la conversion de documents :
# Depuis une URL (récupérer + convertir)
curl -s https://example.com/article | pandoc -f html -t markdown -o article.md
# Depuis un fichier HTML local
pandoc input.html -o output.md
Avantages : Puissant, gère des documents complexes, nombreux formats de sortie. Inconvénients : Récupère le HTML brut (inclut navigation, pubs, scripts). La sortie nécessite souvent un nettoyage manuel.
Defuddle
Un outil plus récent axé sur l’extraction du contenu lisible :
npm install -g defuddle
defuddle parse https://example.com/article --md
Avantages : Supprime la navigation et le bruit, se concentre sur le contenu de l’article. Inconvénients : Nécessite Node.js, ne gère pas tous les types de pages.
Jina Reader
Une API hébergée qui renvoie du Markdown :
curl -s "https://r.jina.ai/https://example.com/article"
Avantages : Pas d’installation, fonctionne via HTTP. Inconvénients : Limité en débit, nécessite internet, dépendance tierce, gère mal les pages rendues avec JavaScript.
Idéal pour : Les développeurs à l’aise dans le terminal qui doivent convertir des pages en masse.
Méthode 3 : copier-coller manuel
L’approche peu technique :
- Sélectionner tout le contenu de la page (Cmd+A ou Ctrl+A)
- Copier (Cmd+C ou Ctrl+C)
- Coller dans un éditeur Markdown
- Corriger la mise en forme manuellement
Avantages : Aucun outil nécessaire. Inconvénients : Copie tout (navigation, pubs, pieds de page). Perd la mise en forme. Les tableaux se cassent. Les blocs de code disparaissent. Les liens deviennent du texte brut. Long pour tout ce qui dépasse un court article.
Idéal pour : Les sauvegardes ponctuelles quand on n’a besoin que de quelques paragraphes.
Comparaison
| Fonctionnalité | Extension Save | Outils CLI | Copier-coller |
|---|---|---|---|
| Temps de configuration | 10 secondes | 5-30 minutes | Aucun |
| Sauvegarde en un clic | Oui | Non | Non |
| Sortie propre | Extraite par IA | Variable | Nettoyage manuel |
| Transcriptions YouTube | Oui | Non | Non |
| Fils Twitter | Oui | Non | Partiel |
| Confluence/wikis | Oui | Partiel | Désordonné |
| Blocs de code préservés | Oui | En général | Non |
| Tableaux préservés | Oui | En général | Non |
| Fonctionne hors ligne | Non | Oui (Pandoc) | Oui |
| Coût | Niveau gratuit disponible | Gratuit | Gratuit |
Pourquoi enregistrer des pages web en Markdown ?
Si vous lisez ceci, vous savez probablement déjà pourquoi. Mais voici pourquoi Markdown surpasse tous les autres formats pour sauvegarder du contenu web :
C’est petit. Un article typique fait 5 Ko en Markdown contre plus de 100 Ko en HTML. C’est 20 fois moins de stockage et 20 fois moins de tokens si vous l’envoyez à une IA.
C’est portable. Ouvrez-le dans n’importe quel éditeur de texte, n’importe quelle application de notes (Obsidian, Notion, Logseq), ou n’importe quel outil de développeur. Pas de verrouillage fournisseur.
C’est consultable. Grep sur des centaines de fichiers Markdown en quelques millisecondes. Essayez ça avec des PDF.
Les LLM adorent ça. Claude, ChatGPT et d’autres outils IA ont été entraînés sur des millions de documents Markdown. Leur fournir du Markdown produit de meilleurs résultats que du HTML brut ou des PDF.
Ça dure pour toujours. Les fichiers texte brut sont le format numérique le plus durable. Vos fichiers .md seront lisibles dans 50 ans. Vos signets ne survivront pas 5 ans.
Pour commencer
Le moyen le plus rapide de commencer à enregistrer des pages web en Markdown : Installer Save depuis le Chrome Web Store. C’est gratuit pour démarrer et l’installation prend 10 secondes.
Ne perdez plus jamais une page web. Save convertit n’importe quelle page en Markdown propre en un clic.