ウェブページをMarkdownとして保存する方法(3つの方法)
ウェブページをMarkdownファイルとして保存したい。ナレッジベースを構築しているのか、ドキュメントをアーカイブしているのか、あるいは単に記事のクリーンなコピーが欲しいのかもしれない。以下に3つの方法を、最もシンプルなものから最も技術的なものの順で紹介する。
方法1:Save拡張機能(最も簡単)
Saveは、任意のウェブページをワンクリックでクリーンなMarkdownに変換するChrome拡張機能だ。
使い方:
- Chrome ウェブストアからSaveをインストール
- 任意のウェブページにアクセス
- Saveアイコンをクリック
.mdファイルがコンピューターにダウンロードされる
優れている点:
- AIによる抽出で広告、ナビゲーション、余分なものを除去
- 見出し、リスト、コードブロック、テーブル、リンクを保持
- 難しいページでも動作:YouTube(完全なトランスクリプト)、Twitterスレッド、Reddit、Confluence、有料コンテンツ
- ターミナル不要、APIキー不要、設定不要
- Obsidian、VS Code、AIツールにすぐ使えるクリーンで構造化されたMarkdownが得られる
最適な用途: ターミナルを使わずにクリーンなMarkdownが欲しい人。
方法2:コマンドラインツール
HTMLをMarkdownに変換するCLIツールがいくつかある:
Pandoc
ドキュメント変換のスイスアーミーナイフ:
# URLから(フェッチして変換)
curl -s https://example.com/article | pandoc -f html -t markdown -o article.md
# ローカルのHTMLファイルから
pandoc input.html -o output.md
メリット: 強力で複雑なドキュメントを処理でき、多くの出力フォーマットに対応。 デメリット: 生のHTMLをフェッチする(ナビゲーション、広告、スクリプトを含む)。出力は手動でのクリーンアップが必要なことが多い。
Defuddle
読みやすいコンテンツの抽出に特化した新しいツール:
npm install -g defuddle
defuddle parse https://example.com/article --md
メリット: ナビゲーションと余分なものを除去し、記事のコンテンツに集中。 デメリット: Node.jsが必要で、すべてのページタイプに対応していない。
Jina Reader
Markdownを返すホスト型API:
curl -s "https://r.jina.ai/https://example.com/article"
メリット: インストール不要、HTTP経由で動作。 デメリット: レート制限あり、インターネット接続が必要、サードパーティへの依存、JavaScriptでレンダリングされるページへの対応が弱い。
最適な用途: ターミナルに慣れていて、ページを一括変換する必要がある開発者。
方法3:手動コピペ
ローテクなアプローチ:
- ページ上のすべてのコンテンツを選択(Cmd+AまたはCtrl+A)
- コピー(Cmd+CまたはCtrl+C)
- Markdownエディタに貼り付け
- フォーマットを手動で修正
メリット: ツール不要。 デメリット: すべてをコピーする(ナビゲーション、広告、フッター)。フォーマットが失われる。テーブルが壊れる。コードブロックが消える。リンクがプレーンテキストになる。短い記事以外は時間がかかる。
最適な用途: 数段落だけ必要な場合の一回限りの保存。
比較
| 機能 | Save拡張機能 | CLIツール | コピペ |
|---|---|---|---|
| セットアップ時間 | 10秒 | 5〜30分 | なし |
| ワンクリック保存 | あり | なし | なし |
| クリーンな出力 | AI抽出 | 様々 | 手動クリーンアップ |
| YouTubeトランスクリプト | あり | なし | なし |
| Twitterスレッド | あり | なし | 部分的 |
| Confluence/wiki | あり | 部分的 | 雑然 |
| コードブロック保持 | あり | 通常あり | なし |
| テーブル保持 | あり | 通常あり | なし |
| オフライン動作 | なし | あり(Pandoc) | あり |
| コスト | 無料プランあり | 無料 | 無料 |
なぜウェブページをMarkdownとして保存するのか?
これを読んでいるなら、おそらくすでに理由はわかっているだろう。でも、MarkdownがWebコンテンツの保存において他のすべてのフォーマットより優れている理由を挙げておく:
小さい。 典型的な記事はMarkdownで5KB対HTMLで100KB以上。それは20倍少ないストレージで、AIに提供する場合は20倍少ないトークンだ。
ポータブルだ。 任意のテキストエディタ、任意のノートアプリ(Obsidian、Notion、Logseq)、または任意の開発者ツールで開ける。ベンダーロックインなし。
検索可能だ。 数百のMarkdownファイルをgrepで数ミリ秒で検索できる。PDFではそうはいかない。
LLMが好む。 Claude、ChatGPT、その他のAIツールは数百万のMarkdownドキュメントで訓練されている。Markdownを提供すると、生のHTMLやPDFより良い結果が得られる。
永遠に続く。 プレーンテキストファイルは最も耐久性のあるデジタル形式だ。.mdファイルは50年後も読める。ブックマークは5年も持たない。
始めましょう
ウェブページをMarkdownとして保存し始める最速の方法:Chrome ウェブストアからSaveをインストール。無料で始められ、インストールに10秒かかるだけだ。
ウェブページを二度と失わない。Saveはワンクリックで任意のページをクリーンなMarkdownに変換する。