← ブログに戻る

ウェブページをMarkdownとして保存する方法(3つの方法)

· Save Team
markdownweb-clipperhow-toproductivity

ウェブページをMarkdownファイルとして保存したい。ナレッジベースを構築しているのか、ドキュメントをアーカイブしているのか、あるいは単に記事のクリーンなコピーが欲しいのかもしれない。以下に3つの方法を、最もシンプルなものから最も技術的なものの順で紹介する。

方法1:Save拡張機能(最も簡単)

Saveは、任意のウェブページをワンクリックでクリーンなMarkdownに変換するChrome拡張機能だ。

使い方:

  1. Chrome ウェブストアからSaveをインストール
  2. 任意のウェブページにアクセス
  3. Saveアイコンをクリック
  4. .mdファイルがコンピューターにダウンロードされる

優れている点:

  • AIによる抽出で広告、ナビゲーション、余分なものを除去
  • 見出し、リスト、コードブロック、テーブル、リンクを保持
  • 難しいページでも動作:YouTube(完全なトランスクリプト)、Twitterスレッド、Reddit、Confluence、有料コンテンツ
  • ターミナル不要、APIキー不要、設定不要
  • Obsidian、VS Code、AIツールにすぐ使えるクリーンで構造化されたMarkdownが得られる

最適な用途: ターミナルを使わずにクリーンなMarkdownが欲しい人。

方法2:コマンドラインツール

HTMLをMarkdownに変換するCLIツールがいくつかある:

Pandoc

ドキュメント変換のスイスアーミーナイフ:

# URLから(フェッチして変換)
curl -s https://example.com/article | pandoc -f html -t markdown -o article.md

# ローカルのHTMLファイルから
pandoc input.html -o output.md

メリット: 強力で複雑なドキュメントを処理でき、多くの出力フォーマットに対応。 デメリット: 生のHTMLをフェッチする(ナビゲーション、広告、スクリプトを含む)。出力は手動でのクリーンアップが必要なことが多い。

Defuddle

読みやすいコンテンツの抽出に特化した新しいツール:

npm install -g defuddle
defuddle parse https://example.com/article --md

メリット: ナビゲーションと余分なものを除去し、記事のコンテンツに集中。 デメリット: Node.jsが必要で、すべてのページタイプに対応していない。

Jina Reader

Markdownを返すホスト型API:

curl -s "https://r.jina.ai/https://example.com/article"

メリット: インストール不要、HTTP経由で動作。 デメリット: レート制限あり、インターネット接続が必要、サードパーティへの依存、JavaScriptでレンダリングされるページへの対応が弱い。

最適な用途: ターミナルに慣れていて、ページを一括変換する必要がある開発者。

方法3:手動コピペ

ローテクなアプローチ:

  1. ページ上のすべてのコンテンツを選択(Cmd+AまたはCtrl+A)
  2. コピー(Cmd+CまたはCtrl+C)
  3. Markdownエディタに貼り付け
  4. フォーマットを手動で修正

メリット: ツール不要。 デメリット: すべてをコピーする(ナビゲーション、広告、フッター)。フォーマットが失われる。テーブルが壊れる。コードブロックが消える。リンクがプレーンテキストになる。短い記事以外は時間がかかる。

最適な用途: 数段落だけ必要な場合の一回限りの保存。

比較

機能Save拡張機能CLIツールコピペ
セットアップ時間10秒5〜30分なし
ワンクリック保存ありなしなし
クリーンな出力AI抽出様々手動クリーンアップ
YouTubeトランスクリプトありなしなし
Twitterスレッドありなし部分的
Confluence/wikiあり部分的雑然
コードブロック保持あり通常ありなし
テーブル保持あり通常ありなし
オフライン動作なしあり(Pandoc)あり
コスト無料プランあり無料無料

なぜウェブページをMarkdownとして保存するのか?

これを読んでいるなら、おそらくすでに理由はわかっているだろう。でも、MarkdownがWebコンテンツの保存において他のすべてのフォーマットより優れている理由を挙げておく:

小さい。 典型的な記事はMarkdownで5KB対HTMLで100KB以上。それは20倍少ないストレージで、AIに提供する場合は20倍少ないトークンだ。

ポータブルだ。 任意のテキストエディタ、任意のノートアプリ(Obsidian、Notion、Logseq)、または任意の開発者ツールで開ける。ベンダーロックインなし。

検索可能だ。 数百のMarkdownファイルをgrepで数ミリ秒で検索できる。PDFではそうはいかない。

LLMが好む。 Claude、ChatGPT、その他のAIツールは数百万のMarkdownドキュメントで訓練されている。Markdownを提供すると、生のHTMLやPDFより良い結果が得られる。

永遠に続く。 プレーンテキストファイルは最も耐久性のあるデジタル形式だ。.mdファイルは50年後も読める。ブックマークは5年も持たない。

始めましょう

ウェブページをMarkdownとして保存し始める最速の方法:Chrome ウェブストアからSaveをインストール。無料で始められ、インストールに10秒かかるだけだ。


ウェブページを二度と失わない。Saveはワンクリックで任意のページをクリーンなMarkdownに変換する。