PDFやその他の文書からテキストを抽出できますか？

サポートしているのはHTMLページのみです。PDF、Word文書、その他のバイナリフォーマットは別のツールが必要です。今後PDFサポートを追加する可能性もありますので、ご要望があればお知らせください。

無料オンラインツール - インストール不要

HTMLテキストエクストラクター

Q: HTMLとテキストの違いは何ですか？

HTMLはコンテンツをタグ（ 、 、 、 など）で包み、ブラウザに表示方法を伝えるマークアップ言語です。テキストはそれらのタグの中にある、人が読める内容そのものです。HTMLから「テキストを抽出」するとは、タグ、スクリプト、スタイリングを取り除き、読者が実際にページで目にする言葉だけを残すことを意味します。

Q: これはブラウザのリーダーモードと同じですか？

目的は似ていますが（ページのコンテンツを気が散らない形で提供する）、方法が異なります。リーダーモードはDOMのヒューリスティクスを使って、ページのどの部分が本文かを推測し、残りを隠します。当ツールは生のHTMLに対して動作し、スクリプトやスタイルなどの非コンテンツ要素を除去し、文書の全テキストを保持します。「本文」の判定の知性は低い代わりに、より多くのテキストを取得できます。

Q: 具体的に何が除去され、何が保持されますか？

除去されるもの：script、style、noscript、svg、iframe、object、embed要素、すべてのタグマークアップ、head内のコンテンツ（meta、link、title）。保持されるもの：段落、見出し、リスト項目、リンク、テーブルのセル、その他body内のテキストを持つ要素の可視テキスト。空白は正規化されるため、大量の空行が並ぶことはありません。

Q: 英語以外のページからテキストを抽出できますか？

はい。UTF-8エンコーディングが保持されるため、アラビア語、中国語、日本語、韓国語、キリル文字、絵文字もすべて正しく処理されます。本ツールは翻訳は行わず、元の言語のままテキストを取得します。

Q: なぜSEO目的で使うのですか？

検索エンジンはページのテキストコンテンツをインデックスします。テキストのみを抽出することで、キーワード密度を監査したり、最重要コンテンツがサーバーレンダリングされているかを確認したり、単語数を測定したり、ナビゲーションや定型文が本文を埋もれさせていないかを確認できます。

任意のウェブサイトからクリーンで読みやすいテキストを抽出。HTMLソースコードと抽出されたテキストコンテンツを並べて表示します。

source.html

抽出テキスト.txt

⚡ページ速度

🖥サーバー情報

📄ページ情報

概要

HTMLからのテキスト抽出とは

タグ、スクリプト、スタイルを取り除き、言葉を残す。読者が目にするのと同じコンテンツをプレーンテキストとして取得します。

すべてのウェブページは2つの要素で構成されています：マークアップ（ブラウザにコンテンツの構造や表示方法を伝えるHTMLタグ）と、コンテンツそのもの（読者が実際に目にする単語、数字、文字）です。ページのソースを表示すると、その大部分はマークアップです。開始タグと終了タグ、クラス名、スクリプトブロック、インラインスタイル、メタデータなど。読める内容はそれらの間に埋め込まれています。

HTMLテキストエクストラクターの役割はただ一つ：読めるコンテンツだけを取り出し、残りを捨てることです。公開URLを貼り付けるだけで、タグもスクリプトもスタイルシートもナビゲーションノイズもない、クリーンなプレーンテキスト版のページが得られます。元のHTMLは横に並べて表示されるので、比較、検証、必要な部分の抽出が可能です。

抽出はサーバー側で生のHTMLレスポンスに対して行われるため、クライアント側JavaScriptが何かを追加する前に検索エンジンのクローラーが最初にインデックスする内容と同じものが得られます。SEO監査、コンテンツ棚卸し、翻訳準備、AI/MLの学習データとしては、通常これが欲しいバージョンです。

ユースケース

HTMLからテキストを抽出したくなる場面

コンテンツ監査から気が散らない読書まで - 誰がなぜテキスト抽出を使うのかを紹介します。

📝

コンテンツ監査

単語数を数え、読む時間を測り、キーワード密度を確認し、ページの本文が狙ったトピックを実際に反映しているかを評価します。

🌐

翻訳準備

翻訳者のツールを壊したり、手動フィルタリングに余計な時間を取らせるHTMLノイズなしに、クリーンな原文を提供できます。

📖

気が散らない読書

ポップアップ、サイドバー、広告だらけの乱雑なページから記事を取り出し、ノートアプリ、Kindle、後で読むツールに貼り付けます。

♿

アクセシビリティレビュー

スクリーンリーダーがページで遭遇する内容をおおまかに把握 - 読み上げ順序やコンテンツの優先度を確認するのに欠かせません。

📊

SEOコンテンツ分析

主要コンテンツがサーバーレンダリングされている（クローラーに見える）ことを確認し、本文中のキーワードの有無をチェックし、定型文と本文の比率を把握します。

🤖

AI/ML学習データ

自分でタグを除去せずに、言語モデル、検索システム、コンテンツ分類器のファインチューニング用に、公開ウェブページからクリーンなテキストコーパスを構築します。

挙動

保持されるもの、除去されるもの

明確なルールにより、何が得られ何が失われるかが一目瞭然です。

✓ 保持

段落テキスト
見出しテキスト（h1〜h6）
リスト項目（ul、ol）
リンクのアンカーテキスト
テーブルセルのテキスト
引用（blockquote）と引用元（cite）
フォームラベルとボタンテキスト
body内のすべての可視textContent

✗ 除去

すべてのHTMLタグ自体
<script>ブロックとその内容
<style>ブロックとインラインCSS
<noscript>の内容
<svg>、<iframe>、<object>、<embed>
メタタグとhead内のコンテンツ
画像のalt属性
JavaScriptで動的にレンダリングされるテキスト

空白は正規化されます。スペース、タブ、改行の連続は折りたたまれるので、元のHTMLのインデントによる大きな空白ギャップが残ることはありません。マークアップで示された段落区切りは保持されます。

仕組み

内部の5ステップ

URLを貼り付けてから抽出テキストが表示されるまでに起きていること。

サーバー側でページを取得サーバーがURLを直接リクエストします。JavaScriptは実行されず、オリジンが送信した生のHTMLレスポンスを取得します。
HTMLをツリーに解析本格的なHTMLパーサーがマークアップからDOMライクなツリーを構築し、不正なタグ、閉じ忘れ、ネストされたインライン要素などのエッジケースにも対応します。
非コンテンツ枝を剪定script、style、noscript、コメントノードは抽出前に削除されるため、その内容が出力に混ざることはありません。
すべてのテキストノードを読み取るbodyのtextContentを取得し、文書順にすべてのテキストノードを連結します。読者が目にする単語が得られます。
正規化して表示空白の連続は折りたたまれ、連続する空行はマージされ、結果がソースHTMLと並べて表示されるとともに、単語数と文字数も表示されます。

代替手段

HTMLテキストエクストラクター vs その他のアプローチ

本ツールを、ブラウザのリーダーモード、ライブラリ、手動抽出と比較します。

アプローチ	適した用途	トレードオフ
本ツール	手早い単発抽出、並列比較、あらゆるデバイスで使用可	サーバーレンダリングされたテキストのみ（JSレンダリング非対応）
ブラウザのリーダーモード	単一記事を気が散らず読む	推測ヒューリスティクスに依存。本文を見逃したり誤判定する場合あり
ブラウザからコピペ	短いスニペットを視覚的に取得	全ページの取得は面倒。隠れたスタイルを継承することも。ビューポート外のコンテンツは取得不可
`readability-js` / Mercury Parser	Nodeアプリでのスクリプト化された記事本文抽出	コードベースへの組み込みが必要。記事本文のみが対象
BeautifulSoup / Cheerio	特定ルールを持つカスタムPython/JSスクレイパー	サイトごとにセレクタを書いて保守する開発工数が必要
curl + pandoc / html2text	開発マシン上のCLIパイプライン	ターミナル限定。インストールと設定のオーバーヘッドあり

ほとんどの人にとって（コンテンツチーム、SEO担当者、翻訳者、研究者など）URLからクリーンなテキストまでの最速ルートは、ホスティングされたエクストラクターです。プログラムによる繰り返し、記事本文のみの抽出、汎用ツールでは扱えないサイト固有のルールが必要な場合にだけ、ライブラリやカスタムコードを選んでください。

FAQ

よくある質問

HTMLページからのテキスト抽出に関するよくある質問。

HTMLとテキストの違いは何ですか？

HTMLはコンテンツをタグ（<p>、<h1>、<a>、<div>など）で包み、ブラウザに表示方法を伝えるマークアップ言語です。テキストはそれらのタグの中にある、人が読める内容そのものです。HTMLから「テキストを抽出」するとは、タグ、スクリプト、スタイリングを取り除き、読者が実際に目にする言葉だけを残すことを意味します。

JavaScriptによって追加されたテキストも含まれますか？

いいえ。エクストラクターはサーバーから返された生のHTMLに対して動作し、クライアント側のJavaScriptが実行される前の段階で処理します。React、Vue、Angularで構築されたシングルページアプリの場合、読み込み後に挿入されたコンテンツは抽出テキストには含まれません。主要コンテンツがクライアント側でしかレンダリングされないページでは、結果はほとんど空になります。

これはブラウザのリーダーモードと同じですか？

目的は似ています（ページのコンテンツを気が散らない形で表示する）が、方法が異なります。リーダーモードはDOMのヒューリスティクスを使って、ページのどの部分が本文かを推測し、残りを隠します。当ツールはスクリプトやスタイルなどの非コンテンツ要素を除去し、文書の全テキストを保持します。「本文」の判定の知性は低い代わりに、より多くのテキストを取得できます。

具体的に何が除去され、何が保持されますか？

除去されるもの：<script>、<style>、<noscript>、<svg>、<iframe>、<object>、<embed>要素、およびすべてのタグマークアップ自体。head内のコンテンツ（metaタグ、linkタグ、title）も除外されます。

保持されるもの：段落、見出し、リスト項目、リンク、テーブルのセル、その他body内のテキストを持つ要素の可視テキスト。空白は正規化されるため、大量の空行が並ぶことはありません。

英語以外のページからテキストを抽出できますか？

はい。UTF-8エンコーディングが保持されるため、アラビア語、中国語、日本語、韓国語、キリル文字、絵文字、その他のほとんどの文字体系も正しく処理されます。翻訳は行わず、元の言語のままテキストを取得します。

PDFやWord文書からテキストを抽出できますか？

サポートしているのはHTMLページのみです。PDFやその他のバイナリフォーマットは別のツールが必要です。PDFサポートが有用だと感じた場合はTwitterでお知らせください - 需要を把握しています。

なぜSEO目的で使うのですか？

検索エンジンは主にページのテキストコンテンツをインデックスします。テキストだけを抽出することで、キーワード密度の監査、最重要コンテンツがサーバーレンダリング（初回取得でクローラーに見える）されているかの確認、単語数の測定、ナビゲーションやフッターの定型文が本文を埋もれさせていないかの確認が可能になります。

抽出したテキストをダウンロードできますか？

はい。抽出テキストパネルの横にあるダウンロードボタンで、.txtファイルとして保存できます。コピーボタンでクリップボードにコピーできます。

データのプライバシーは守られますか？

クエリを保存したり、抽出結果を個人と紐付けたりすることはありません。パフォーマンスのためにレスポンスは短期間キャッシュされます。詳細はプライバシーポリシーをご覧ください。