ページソース表示+スマート解析
ブラウザでHTMLソースコードを完全表示。SEO監査、技術検出、パフォーマンス指標も確認できます。
任意のウェブサイトからクリーンで読みやすいテキストを抽出。HTMLソースコードと抽出されたテキストコンテンツを並べて表示します。
タグ、スクリプト、スタイルを取り除き、言葉を残す。読者が目にするのと同じコンテンツをプレーンテキストとして取得します。
すべてのウェブページは2つの要素で構成されています:マークアップ(ブラウザにコンテンツの構造や表示方法を伝えるHTMLタグ)と、コンテンツそのもの(読者が実際に目にする単語、数字、文字)です。ページのソースを表示すると、その大部分はマークアップです。開始タグと終了タグ、クラス名、スクリプトブロック、インラインスタイル、メタデータなど。読める内容はそれらの間に埋め込まれています。
HTMLテキストエクストラクターの役割はただ一つ:読めるコンテンツだけを取り出し、残りを捨てることです。公開URLを貼り付けるだけで、タグもスクリプトもスタイルシートもナビゲーションノイズもない、クリーンなプレーンテキスト版のページが得られます。元のHTMLは横に並べて表示されるので、比較、検証、必要な部分の抽出が可能です。
抽出はサーバー側で生のHTMLレスポンスに対して行われるため、クライアント側JavaScriptが何かを追加する前に検索エンジンのクローラーが最初にインデックスする内容と同じものが得られます。SEO監査、コンテンツ棚卸し、翻訳準備、AI/MLの学習データとしては、通常これが欲しいバージョンです。
コンテンツ監査から気が散らない読書まで - 誰がなぜテキスト抽出を使うのかを紹介します。
単語数を数え、読む時間を測り、キーワード密度を確認し、ページの本文が狙ったトピックを実際に反映しているかを評価します。
翻訳者のツールを壊したり、手動フィルタリングに余計な時間を取らせるHTMLノイズなしに、クリーンな原文を提供できます。
ポップアップ、サイドバー、広告だらけの乱雑なページから記事を取り出し、ノートアプリ、Kindle、後で読むツールに貼り付けます。
スクリーンリーダーがページで遭遇する内容をおおまかに把握 - 読み上げ順序やコンテンツの優先度を確認するのに欠かせません。
主要コンテンツがサーバーレンダリングされている(クローラーに見える)ことを確認し、本文中のキーワードの有無をチェックし、定型文と本文の比率を把握します。
自分でタグを除去せずに、言語モデル、検索システム、コンテンツ分類器のファインチューニング用に、公開ウェブページからクリーンなテキストコーパスを構築します。
明確なルールにより、何が得られ何が失われるかが一目瞭然です。
textContent<script>ブロックとその内容<style>ブロックとインラインCSS<noscript>の内容<svg>、<iframe>、<object>、<embed>alt属性空白は正規化されます。スペース、タブ、改行の連続は折りたたまれるので、元のHTMLのインデントによる大きな空白ギャップが残ることはありません。マークアップで示された段落区切りは保持されます。
URLを貼り付けてから抽出テキストが表示されるまでに起きていること。
textContentを取得し、文書順にすべてのテキストノードを連結します。読者が目にする単語が得られます。本ツールを、ブラウザのリーダーモード、ライブラリ、手動抽出と比較します。
| アプローチ | 適した用途 | トレードオフ |
|---|---|---|
| 本ツール | 手早い単発抽出、並列比較、あらゆるデバイスで使用可 | サーバーレンダリングされたテキストのみ(JSレンダリング非対応) |
| ブラウザのリーダーモード | 単一記事を気が散らず読む | 推測ヒューリスティクスに依存。本文を見逃したり誤判定する場合あり |
| ブラウザからコピペ | 短いスニペットを視覚的に取得 | 全ページの取得は面倒。隠れたスタイルを継承することも。ビューポート外のコンテンツは取得不可 |
readability-js / Mercury Parser | Nodeアプリでのスクリプト化された記事本文抽出 | コードベースへの組み込みが必要。記事本文のみが対象 |
| BeautifulSoup / Cheerio | 特定ルールを持つカスタムPython/JSスクレイパー | サイトごとにセレクタを書いて保守する開発工数が必要 |
| curl + pandoc / html2text | 開発マシン上のCLIパイプライン | ターミナル限定。インストールと設定のオーバーヘッドあり |
ほとんどの人にとって(コンテンツチーム、SEO担当者、翻訳者、研究者など)URLからクリーンなテキストまでの最速ルートは、ホスティングされたエクストラクターです。プログラムによる繰り返し、記事本文のみの抽出、汎用ツールでは扱えないサイト固有のルールが必要な場合にだけ、ライブラリやカスタムコードを選んでください。
HTMLページからのテキスト抽出に関するよくある質問。
HTMLはコンテンツをタグ(<p>、<h1>、<a>、<div>など)で包み、ブラウザに表示方法を伝えるマークアップ言語です。テキストはそれらのタグの中にある、人が読める内容そのものです。HTMLから「テキストを抽出」するとは、タグ、スクリプト、スタイリングを取り除き、読者が実際に目にする言葉だけを残すことを意味します。
いいえ。エクストラクターはサーバーから返された生のHTMLに対して動作し、クライアント側のJavaScriptが実行される前の段階で処理します。React、Vue、Angularで構築されたシングルページアプリの場合、読み込み後に挿入されたコンテンツは抽出テキストには含まれません。主要コンテンツがクライアント側でしかレンダリングされないページでは、結果はほとんど空になります。
目的は似ています(ページのコンテンツを気が散らない形で表示する)が、方法が異なります。リーダーモードはDOMのヒューリスティクスを使って、ページのどの部分が本文かを推測し、残りを隠します。当ツールはスクリプトやスタイルなどの非コンテンツ要素を除去し、文書の全テキストを保持します。「本文」の判定の知性は低い代わりに、より多くのテキストを取得できます。
除去されるもの:<script>、<style>、<noscript>、<svg>、<iframe>、<object>、<embed>要素、およびすべてのタグマークアップ自体。head内のコンテンツ(metaタグ、linkタグ、title)も除外されます。
保持されるもの:段落、見出し、リスト項目、リンク、テーブルのセル、その他body内のテキストを持つ要素の可視テキスト。空白は正規化されるため、大量の空行が並ぶことはありません。
はい。UTF-8エンコーディングが保持されるため、アラビア語、中国語、日本語、韓国語、キリル文字、絵文字、その他のほとんどの文字体系も正しく処理されます。翻訳は行わず、元の言語のままテキストを取得します。
サポートしているのはHTMLページのみです。PDFやその他のバイナリフォーマットは別のツールが必要です。PDFサポートが有用だと感じた場合はTwitterでお知らせください - 需要を把握しています。
検索エンジンは主にページのテキストコンテンツをインデックスします。テキストだけを抽出することで、キーワード密度の監査、最重要コンテンツがサーバーレンダリング(初回取得でクローラーに見える)されているかの確認、単語数の測定、ナビゲーションやフッターの定型文が本文を埋もれさせていないかの確認が可能になります。
はい。抽出テキストパネルの横にあるダウンロードボタンで、.txtファイルとして保存できます。コピーボタンでクリップボードにコピーできます。
クエリを保存したり、抽出結果を個人と紐付けたりすることはありません。パフォーマンスのためにレスポンスは短期間キャッシュされます。詳細はプライバシーポリシーをご覧ください。
これらのリソースで、ウェブコンテンツ、ソースコード、SEOをさらに深く掘り下げましょう。

ブラウザでHTMLソースコードを完全表示。SEO監査、技術検出、パフォーマンス指標も確認できます。

テキストだけでなく完全なHTMLが必要ですか?公開ページのソースをダウンロード可能なファイルとして保存します。

HTML構造が検索順位に与える影響 - ページ監査時に確認すべき点。

HTML構造、タグ、そして任意のページのマークアップを理解するための初心者向けツアー。

HTML5タグの説明付き完全インデックス - 抽出済みまたは生のマークアップを調べる際に便利。

HTML、CSS、JavaScript作業に最適な無料・有料のコードエディタ&IDEガイド。