Podgląd Źródła Strony + Inteligentna Analiza
Sprawdź pełny kod źródłowy HTML w przeglądarce dzięki audytowi SEO, wykrywaniu technologii i metrykom wydajności.
Wyodrębnij czysty, czytelny tekst z dowolnej strony internetowej. Wyświetl kod źródłowy HTML obok wyodrębnionej zawartości tekstowej.
Usuń tagi, skrypty i style. Zachowaj słowa. Otrzymaj tę samą treść, którą zobaczyłby czytelnik - jako zwykły tekst.
Każda strona internetowa to mieszanka dwóch rzeczy: markupu - tagów HTML, które mówią przeglądarce, jak ustrukturyzować i wyświetlić treść - oraz samej treści, słów, liczb i znaków, które czytelnik faktycznie widzi. Gdy oglądasz źródło strony, większość tego, co widzisz, to markup: tagi otwierające i zamykające, nazwy klas, bloki skryptów, style inline i metadane. Czytelna treść jest ukryta pomiędzy tym wszystkim.
Ekstraktor Tekstu HTML wykonuje jedno zadanie: wyciąga czytelną treść i wyrzuca resztę. Wklej dowolny publiczny URL, a otrzymasz czystą wersję strony w zwykłym tekście - bez tagów, bez skryptów, bez arkuszy stylów, bez szumu nawigacyjnego. Oryginalny HTML pozostaje widoczny obok, abyś mógł porównywać, weryfikować i wybierać to, czego potrzebujesz.
Ponieważ ekstrakcja odbywa się po stronie serwera na surowej odpowiedzi HTML, otrzymujesz dokładnie to, co robot wyszukiwarki zindeksowałby jako pierwsze - zanim JavaScript po stronie klienta będzie miał szansę cokolwiek dodać. Do audytów SEO, inwentaryzacji treści, przygotowania do tłumaczeń i danych treningowych AI/ML zwykle chcesz właśnie tej wersji.
Od audytów treści po czytanie bez rozpraszaczy - oto kto używa ekstrakcji tekstu i dlaczego.
Liczenie słów, pomiar czasu czytania, sprawdzanie gęstości słów kluczowych i ocena, czy treść tekstowa strony faktycznie odzwierciedla temat, na który celujesz.
Przekaż tłumaczom czysty tekst źródłowy bez szumu HTML, który psuje ich narzędzia lub kosztuje ich dodatkowy czas na ręcznym filtrowaniu.
Wyciągnij artykuł z zatłoczonej strony z popupami, paskami bocznymi i reklamami. Wklej go do aplikacji notatek, Kindle lub narzędzia do czytania później.
Uzyskaj przybliżone wyobrażenie o tym, co czytnik ekranu napotkałby na stronie - niezbędne do sprawdzenia kolejności czytania i priorytetów treści.
Potwierdź, że główna treść jest renderowana po stronie serwera (widoczna dla robotów), sprawdź obecność słów kluczowych w tekście głównym i wykryj stosunek boilerplate do treści.
Buduj czyste korpusy tekstowe z publicznych stron internetowych do fine-tuningu modeli językowych, systemów wyszukiwania lub klasyfikatorów treści - bez ręcznego usuwania tagów.
Jasne zasady, abyś dokładnie wiedział, co otrzymujesz, a co tracisz.
textContent body<script> i ich zawartość<style> i CSS inline<noscript><svg>, <iframe>, <object>, <embed>alt obrazówBiałe znaki są normalizowane: ciągi spacji, tabulatorów i nowych linii są skracane, dzięki czemu nie kończysz z dużymi pustymi odstępami z oryginalnego wcięcia HTML. Podziały akapitów są zachowywane tam, gdzie markup je sugerował.
Co się dzieje między wklejeniem URL a zobaczeniem wyodrębnionego tekstu.
textContent body, który konkatenuje każdy węzeł tekstowy w kolejności dokumentu - otrzymujesz słowa, które zobaczyłby czytelnik.Jak to narzędzie wypada w porównaniu z Trybem Czytnika przeglądarki, bibliotekami i ręcznym wyciąganiem.
| Podejście | Najlepsze do | Kompromisy |
|---|---|---|
| To narzędzie | Szybka jednorazowa ekstrakcja, porównanie obok siebie, dowolne urządzenie | Tylko tekst renderowany po stronie serwera (brak treści renderowanej przez JS) |
| Tryb Czytnika Przeglądarki | Czytanie bez rozpraszaczy pojedynczego artykułu | Używa heurystyk zgadujących; może pominąć lub źle zidentyfikować korpus artykułu |
| Kopiuj-wklej z przeglądarki | Wizualne chwytanie krótkiego fragmentu | Żmudne dla całych stron; może dziedziczyć ukryte style; pomija treść poza viewportem |
readability-js / Mercury Parser | Skryptowa ekstrakcja skupiona na artykułach w aplikacjach Node | Wymaga bazy kodu do podpięcia; fokus wyłącznie na artykułach |
| BeautifulSoup / Cheerio | Niestandardowe scrapery Python/JS z określonymi regułami | Czas dewelopera na pisanie i utrzymywanie selektorów dla każdej witryny |
| curl + pandoc / html2text | Pipeline'y CLI na maszynie dewelopera | Tylko terminal; narzut instalacji i konfiguracji |
Dla większości osób - zespołów contentowych, SEO-wców, tłumaczy, badaczy - najszybszą drogą z URL do czystego tekstu jest hostowany ekstraktor. Wybierz bibliotekę lub napisz własny kod tylko wtedy, gdy potrzebujesz programowej powtarzalności, ekstrakcji tylko korpusu artykułu lub reguł specyficznych dla witryny, których narzędzia ogólne nie obsługują.
Częste pytania dotyczące wyodrębniania tekstu ze stron HTML.
HTML to język znaczników, który zawija treść w tagi (<p>, <h1>, <a>, <div> itp.), aby przeglądarki wiedziały, jak ją wyświetlić. Tekst to po prostu czytelna dla człowieka treść wewnątrz tych tagów. Gdy "wyodrębniasz tekst" z HTML, usuwasz tagi, skrypty i stylizacje, aby zachować tylko słowa, które czytelnik rzeczywiście zobaczyłby na stronie.
Nie. Ekstraktor działa na surowym kodzie HTML zwróconym przez serwer, zanim uruchomi się jakikolwiek JavaScript po stronie klienta. Dla single-page apps zbudowanych na React, Vue lub Angular treść wstawiona po załadowaniu nie pojawi się w wyodrębnionym tekście. Jeśli główna treść strony jest renderowana tylko po stronie klienta, zwykle zobaczysz w większości pusty wynik.
Cel jest podobny - widok bez rozpraszaczy treści strony - ale metoda się różni. Tryb Czytnika używa heurystyk DOM, aby odgadnąć, która część strony jest głównym artykułem i ukrywa resztę. Nasz ekstraktor usuwa elementy niebędące treścią, takie jak skrypty i style, i zachowuje pełny tekst dokumentu. Otrzymujesz więcej tekstu, z mniejszą inteligencją co do tego, która część jest "korpusem artykułu".
Usuwane: elementy <script>, <style>, <noscript>, <svg>, <iframe>, <object> i <embed> wraz z całym markupem tagów. Zawartość head (meta tagi, link tagi, title) jest również wykluczana.
Zachowywane: widoczny tekst akapitów, nagłówków, elementów list, linków, komórek tabeli i każdego innego elementu zawierającego tekst wewnątrz body. Białe znaki są normalizowane, dzięki czemu nie otrzymujesz ogromnych ciągów pustych linii.
Tak. Kodowanie UTF-8 jest zachowywane, więc arabski, chiński, japoński, koreański, cyrylica, emoji i większość innych pism są poprawnie przekazywane. Nie tłumaczymy - otrzymujesz tekst w oryginalnym języku.
Obsługiwane są tylko strony HTML. PDF i inne formaty binarne wymagają innych narzędzi. Daj nam znać przez Twittera, jeśli obsługa PDF byłaby dla Ciebie użyteczna - badamy popyt.
Wyszukiwarki indeksują przede wszystkim tekstową treść strony. Wyodrębnianie samego tekstu pozwala sprawdzić gęstość słów kluczowych, potwierdzić, że najważniejsza treść jest renderowana po stronie serwera (widoczna dla robotów przy pierwszym pobraniu), zmierzyć liczbę słów i sprawdzić, czy nawigacja i boilerplate stopki nie zagłusza Twojej prawdziwej treści.
Tak. Użyj przycisku Pobierz obok panelu wyodrębnionego tekstu, aby zapisać go jako plik .txt. Przycisk Kopiuj umieszcza go w schowku.
Nie przechowujemy Twoich zapytań ani nie łączymy ekstrakcji z Twoją tożsamością. Odpowiedzi są buforowane krótko dla wydajności. Pełne szczegóły w naszej polityce prywatności.
Zagłęb się w treść internetową, kod źródłowy i SEO dzięki tym zasobom.

Sprawdź pełny kod źródłowy HTML w przeglądarce dzięki audytowi SEO, wykrywaniu technologii i metrykom wydajności.

Potrzebujesz pełnego HTML, a nie tylko tekstu? Zapisz źródło dowolnej publicznej strony jako plik do pobrania.

Jak struktura HTML wpływa na rankingi wyszukiwania - i co sprawdzić przy audycie strony.

Przyjazny dla początkujących przegląd struktury HTML, tagów i tego, jak zrozumieć markup dowolnej strony.

Kompletny indeks tagów HTML5 z opisami - przydatny przy sprawdzaniu wyodrębnionego lub surowego markupu.

Przewodnik po najlepszych darmowych i płatnych edytorach kodu oraz IDE do pracy z HTML, CSS i JavaScript.