Seitenquelltext anzeigen + smarte Analyse
Inspizieren Sie den vollständigen HTML-Quellcode im Browser – mit SEO-Audit, Technologie-Erkennung und Performance-Metriken.
Gewinnen Sie sauberen, lesbaren Text aus jeder Website. Sehen Sie den HTML-Quellcode direkt neben dem extrahierten Textinhalt.
Tags, Skripte und Stile entfernen. Die Wörter behalten. Sie erhalten denselben Inhalt, den auch ein Leser sehen würde – als reinen Text.
Jede Webseite besteht aus zwei Dingen: der Auszeichnung – den HTML-Tags, die dem Browser mitteilen, wie Inhalte strukturiert und dargestellt werden sollen – und dem Inhalt selbst, also den Wörtern, Zahlen und Zeichen, die ein Leser tatsächlich sieht. Wenn Sie den Quellcode einer Seite anzeigen, ist das meiste davon Markup: öffnende und schließende Tags, Klassennamen, Skriptblöcke, Inline-Stile und Metadaten. Der lesbare Inhalt steckt dazwischen.
Der HTML-Text-Extraktor erfüllt genau eine Aufgabe: Er holt den lesbaren Inhalt heraus und verwirft den Rest. Fügen Sie eine beliebige öffentliche URL ein und Sie erhalten eine saubere Klartext-Version der Seite – ohne Tags, Skripte, Stylesheets und Navigationsrauschen. Der ursprüngliche HTML-Code bleibt daneben sichtbar, sodass Sie vergleichen, verifizieren und das herauspicken können, was Sie benötigen.
Da die Extraktion serverseitig auf dem rohen HTML erfolgt, erhalten Sie genau das, was ein Suchmaschinen-Crawler zuerst indexieren würde – bevor clientseitiges JavaScript überhaupt etwas hinzufügen kann. Für SEO-Audits, Content-Inventuren, Übersetzungsvorbereitung und KI-/ML-Trainingsdaten ist das in der Regel die Version, die Sie brauchen.
Von Content-Audits bis zum ablenkungsfreien Lesen – so nutzen unterschiedliche Nutzergruppen die Textextraktion.
Zählen Sie Wörter, messen Sie die Lesezeit, prüfen Sie die Keyword-Dichte und bewerten Sie, ob der Textkörper Ihrer Seite das anvisierte Thema wirklich widerspiegelt.
Geben Sie Übersetzern sauberen Quelltext ohne HTML-Rauschen, das ihre Tools stört oder ihnen zusätzliche Zeit zum Herausfiltern kostet.
Holen Sie einen Artikel aus einer überladenen Seite voller Pop-ups, Seitenleisten und Anzeigen heraus. Übernehmen Sie ihn in eine Notiz-App, auf den Kindle oder in einen Später-lesen-Dienst.
Verschaffen Sie sich einen Eindruck davon, was ein Screenreader auf der Seite vorfinden würde – unverzichtbar, um Lesereihenfolge und inhaltliche Prioritäten zu prüfen.
Stellen Sie sicher, dass Ihr Hauptinhalt serverseitig gerendert (für Crawler sichtbar) ist, prüfen Sie das Vorkommen von Keywords im Fließtext und erkennen Sie das Verhältnis von Boilerplate zu echtem Inhalt.
Bauen Sie saubere Textkorpora aus öffentlichen Webseiten für das Fine-Tuning von Sprachmodellen, Suchsystemen oder Content-Klassifizierern – ohne selbst Tags zu entfernen.
Klare Regeln, damit Sie genau wissen, was Sie bekommen und was Sie verlieren.
textContent<script>-Blöcke und deren Inhalt<style>-Blöcke und Inline-CSS<noscript>-Inhalt<svg>, <iframe>, <object>, <embed>alt-AttributeLeerzeichen werden normalisiert: aufeinanderfolgende Leerzeichen, Tabulatoren und Zeilenumbrüche werden zusammengefasst, damit Sie keine großen Leerflächen aus der ursprünglichen HTML-Einrückung erhalten. Absatzumbrüche bleiben dort erhalten, wo das Markup sie vorgesehen hat.
Was zwischen dem Einfügen einer URL und dem Anzeigen des extrahierten Textes passiert.
textContent des Body aus, der alle Textknoten in Dokumentreihenfolge verkettet – Sie erhalten genau die Wörter, die ein Leser sehen würde.Wie dieses Tool gegenüber Browser-Leseansicht, Bibliotheken und manueller Extraktion abschneidet.
| Ansatz | Geeignet für | Kompromisse |
|---|---|---|
| Dieses Tool | Schnelle Einmal-Extraktion, direkter Vergleich, auf jedem Gerät | Nur serverseitig gerenderter Text (kein JS-gerenderter Inhalt) |
| Browser-Leseansicht | Ablenkungsfreies Lesen eines einzelnen Artikels | Nutzt heuristisches Raten; kann den Artikelkörper verfehlen oder falsch erkennen |
| Kopieren & Einfügen aus dem Browser | Kurze Ausschnitte visuell greifen | Mühsam bei ganzen Seiten; kann versteckte Stile übernehmen; verpasst Inhalte außerhalb des sichtbaren Bereichs |
readability-js / Mercury Parser | Skriptbasierte, artikelzentrierte Extraktion in Node-Apps | Erfordert eine Codebasis; Fokus nur auf Artikel |
| BeautifulSoup / Cheerio | Individuelle Python-/JS-Scraper mit spezifischen Regeln | Entwickleraufwand zum Schreiben und Pflegen von Selektoren pro Website |
| curl + pandoc / html2text | CLI-Pipelines auf einem Entwicklerrechner | Nur Terminal; Installations- und Konfigurationsaufwand |
Für die meisten Nutzer – Content-Teams, SEOs, Übersetzer, Forscher – ist ein gehosteter Extraktor der schnellste Weg von der URL zum sauberen Text. Greifen Sie nur dann zu einer Bibliothek oder eigenem Code, wenn Sie programmatische Wiederholung, reine Artikelkörper-Extraktion oder seitenspezifische Regeln benötigen, die generische Tools nicht abdecken können.
Häufige Fragen zum Extrahieren von Text aus HTML-Seiten.
HTML ist die Auszeichnungssprache, die Inhalte in Tags (<p>, <h1>, <a>, <div> usw.) verpackt, damit Browser wissen, wie sie diese darstellen sollen. Text ist einfach der für Menschen lesbare Inhalt innerhalb dieser Tags. Wenn Sie Text aus HTML „extrahieren“, entfernen Sie Tags, Skripte und Stile und behalten nur die Wörter, die ein Leser tatsächlich auf der Seite sehen würde.
Nein. Der Extraktor arbeitet mit dem rohen HTML, das der Server liefert – bevor JavaScript im Browser ausgeführt wird. Bei Single-Page-Apps auf Basis von React, Vue oder Angular erscheinen nachträglich eingefügte Inhalte nicht im extrahierten Text. Wenn der Hauptinhalt einer Seite ausschließlich clientseitig gerendert wird, sehen Sie in der Regel ein weitgehend leeres Ergebnis.
Das Ziel ist ähnlich – eine ablenkungsfreie Ansicht des Seiteninhalts – doch die Methode unterscheidet sich. Die Leseansicht nutzt DOM-Heuristiken, um zu erraten, welcher Teil der Seite der Hauptartikel ist, und blendet den Rest aus. Unser Extraktor entfernt nicht-inhaltliche Elemente wie Skripte und Stile und behält den gesamten Text des Dokuments. Sie erhalten mehr Text, mit weniger Logik darüber, welcher Teil der „Artikelkörper“ ist.
Entfernt: <script>-, <style>-, <noscript>-, <svg>-, <iframe>-, <object>- und <embed>-Elemente sowie das gesamte Tag-Markup selbst. Auch der Head-Inhalt (Meta-Tags, Link-Tags, Titel) wird ausgeschlossen.
Erhalten bleibt: der sichtbare Text von Absätzen, Überschriften, Listenelementen, Links, Tabellenzellen und allen anderen textführenden Elementen im Body. Leerräume werden normalisiert, damit keine großen leeren Bereiche entstehen.
Ja. Die UTF-8-Kodierung bleibt erhalten, sodass Arabisch, Chinesisch, Japanisch, Koreanisch, Kyrillisch, Emojis und die meisten anderen Schriften korrekt übernommen werden. Wir übersetzen nicht – Sie erhalten den Text in der Originalsprache.
Es werden nur HTML-Seiten unterstützt. PDFs und andere Binärformate erfordern andere Werkzeuge. Sagen Sie uns über Twitter Bescheid, wenn Sie PDF-Unterstützung nützlich fänden – wir sondieren den Bedarf.
Suchmaschinen indexieren vor allem den Textinhalt einer Seite. Wenn Sie nur den Text extrahieren, können Sie die Keyword-Dichte prüfen, sicherstellen, dass Ihre wichtigsten Inhalte serverseitig gerendert (und damit beim ersten Abruf für Crawler sichtbar) sind, den Wortumfang messen und kontrollieren, dass Navigation und Footer-Boilerplate Ihren eigentlichen Inhalt nicht überlagern.
Ja. Nutzen Sie die Schaltfläche „Herunterladen“ neben dem Textpanel, um den Inhalt als .txt-Datei zu speichern. Die Schaltfläche „Kopieren“ legt ihn in Ihrer Zwischenablage ab.
Wir speichern Ihre Anfragen nicht und verknüpfen Extraktionen nicht mit Ihrer Identität. Antworten werden aus Performance-Gründen kurzzeitig zwischengespeichert. Alle Details in unserer Datenschutzerklärung.
Tauchen Sie mit diesen Ressourcen tiefer in Webinhalte, Quellcode und SEO ein.

Inspizieren Sie den vollständigen HTML-Quellcode im Browser – mit SEO-Audit, Technologie-Erkennung und Performance-Metriken.

Brauchen Sie das gesamte HTML, nicht nur den Text? Speichern Sie den Quellcode jeder öffentlichen Seite als Datei.

Wie die HTML-Struktur das Suchranking beeinflusst – und worauf Sie beim Auditieren einer Seite achten sollten.

Ein einsteigerfreundlicher Rundgang durch HTML-Struktur, Tags und das Verständnis jeder Seite.

Vollständiger Index aller HTML5-Tags mit Beschreibungen – nützlich beim Inspizieren von extrahiertem oder rohem Markup.

Ein Überblick über die besten kostenlosen und kostenpflichtigen Code-Editoren und IDEs für HTML, CSS und JavaScript.