Paginabron Bekijken + Slimme Analyse
Inspecteer de volledige HTML-broncode in uw browser met SEO-audit, technologiedetectie en prestatiestatistieken.
Extraheer schone, leesbare tekst van elke website. Bekijk de HTML-broncode naast de geextraheerde tekstinhoud.
Verwijder tags, scripts en stijlen. Behoud de woorden. Krijg dezelfde inhoud die een lezer zou zien - als platte tekst.
Elke webpagina is een combinatie van twee dingen: opmaak - de HTML-tags die een browser vertellen hoe inhoud gestructureerd en weergegeven moet worden - en inhoud zelf, de woorden, getallen en tekens die een lezer daadwerkelijk ziet. Wanneer u de broncode van een pagina bekijkt, is het meeste wat u ziet opmaak: openings- en sluittags, klassenamen, scriptblokken, inline stijlen en metadata. De leesbare inhoud zit tussen al die opmaak verstopt.
De HTML Tekst Extractor doet één ding: de leesbare inhoud eruit halen en de rest weggooien. Plak een publieke URL en u krijgt een schone, platte-tekstversie van de pagina terug - geen tags, geen scripts, geen stijlbladen, geen navigatieruis. De originele HTML blijft ernaast zichtbaar zodat u kunt vergelijken, verifiëren en kiezen wat u nodig heeft.
Omdat extractie server-side plaatsvindt op de ruwe HTML-response, krijgt u precies wat een zoekmachinecrawler als eerste zou indexeren - voordat client-side JavaScript iets kan toevoegen. Voor SEO-audits, inhoudsinventaris, vertaalvoorbereiding en AI/ML-trainingsdata is dat meestal de versie die u wilt.
Van inhoudsaudits tot afleidingsvrij lezen - hier is wie tekstextractie gebruikt en waarom.
Tel woorden, meet leestijd, controleer zoekwoorddichtheid en evalueer of de tekstuele body van uw pagina daadwerkelijk het onderwerp weergeeft dat u nastreeft.
Geef vertalers schone brontekst zonder de HTML-ruis die hun tools breekt of hen extra tijd kost om handmatig eruit te filteren.
Haal een artikel uit een rommelige pagina met popups, zijbalken en advertenties. Zet het in een notitie-app, Kindle of lees-later-tool.
Krijg een ruw beeld van wat een schermlezer op de pagina zou tegenkomen - essentieel voor het controleren van leesvolgorde en inhoudsprioriteiten.
Bevestig dat uw hoofdinhoud server-gerenderd is (zichtbaar voor crawlers), controleer de aanwezigheid van zoekwoorden in de body-tekst en spot boilerplate-tot-inhoudsverhoudingen.
Bouw schone tekstcorpora uit publieke webpaginas voor het fine-tunen van taalmodellen, zoeksystemen of inhoudsclassifiers - zonder zelf tags te hoeven verwijderen.
Duidelijke regels zodat u precies weet wat u krijgt en wat u verliest.
textContent<script>-blokken en hun inhoud<style>-blokken en inline CSS<noscript>-inhoud<svg>, <iframe>, <object>, <embed>alt-attributenWitruimte wordt genormaliseerd: reeksen van spaties, tabs en nieuwe regels worden samengevouwen zodat u niet eindigt met grote lege ruimtes uit de originele HTML-inspringing. Alinea-onderbrekingen worden behouden waar de opmaak deze impliceerde.
Wat er gebeurt tussen het plakken van een URL en het zien van de geextraheerde tekst.
textContent van de body op, die elk tekstknooppunt in documentvolgorde samenvoegt - u krijgt de woorden die een lezer zou zien.Hoe deze tool zich verhoudt tot browser Leesmodus, bibliotheken en handmatige extractie.
| Aanpak | Het best voor | Compromissen |
|---|---|---|
| Deze tool | Snelle eenmalige extractie, naast-elkaar-vergelijking, elk apparaat | Alleen server-gerenderde tekst (geen JS-gerenderde inhoud) |
| Browser Leesmodus | Afleidingsvrij lezen van een enkel artikel | Gebruikt giswerk-heuristieken; kan de artikel-body missen of verkeerd identificeren |
| Kopiëren-plakken uit browser | Visueel grijpen van een kort fragment | Omslachtig voor volledige paginas; kan verborgen stijlen erven; mist inhoud buiten het venster |
readability-js / Mercury Parser | Gescripte, artikelgerichte extractie in Node-apps | Vereist een codebase om te bedraden; alleen artikelgericht |
| BeautifulSoup / Cheerio | Aangepaste Python/JS-scrapers met specifieke regels | Ontwikkeltijd om selectors per site te schrijven en te onderhouden |
| curl + pandoc / html2text | CLI-pipelines op een ontwikkelmachine | Alleen terminal; installatie- en configuratieoverhead |
Voor de meeste mensen - inhoudsteams, SEO's, vertalers, onderzoekers - is de snelste route van URL naar schone tekst een gehoste extractor. Kies een bibliotheek of schrijf aangepaste code alleen wanneer u programmatische herhaling, artikel-body-alleen-extractie of sitespecifieke regels nodig heeft die generieke tools niet aankunnen.
Veelgestelde vragen over het extraheren van tekst uit HTML-paginas.
HTML is de opmaaktaal die inhoud in tags wikkelt (<p>, <h1>, <a>, <div>, enz.) zodat browsers weten hoe deze weergegeven moet worden. Tekst is gewoon de leesbare inhoud binnen die tags. Wanneer u "tekst extraheert" uit HTML, verwijdert u de tags, scripts en styling om alleen de woorden over te houden die een lezer daadwerkelijk op de pagina zou zien.
Nee. De extractor draait op de ruwe HTML die door de server wordt geretourneerd, voordat client-side JavaScript wordt uitgevoerd. Voor single-page apps gebouwd op React, Vue of Angular zal inhoud die na het laden wordt ingevoegd niet in de geextraheerde tekst verschijnen. Als de hoofdinhoud van een pagina alleen client-side wordt gerenderd, ziet u meestal een grotendeels leeg resultaat.
Het doel is vergelijkbaar - een afleidingsvrije weergave van de inhoud van een pagina - maar de methode verschilt. Leesmodus gebruikt DOM-heuristieken om te raden welk deel van de pagina het hoofdartikel is en verbergt de rest. Onze extractor verwijdert niet-inhoudelijke elementen zoals scripts en stijlen en behoudt de volledige tekst van het document. U krijgt meer tekst, met minder intelligentie over welk deel de "artikel"-body is.
Verwijderd: <script>-, <style>-, <noscript>-, <svg>-, <iframe>-, <object>- en <embed>-elementen, samen met alle tag-opmaak zelf. Head-inhoud (meta-tags, link-tags, title) wordt ook uitgesloten.
Behouden: de zichtbare tekst van alineas, koppen, lijstitems, links, tabelcellen en elk ander tekstdragend element in de body. Witruimte wordt genormaliseerd zodat u geen grote reeksen lege regels krijgt.
Ja. UTF-8-codering blijft behouden, dus Arabisch, Chinees, Japans, Koreaans, Cyrillisch, emoji en de meeste andere scripts komen correct door. We vertalen niet - u krijgt de tekst in de oorspronkelijke taal.
Alleen HTML-paginas worden ondersteund. PDFs en andere binaire formaten hebben andere tools nodig. Laat het ons weten via Twitter als u PDF-ondersteuning nuttig zou vinden - we peilen de vraag.
Zoekmachines indexeren voornamelijk de tekstuele inhoud van een pagina. Door alleen de tekst te extraheren kunt u de zoekwoorddichtheid controleren, bevestigen dat uw belangrijkste inhoud server-gerenderd is (zichtbaar voor crawlers bij de eerste fetch), het aantal woorden meten en controleren of navigatie en voettekst-boilerplate uw echte inhoud niet overstemmen.
Ja. Gebruik de knop Downloaden naast het paneel met geextraheerde tekst om deze op te slaan als een .txt-bestand. De knop Kopieren zet het op uw klembord.
We slaan uw zoekopdrachten niet op en koppelen extracties niet aan uw identiteit. Antwoorden worden kort gecached voor prestaties. Volledige details in ons privacybeleid.
Duik dieper in webinhoud, broncode en SEO met deze bronnen.

Inspecteer de volledige HTML-broncode in uw browser met SEO-audit, technologiedetectie en prestatiestatistieken.

De volledige HTML nodig, niet alleen de tekst? Sla de broncode van elke publieke pagina op als downloadbaar bestand.

Hoe HTML-structuur zoekrankings beïnvloedt - en wat te controleren bij het auditen van een pagina.

Een beginnersvriendelijke rondleiding door HTML-structuur, tags en hoe u de opmaak van elke pagina kunt begrijpen.

Volledige index van HTML5-tags met beschrijvingen - handig bij het inspecteren van geextraheerde of ruwe opmaak.

Een gids voor de beste gratis en betaalde code-editors en IDEs voor het werken met HTML, CSS en JavaScript.