Gratis online tool - Geen installatie vereist

HTML Tekst Extractor

Extraheer schone, leesbare tekst van elke website. Bekijk de HTML-broncode naast de geextraheerde tekstinhoud.

https://
source.html
geextraheerde-tekst.txt

Paginasnelheid

🖥Serverinfo

    📄Pagina-info

      Wat tekstextractie uit HTML betekent

      Verwijder tags, scripts en stijlen. Behoud de woorden. Krijg dezelfde inhoud die een lezer zou zien - als platte tekst.

      Elke webpagina is een combinatie van twee dingen: opmaak - de HTML-tags die een browser vertellen hoe inhoud gestructureerd en weergegeven moet worden - en inhoud zelf, de woorden, getallen en tekens die een lezer daadwerkelijk ziet. Wanneer u de broncode van een pagina bekijkt, is het meeste wat u ziet opmaak: openings- en sluittags, klassenamen, scriptblokken, inline stijlen en metadata. De leesbare inhoud zit tussen al die opmaak verstopt.

      De HTML Tekst Extractor doet één ding: de leesbare inhoud eruit halen en de rest weggooien. Plak een publieke URL en u krijgt een schone, platte-tekstversie van de pagina terug - geen tags, geen scripts, geen stijlbladen, geen navigatieruis. De originele HTML blijft ernaast zichtbaar zodat u kunt vergelijken, verifiëren en kiezen wat u nodig heeft.

      Omdat extractie server-side plaatsvindt op de ruwe HTML-response, krijgt u precies wat een zoekmachinecrawler als eerste zou indexeren - voordat client-side JavaScript iets kan toevoegen. Voor SEO-audits, inhoudsinventaris, vertaalvoorbereiding en AI/ML-trainingsdata is dat meestal de versie die u wilt.

      Wanneer u tekst uit HTML wilt extraheren

      Van inhoudsaudits tot afleidingsvrij lezen - hier is wie tekstextractie gebruikt en waarom.

      📝

      Inhoudsaudits

      Tel woorden, meet leestijd, controleer zoekwoorddichtheid en evalueer of de tekstuele body van uw pagina daadwerkelijk het onderwerp weergeeft dat u nastreeft.

      🌐

      Vertaalvoorbereiding

      Geef vertalers schone brontekst zonder de HTML-ruis die hun tools breekt of hen extra tijd kost om handmatig eruit te filteren.

      📖

      Afleidingsvrij Lezen

      Haal een artikel uit een rommelige pagina met popups, zijbalken en advertenties. Zet het in een notitie-app, Kindle of lees-later-tool.

      Toegankelijkheidsbeoordeling

      Krijg een ruw beeld van wat een schermlezer op de pagina zou tegenkomen - essentieel voor het controleren van leesvolgorde en inhoudsprioriteiten.

      📊

      SEO-inhoudsanalyse

      Bevestig dat uw hoofdinhoud server-gerenderd is (zichtbaar voor crawlers), controleer de aanwezigheid van zoekwoorden in de body-tekst en spot boilerplate-tot-inhoudsverhoudingen.

      🤖

      AI/ML-trainingsdata

      Bouw schone tekstcorpora uit publieke webpaginas voor het fine-tunen van taalmodellen, zoeksystemen of inhoudsclassifiers - zonder zelf tags te hoeven verwijderen.

      Wat blijft behouden, wat wordt verwijderd

      Duidelijke regels zodat u precies weet wat u krijgt en wat u verliest.

      ✓ Behouden

      • Alineatekst
      • Koptekst (h1 tot en met h6)
      • Lijstitems (ul, ol)
      • Linkankertekst
      • Tabelceltekst
      • Blockquote- en citaattekst
      • Formulierlabel- en knoptekst
      • Alle zichtbare body textContent

      ✗ Verwijderd

      • Alle HTML-tags zelf
      • <script>-blokken en hun inhoud
      • <style>-blokken en inline CSS
      • <noscript>-inhoud
      • <svg>, <iframe>, <object>, <embed>
      • Meta-tags en head-inhoud
      • Afbeelding alt-attributen
      • Dynamische JavaScript-gerenderde tekst

      Witruimte wordt genormaliseerd: reeksen van spaties, tabs en nieuwe regels worden samengevouwen zodat u niet eindigt met grote lege ruimtes uit de originele HTML-inspringing. Alinea-onderbrekingen worden behouden waar de opmaak deze impliceerde.

      Vijf stappen onder de motorkap

      Wat er gebeurt tussen het plakken van een URL en het zien van de geextraheerde tekst.

      1. Pagina server-side ophalenOnze server vraagt de URL rechtstreeks op. Er wordt geen JavaScript uitgevoerd - we krijgen de ruwe HTML-response die door de oorsprong is verzonden.
      2. HTML in een boom parsenEen goede HTML-parser bouwt een DOM-achtige boom uit de opmaak, waarbij randgevallen zoals misvormde tags, ontbrekende sluitingen en geneste inline-elementen worden afgehandeld.
      3. Niet-inhoudelijke takken snoeienScript-, style-, noscript- en commentaarknooppunten worden vóór extractie verwijderd zodat hun inhoud nooit in de uitvoer terechtkomt.
      4. Alle tekstknooppunten lezenWe halen de textContent van de body op, die elk tekstknooppunt in documentvolgorde samenvoegt - u krijgt de woorden die een lezer zou zien.
      5. Normaliseren en weergevenReeksen witruimte worden samengevouwen, opeenvolgende lege regels worden samengevoegd en het resultaat wordt naast de HTML-broncode weergegeven samen met woord- en tekentellingen.

      HTML Tekst Extractor vs. andere aanpakken

      Hoe deze tool zich verhoudt tot browser Leesmodus, bibliotheken en handmatige extractie.

      AanpakHet best voorCompromissen
      Deze toolSnelle eenmalige extractie, naast-elkaar-vergelijking, elk apparaatAlleen server-gerenderde tekst (geen JS-gerenderde inhoud)
      Browser LeesmodusAfleidingsvrij lezen van een enkel artikelGebruikt giswerk-heuristieken; kan de artikel-body missen of verkeerd identificeren
      Kopiëren-plakken uit browserVisueel grijpen van een kort fragmentOmslachtig voor volledige paginas; kan verborgen stijlen erven; mist inhoud buiten het venster
      readability-js / Mercury ParserGescripte, artikelgerichte extractie in Node-appsVereist een codebase om te bedraden; alleen artikelgericht
      BeautifulSoup / CheerioAangepaste Python/JS-scrapers met specifieke regelsOntwikkeltijd om selectors per site te schrijven en te onderhouden
      curl + pandoc / html2textCLI-pipelines op een ontwikkelmachineAlleen terminal; installatie- en configuratieoverhead

      Voor de meeste mensen - inhoudsteams, SEO's, vertalers, onderzoekers - is de snelste route van URL naar schone tekst een gehoste extractor. Kies een bibliotheek of schrijf aangepaste code alleen wanneer u programmatische herhaling, artikel-body-alleen-extractie of sitespecifieke regels nodig heeft die generieke tools niet aankunnen.

      Veelgestelde vragen

      Veelgestelde vragen over het extraheren van tekst uit HTML-paginas.

      Wat is het verschil tussen HTML en tekst?

      HTML is de opmaaktaal die inhoud in tags wikkelt (<p>, <h1>, <a>, <div>, enz.) zodat browsers weten hoe deze weergegeven moet worden. Tekst is gewoon de leesbare inhoud binnen die tags. Wanneer u "tekst extraheert" uit HTML, verwijdert u de tags, scripts en styling om alleen de woorden over te houden die een lezer daadwerkelijk op de pagina zou zien.

      Bevat dit tekst die door JavaScript wordt toegevoegd?

      Nee. De extractor draait op de ruwe HTML die door de server wordt geretourneerd, voordat client-side JavaScript wordt uitgevoerd. Voor single-page apps gebouwd op React, Vue of Angular zal inhoud die na het laden wordt ingevoegd niet in de geextraheerde tekst verschijnen. Als de hoofdinhoud van een pagina alleen client-side wordt gerenderd, ziet u meestal een grotendeels leeg resultaat.

      Is dit hetzelfde als de Leesmodus van een browser?

      Het doel is vergelijkbaar - een afleidingsvrije weergave van de inhoud van een pagina - maar de methode verschilt. Leesmodus gebruikt DOM-heuristieken om te raden welk deel van de pagina het hoofdartikel is en verbergt de rest. Onze extractor verwijdert niet-inhoudelijke elementen zoals scripts en stijlen en behoudt de volledige tekst van het document. U krijgt meer tekst, met minder intelligentie over welk deel de "artikel"-body is.

      Wat wordt precies verwijderd en wat behouden?

      Verwijderd: <script>-, <style>-, <noscript>-, <svg>-, <iframe>-, <object>- en <embed>-elementen, samen met alle tag-opmaak zelf. Head-inhoud (meta-tags, link-tags, title) wordt ook uitgesloten.

      Behouden: de zichtbare tekst van alineas, koppen, lijstitems, links, tabelcellen en elk ander tekstdragend element in de body. Witruimte wordt genormaliseerd zodat u geen grote reeksen lege regels krijgt.

      Kan ik tekst extraheren uit niet-Engelse paginas?

      Ja. UTF-8-codering blijft behouden, dus Arabisch, Chinees, Japans, Koreaans, Cyrillisch, emoji en de meeste andere scripts komen correct door. We vertalen niet - u krijgt de tekst in de oorspronkelijke taal.

      Kan ik tekst extraheren uit PDFs of Word-documenten?

      Alleen HTML-paginas worden ondersteund. PDFs en andere binaire formaten hebben andere tools nodig. Laat het ons weten via Twitter als u PDF-ondersteuning nuttig zou vinden - we peilen de vraag.

      Waarom zou ik dit gebruiken voor SEO?

      Zoekmachines indexeren voornamelijk de tekstuele inhoud van een pagina. Door alleen de tekst te extraheren kunt u de zoekwoorddichtheid controleren, bevestigen dat uw belangrijkste inhoud server-gerenderd is (zichtbaar voor crawlers bij de eerste fetch), het aantal woorden meten en controleren of navigatie en voettekst-boilerplate uw echte inhoud niet overstemmen.

      Kan ik de geextraheerde tekst downloaden?

      Ja. Gebruik de knop Downloaden naast het paneel met geextraheerde tekst om deze op te slaan als een .txt-bestand. De knop Kopieren zet het op uw klembord.

      Zijn mijn gegevens privé?

      We slaan uw zoekopdrachten niet op en koppelen extracties niet aan uw identiteit. Antwoorden worden kort gecached voor prestaties. Volledige details in ons privacybeleid.

      Gerelateerde tools & gidsen

      Duik dieper in webinhoud, broncode en SEO met deze bronnen.