Strumento online gratuito - Nessuna installazione richiesta

Estrattore di Testo HTML

Estrai testo pulito e leggibile da qualsiasi sito web. Visualizza il codice sorgente HTML affiancato al contenuto testuale estratto.

https://
source.html
testo-estratto.txt

Velocità Pagina

🖥Info Server

    📄Info Pagina

      Cosa significa estrarre testo da HTML

      Rimuovi tag, script e stili. Mantieni le parole. Ottieni lo stesso contenuto che un lettore vedrebbe - come testo semplice.

      Ogni pagina web è un mix di due cose: markup - i tag HTML che indicano al browser come strutturare e visualizzare il contenuto - e contenuto vero e proprio, le parole, i numeri e i caratteri che il lettore vede effettivamente. Quando visualizzi il sorgente di una pagina, la maggior parte di ciò che vedi è markup: tag di apertura e chiusura, nomi di classi, blocchi di script, stili inline e metadati. Il contenuto leggibile si trova nascosto in mezzo a tutto ciò.

      L'Estrattore di Testo HTML fa un solo lavoro: estrae il contenuto leggibile e scarta il resto. Incolla qualsiasi URL pubblico e ottieni una versione pulita in testo semplice della pagina - senza tag, senza script, senza fogli di stile, senza rumore di navigazione. L'HTML originale rimane visibile affiancato per confrontare, verificare e scegliere ciò di cui hai bisogno.

      Poiché l'estrazione avviene lato server sulla risposta HTML grezza, ottieni esattamente ciò che un crawler di un motore di ricerca indicizzerebbe per primo - prima che il JavaScript lato client abbia la possibilità di aggiungere qualcosa. Per audit SEO, inventari di contenuti, preparazione alla traduzione e dati di addestramento AI/ML, è solitamente la versione che vuoi.

      Quando vorresti estrarre testo da HTML

      Dagli audit dei contenuti alla lettura senza distrazioni - ecco chi usa l'estrazione di testo e perché.

      📝

      Audit dei Contenuti

      Conta le parole, misura il tempo di lettura, controlla la densità delle parole chiave e valuta se il corpo testuale della pagina riflette effettivamente l'argomento che stai trattando.

      🌐

      Preparazione alla Traduzione

      Consegna ai traduttori testo sorgente pulito senza il rumore HTML che rompe i loro strumenti o costa loro tempo extra per filtrarlo manualmente.

      📖

      Lettura Senza Distrazioni

      Estrai un articolo da una pagina affollata di popup, barre laterali e pubblicità. Inseriscilo in un'app per appunti, Kindle o strumento di lettura successiva.

      Revisione Accessibilità

      Ottieni un'idea approssimativa di ciò che uno screen reader incontrerebbe sulla pagina - essenziale per verificare l'ordine di lettura e le priorità dei contenuti.

      📊

      Analisi SEO dei Contenuti

      Conferma che il contenuto principale sia renderizzato lato server (visibile ai crawler), controlla la presenza di parole chiave nel testo del corpo e individua i rapporti tra boilerplate e contenuto.

      🤖

      Dati di Addestramento AI/ML

      Costruisci corpus di testo puliti da pagine web pubbliche per il fine-tuning di modelli linguistici, sistemi di ricerca o classificatori di contenuti - senza rimuovere i tag manualmente.

      Cosa viene mantenuto, cosa viene rimosso

      Regole chiare per sapere esattamente cosa ottieni e cosa perdi.

      ✓ Mantenuto

      • Testo dei paragrafi
      • Testo delle intestazioni (da h1 a h6)
      • Elementi di liste (ul, ol)
      • Testo dei link
      • Testo delle celle di tabella
      • Testo di blockquote e cite
      • Testo di etichette e pulsanti dei moduli
      • Tutto il textContent visibile del body

      ✗ Rimosso

      • Tutti i tag HTML stessi
      • Blocchi <script> e i loro contenuti
      • Blocchi <style> e CSS inline
      • Contenuto <noscript>
      • <svg>, <iframe>, <object>, <embed>
      • Meta tag e contenuto dell'head
      • Attributi alt delle immagini
      • Testo renderizzato dinamicamente da JavaScript

      Gli spazi vuoti vengono normalizzati: sequenze di spazi, tabulazioni e ritorni a capo vengono compresse in modo da non ritrovarti con enormi spazi vuoti dall'indentazione HTML originale. Le interruzioni di paragrafo vengono preservate dove il markup le implicava.

      Cinque passaggi dietro le quinte

      Cosa succede tra l'incollare un URL e vedere il testo estratto.

      1. Recupera la pagina lato serverIl nostro server richiede l'URL direttamente. Non viene eseguito alcun JavaScript - otteniamo la risposta HTML grezza inviata dall'origine.
      2. Analizza l'HTML in un alberoUn parser HTML appropriato costruisce un albero simile al DOM dal markup, gestendo casi limite come tag malformati, chiusure mancanti ed elementi inline annidati.
      3. Elimina i rami non-contenutoNodi script, style, noscript e commenti vengono eliminati prima dell'estrazione in modo che i loro contenuti non finiscano mai nell'output.
      4. Legge tutti i nodi di testoEstraiamo il textContent del body, che concatena ogni nodo di testo nell'ordine del documento - ottieni le parole che un lettore vedrebbe.
      5. Normalizza e visualizzaSequenze di spazi vuoti vengono compresse, le righe vuote consecutive vengono unite e il risultato viene mostrato affiancato al sorgente HTML insieme al conteggio di parole e caratteri.

      Estrattore di Testo HTML vs. altri approcci

      Come questo strumento si confronta con la Modalità Lettura del browser, le librerie e l'estrazione manuale.

      ApproccioIdeale perCompromessi
      Questo strumentoEstrazione rapida occasionale, confronto affiancato, qualsiasi dispositivoSolo testo renderizzato lato server (nessun contenuto renderizzato da JS)
      Modalità Lettura del BrowserLettura senza distrazioni di un singolo articoloUsa euristiche di ipotesi; può mancare o identificare male il corpo dell'articolo
      Copia-incolla dal browserPrendere visivamente un breve frammentoNoioso per pagine intere; può ereditare stili nascosti; manca contenuto fuori dal viewport
      readability-js / Mercury ParserEstrazione orientata agli articoli tramite script in app NodeRichiede una base di codice per il cablaggio; focus solo sugli articoli
      BeautifulSoup / CheerioScraper Python/JS personalizzati con regole specificheTempo di sviluppo per scrivere e mantenere selettori per ogni sito
      curl + pandoc / html2textPipeline CLI su una macchina di sviluppoSolo terminale; overhead di installazione e configurazione

      Per la maggior parte delle persone - team di contenuti, SEO, traduttori, ricercatori - il percorso più veloce da URL a testo pulito è un estrattore ospitato. Scegli una libreria o scrivi codice personalizzato solo quando hai bisogno di ripetizione programmatica, estrazione solo del corpo dell'articolo o regole specifiche del sito che gli strumenti generici non possono gestire.

      Domande frequenti

      Domande comuni sull'estrazione di testo dalle pagine HTML.

      Qual è la differenza tra HTML e testo?

      HTML è il linguaggio di markup che racchiude il contenuto in tag (<p>, <h1>, <a>, <div>, ecc.) in modo che i browser sappiano come visualizzarlo. Il testo è semplicemente il contenuto leggibile all'interno di questi tag. Quando "estrai il testo" da HTML, rimuovi tag, script e stili per mantenere solo le parole che un lettore vedrebbe effettivamente sulla pagina.

      Include il testo aggiunto da JavaScript?

      No. L'estrattore lavora sull'HTML grezzo restituito dal server, prima che venga eseguito qualsiasi JavaScript lato client. Per le single-page app costruite con React, Vue o Angular, il contenuto inserito dopo il caricamento non apparirà nel testo estratto. Se il contenuto principale di una pagina viene renderizzato solo lato client, vedrai in genere un risultato quasi vuoto.

      È uguale alla Modalità Lettura di un browser?

      L'obiettivo è simile - una vista senza distrazioni del contenuto di una pagina - ma il metodo differisce. La Modalità Lettura usa euristiche DOM per indovinare quale parte della pagina è l'articolo principale e nasconde il resto. Il nostro estrattore rimuove elementi non-contenuto come script e stili e mantiene il testo completo del documento. Ottieni più testo, con meno intelligenza su quale parte è il corpo dell'"articolo".

      Cosa viene rimosso e cosa viene mantenuto esattamente?

      Rimossi: elementi <script>, <style>, <noscript>, <svg>, <iframe>, <object> ed <embed> insieme a tutto il markup dei tag. Anche il contenuto dell'head (meta tag, link tag, title) è escluso.

      Mantenuti: il testo visibile di paragrafi, intestazioni, elementi di liste, link, celle di tabella e qualsiasi altro elemento contenente testo all'interno del body. Gli spazi vuoti vengono normalizzati in modo da non ritrovarti con grandi blocchi di righe vuote.

      Posso estrarre testo da pagine non in inglese?

      Sì. La codifica UTF-8 viene preservata, quindi arabo, cinese, giapponese, coreano, cirillico, emoji e la maggior parte degli altri script vengono trasmessi correttamente. Non traduciamo - ottieni il testo nella lingua originale.

      Posso estrarre testo da PDF o documenti Word?

      Sono supportate solo le pagine HTML. PDF e altri formati binari richiedono strumenti diversi. Faccelo sapere tramite Twitter se il supporto PDF ti sarebbe utile - stiamo valutando la domanda.

      Perché dovrei usarlo per la SEO?

      I motori di ricerca indicizzano principalmente il contenuto testuale di una pagina. Estraendo solo il testo puoi verificare la densità delle parole chiave, confermare che il tuo contenuto più importante sia renderizzato lato server (visibile ai crawler al primo recupero), misurare il conteggio delle parole e controllare che la navigazione e il boilerplate del footer non stiano soffocando il tuo vero contenuto.

      Posso scaricare il testo estratto?

      Sì. Usa il pulsante Scarica accanto al pannello del testo estratto per salvarlo come file .txt. Il pulsante Copia lo mette negli appunti.

      I miei dati sono privati?

      Non memorizziamo le tue query né colleghiamo le estrazioni alla tua identità. Le risposte vengono memorizzate brevemente nella cache per prestazioni. Dettagli completi nella nostra informativa sulla privacy.

      Strumenti & guide correlati

      Approfondisci i contenuti web, il codice sorgente e la SEO con queste risorse.