Visualizza Sorgente Pagina + Analisi Intelligente
Ispeziona il codice sorgente HTML completo nel browser con audit SEO, rilevamento tecnologie e metriche di prestazione.
Estrai testo pulito e leggibile da qualsiasi sito web. Visualizza il codice sorgente HTML affiancato al contenuto testuale estratto.
Rimuovi tag, script e stili. Mantieni le parole. Ottieni lo stesso contenuto che un lettore vedrebbe - come testo semplice.
Ogni pagina web è un mix di due cose: markup - i tag HTML che indicano al browser come strutturare e visualizzare il contenuto - e contenuto vero e proprio, le parole, i numeri e i caratteri che il lettore vede effettivamente. Quando visualizzi il sorgente di una pagina, la maggior parte di ciò che vedi è markup: tag di apertura e chiusura, nomi di classi, blocchi di script, stili inline e metadati. Il contenuto leggibile si trova nascosto in mezzo a tutto ciò.
L'Estrattore di Testo HTML fa un solo lavoro: estrae il contenuto leggibile e scarta il resto. Incolla qualsiasi URL pubblico e ottieni una versione pulita in testo semplice della pagina - senza tag, senza script, senza fogli di stile, senza rumore di navigazione. L'HTML originale rimane visibile affiancato per confrontare, verificare e scegliere ciò di cui hai bisogno.
Poiché l'estrazione avviene lato server sulla risposta HTML grezza, ottieni esattamente ciò che un crawler di un motore di ricerca indicizzerebbe per primo - prima che il JavaScript lato client abbia la possibilità di aggiungere qualcosa. Per audit SEO, inventari di contenuti, preparazione alla traduzione e dati di addestramento AI/ML, è solitamente la versione che vuoi.
Dagli audit dei contenuti alla lettura senza distrazioni - ecco chi usa l'estrazione di testo e perché.
Conta le parole, misura il tempo di lettura, controlla la densità delle parole chiave e valuta se il corpo testuale della pagina riflette effettivamente l'argomento che stai trattando.
Consegna ai traduttori testo sorgente pulito senza il rumore HTML che rompe i loro strumenti o costa loro tempo extra per filtrarlo manualmente.
Estrai un articolo da una pagina affollata di popup, barre laterali e pubblicità. Inseriscilo in un'app per appunti, Kindle o strumento di lettura successiva.
Ottieni un'idea approssimativa di ciò che uno screen reader incontrerebbe sulla pagina - essenziale per verificare l'ordine di lettura e le priorità dei contenuti.
Conferma che il contenuto principale sia renderizzato lato server (visibile ai crawler), controlla la presenza di parole chiave nel testo del corpo e individua i rapporti tra boilerplate e contenuto.
Costruisci corpus di testo puliti da pagine web pubbliche per il fine-tuning di modelli linguistici, sistemi di ricerca o classificatori di contenuti - senza rimuovere i tag manualmente.
Regole chiare per sapere esattamente cosa ottieni e cosa perdi.
textContent visibile del body<script> e i loro contenuti<style> e CSS inline<noscript><svg>, <iframe>, <object>, <embed>alt delle immaginiGli spazi vuoti vengono normalizzati: sequenze di spazi, tabulazioni e ritorni a capo vengono compresse in modo da non ritrovarti con enormi spazi vuoti dall'indentazione HTML originale. Le interruzioni di paragrafo vengono preservate dove il markup le implicava.
Cosa succede tra l'incollare un URL e vedere il testo estratto.
textContent del body, che concatena ogni nodo di testo nell'ordine del documento - ottieni le parole che un lettore vedrebbe.Come questo strumento si confronta con la Modalità Lettura del browser, le librerie e l'estrazione manuale.
| Approccio | Ideale per | Compromessi |
|---|---|---|
| Questo strumento | Estrazione rapida occasionale, confronto affiancato, qualsiasi dispositivo | Solo testo renderizzato lato server (nessun contenuto renderizzato da JS) |
| Modalità Lettura del Browser | Lettura senza distrazioni di un singolo articolo | Usa euristiche di ipotesi; può mancare o identificare male il corpo dell'articolo |
| Copia-incolla dal browser | Prendere visivamente un breve frammento | Noioso per pagine intere; può ereditare stili nascosti; manca contenuto fuori dal viewport |
readability-js / Mercury Parser | Estrazione orientata agli articoli tramite script in app Node | Richiede una base di codice per il cablaggio; focus solo sugli articoli |
| BeautifulSoup / Cheerio | Scraper Python/JS personalizzati con regole specifiche | Tempo di sviluppo per scrivere e mantenere selettori per ogni sito |
| curl + pandoc / html2text | Pipeline CLI su una macchina di sviluppo | Solo terminale; overhead di installazione e configurazione |
Per la maggior parte delle persone - team di contenuti, SEO, traduttori, ricercatori - il percorso più veloce da URL a testo pulito è un estrattore ospitato. Scegli una libreria o scrivi codice personalizzato solo quando hai bisogno di ripetizione programmatica, estrazione solo del corpo dell'articolo o regole specifiche del sito che gli strumenti generici non possono gestire.
Domande comuni sull'estrazione di testo dalle pagine HTML.
HTML è il linguaggio di markup che racchiude il contenuto in tag (<p>, <h1>, <a>, <div>, ecc.) in modo che i browser sappiano come visualizzarlo. Il testo è semplicemente il contenuto leggibile all'interno di questi tag. Quando "estrai il testo" da HTML, rimuovi tag, script e stili per mantenere solo le parole che un lettore vedrebbe effettivamente sulla pagina.
No. L'estrattore lavora sull'HTML grezzo restituito dal server, prima che venga eseguito qualsiasi JavaScript lato client. Per le single-page app costruite con React, Vue o Angular, il contenuto inserito dopo il caricamento non apparirà nel testo estratto. Se il contenuto principale di una pagina viene renderizzato solo lato client, vedrai in genere un risultato quasi vuoto.
L'obiettivo è simile - una vista senza distrazioni del contenuto di una pagina - ma il metodo differisce. La Modalità Lettura usa euristiche DOM per indovinare quale parte della pagina è l'articolo principale e nasconde il resto. Il nostro estrattore rimuove elementi non-contenuto come script e stili e mantiene il testo completo del documento. Ottieni più testo, con meno intelligenza su quale parte è il corpo dell'"articolo".
Rimossi: elementi <script>, <style>, <noscript>, <svg>, <iframe>, <object> ed <embed> insieme a tutto il markup dei tag. Anche il contenuto dell'head (meta tag, link tag, title) è escluso.
Mantenuti: il testo visibile di paragrafi, intestazioni, elementi di liste, link, celle di tabella e qualsiasi altro elemento contenente testo all'interno del body. Gli spazi vuoti vengono normalizzati in modo da non ritrovarti con grandi blocchi di righe vuote.
Sì. La codifica UTF-8 viene preservata, quindi arabo, cinese, giapponese, coreano, cirillico, emoji e la maggior parte degli altri script vengono trasmessi correttamente. Non traduciamo - ottieni il testo nella lingua originale.
Sono supportate solo le pagine HTML. PDF e altri formati binari richiedono strumenti diversi. Faccelo sapere tramite Twitter se il supporto PDF ti sarebbe utile - stiamo valutando la domanda.
I motori di ricerca indicizzano principalmente il contenuto testuale di una pagina. Estraendo solo il testo puoi verificare la densità delle parole chiave, confermare che il tuo contenuto più importante sia renderizzato lato server (visibile ai crawler al primo recupero), misurare il conteggio delle parole e controllare che la navigazione e il boilerplate del footer non stiano soffocando il tuo vero contenuto.
Sì. Usa il pulsante Scarica accanto al pannello del testo estratto per salvarlo come file .txt. Il pulsante Copia lo mette negli appunti.
Non memorizziamo le tue query né colleghiamo le estrazioni alla tua identità. Le risposte vengono memorizzate brevemente nella cache per prestazioni. Dettagli completi nella nostra informativa sulla privacy.
Approfondisci i contenuti web, il codice sorgente e la SEO con queste risorse.

Ispeziona il codice sorgente HTML completo nel browser con audit SEO, rilevamento tecnologie e metriche di prestazione.

Hai bisogno dell'HTML completo, non solo del testo? Salva il sorgente di qualsiasi pagina pubblica come file scaricabile.

Come la struttura HTML influisce sui ranking di ricerca - e cosa controllare quando si audita una pagina.

Un tour adatto ai principianti della struttura HTML, dei tag e come dare senso al markup di qualsiasi pagina.

Indice completo dei tag HTML5 con descrizioni - utile quando si ispeziona markup estratto o grezzo.

Una guida ai migliori editor di codice e IDE gratuiti e a pagamento per lavorare con HTML, CSS e JavaScript.