Ver Codigo Fonte + Analise Inteligente
Inspecione o codigo fonte HTML completo no navegador com auditoria de SEO, deteccao de tecnologia e metricas de desempenho.
Extraia texto limpo e legivel de qualquer site. Veja o codigo fonte HTML lado a lado com o conteudo de texto extraido.
Remova as tags, scripts e estilos. Mantenha as palavras. Obtenha o mesmo conteudo que um leitor veria - como texto puro.
Toda pagina web e uma mistura de duas coisas: marcacao - as tags HTML que dizem ao navegador como estruturar e exibir o conteudo - e o conteudo em si, as palavras, numeros e caracteres que um leitor realmente ve. Quando voce visualiza o codigo fonte de uma pagina, a maior parte do que voce ve e marcacao: tags de abertura e fechamento, nomes de classes, blocos de script, estilos inline e metadados. O conteudo legivel esta escondido entre tudo isso.
O Extrator de Texto HTML faz uma unica tarefa: extrair o conteudo legivel e descartar o resto. Cole qualquer URL publica e voce recebera de volta uma versao limpa e em texto puro da pagina - sem tags, sem scripts, sem folhas de estilo, sem ruido de navegacao. O HTML original permanece visivel lado a lado para que voce possa comparar, verificar e selecionar o que precisa.
Como a extracao acontece no lado do servidor sobre a resposta HTML bruta, voce obtem exatamente o que um rastreador de mecanismo de busca indexaria primeiro - antes que o JavaScript do lado do cliente tenha a chance de adicionar qualquer coisa. Para auditorias de SEO, inventario de conteudo, preparacao de traducao e dados de treinamento de IA/ML, geralmente essa e a versao que voce quer.
De auditorias de conteudo a leitura sem distracoes - veja quem usa a extracao de texto e por que.
Conte palavras, meca o tempo de leitura, verifique a densidade de palavras-chave e avalie se o corpo textual da sua pagina realmente reflete o topico que voce esta abordando.
Entregue aos tradutores um texto fonte limpo, sem o ruido HTML que quebra suas ferramentas ou lhes custa tempo extra para filtrar manualmente.
Extraia um artigo de uma pagina cheia de pop-ups, barras laterais e anuncios. Leve-o para um aplicativo de notas, Kindle ou ferramenta de ler-depois.
Tenha uma nocao geral do que um leitor de tela encontraria na pagina - essencial para verificar a ordem de leitura e as prioridades de conteudo.
Confirme que seu conteudo principal e renderizado pelo servidor (visivel para rastreadores), verifique a presenca de palavras-chave no corpo do texto e identifique a relacao entre conteudo padrao e conteudo real.
Construa corpus de texto limpo a partir de paginas web publicas para ajustar modelos de linguagem, sistemas de busca ou classificadores de conteudo - sem precisar remover tags voce mesmo.
Regras claras para que voce saiba exatamente o que esta recebendo e o que esta perdendo.
textContent visivel do body<script> e seu conteudo<style> e CSS inline<noscript><svg>, <iframe>, <object>, <embed>alt de imagemOs espacos em branco sao normalizados: sequencias de espacos, tabulacoes e quebras de linha sao colapsadas para que voce nao acabe com grandes lacunas em branco da indentacao HTML original. As quebras de paragrafo sao preservadas onde a marcacao as implicava.
O que acontece entre colar uma URL e ver o texto extraido.
textContent do body, que concatena cada no de texto na ordem do documento - voce obtem as palavras que um leitor veria.Como esta ferramenta se compara com o Modo Leitor do navegador, bibliotecas e extracao manual.
| Abordagem | Melhor para | Compromissos |
|---|---|---|
| Esta ferramenta | Extracao rapida pontual, comparacao lado a lado, qualquer dispositivo | Apenas texto renderizado pelo servidor (sem conteudo renderizado por JS) |
| Modo Leitor do Navegador | Leitura sem distracoes de um unico artigo | Usa heuristicas de adivinhacao; pode perder ou identificar incorretamente o corpo do artigo |
| Copiar e colar do navegador | Capturar um trecho curto visualmente | Tedioso para paginas inteiras; pode herdar estilos ocultos; perde conteudo fora da janela de visualizacao |
readability-js / Mercury Parser | Extracao com script, focada em artigos, em aplicativos Node | Requer base de codigo para configurar; foco apenas em artigos |
| BeautifulSoup / Cheerio | Scrapers personalizados em Python/JS com regras especificas | Tempo de desenvolvedor para escrever e manter seletores por site |
| curl + pandoc / html2text | Pipelines de CLI em uma maquina de desenvolvedor | Apenas terminal; sobrecarga de instalacao e configuracao |
Para a maioria das pessoas - equipes de conteudo, profissionais de SEO, tradutores, pesquisadores - o caminho mais rapido de URL para texto limpo e um extrator hospedado. Escolha uma biblioteca ou escreva codigo personalizado apenas quando precisar de repeticao programatica, extracao apenas do corpo do artigo ou regras especificas de site que ferramentas genericas nao conseguem lidar.
Perguntas comuns sobre a extracao de texto de paginas HTML.
HTML e a linguagem de marcacao que envolve o conteudo em tags (<p>, <h1>, <a>, <div>, etc.) para que os navegadores saibam como exibi-lo. Texto e apenas o conteudo legivel para humanos dentro dessas tags. Quando voce "extrai texto" do HTML, voce remove as tags, scripts e estilos para manter apenas as palavras que um leitor realmente veria na pagina.
Nao. O extrator funciona no HTML bruto retornado pelo servidor, antes que qualquer JavaScript do lado do cliente seja executado. Para aplicacoes de pagina unica construidas em React, Vue ou Angular, o conteudo inserido apos o carregamento nao aparecera no texto extraido. Se o conteudo principal de uma pagina e renderizado apenas no lado do cliente, normalmente voce vera um resultado quase vazio.
O objetivo e semelhante - uma visualizacao sem distracoes do conteudo de uma pagina - mas o metodo difere. O Modo Leitor usa heuristicas do DOM para adivinhar qual parte da pagina e o artigo principal e oculta o restante. Nosso extrator remove elementos que nao sao conteudo, como scripts e estilos, e mantem o texto completo do documento. Voce obtem mais texto, com menos inteligencia sobre qual parte e o corpo do "artigo".
Removido: elementos <script>, <style>, <noscript>, <svg>, <iframe>, <object> e <embed>, junto com toda a marcacao de tags em si. O conteudo do head (meta tags, link tags, title) tambem e excluido.
Mantido: o texto visivel de paragrafos, cabecalhos, itens de lista, links, celulas de tabela e qualquer outro elemento que contenha texto dentro do body. Os espacos em branco sao normalizados para que voce nao receba grandes sequencias de linhas em branco.
Sim. A codificacao UTF-8 e preservada, entao arabe, chines, japones, coreano, cirilico, emojis e a maioria dos outros scripts funcionam corretamente. Nao traduzimos - voce obtem o texto no idioma original.
Apenas paginas HTML sao suportadas. PDFs e outros formatos binarios precisam de ferramentas diferentes. Avise-nos pelo Twitter se o suporte a PDF for util para voce - estamos avaliando a demanda.
Os mecanismos de busca indexam principalmente o conteudo textual de uma pagina. Extrair apenas o texto permite auditar a densidade de palavras-chave, confirmar que seu conteudo mais importante e renderizado pelo servidor (visivel para rastreadores na primeira busca), medir a contagem de palavras e verificar se a navegacao e o conteudo padrao do rodape nao estao abafando seu conteudo real.
Sim. Use o botao Baixar ao lado do painel de texto extraido para salva-lo como um arquivo .txt. O botao Copiar coloca o texto na sua area de transferencia.
Nao armazenamos suas consultas nem associamos extracoes a sua identidade. As respostas sao armazenadas em cache brevemente para desempenho. Detalhes completos em nossa politica de privacidade.
Aprofunde-se em conteudo web, codigo fonte e SEO com estes recursos.

Inspecione o codigo fonte HTML completo no navegador com auditoria de SEO, deteccao de tecnologia e metricas de desempenho.

Precisa do HTML completo, e nao apenas do texto? Salve o codigo fonte de qualquer pagina publica como um arquivo para download.

Como a estrutura HTML afeta as classificacoes de busca - e o que verificar ao auditar uma pagina.

Um tour amigavel para iniciantes pela estrutura HTML, tags e como entender a marcacao de qualquer pagina.

Indice completo de tags HTML5 com descricoes - util ao inspecionar marcacao extraida ou bruta.

Um guia para os melhores editores de codigo e IDEs gratuitos e pagos para trabalhar com HTML, CSS e JavaScript.