Ver Código Fuente + Análisis Inteligente
Inspeccione el código fuente HTML completo en su navegador con auditoría SEO, detección de tecnologías y métricas de rendimiento.
Extraiga texto limpio y legible de cualquier sitio web. Vea el código fuente HTML junto al contenido de texto extraído.
Elimine etiquetas, scripts y estilos. Conserve las palabras. Obtenga el mismo contenido que vería un lector - como texto plano.
Cada página web es una mezcla de dos cosas: marcado - las etiquetas HTML que indican al navegador cómo estructurar y mostrar el contenido - y contenido en sí, las palabras, números y caracteres que un lector ve realmente. Cuando ve el código fuente de una página, la mayor parte de lo que ve es marcado: etiquetas de apertura y cierre, nombres de clase, bloques de script, estilos en línea y metadatos. El contenido legible está oculto entre todo eso.
El Extractor de Texto HTML hace un solo trabajo: extraer el contenido legible y descartar el resto. Pegue cualquier URL pública y obtendrá una versión limpia, en texto plano, de la página - sin etiquetas, sin scripts, sin hojas de estilo, sin ruido de navegación. El HTML original permanece visible lado a lado para que pueda comparar, verificar y seleccionar lo que necesite.
Dado que la extracción ocurre en el servidor sobre la respuesta HTML sin procesar, obtiene exactamente lo que un rastreador de motor de búsqueda indexaría primero - antes de que el JavaScript del lado del cliente tenga la oportunidad de añadir nada. Para auditorías SEO, inventario de contenido, preparación de traducciones y datos de entrenamiento de IA/ML, normalmente esa es la versión que desea.
Desde auditorías de contenido hasta lectura sin distracciones - aquí está quién usa la extracción de texto y por qué.
Cuente palabras, mida el tiempo de lectura, verifique la densidad de palabras clave y evalúe si el cuerpo textual de su página refleja realmente el tema al que apunta.
Entregue a los traductores texto fuente limpio sin el ruido HTML que rompe sus herramientas o les cuesta tiempo extra filtrar manualmente.
Saque un artículo de una página atiborrada con ventanas emergentes, barras laterales y anuncios. Colóquelo en una aplicación de notas, Kindle o herramienta de lectura diferida.
Obtenga una idea aproximada de lo que encontraría un lector de pantalla en la página - esencial para verificar el orden de lectura y las prioridades de contenido.
Confirme que su contenido principal se renderiza en el servidor (visible para rastreadores), verifique la presencia de palabras clave en el cuerpo del texto y detecte ratios de contenido repetitivo frente a contenido real.
Construya corpus de texto limpios a partir de páginas web públicas para el ajuste fino de modelos de lenguaje, sistemas de búsqueda o clasificadores de contenido - sin eliminar las etiquetas usted mismo.
Reglas claras para que sepa exactamente qué está obteniendo y qué está perdiendo.
textContent visible del cuerpo<script> y su contenido<style> y CSS en línea<noscript><svg>, <iframe>, <object>, <embed>alt de imágenesLos espacios en blanco se normalizan: las secuencias de espacios, tabulaciones y saltos de línea se contraen para que no termine con grandes huecos en blanco provenientes de la indentación HTML original. Los saltos de párrafo se conservan donde el marcado los implicaba.
Lo que sucede entre pegar una URL y ver el texto extraído.
textContent del cuerpo, que concatena cada nodo de texto en el orden del documento - obtiene las palabras que vería un lector.Cómo se compara esta herramienta con el Modo Lectura del navegador, las bibliotecas y la extracción manual.
| Enfoque | Ideal para | Compromisos |
|---|---|---|
| Esta herramienta | Extracción rápida puntual, comparación lado a lado, cualquier dispositivo | Solo texto renderizado en el servidor (sin contenido renderizado por JS) |
| Modo Lectura del navegador | Lectura sin distracciones de un único artículo | Usa heurísticas de adivinación; puede omitir o identificar mal el cuerpo del artículo |
| Copiar y pegar desde el navegador | Capturar un fragmento corto visualmente | Tedioso para páginas completas; puede heredar estilos ocultos; omite contenido fuera de la vista |
readability-js / Mercury Parser | Extracción scripted centrada en artículos en aplicaciones Node | Requiere una base de código para configurar; enfoque solo en artículos |
| BeautifulSoup / Cheerio | Scrapers personalizados de Python/JS con reglas específicas | Tiempo de desarrollo para escribir y mantener selectores por sitio |
| curl + pandoc / html2text | Pipelines CLI en una máquina de desarrollo | Solo terminal; sobrecarga de instalación y configuración |
Para la mayoría de las personas - equipos de contenido, SEOs, traductores, investigadores - la ruta más rápida desde URL a texto limpio es un extractor alojado. Elija una biblioteca o escriba código personalizado solo cuando necesite repetición programática, extracción solo del cuerpo del artículo o reglas específicas del sitio que las herramientas genéricas no puedan manejar.
Preguntas comunes sobre la extracción de texto de páginas HTML.
HTML es el lenguaje de marcado que envuelve el contenido en etiquetas (<p>, <h1>, <a>, <div>, etc.) para que los navegadores sepan cómo mostrarlo. El texto es simplemente el contenido legible dentro de esas etiquetas. Cuando "extrae texto" del HTML, elimina las etiquetas, scripts y estilos para conservar solo las palabras que un lector realmente vería en la página.
No. El extractor se ejecuta sobre el HTML sin procesar devuelto por el servidor, antes de que se ejecute cualquier JavaScript del lado del cliente. Para aplicaciones de una sola página basadas en React, Vue o Angular, el contenido insertado después de la carga no aparecerá en el texto extraído. Si el contenido principal de una página solo se renderiza en el lado del cliente, normalmente verá un resultado casi vacío.
El objetivo es similar - una vista sin distracciones del contenido de una página - pero el método difiere. El Modo Lectura utiliza heurísticas del DOM para adivinar qué parte de la página es el artículo principal y oculta el resto. Nuestro extractor elimina elementos no relacionados con el contenido, como scripts y estilos, y conserva el texto completo del documento. Obtiene más texto, con menos inteligencia sobre qué parte es el cuerpo del "artículo".
Eliminado: elementos <script>, <style>, <noscript>, <svg>, <iframe>, <object> y <embed> junto con todo el marcado de etiquetas en sí. El contenido del encabezado (etiquetas meta, link, title) también se excluye.
Conservado: el texto visible de párrafos, encabezados, elementos de lista, enlaces, celdas de tabla y cualquier otro elemento con texto dentro del cuerpo. Los espacios en blanco se normalizan para que no obtenga grandes secuencias de líneas vacías.
Sí. La codificación UTF-8 se conserva, por lo que árabe, chino, japonés, coreano, cirílico, emojis y la mayoría de los otros scripts pasan correctamente. No traducimos - obtiene el texto en el idioma original.
Solo se admiten páginas HTML. Los PDF y otros formatos binarios requieren herramientas diferentes. Háganoslo saber a través de Twitter si le resultaría útil el soporte para PDF - estamos midiendo la demanda.
Los motores de búsqueda indexan principalmente el contenido textual de una página. Extraer solo el texto le permite auditar la densidad de palabras clave, confirmar que su contenido más importante se renderiza en el servidor (visible para los rastreadores en la primera obtención), medir el recuento de palabras y verificar que la navegación y el contenido repetitivo del pie de página no ahoguen su contenido real.
Sí. Use el botón Descargar junto al panel de texto extraído para guardarlo como archivo .txt. El botón Copiar lo coloca en su portapapeles.
No almacenamos sus consultas ni vinculamos las extracciones a su identidad. Las respuestas se almacenan en caché brevemente por rendimiento. Todos los detalles en nuestra política de privacidad.
Profundice en el contenido web, el código fuente y el SEO con estos recursos.

Inspeccione el código fuente HTML completo en su navegador con auditoría SEO, detección de tecnologías y métricas de rendimiento.

¿Necesita el HTML completo, no solo el texto? Guarde el código fuente de cualquier página pública como archivo descargable.

Cómo la estructura HTML afecta las clasificaciones de búsqueda - y qué verificar al auditar una página.

Un recorrido accesible para principiantes por la estructura HTML, las etiquetas y cómo dar sentido al marcado de cualquier página.

Índice completo de etiquetas HTML5 con descripciones - útil al inspeccionar marcado extraído o sin procesar.

Una guía de los mejores editores de código e IDE gratuitos y de pago para trabajar con HTML, CSS y JavaScript.