¿Puedo extraer texto de PDF u otros documentos?

Solo se admiten páginas HTML. Los PDF, documentos de Word y otros formatos binarios requieren herramientas diferentes. Podríamos añadir soporte para PDF en el futuro - háganoslo saber si le resultaría útil.

¿Por qué usar esto para SEO?

Los motores de búsqueda indexan el contenido textual de una página. Al extraer solo el texto, puede auditar la densidad de palabras clave, verificar que su contenido más importante se renderice en el servidor, medir el recuento de palabras y confirmar que la navegación y el contenido repetitivo no estén ahogando el contenido real.

Herramienta en línea gratuita - Sin instalación necesaria

Extractor de Texto HTML

Q: ¿Incluye el texto agregado por JavaScript?

No. El extractor funciona sobre el HTML sin procesar devuelto por el servidor, antes de que se ejecute cualquier JavaScript del lado del cliente. Para páginas construidas como aplicaciones de una sola página (React, Vue, Angular), el contenido insertado después de la carga por JavaScript no aparecerá en el texto extraído.

Q: ¿Es lo mismo que el Modo Lectura de un navegador?

El objetivo es similar - ofrecerle una versión sin distracciones del contenido de la página - pero el método difiere. El Modo Lectura utiliza heurísticas del DOM para adivinar qué parte de la página es el artículo principal y oculta el resto. Nuestro extractor funciona sobre el HTML sin procesar y elimina elementos no relacionados con el contenido, como scripts y estilos, manteniendo el texto completo del documento. Obtiene más texto, con menos inteligencia sobre qué parte es el cuerpo del 'artículo'.

Q: ¿Qué se elimina y qué se conserva exactamente?

Eliminado: elementos script, style, noscript, svg, iframe, object y embed, junto con todo el marcado de etiquetas y el contenido del encabezado (meta, link, title). Conservado: el texto visible de párrafos, encabezados, elementos de lista, enlaces, celdas de tabla y cualquier otro elemento con texto dentro del cuerpo. Los espacios en blanco se normalizan para que no obtenga grandes secuencias de líneas vacías.

Extraiga texto limpio y legible de cualquier sitio web. Vea el código fuente HTML junto al contenido de texto extraído.

source.html

texto-extraido.txt

⚡Velocidad de Página

🖥Info del Servidor

📄Info de Página

Descripción general

Qué significa extraer texto del HTML

Elimine etiquetas, scripts y estilos. Conserve las palabras. Obtenga el mismo contenido que vería un lector - como texto plano.

Cada página web es una mezcla de dos cosas: marcado - las etiquetas HTML que indican al navegador cómo estructurar y mostrar el contenido - y contenido en sí, las palabras, números y caracteres que un lector ve realmente. Cuando ve el código fuente de una página, la mayor parte de lo que ve es marcado: etiquetas de apertura y cierre, nombres de clase, bloques de script, estilos en línea y metadatos. El contenido legible está oculto entre todo eso.

El Extractor de Texto HTML hace un solo trabajo: extraer el contenido legible y descartar el resto. Pegue cualquier URL pública y obtendrá una versión limpia, en texto plano, de la página - sin etiquetas, sin scripts, sin hojas de estilo, sin ruido de navegación. El HTML original permanece visible lado a lado para que pueda comparar, verificar y seleccionar lo que necesite.

Dado que la extracción ocurre en el servidor sobre la respuesta HTML sin procesar, obtiene exactamente lo que un rastreador de motor de búsqueda indexaría primero - antes de que el JavaScript del lado del cliente tenga la oportunidad de añadir nada. Para auditorías SEO, inventario de contenido, preparación de traducciones y datos de entrenamiento de IA/ML, normalmente esa es la versión que desea.

Casos de Uso

Cuándo querría extraer texto del HTML

Desde auditorías de contenido hasta lectura sin distracciones - aquí está quién usa la extracción de texto y por qué.

📝

Auditorías de Contenido

Cuente palabras, mida el tiempo de lectura, verifique la densidad de palabras clave y evalúe si el cuerpo textual de su página refleja realmente el tema al que apunta.

🌐

Preparación de Traducción

Entregue a los traductores texto fuente limpio sin el ruido HTML que rompe sus herramientas o les cuesta tiempo extra filtrar manualmente.

📖

Lectura Sin Distracciones

Saque un artículo de una página atiborrada con ventanas emergentes, barras laterales y anuncios. Colóquelo en una aplicación de notas, Kindle o herramienta de lectura diferida.

♿

Revisión de Accesibilidad

Obtenga una idea aproximada de lo que encontraría un lector de pantalla en la página - esencial para verificar el orden de lectura y las prioridades de contenido.

📊

Análisis de Contenido SEO

Confirme que su contenido principal se renderiza en el servidor (visible para rastreadores), verifique la presencia de palabras clave en el cuerpo del texto y detecte ratios de contenido repetitivo frente a contenido real.

🤖

Datos de Entrenamiento IA/ML

Construya corpus de texto limpios a partir de páginas web públicas para el ajuste fino de modelos de lenguaje, sistemas de búsqueda o clasificadores de contenido - sin eliminar las etiquetas usted mismo.

Comportamiento

Qué se conserva y qué se elimina

Reglas claras para que sepa exactamente qué está obteniendo y qué está perdiendo.

✓ Conservado

Texto de párrafos
Texto de encabezados (h1 a h6)
Elementos de lista (ul, ol)
Texto de anclas de enlaces
Texto de celdas de tabla
Texto de blockquote y cite
Texto de etiquetas de formulario y botones
Todo el textContent visible del cuerpo

✗ Eliminado

Todas las etiquetas HTML en sí
Bloques <script> y su contenido
Bloques <style> y CSS en línea
Contenido <noscript>
<svg>, <iframe>, <object>, <embed>
Etiquetas meta y contenido del encabezado
Atributos alt de imágenes
Texto dinámico renderizado por JavaScript

Los espacios en blanco se normalizan: las secuencias de espacios, tabulaciones y saltos de línea se contraen para que no termine con grandes huecos en blanco provenientes de la indentación HTML original. Los saltos de párrafo se conservan donde el marcado los implicaba.

Cómo funciona

Cinco pasos entre bastidores

Lo que sucede entre pegar una URL y ver el texto extraído.

Obtener la página en el servidorNuestro servidor solicita la URL directamente. No se ejecuta JavaScript - obtenemos la respuesta HTML sin procesar enviada por el origen.
Analizar el HTML en un árbolUn analizador HTML adecuado construye un árbol similar al DOM a partir del marcado, manejando casos límite como etiquetas mal formadas, cierres faltantes y elementos en línea anidados.
Podar ramas sin contenidoLos nodos script, style, noscript y comentarios se eliminan antes de la extracción para que su contenido nunca llegue a la salida.
Leer todos los nodos de textoExtraemos el textContent del cuerpo, que concatena cada nodo de texto en el orden del documento - obtiene las palabras que vería un lector.
Normalizar y mostrarLas secuencias de espacios en blanco se contraen, las líneas en blanco consecutivas se fusionan y el resultado se muestra lado a lado con el HTML fuente junto con el recuento de palabras y caracteres.

Alternativas

Extractor de Texto HTML vs. otros enfoques

Cómo se compara esta herramienta con el Modo Lectura del navegador, las bibliotecas y la extracción manual.

Enfoque	Ideal para	Compromisos
Esta herramienta	Extracción rápida puntual, comparación lado a lado, cualquier dispositivo	Solo texto renderizado en el servidor (sin contenido renderizado por JS)
Modo Lectura del navegador	Lectura sin distracciones de un único artículo	Usa heurísticas de adivinación; puede omitir o identificar mal el cuerpo del artículo
Copiar y pegar desde el navegador	Capturar un fragmento corto visualmente	Tedioso para páginas completas; puede heredar estilos ocultos; omite contenido fuera de la vista
`readability-js` / Mercury Parser	Extracción scripted centrada en artículos en aplicaciones Node	Requiere una base de código para configurar; enfoque solo en artículos
BeautifulSoup / Cheerio	Scrapers personalizados de Python/JS con reglas específicas	Tiempo de desarrollo para escribir y mantener selectores por sitio
curl + pandoc / html2text	Pipelines CLI en una máquina de desarrollo	Solo terminal; sobrecarga de instalación y configuración

Para la mayoría de las personas - equipos de contenido, SEOs, traductores, investigadores - la ruta más rápida desde URL a texto limpio es un extractor alojado. Elija una biblioteca o escriba código personalizado solo cuando necesite repetición programática, extracción solo del cuerpo del artículo o reglas específicas del sitio que las herramientas genéricas no puedan manejar.

FAQ

Preguntas frecuentes

Preguntas comunes sobre la extracción de texto de páginas HTML.

¿Cuál es la diferencia entre HTML y texto?

HTML es el lenguaje de marcado que envuelve el contenido en etiquetas (<p>, <h1>, <a>, <div>, etc.) para que los navegadores sepan cómo mostrarlo. El texto es simplemente el contenido legible dentro de esas etiquetas. Cuando "extrae texto" del HTML, elimina las etiquetas, scripts y estilos para conservar solo las palabras que un lector realmente vería en la página.

¿Incluye el texto agregado por JavaScript?

No. El extractor se ejecuta sobre el HTML sin procesar devuelto por el servidor, antes de que se ejecute cualquier JavaScript del lado del cliente. Para aplicaciones de una sola página basadas en React, Vue o Angular, el contenido insertado después de la carga no aparecerá en el texto extraído. Si el contenido principal de una página solo se renderiza en el lado del cliente, normalmente verá un resultado casi vacío.

¿Es lo mismo que el Modo Lectura de un navegador?

El objetivo es similar - una vista sin distracciones del contenido de una página - pero el método difiere. El Modo Lectura utiliza heurísticas del DOM para adivinar qué parte de la página es el artículo principal y oculta el resto. Nuestro extractor elimina elementos no relacionados con el contenido, como scripts y estilos, y conserva el texto completo del documento. Obtiene más texto, con menos inteligencia sobre qué parte es el cuerpo del "artículo".

¿Qué se elimina y qué se conserva exactamente?

Eliminado: elementos <script>, <style>, <noscript>, <svg>, <iframe>, <object> y <embed> junto con todo el marcado de etiquetas en sí. El contenido del encabezado (etiquetas meta, link, title) también se excluye.

Conservado: el texto visible de párrafos, encabezados, elementos de lista, enlaces, celdas de tabla y cualquier otro elemento con texto dentro del cuerpo. Los espacios en blanco se normalizan para que no obtenga grandes secuencias de líneas vacías.

¿Puedo extraer texto de páginas no inglesas?

Sí. La codificación UTF-8 se conserva, por lo que árabe, chino, japonés, coreano, cirílico, emojis y la mayoría de los otros scripts pasan correctamente. No traducimos - obtiene el texto en el idioma original.

¿Puedo extraer texto de PDF o documentos de Word?

Solo se admiten páginas HTML. Los PDF y otros formatos binarios requieren herramientas diferentes. Háganoslo saber a través de Twitter si le resultaría útil el soporte para PDF - estamos midiendo la demanda.

¿Por qué usaría esto para SEO?

Los motores de búsqueda indexan principalmente el contenido textual de una página. Extraer solo el texto le permite auditar la densidad de palabras clave, confirmar que su contenido más importante se renderiza en el servidor (visible para los rastreadores en la primera obtención), medir el recuento de palabras y verificar que la navegación y el contenido repetitivo del pie de página no ahoguen su contenido real.

¿Puedo descargar el texto extraído?

Sí. Use el botón Descargar junto al panel de texto extraído para guardarlo como archivo .txt. El botón Copiar lo coloca en su portapapeles.

¿Son privados mis datos?

No almacenamos sus consultas ni vinculamos las extracciones a su identidad. Las respuestas se almacenan en caché brevemente por rendimiento. Todos los detalles en nuestra política de privacidad.

Herramientas y guías relacionadas

Profundice en el contenido web, el código fuente y el SEO con estos recursos.

Herramienta

Ver Código Fuente + Análisis Inteligente

Inspeccione el código fuente HTML completo en su navegador con auditoría SEO, detección de tecnologías y métricas de rendimiento.

Herramienta

Descargar Código del Sitio Web

¿Necesita el HTML completo, no solo el texto? Guarde el código fuente de cualquier página pública como archivo descargable.

SEO

Mejorar el SEO a través del código fuente

Cómo la estructura HTML afecta las clasificaciones de búsqueda - y qué verificar al auditar una página.

Guía

Cómo leer código fuente HTML

Un recorrido accesible para principiantes por la estructura HTML, las etiquetas y cómo dar sentido al marcado de cualquier página.

Referencia

Referencia de todas las etiquetas HTML5

Índice completo de etiquetas HTML5 con descripciones - útil al inspeccionar marcado extraído o sin procesar.

Herramientas

Mejores editores de código para desarrollo web

Una guía de los mejores editores de código e IDE gratuitos y de pago para trabajar con HTML, CSS y JavaScript.