Voir le code source + analyse intelligente
Inspectez le code source HTML complet dans votre navigateur avec audit SEO, détection de technologies et métriques de performance.
Extrayez du texte propre et lisible de n'importe quel site web. Visualisez le code source HTML côte à côte avec le contenu texte extrait.
Supprimez les balises, les scripts et les styles. Gardez les mots. Obtenez le même contenu qu'un lecteur verrait - en texte brut.
Chaque page web est un mélange de deux choses : le balisage - les balises HTML qui indiquent au navigateur comment structurer et afficher le contenu - et le contenu lui-même, les mots, les chiffres et les caractères qu'un lecteur voit réellement. Lorsque vous consultez le code source d'une page, la plus grande partie de ce que vous voyez est du balisage : balises ouvrantes et fermantes, noms de classes, blocs de scripts, styles intégrés et métadonnées. Le contenu lisible est glissé entre tout cela.
L'Extracteur de texte HTML fait une seule chose : extraire le contenu lisible et jeter le reste. Collez n'importe quelle URL publique et vous obtenez une version en texte brut propre de la page - sans balises, sans scripts, sans feuilles de style, sans bruit de navigation. Le HTML original reste visible côte à côte pour que vous puissiez comparer, vérifier et sélectionner ce dont vous avez besoin.
Comme l'extraction s'effectue côté serveur sur la réponse HTML brute, vous obtenez exactement ce qu'un robot d'indexation indexerait en premier - avant que le JavaScript côté client n'ait la possibilité d'ajouter quoi que ce soit. Pour les audits SEO, l'inventaire de contenu, la préparation de traduction et les données d'entraînement IA/ML, c'est généralement la version que vous souhaitez.
Des audits de contenu à la lecture sans distraction - voici qui utilise l'extraction de texte et pourquoi.
Comptez les mots, mesurez le temps de lecture, vérifiez la densité des mots-clés et évaluez si le corps textuel de votre page reflète réellement le sujet que vous ciblez.
Fournissez aux traducteurs un texte source propre sans le bruit HTML qui casse leurs outils ou leur coûte du temps supplémentaire à filtrer manuellement.
Extrayez un article d'une page encombrée de pop-ups, de barres latérales et de publicités. Déposez-le dans une application de notes, un Kindle ou un outil de lecture différée.
Obtenez un aperçu approximatif de ce qu'un lecteur d'écran rencontrerait sur la page - essentiel pour vérifier l'ordre de lecture et les priorités de contenu.
Confirmez que votre contenu principal est rendu côté serveur (visible pour les robots), vérifiez la présence de mots-clés dans le corps du texte et repérez les ratios contenu/standard.
Construisez des corpus de texte propres à partir de pages web publiques pour le réglage fin de modèles de langage, de systèmes de recherche ou de classificateurs de contenu - sans supprimer les balises vous-même.
Des règles claires pour que vous sachiez exactement ce que vous obtenez et ce que vous perdez.
textContent visible du corps<script> et leur contenu<style> et le CSS intégré<noscript><svg>, <iframe>, <object>, <embed>alt des imagesLes espaces sont normalisés : les suites d'espaces, tabulations et sauts de ligne sont compressées pour que vous ne vous retrouviez pas avec d'énormes blancs issus de l'indentation HTML originale. Les sauts de paragraphe sont préservés là où le balisage les impliquait.
Ce qui se passe entre le collage d'une URL et l'affichage du texte extrait.
textContent du corps, qui concatène chaque nœud de texte dans l'ordre du document - vous obtenez les mots qu'un lecteur verrait.Comment cet outil se compare au mode Lecture du navigateur, aux bibliothèques et à l'extraction manuelle.
| Approche | Idéal pour | Compromis |
|---|---|---|
| Cet outil | Extraction rapide ponctuelle, comparaison côte à côte, tout appareil | Texte rendu côté serveur uniquement (pas de contenu rendu par JS) |
| Mode Lecture du navigateur | Lecture sans distraction d'un seul article | Utilise des heuristiques de devinette ; peut manquer ou mal identifier le corps de l'article |
| Copier-coller depuis le navigateur | Saisir un court extrait visuellement | Fastidieux pour les pages complètes ; peut hériter de styles cachés ; manque le contenu hors fenêtre |
readability-js / Mercury Parser | Extraction scriptée axée sur les articles dans les applications Node | Nécessite une base de code à configurer ; axé uniquement sur les articles |
| BeautifulSoup / Cheerio | Scrapers personnalisés Python/JS avec des règles spécifiques | Temps de développement pour écrire et maintenir les sélecteurs par site |
| curl + pandoc / html2text | Pipelines CLI sur une machine de développement | Terminal uniquement ; surcharge d'installation et de configuration |
Pour la plupart des gens - équipes de contenu, SEO, traducteurs, chercheurs - le chemin le plus rapide de l'URL au texte propre est un extracteur hébergé. Choisissez une bibliothèque ou écrivez du code personnalisé uniquement lorsque vous avez besoin de répétition programmatique, d'extraction du corps d'article uniquement, ou de règles spécifiques au site que les outils génériques ne peuvent pas gérer.
Questions courantes sur l'extraction de texte à partir de pages HTML.
Le HTML est le langage de balisage qui enveloppe le contenu dans des balises (<p>, <h1>, <a>, <div>, etc.) pour que les navigateurs sachent comment l'afficher. Le texte est simplement le contenu lisible à l'intérieur de ces balises. Lorsque vous « extrayez le texte » du HTML, vous supprimez les balises, les scripts et le style pour ne garder que les mots qu'un lecteur verrait réellement sur la page.
Non. L'extracteur fonctionne sur le HTML brut renvoyé par le serveur, avant toute exécution de JavaScript côté client. Pour les applications monopage basées sur React, Vue ou Angular, le contenu inséré après le chargement n'apparaîtra pas dans le texte extrait. Si le contenu principal d'une page n'est rendu que côté client, vous verrez généralement un résultat presque vide.
L'objectif est similaire - une vue sans distraction du contenu d'une page - mais la méthode diffère. Le mode Lecture utilise des heuristiques DOM pour deviner quelle partie de la page est l'article principal et masque le reste. Notre extracteur supprime les éléments non-contenu comme les scripts et les styles et conserve le texte complet du document. Vous obtenez plus de texte, avec moins d'intelligence sur la partie qui constitue le corps de l'« article ».
Supprimé : les éléments <script>, <style>, <noscript>, <svg>, <iframe>, <object> et <embed> ainsi que tout le balisage lui-même. Le contenu de l'en-tête (balises meta, balises link, titre) est également exclu.
Conservé : le texte visible des paragraphes, titres, éléments de liste, liens, cellules de tableau et tout autre élément contenant du texte dans le corps. Les espaces sont normalisés pour éviter de longues suites de lignes vides.
Oui. L'encodage UTF-8 est préservé, donc l'arabe, le chinois, le japonais, le coréen, le cyrillique, les emojis et la plupart des autres scripts passent correctement. Nous ne traduisons pas - vous obtenez le texte dans la langue originale.
Seules les pages HTML sont prises en charge. Les PDF et autres formats binaires nécessitent un outillage différent. Faites-nous savoir via Twitter si le support PDF vous serait utile - nous évaluons la demande.
Les moteurs de recherche indexent principalement le contenu textuel d'une page. Extraire uniquement le texte vous permet d'auditer la densité des mots-clés, de confirmer que votre contenu le plus important est rendu côté serveur (visible pour les robots dès la première récupération), de mesurer le nombre de mots et de vérifier que la navigation et les éléments standard du pied de page ne noient pas votre véritable contenu.
Oui. Utilisez le bouton Télécharger à côté du panneau de texte extrait pour l'enregistrer sous forme de fichier .txt. Le bouton Copier le place dans votre presse-papiers.
Nous ne stockons pas vos requêtes ni n'associons les extractions à votre identité. Les réponses sont mises en cache brièvement pour des raisons de performance. Tous les détails dans notre politique de confidentialité.
Approfondissez le contenu web, le code source et le SEO avec ces ressources.

Inspectez le code source HTML complet dans votre navigateur avec audit SEO, détection de technologies et métriques de performance.

Besoin du HTML complet, pas seulement du texte ? Enregistrez le source de n'importe quelle page publique sous forme de fichier téléchargeable.

Comment la structure HTML affecte les classements de recherche - et ce qu'il faut vérifier lors de l'audit d'une page.

Une visite accessible aux débutants de la structure HTML, des balises et de la manière de comprendre le balisage de n'importe quelle page.

Index complet des balises HTML5 avec descriptions - utile lors de l'inspection de balisage extrait ou brut.

Un guide des meilleurs éditeurs de code et IDE gratuits et payants pour travailler avec HTML, CSS et JavaScript.