أداة مجانية عبر الإنترنت - لا تتطلب أي تثبيت

مستخرج نصوص HTML

استخرج نصًا نظيفًا وقابلًا للقراءة من أي موقع إلكتروني. اعرض كود HTML المصدري جنبًا إلى جنب مع المحتوى النصي المستخرَج.

https://
source.html
extracted-text.txt

سرعة الصفحة

🖥معلومات الخادم

    📄معلومات الصفحة

      ماذا يعني استخراج النص من HTML

      أزِل الوسوم والنصوص البرمجية والأنماط. واحتفظ بالكلمات. واحصل على المحتوى نفسه الذي يراه القارئ - كنص عادي.

      كل صفحة ويب مزيج من شيئين: الترميز - وسوم HTML التي تخبر المتصفح بكيفية هيكلة المحتوى وعرضه - والمحتوى نفسه، أي الكلمات والأرقام والمحارف التي يراها القارئ فعلًا. وعندما تعرض مصدر صفحة، فإن معظم ما تراه هو ترميز: وسوم فتح وإغلاق، وأسماء أصناف (classes)، وكتل برمجية، وأنماط مضمَّنة، وبيانات وصفية. أما المحتوى المقروء فمحشور بين كل ذلك.

      يؤدي مستخرج نصوص HTML مهمة واحدة: انتزاع المحتوى المقروء والتخلّص من الباقي. الصق أي رابط عام، فتحصل على نسخة نظيفة بنص عادي من الصفحة - دون وسوم ولا نصوص برمجية ولا أوراق أنماط ولا ضجيج تنقّل. ويبقى HTML الأصلي مرئيًا جنبًا إلى جنب لتتمكن من المقارنة والتحقق وانتقاء ما تحتاجه.

      ولأن الاستخراج يجري من جهة الخادم على استجابة HTML الخام، فإنك تحصل على ما يفهرسه برنامج زحف محرك البحث أولًا تمامًا - قبل أن تتاح لـJavaScript من جهة العميل فرصة إضافة أي شيء. ولأغراض تدقيق SEO، وجرد المحتوى، والتحضير للترجمة، وبيانات تدريب الذكاء الاصطناعي/تعلّم الآلة، فهذه عادةً هي النسخة التي تريدها.

      متى تحتاج إلى استخراج النص من HTML

      من تدقيق المحتوى إلى القراءة الخالية من المشتّتات - إليك من يستخدم استخراج النص ولماذا.

      📝

      تدقيق المحتوى

      احسب الكلمات، وقِس زمن القراءة، وتحقّق من كثافة الكلمات المفتاحية، وقيّم ما إذا كان متن صفحتك النصي يعكس فعلًا الموضوع الذي تستهدفه.

      🌐

      التحضير للترجمة

      سلّم المترجمين نصًا مصدريًا نظيفًا دون ضجيج HTML الذي يعطّل أدواتهم أو يكلّفهم وقتًا إضافيًا لتصفيته يدويًا.

      📖

      قراءة خالية من المشتّتات

      انتزع مقالًا من صفحة مزدحمة بالنوافذ المنبثقة والأشرطة الجانبية والإعلانات. وانقله إلى تطبيق ملاحظات أو Kindle أو أداة للقراءة لاحقًا.

      مراجعة إمكانية الوصول

      كوّن تصورًا مبدئيًا لما سيصادفه قارئ الشاشة على الصفحة - وهو أمر أساسي للتحقق من ترتيب القراءة وأولويات المحتوى.

      📊

      تحليل محتوى SEO

      تأكّد من أن محتواك الرئيسي مُعرَّض من جهة الخادم (مرئي لبرامج الزحف)، وتحقّق من وجود الكلمات المفتاحية في نص المتن، ورصد نسبة المحتوى التكراري إلى المحتوى الفعلي.

      🤖

      بيانات تدريب الذكاء الاصطناعي/تعلّم الآلة

      ابنِ مدوّنات نصية نظيفة من صفحات الويب العامة لضبط نماذج اللغة أو أنظمة البحث أو مصنّفات المحتوى - دون أن تزيل الوسوم بنفسك.

      ما يُبقى عليه وما يُزال

      قواعد واضحة لتعرف بالضبط ما تحصل عليه وما تفقده.

      ✓ يُبقى عليه

      • نص الفقرات
      • نص العناوين (من h1 إلى h6)
      • عناصر القوائم (ul وol)
      • نص الروابط
      • نص خلايا الجداول
      • نص الاقتباسات والمصادر
      • نص تسميات النماذج والأزرار
      • كل النص المرئي في المتن (textContent)

      ✗ يُزال

      • كل وسوم HTML نفسها
      • كتل <script> ومحتوياتها
      • كتل <style> وCSS المضمَّن
      • محتوى <noscript>
      • <svg> و<iframe> و<object> و<embed>
      • وسوم meta ومحتوى الرأس
      • سمات alt للصور
      • النص الديناميكي المعروض بواسطة JavaScript

      تُسوّى المسافات البيضاء: تُدمَج المسافات والجدولات والأسطر الجديدة المتتالية حتى لا ينتهي بك الأمر بفجوات فارغة كبيرة من المسافات البادئة في HTML الأصلي. وتُحفَظ فواصل الفقرات حيثما دلّ عليها الترميز.

      خمس خطوات خلف الكواليس

      ما يحدث بين لصق الرابط ورؤية النص المستخرَج.

      1. جلب الصفحة من جهة الخادميطلب خادمنا الرابط مباشرةً. ولا يُشغَّل أي JavaScript - نحصل على استجابة HTML الخام التي يرسلها المصدر.
      2. تحليل HTML إلى شجرةيبني محلِّل HTML سليم شجرة شبيهة بـDOM من الترميز، ويتعامل مع الحالات الحدّية مثل الوسوم المشوَّهة، والإغلاقات الناقصة، والعناصر السطرية المتداخلة.
      3. تقليم الفروع غير المحتوىتُحذف عُقد script وstyle وnoscript والتعليقات قبل الاستخراج حتى لا تصل محتوياتها أبدًا إلى الناتج.
      4. قراءة كل العُقد النصيةنسحب textContent الخاص بالمتن، الذي يجمع كل عقدة نصية بترتيب المستند - فتحصل على الكلمات التي يراها القارئ.
      5. التسوية والعرضتُدمَج المسافات البيضاء المتتالية، وتُدمَج الأسطر الفارغة المتتابعة، ويُعرَض الناتج جنبًا إلى جنب مع HTML المصدري مع عددَي الكلمات والمحارف.

      مستخرج نصوص HTML مقابل الأساليب الأخرى

      كيف تُقارَن هذه الأداة بوضع القراءة في المتصفح والمكتبات البرمجية والاستخراج اليدوي.

      الأسلوبالأفضل لـالمقايضات
      هذه الأداةاستخراج سريع لمرة واحدة، ومقارنة جنبًا إلى جنب، وعلى أي جهازالنص المُعرَّض من جهة الخادم فقط (دون محتوى معروض بـJavaScript)
      وضع القراءة في المتصفحقراءة مقال واحد خالية من المشتّتاتيستخدم استدلالات تخمينية؛ وقد يفوته متن المقال أو يسيء تحديده
      النسخ واللصق من المتصفحالتقاط مقتطف قصير بصريًاممل للصفحات الكاملة؛ وقد يرث أنماطًا مخفية؛ ويفوته المحتوى خارج إطار العرض
      readability-js / Mercury Parserاستخراج مبرمَج مركَّز على المقالات في تطبيقات Nodeيتطلب قاعدة شيفرة لربطه؛ ويركّز على المقالات فقط
      BeautifulSoup / Cheerioأدوات كشط مخصّصة بلغة Python/JS بقواعد محددةوقت تطوير لكتابة المحدِّدات وصيانتها لكل موقع
      curl + pandoc / html2textخطوط أوامر في سطر الأوامر على جهاز المطوِّرفي الطرفية فقط؛ مع عبء التثبيت والإعداد

      بالنسبة لمعظم الناس - فرق المحتوى وخبراء SEO والمترجمين والباحثين - فإن أسرع طريق من الرابط إلى النص النظيف هو مستخرِج مستضاف. ولا تختر مكتبة برمجية أو تكتب شيفرة مخصّصة إلا عندما تحتاج إلى تكرار مبرمَج، أو استخراج متن المقال فقط، أو قواعد خاصة بموقع معيّن لا تستطيع الأدوات العامة التعامل معها.

      الأسئلة المتكررة

      أسئلة شائعة حول استخراج النص من صفحات HTML.

      ما الفرق بين HTML والنص؟

      HTML هي لغة الترميز التي تغلّف المحتوى بوسوم (<p> و<h1> و<a> و<div> وغيرها) ليعرف المتصفح كيفية عرضه. أما النص فهو المحتوى المقروء داخل تلك الوسوم. وعندما "تستخرج النص" من HTML، فأنت تزيل الوسوم والنصوص البرمجية والتنسيق لتبقي فقط على الكلمات التي يراها القارئ فعليًا على الصفحة.

      هل يشمل ذلك النص الذي تضيفه JavaScript؟

      لا. يعمل المستخرِج على كود HTML الخام الذي يعيده الخادم قبل تشغيل أي JavaScript من جهة العميل. وبالنسبة لتطبيقات الصفحة الواحدة المبنية على React أو Vue أو Angular، لن يظهر المحتوى المُدرَج بعد التحميل في النص المستخرَج. وإذا كان المحتوى الرئيسي للصفحة يُعرَض من جهة العميل فقط، فستحصل عادةً على نتيجة فارغة في معظمها.

      هل هذا مثل وضع القراءة في المتصفح؟

      الهدف متشابه - عرض محتوى الصفحة خاليًا من المشتّتات - لكن الأسلوب يختلف. يستخدم وضع القراءة استدلالات DOM لتخمين الجزء الذي يمثّل المقال الرئيسي وإخفاء البقية. أما مستخرِجنا فيزيل العناصر غير المحتوى مثل النصوص البرمجية والأنماط، ويبقي على نص المستند كاملًا. تحصل على نص أكثر، مع ذكاء أقل بشأن أي جزء هو متن "المقال".

      ما الذي يُزال تحديدًا مقابل ما يُبقى عليه؟

      يُزال: عناصر <script> و<style> و<noscript> و<svg> و<iframe> و<object> و<embed> إلى جانب كل ترميز الوسوم نفسه. كما يُستبعَد محتوى الرأس (وسوم meta وlink والعنوان title).

      ويُبقى على: النص المرئي للفقرات والعناوين وعناصر القوائم والروابط وخلايا الجداول وأي عنصر آخر يحمل نصًا داخل المتن. وتُسوّى المسافات البيضاء حتى لا تحصل على سطور فارغة متتالية كثيرة.

      هل يمكنني استخراج النص من صفحات بغير الإنجليزية؟

      نعم. يُحافَظ على ترميز UTF-8، لذا تظهر العربية والصينية واليابانية والكورية والسيريلية والرموز التعبيرية ومعظم النصوص الأخرى بشكل صحيح. ولا نترجم - تحصل على النص بلغته الأصلية.

      هل يمكنني استخراج النص من ملفات PDF أو مستندات Word؟

      تُدعَم صفحات HTML فقط. أما ملفات PDF والصيغ الثنائية الأخرى فتتطلب أدوات مختلفة. أخبرنا عبر Twitter إن كان دعم PDF مفيدًا لك - فنحن نقيس مدى الحاجة إليه.

      لماذا أستخدم هذه الأداة لتحسين محركات البحث؟

      تفهرس محركات البحث في المقام الأول المحتوى النصي للصفحة. واستخراج النص وحده يتيح لك تدقيق كثافة الكلمات المفتاحية، والتأكد من أن أهم محتواك مُعرَّض من جهة الخادم (مرئي لبرامج الزحف عند أول جلب)، وقياس عدد الكلمات، والتحقق من أن عناصر التنقل والمحتوى التكراري في التذييل لا تطغى على محتواك الحقيقي.

      هل يمكنني تنزيل النص المستخرَج؟

      نعم. استخدم زر التنزيل بجوار لوحة النص المستخرَج لحفظه كملف .txt. ويضعه زر النسخ في الحافظة.

      هل بياناتي خاصة؟

      لا نخزّن استعلاماتك ولا نربط عمليات الاستخراج بهويتك. وتُخزَّن الاستجابات مؤقتًا لفترة وجيزة لتحسين الأداء. التفاصيل الكاملة في سياسة الخصوصية.

      أدوات وأدلة ذات صلة

      تعمّق أكثر في محتوى الويب وكود المصدر وتحسين محركات البحث عبر هذه الموارد.