هل يمكنني استخراج النص من ملفات PDF أو مستندات أخرى؟

تُدعَم صفحات HTML فقط. أما ملفات PDF ومستندات Word والصيغ الثنائية الأخرى فتتطلب أدوات مختلفة. وقد نضيف دعم PDF مستقبلًا - أخبرنا إن كان مفيدًا لك.

أداة مجانية عبر الإنترنت - لا تتطلب أي تثبيت

مستخرج نصوص HTML

Q: ما الفرق بين HTML والنص؟

HTML هي لغة الترميز التي تغلّف المحتوى بوسوم ( و و و وغيرها) ليعرف المتصفح كيفية عرضه. أما النص فهو المحتوى المقروء داخل تلك الوسوم. وعندما 'تستخرج النص' من HTML، فأنت تزيل الوسوم والنصوص البرمجية والتنسيق لتبقي فقط على الكلمات التي يراها القارئ فعليًا على الصفحة.

Q: هل هذا مثل وضع القراءة في المتصفح؟

الهدف متشابه - منحك نسخة من محتوى الصفحة خالية من المشتّتات - لكن الأسلوب يختلف. يستخدم وضع القراءة استدلالات DOM لتخمين الجزء الذي يمثّل المقال الرئيسي وإخفاء البقية. أما مستخرِجنا فيعمل على HTML الخام ويزيل العناصر غير المحتوى مثل النصوص البرمجية والأنماط، مع الإبقاء على نص المستند كاملًا. تحصل على نص أكثر، مع ذكاء أقل بشأن أي جزء هو متن 'المقال'.

Q: ما الذي يُزال تحديدًا مقابل ما يُبقى عليه؟

يُزال: عناصر script وstyle وnoscript وsvg وiframe وobject وembed، إلى جانب كل ترميز الوسوم نفسه ومحتوى الرأس (meta وlink وtitle). ويُبقى على: النص المرئي للفقرات والعناوين وعناصر القوائم والروابط وخلايا الجداول وأي عنصر آخر يحمل نصًا داخل المتن. وتُسوّى المسافات البيضاء حتى لا تحصل على سطور فارغة متتالية كثيرة.

Q: لماذا أستخدم هذه الأداة لتحسين محركات البحث؟

تفهرس محركات البحث المحتوى النصي للصفحة. وباستخراج النص وحده، يمكنك تدقيق كثافة الكلمات المفتاحية، والتأكد من أن أهم محتواك مُعرَّض من جهة الخادم، وقياس عدد الكلمات، والتحقق من أن عناصر التنقل والمحتوى التكراري لا تطغى على المحتوى الحقيقي.

استخرج نصًا نظيفًا وقابلًا للقراءة من أي موقع إلكتروني. اعرض كود HTML المصدري جنبًا إلى جنب مع المحتوى النصي المستخرَج.

source.html

extracted-text.txt

⚡سرعة الصفحة

🖥معلومات الخادم

📄معلومات الصفحة

نظرة عامة

ماذا يعني استخراج النص من HTML

أزِل الوسوم والنصوص البرمجية والأنماط. واحتفظ بالكلمات. واحصل على المحتوى نفسه الذي يراه القارئ - كنص عادي.

كل صفحة ويب مزيج من شيئين: الترميز - وسوم HTML التي تخبر المتصفح بكيفية هيكلة المحتوى وعرضه - والمحتوى نفسه، أي الكلمات والأرقام والمحارف التي يراها القارئ فعلًا. وعندما تعرض مصدر صفحة، فإن معظم ما تراه هو ترميز: وسوم فتح وإغلاق، وأسماء أصناف (classes)، وكتل برمجية، وأنماط مضمَّنة، وبيانات وصفية. أما المحتوى المقروء فمحشور بين كل ذلك.

يؤدي مستخرج نصوص HTML مهمة واحدة: انتزاع المحتوى المقروء والتخلّص من الباقي. الصق أي رابط عام، فتحصل على نسخة نظيفة بنص عادي من الصفحة - دون وسوم ولا نصوص برمجية ولا أوراق أنماط ولا ضجيج تنقّل. ويبقى HTML الأصلي مرئيًا جنبًا إلى جنب لتتمكن من المقارنة والتحقق وانتقاء ما تحتاجه.

ولأن الاستخراج يجري من جهة الخادم على استجابة HTML الخام، فإنك تحصل على ما يفهرسه برنامج زحف محرك البحث أولًا تمامًا - قبل أن تتاح لـJavaScript من جهة العميل فرصة إضافة أي شيء. ولأغراض تدقيق SEO، وجرد المحتوى، والتحضير للترجمة، وبيانات تدريب الذكاء الاصطناعي/تعلّم الآلة، فهذه عادةً هي النسخة التي تريدها.

حالات الاستخدام

متى تحتاج إلى استخراج النص من HTML

من تدقيق المحتوى إلى القراءة الخالية من المشتّتات - إليك من يستخدم استخراج النص ولماذا.

📝

تدقيق المحتوى

احسب الكلمات، وقِس زمن القراءة، وتحقّق من كثافة الكلمات المفتاحية، وقيّم ما إذا كان متن صفحتك النصي يعكس فعلًا الموضوع الذي تستهدفه.

🌐

التحضير للترجمة

سلّم المترجمين نصًا مصدريًا نظيفًا دون ضجيج HTML الذي يعطّل أدواتهم أو يكلّفهم وقتًا إضافيًا لتصفيته يدويًا.

📖

قراءة خالية من المشتّتات

انتزع مقالًا من صفحة مزدحمة بالنوافذ المنبثقة والأشرطة الجانبية والإعلانات. وانقله إلى تطبيق ملاحظات أو Kindle أو أداة للقراءة لاحقًا.

♿

مراجعة إمكانية الوصول

كوّن تصورًا مبدئيًا لما سيصادفه قارئ الشاشة على الصفحة - وهو أمر أساسي للتحقق من ترتيب القراءة وأولويات المحتوى.

📊

تحليل محتوى SEO

تأكّد من أن محتواك الرئيسي مُعرَّض من جهة الخادم (مرئي لبرامج الزحف)، وتحقّق من وجود الكلمات المفتاحية في نص المتن، ورصد نسبة المحتوى التكراري إلى المحتوى الفعلي.

🤖

بيانات تدريب الذكاء الاصطناعي/تعلّم الآلة

ابنِ مدوّنات نصية نظيفة من صفحات الويب العامة لضبط نماذج اللغة أو أنظمة البحث أو مصنّفات المحتوى - دون أن تزيل الوسوم بنفسك.

السلوك

ما يُبقى عليه وما يُزال

قواعد واضحة لتعرف بالضبط ما تحصل عليه وما تفقده.

✓ يُبقى عليه

نص الفقرات
نص العناوين (من h1 إلى h6)
عناصر القوائم (ul وol)
نص الروابط
نص خلايا الجداول
نص الاقتباسات والمصادر
نص تسميات النماذج والأزرار
كل النص المرئي في المتن (textContent)

✗ يُزال

كل وسوم HTML نفسها
كتل <script> ومحتوياتها
كتل <style> وCSS المضمَّن
محتوى <noscript>
<svg> و<iframe> و<object> و<embed>
وسوم meta ومحتوى الرأس
سمات alt للصور
النص الديناميكي المعروض بواسطة JavaScript

تُسوّى المسافات البيضاء: تُدمَج المسافات والجدولات والأسطر الجديدة المتتالية حتى لا ينتهي بك الأمر بفجوات فارغة كبيرة من المسافات البادئة في HTML الأصلي. وتُحفَظ فواصل الفقرات حيثما دلّ عليها الترميز.

كيف تعمل

خمس خطوات خلف الكواليس

ما يحدث بين لصق الرابط ورؤية النص المستخرَج.

جلب الصفحة من جهة الخادميطلب خادمنا الرابط مباشرةً. ولا يُشغَّل أي JavaScript - نحصل على استجابة HTML الخام التي يرسلها المصدر.
تحليل HTML إلى شجرةيبني محلِّل HTML سليم شجرة شبيهة بـDOM من الترميز، ويتعامل مع الحالات الحدّية مثل الوسوم المشوَّهة، والإغلاقات الناقصة، والعناصر السطرية المتداخلة.
تقليم الفروع غير المحتوىتُحذف عُقد script وstyle وnoscript والتعليقات قبل الاستخراج حتى لا تصل محتوياتها أبدًا إلى الناتج.
قراءة كل العُقد النصيةنسحب textContent الخاص بالمتن، الذي يجمع كل عقدة نصية بترتيب المستند - فتحصل على الكلمات التي يراها القارئ.
التسوية والعرضتُدمَج المسافات البيضاء المتتالية، وتُدمَج الأسطر الفارغة المتتابعة، ويُعرَض الناتج جنبًا إلى جنب مع HTML المصدري مع عددَي الكلمات والمحارف.

البدائل

مستخرج نصوص HTML مقابل الأساليب الأخرى

كيف تُقارَن هذه الأداة بوضع القراءة في المتصفح والمكتبات البرمجية والاستخراج اليدوي.

الأسلوب	الأفضل لـ	المقايضات
هذه الأداة	استخراج سريع لمرة واحدة، ومقارنة جنبًا إلى جنب، وعلى أي جهاز	النص المُعرَّض من جهة الخادم فقط (دون محتوى معروض بـJavaScript)
وضع القراءة في المتصفح	قراءة مقال واحد خالية من المشتّتات	يستخدم استدلالات تخمينية؛ وقد يفوته متن المقال أو يسيء تحديده
النسخ واللصق من المتصفح	التقاط مقتطف قصير بصريًا	ممل للصفحات الكاملة؛ وقد يرث أنماطًا مخفية؛ ويفوته المحتوى خارج إطار العرض
`readability-js` / Mercury Parser	استخراج مبرمَج مركَّز على المقالات في تطبيقات Node	يتطلب قاعدة شيفرة لربطه؛ ويركّز على المقالات فقط
BeautifulSoup / Cheerio	أدوات كشط مخصّصة بلغة Python/JS بقواعد محددة	وقت تطوير لكتابة المحدِّدات وصيانتها لكل موقع
curl + pandoc / html2text	خطوط أوامر في سطر الأوامر على جهاز المطوِّر	في الطرفية فقط؛ مع عبء التثبيت والإعداد

بالنسبة لمعظم الناس - فرق المحتوى وخبراء SEO والمترجمين والباحثين - فإن أسرع طريق من الرابط إلى النص النظيف هو مستخرِج مستضاف. ولا تختر مكتبة برمجية أو تكتب شيفرة مخصّصة إلا عندما تحتاج إلى تكرار مبرمَج، أو استخراج متن المقال فقط، أو قواعد خاصة بموقع معيّن لا تستطيع الأدوات العامة التعامل معها.

الأسئلة الشائعة

الأسئلة المتكررة

أسئلة شائعة حول استخراج النص من صفحات HTML.

ما الفرق بين HTML والنص؟

HTML هي لغة الترميز التي تغلّف المحتوى بوسوم (<p> و<h1> و<a> و<div> وغيرها) ليعرف المتصفح كيفية عرضه. أما النص فهو المحتوى المقروء داخل تلك الوسوم. وعندما "تستخرج النص" من HTML، فأنت تزيل الوسوم والنصوص البرمجية والتنسيق لتبقي فقط على الكلمات التي يراها القارئ فعليًا على الصفحة.

هل يشمل ذلك النص الذي تضيفه JavaScript؟

لا. يعمل المستخرِج على كود HTML الخام الذي يعيده الخادم قبل تشغيل أي JavaScript من جهة العميل. وبالنسبة لتطبيقات الصفحة الواحدة المبنية على React أو Vue أو Angular، لن يظهر المحتوى المُدرَج بعد التحميل في النص المستخرَج. وإذا كان المحتوى الرئيسي للصفحة يُعرَض من جهة العميل فقط، فستحصل عادةً على نتيجة فارغة في معظمها.

هل هذا مثل وضع القراءة في المتصفح؟

الهدف متشابه - عرض محتوى الصفحة خاليًا من المشتّتات - لكن الأسلوب يختلف. يستخدم وضع القراءة استدلالات DOM لتخمين الجزء الذي يمثّل المقال الرئيسي وإخفاء البقية. أما مستخرِجنا فيزيل العناصر غير المحتوى مثل النصوص البرمجية والأنماط، ويبقي على نص المستند كاملًا. تحصل على نص أكثر، مع ذكاء أقل بشأن أي جزء هو متن "المقال".

ما الذي يُزال تحديدًا مقابل ما يُبقى عليه؟

يُزال: عناصر <script> و<style> و<noscript> و<svg> و<iframe> و<object> و<embed> إلى جانب كل ترميز الوسوم نفسه. كما يُستبعَد محتوى الرأس (وسوم meta وlink والعنوان title).

ويُبقى على: النص المرئي للفقرات والعناوين وعناصر القوائم والروابط وخلايا الجداول وأي عنصر آخر يحمل نصًا داخل المتن. وتُسوّى المسافات البيضاء حتى لا تحصل على سطور فارغة متتالية كثيرة.

هل يمكنني استخراج النص من صفحات بغير الإنجليزية؟

نعم. يُحافَظ على ترميز UTF-8، لذا تظهر العربية والصينية واليابانية والكورية والسيريلية والرموز التعبيرية ومعظم النصوص الأخرى بشكل صحيح. ولا نترجم - تحصل على النص بلغته الأصلية.

هل يمكنني استخراج النص من ملفات PDF أو مستندات Word؟

تُدعَم صفحات HTML فقط. أما ملفات PDF والصيغ الثنائية الأخرى فتتطلب أدوات مختلفة. أخبرنا عبر Twitter إن كان دعم PDF مفيدًا لك - فنحن نقيس مدى الحاجة إليه.

لماذا أستخدم هذه الأداة لتحسين محركات البحث؟

تفهرس محركات البحث في المقام الأول المحتوى النصي للصفحة. واستخراج النص وحده يتيح لك تدقيق كثافة الكلمات المفتاحية، والتأكد من أن أهم محتواك مُعرَّض من جهة الخادم (مرئي لبرامج الزحف عند أول جلب)، وقياس عدد الكلمات، والتحقق من أن عناصر التنقل والمحتوى التكراري في التذييل لا تطغى على محتواك الحقيقي.

هل يمكنني تنزيل النص المستخرَج؟

نعم. استخدم زر التنزيل بجوار لوحة النص المستخرَج لحفظه كملف .txt. ويضعه زر النسخ في الحافظة.

هل بياناتي خاصة؟

لا نخزّن استعلاماتك ولا نربط عمليات الاستخراج بهويتك. وتُخزَّن الاستجابات مؤقتًا لفترة وجيزة لتحسين الأداء. التفاصيل الكاملة في سياسة الخصوصية.