View Page Source + التحليل الذكي
افحص كود HTML المصدري كاملًا في متصفحك مع تدقيق SEO واكتشاف التقنيات ومقاييس الأداء.
استخرج نصًا نظيفًا وقابلًا للقراءة من أي موقع إلكتروني. اعرض كود HTML المصدري جنبًا إلى جنب مع المحتوى النصي المستخرَج.
أزِل الوسوم والنصوص البرمجية والأنماط. واحتفظ بالكلمات. واحصل على المحتوى نفسه الذي يراه القارئ - كنص عادي.
كل صفحة ويب مزيج من شيئين: الترميز - وسوم HTML التي تخبر المتصفح بكيفية هيكلة المحتوى وعرضه - والمحتوى نفسه، أي الكلمات والأرقام والمحارف التي يراها القارئ فعلًا. وعندما تعرض مصدر صفحة، فإن معظم ما تراه هو ترميز: وسوم فتح وإغلاق، وأسماء أصناف (classes)، وكتل برمجية، وأنماط مضمَّنة، وبيانات وصفية. أما المحتوى المقروء فمحشور بين كل ذلك.
يؤدي مستخرج نصوص HTML مهمة واحدة: انتزاع المحتوى المقروء والتخلّص من الباقي. الصق أي رابط عام، فتحصل على نسخة نظيفة بنص عادي من الصفحة - دون وسوم ولا نصوص برمجية ولا أوراق أنماط ولا ضجيج تنقّل. ويبقى HTML الأصلي مرئيًا جنبًا إلى جنب لتتمكن من المقارنة والتحقق وانتقاء ما تحتاجه.
ولأن الاستخراج يجري من جهة الخادم على استجابة HTML الخام، فإنك تحصل على ما يفهرسه برنامج زحف محرك البحث أولًا تمامًا - قبل أن تتاح لـJavaScript من جهة العميل فرصة إضافة أي شيء. ولأغراض تدقيق SEO، وجرد المحتوى، والتحضير للترجمة، وبيانات تدريب الذكاء الاصطناعي/تعلّم الآلة، فهذه عادةً هي النسخة التي تريدها.
من تدقيق المحتوى إلى القراءة الخالية من المشتّتات - إليك من يستخدم استخراج النص ولماذا.
احسب الكلمات، وقِس زمن القراءة، وتحقّق من كثافة الكلمات المفتاحية، وقيّم ما إذا كان متن صفحتك النصي يعكس فعلًا الموضوع الذي تستهدفه.
سلّم المترجمين نصًا مصدريًا نظيفًا دون ضجيج HTML الذي يعطّل أدواتهم أو يكلّفهم وقتًا إضافيًا لتصفيته يدويًا.
انتزع مقالًا من صفحة مزدحمة بالنوافذ المنبثقة والأشرطة الجانبية والإعلانات. وانقله إلى تطبيق ملاحظات أو Kindle أو أداة للقراءة لاحقًا.
كوّن تصورًا مبدئيًا لما سيصادفه قارئ الشاشة على الصفحة - وهو أمر أساسي للتحقق من ترتيب القراءة وأولويات المحتوى.
تأكّد من أن محتواك الرئيسي مُعرَّض من جهة الخادم (مرئي لبرامج الزحف)، وتحقّق من وجود الكلمات المفتاحية في نص المتن، ورصد نسبة المحتوى التكراري إلى المحتوى الفعلي.
ابنِ مدوّنات نصية نظيفة من صفحات الويب العامة لضبط نماذج اللغة أو أنظمة البحث أو مصنّفات المحتوى - دون أن تزيل الوسوم بنفسك.
قواعد واضحة لتعرف بالضبط ما تحصل عليه وما تفقده.
textContent)<script> ومحتوياتها<style> وCSS المضمَّن<noscript><svg> و<iframe> و<object> و<embed>alt للصورتُسوّى المسافات البيضاء: تُدمَج المسافات والجدولات والأسطر الجديدة المتتالية حتى لا ينتهي بك الأمر بفجوات فارغة كبيرة من المسافات البادئة في HTML الأصلي. وتُحفَظ فواصل الفقرات حيثما دلّ عليها الترميز.
ما يحدث بين لصق الرابط ورؤية النص المستخرَج.
textContent الخاص بالمتن، الذي يجمع كل عقدة نصية بترتيب المستند - فتحصل على الكلمات التي يراها القارئ.كيف تُقارَن هذه الأداة بوضع القراءة في المتصفح والمكتبات البرمجية والاستخراج اليدوي.
| الأسلوب | الأفضل لـ | المقايضات |
|---|---|---|
| هذه الأداة | استخراج سريع لمرة واحدة، ومقارنة جنبًا إلى جنب، وعلى أي جهاز | النص المُعرَّض من جهة الخادم فقط (دون محتوى معروض بـJavaScript) |
| وضع القراءة في المتصفح | قراءة مقال واحد خالية من المشتّتات | يستخدم استدلالات تخمينية؛ وقد يفوته متن المقال أو يسيء تحديده |
| النسخ واللصق من المتصفح | التقاط مقتطف قصير بصريًا | ممل للصفحات الكاملة؛ وقد يرث أنماطًا مخفية؛ ويفوته المحتوى خارج إطار العرض |
readability-js / Mercury Parser | استخراج مبرمَج مركَّز على المقالات في تطبيقات Node | يتطلب قاعدة شيفرة لربطه؛ ويركّز على المقالات فقط |
| BeautifulSoup / Cheerio | أدوات كشط مخصّصة بلغة Python/JS بقواعد محددة | وقت تطوير لكتابة المحدِّدات وصيانتها لكل موقع |
| curl + pandoc / html2text | خطوط أوامر في سطر الأوامر على جهاز المطوِّر | في الطرفية فقط؛ مع عبء التثبيت والإعداد |
بالنسبة لمعظم الناس - فرق المحتوى وخبراء SEO والمترجمين والباحثين - فإن أسرع طريق من الرابط إلى النص النظيف هو مستخرِج مستضاف. ولا تختر مكتبة برمجية أو تكتب شيفرة مخصّصة إلا عندما تحتاج إلى تكرار مبرمَج، أو استخراج متن المقال فقط، أو قواعد خاصة بموقع معيّن لا تستطيع الأدوات العامة التعامل معها.
أسئلة شائعة حول استخراج النص من صفحات HTML.
HTML هي لغة الترميز التي تغلّف المحتوى بوسوم (<p> و<h1> و<a> و<div> وغيرها) ليعرف المتصفح كيفية عرضه. أما النص فهو المحتوى المقروء داخل تلك الوسوم. وعندما "تستخرج النص" من HTML، فأنت تزيل الوسوم والنصوص البرمجية والتنسيق لتبقي فقط على الكلمات التي يراها القارئ فعليًا على الصفحة.
لا. يعمل المستخرِج على كود HTML الخام الذي يعيده الخادم قبل تشغيل أي JavaScript من جهة العميل. وبالنسبة لتطبيقات الصفحة الواحدة المبنية على React أو Vue أو Angular، لن يظهر المحتوى المُدرَج بعد التحميل في النص المستخرَج. وإذا كان المحتوى الرئيسي للصفحة يُعرَض من جهة العميل فقط، فستحصل عادةً على نتيجة فارغة في معظمها.
الهدف متشابه - عرض محتوى الصفحة خاليًا من المشتّتات - لكن الأسلوب يختلف. يستخدم وضع القراءة استدلالات DOM لتخمين الجزء الذي يمثّل المقال الرئيسي وإخفاء البقية. أما مستخرِجنا فيزيل العناصر غير المحتوى مثل النصوص البرمجية والأنماط، ويبقي على نص المستند كاملًا. تحصل على نص أكثر، مع ذكاء أقل بشأن أي جزء هو متن "المقال".
يُزال: عناصر <script> و<style> و<noscript> و<svg> و<iframe> و<object> و<embed> إلى جانب كل ترميز الوسوم نفسه. كما يُستبعَد محتوى الرأس (وسوم meta وlink والعنوان title).
ويُبقى على: النص المرئي للفقرات والعناوين وعناصر القوائم والروابط وخلايا الجداول وأي عنصر آخر يحمل نصًا داخل المتن. وتُسوّى المسافات البيضاء حتى لا تحصل على سطور فارغة متتالية كثيرة.
نعم. يُحافَظ على ترميز UTF-8، لذا تظهر العربية والصينية واليابانية والكورية والسيريلية والرموز التعبيرية ومعظم النصوص الأخرى بشكل صحيح. ولا نترجم - تحصل على النص بلغته الأصلية.
تُدعَم صفحات HTML فقط. أما ملفات PDF والصيغ الثنائية الأخرى فتتطلب أدوات مختلفة. أخبرنا عبر Twitter إن كان دعم PDF مفيدًا لك - فنحن نقيس مدى الحاجة إليه.
تفهرس محركات البحث في المقام الأول المحتوى النصي للصفحة. واستخراج النص وحده يتيح لك تدقيق كثافة الكلمات المفتاحية، والتأكد من أن أهم محتواك مُعرَّض من جهة الخادم (مرئي لبرامج الزحف عند أول جلب)، وقياس عدد الكلمات، والتحقق من أن عناصر التنقل والمحتوى التكراري في التذييل لا تطغى على محتواك الحقيقي.
نعم. استخدم زر التنزيل بجوار لوحة النص المستخرَج لحفظه كملف .txt. ويضعه زر النسخ في الحافظة.
لا نخزّن استعلاماتك ولا نربط عمليات الاستخراج بهويتك. وتُخزَّن الاستجابات مؤقتًا لفترة وجيزة لتحسين الأداء. التفاصيل الكاملة في سياسة الخصوصية.
تعمّق أكثر في محتوى الويب وكود المصدر وتحسين محركات البحث عبر هذه الموارد.

افحص كود HTML المصدري كاملًا في متصفحك مع تدقيق SEO واكتشاف التقنيات ومقاييس الأداء.

تحتاج إلى HTML كاملًا لا النص وحده؟ احفظ مصدر أي صفحة عامة كملف قابل للتنزيل.

كيف تؤثّر بنية HTML في ترتيب البحث - وما الذي ينبغي فحصه عند تدقيق صفحة.

جولة مناسبة للمبتدئين في بنية HTML والوسوم وكيفية فهم ترميز أي صفحة.

فهرس كامل لوسوم HTML5 مع شرحها - مفيد عند فحص الترميز المستخرَج أو الخام.

دليل لأفضل محررات الأكواد وبيئات التطوير المجانية والمدفوعة للعمل مع HTML وCSS وJavaScript.