Sayfa Kaynağını Görüntüle + Akıllı Analiz
Tarayıcınızda tam HTML kaynak kodunu SEO denetimi, teknoloji tespiti ve performans metrikleriyle inceleyin.
Herhangi bir web sitesinden temiz, okunabilir metin çıkarın. HTML kaynak kodunu çıkarılmış metin içeriğiyle yan yana görün.
Etiketleri, betikleri ve stilleri ayıklayın. Kelimeleri saklayın. Bir okuyucunun göreceği içeriği düz metin olarak alın.
Her web sayfası iki şeyin karışımıdır: işaretleme - bir tarayıcıya içeriği nasıl yapılandıracağını ve görüntüleyeceğini söyleyen HTML etiketleri - ve içeriğin kendisi, yani okuyucunun gerçekten gördüğü kelimeler, sayılar ve karakterler. Bir sayfanın kaynağını görüntülediğinizde, gördüklerinizin çoğu işaretlemedir: açılış ve kapanış etiketleri, sınıf adları, betik blokları, satır içi stiller ve meta veriler. Okunabilir içerik tüm bunların arasına sıkıştırılmıştır.
HTML Metin Ayıklayıcı tek bir iş yapar: okunabilir içeriği çekip çıkarır ve gerisini atar. Herkese açık herhangi bir URL'yi yapıştırın ve sayfanın temiz, düz metin sürümünü alın - etiket yok, betik yok, stil sayfası yok, gezinme gürültüsü yok. Orijinal HTML, karşılaştırabilmeniz, doğrulayabilmeniz ve ihtiyacınız olanı seçebilmeniz için yan yana görünür kalır.
Ayıklama sunucu tarafında ham HTML yanıtı üzerinde gerçekleştiği için, tam olarak bir arama motoru tarayıcısının ilk dizine ekleyeceği şeyi alırsınız - istemci tarafı JavaScript'in bir şey ekleme şansı olmadan önce. SEO denetimleri, içerik envanteri, çeviri hazırlığı ve yapay zeka/makine öğrenimi eğitim verileri için genellikle istediğiniz sürüm budur.
İçerik denetimlerinden dikkat dağıtıcı unsurlardan arındırılmış okumaya - metin ayıklamayı kimin neden kullandığı.
Kelimeleri sayın, okuma süresini ölçün, anahtar kelime yoğunluğunu kontrol edin ve sayfanızın metinsel gövdesinin hedeflediğiniz konuyu gerçekten yansıtıp yansıtmadığını değerlendirin.
Çevirmenlere, araçlarını bozan veya elle filtrelemeleri için ek zaman gerektiren HTML gürültüsü olmadan temiz kaynak metni teslim edin.
Pop-up'lar, kenar çubukları ve reklamlarla dolu karmaşık bir sayfadan bir makaleyi çıkarın. Bir not uygulamasına, Kindle'a veya sonra-oku aracına aktarın.
Bir ekran okuyucunun sayfada neyle karşılaşacağına dair kaba bir fikir edinin - okuma sırasını ve içerik önceliklerini kontrol etmek için gereklidir.
Ana içeriğinizin sunucu tarafında oluşturulduğunu (tarayıcılar tarafından görülebildiğini) doğrulayın, gövde metnindeki anahtar kelime varlığını kontrol edin ve şablon-içerik oranlarını tespit edin.
Dil modellerini, arama sistemlerini veya içerik sınıflandırıcılarını ince ayar yapmak için - etiketleri kendiniz kaldırmadan - herkese açık web sayfalarından temiz metin külliyatları oluşturun.
Tam olarak ne aldığınızı ve neyi kaybettiğinizi bilmeniz için açık kurallar.
textContent<script> blokları ve içerikleri<style> blokları ve satır içi CSS<noscript> içeriği<svg>, <iframe>, <object>, <embed>alt özellikleriBoşluklar normalleştirilir: boşluk, sekme ve yeni satır dizileri daraltılır, böylece orijinal HTML girintisinden kaynaklanan büyük boş aralıklar elde etmezsiniz. Paragraf sonları, işaretlemenin ima ettiği yerlerde korunur.
Bir URL yapıştırmak ile çıkarılan metni görmek arasında neler olur.
textContent özelliğini alırız; bu, her metin düğümünü belge sırasına göre birleştirir - bir okuyucunun göreceği kelimeleri elde edersiniz.Bu aracın tarayıcı Okuyucu Modu, kütüphaneler ve elle ayıklamayla karşılaştırması.
| Yaklaşım | En iyi kullanım | Dezavantajlar |
|---|---|---|
| Bu araç | Hızlı tek seferlik ayıklama, yan yana karşılaştırma, her cihaz | Yalnızca sunucuda oluşturulan metin (JS ile oluşturulan içerik yok) |
| Tarayıcı Okuyucu Modu | Tek bir makaleyi dikkat dağıtıcı unsurlar olmadan okumak | Tahmine dayalı sezgisel yöntemler kullanır; makale gövdesini atlayabilir veya yanlış tanımlayabilir |
| Tarayıcıdan kopyala-yapıştır | Kısa bir alıntıyı görsel olarak almak | Tüm sayfalar için zahmetli; gizli stiller miras alabilir; görüntü alanı dışındaki içeriği kaçırır |
readability-js / Mercury Parser | Node uygulamalarında betiklenmiş, makaleye odaklı ayıklama | Bağlamak için bir kod tabanı gerektirir; yalnızca makaleye odaklıdır |
| BeautifulSoup / Cheerio | Belirli kurallarla özel Python/JS sıyırıcılar | Site başına seçiciler yazmak ve sürdürmek için geliştirici zamanı |
| curl + pandoc / html2text | Geliştirici makinesinde CLI boru hatları | Yalnızca terminal; kurulum ve yapılandırma yükü |
Çoğu kişi için - içerik ekipleri, SEO uzmanları, çevirmenler, araştırmacılar - URL'den temiz metne giden en hızlı yol, barındırılan bir ayıklayıcıdır. Yalnızca programatik tekrarlama, yalnızca makale gövdesi ayıklama veya genel araçların üstesinden gelemediği siteye özgü kurallara ihtiyacınız olduğunda bir kütüphane seçin ya da özel kod yazın.
HTML sayfalarından metin çıkarma hakkında sık sorulan sorular.
HTML, içeriği etiketlerle (<p>, <h1>, <a>, <div>, vb.) saran, tarayıcıların onu nasıl görüntüleyeceğini bilmesini sağlayan işaretleme dilidir. Metin ise bu etiketlerin içindeki insan tarafından okunabilir içeriktir. HTML'den "metin çıkardığınızda", yalnızca bir okuyucunun sayfada gerçekten göreceği kelimeleri tutmak için etiketleri, betikleri ve stili kaldırırsınız.
Hayır. Ayıklayıcı, herhangi bir istemci tarafı JavaScript çalışmadan önce sunucu tarafından döndürülen ham HTML üzerinde çalışır. React, Vue veya Angular üzerine inşa edilmiş tek sayfalı uygulamalar için, yüklemeden sonra eklenen içerik çıkarılan metinde görünmez. Bir sayfanın ana içeriği yalnızca istemci tarafında oluşturuluyorsa, genellikle çoğunlukla boş bir sonuç görürsünüz.
Amaç benzer - bir sayfanın içeriğinin dikkat dağıtıcı unsurlardan arındırılmış bir görünümü - ancak yöntem farklıdır. Okuyucu Modu, sayfanın hangi bölümünün ana makale olduğunu tahmin etmek için DOM sezgisel yöntemlerini kullanır ve gerisini gizler. Ayıklayıcımız, betikler ve stiller gibi içerik dışı öğeleri kaldırır ve belgenin tüm metnini korur. Hangi bölümün "makale" gövdesi olduğu konusunda daha az zeka ile daha fazla metin elde edersiniz.
Kaldırılanlar: <script>, <style>, <noscript>, <svg>, <iframe>, <object> ve <embed> öğeleri, tüm etiket işaretlemesinin kendisiyle birlikte. Head içeriği (meta etiketleri, link etiketleri, title) da hariç tutulur.
Korunanlar: paragrafların, başlıkların, liste öğelerinin, bağlantıların, tablo hücrelerinin ve gövde içindeki metin taşıyan herhangi bir öğenin görünür metni. Boşluklar normalleştirilir, böylece büyük boş satır dizileri elde etmezsiniz.
Evet. UTF-8 kodlaması korunur, bu nedenle Arapça, Çince, Japonca, Korece, Kiril alfabesi, emoji ve diğer birçok yazı sistemi doğru şekilde aktarılır. Çeviri yapmıyoruz - metni orijinal dilinde alırsınız.
Yalnızca HTML sayfaları desteklenir. PDF'ler ve diğer ikili biçimler farklı araçlar gerektirir. PDF desteğini yararlı bulursanız Twitter üzerinden bize bildirin - talebi ölçüyoruz.
Arama motorları öncelikle bir sayfanın metinsel içeriğini dizine ekler. Yalnızca metni çıkarmak, anahtar kelime yoğunluğunu denetlemenize, en önemli içeriğinizin sunucuda oluşturulduğunu (ilk getirmede tarayıcılar tarafından görülebildiğini) doğrulamanıza, kelime sayılarını ölçmenize ve gezinme ile altbilgi şablon metinlerinin gerçek içeriğinizi boğmadığını kontrol etmenize olanak tanır.
Evet. Çıkarılan metin panelinin yanındaki İndir düğmesini kullanarak bir .txt dosyası olarak kaydedin. Kopyala düğmesi metni panonuza yerleştirir.
Sorgularınızı saklamıyoruz veya çıkarmaları kimliğinize bağlamıyoruz. Yanıtlar performans için kısa süreliğine önbelleğe alınır. Tüm ayrıntılar için gizlilik politikamıza bakın.
Bu kaynaklarla web içeriği, kaynak kodu ve SEO konularında daha derine inin.

Tarayıcınızda tam HTML kaynak kodunu SEO denetimi, teknoloji tespiti ve performans metrikleriyle inceleyin.

Yalnızca metne değil, tam HTML'ye mi ihtiyacınız var? Herhangi bir herkese açık sayfanın kaynağını indirilebilir dosya olarak kaydedin.

HTML yapısının arama sıralamalarını nasıl etkilediği - ve bir sayfayı denetlerken nelere bakılacağı.

HTML yapısı, etiketleri ve herhangi bir sayfanın işaretlemesini anlamak için başlangıç seviyesi bir tur.

Açıklamalarıyla birlikte HTML5 etiketlerinin tam dizini - çıkarılan veya ham işaretlemeyi incelerken yararlıdır.

HTML, CSS ve JavaScript ile çalışmak için en iyi ücretsiz ve ücretli kod editörleri ile IDE'ler için bir kılavuz.