Ücretsiz çevrimiçi araç - Kurulum gerektirmez

HTML Metin Ayıklayıcı

Herhangi bir web sitesinden temiz, okunabilir metin çıkarın. HTML kaynak kodunu çıkarılmış metin içeriğiyle yan yana görün.

https://
source.html
cikarilan-metin.txt

Sayfa Hızı

🖥Sunucu Bilgisi

    📄Sayfa Bilgisi

      HTML'den metin çıkarma ne anlama gelir

      Etiketleri, betikleri ve stilleri ayıklayın. Kelimeleri saklayın. Bir okuyucunun göreceği içeriği düz metin olarak alın.

      Her web sayfası iki şeyin karışımıdır: işaretleme - bir tarayıcıya içeriği nasıl yapılandıracağını ve görüntüleyeceğini söyleyen HTML etiketleri - ve içeriğin kendisi, yani okuyucunun gerçekten gördüğü kelimeler, sayılar ve karakterler. Bir sayfanın kaynağını görüntülediğinizde, gördüklerinizin çoğu işaretlemedir: açılış ve kapanış etiketleri, sınıf adları, betik blokları, satır içi stiller ve meta veriler. Okunabilir içerik tüm bunların arasına sıkıştırılmıştır.

      HTML Metin Ayıklayıcı tek bir iş yapar: okunabilir içeriği çekip çıkarır ve gerisini atar. Herkese açık herhangi bir URL'yi yapıştırın ve sayfanın temiz, düz metin sürümünü alın - etiket yok, betik yok, stil sayfası yok, gezinme gürültüsü yok. Orijinal HTML, karşılaştırabilmeniz, doğrulayabilmeniz ve ihtiyacınız olanı seçebilmeniz için yan yana görünür kalır.

      Ayıklama sunucu tarafında ham HTML yanıtı üzerinde gerçekleştiği için, tam olarak bir arama motoru tarayıcısının ilk dizine ekleyeceği şeyi alırsınız - istemci tarafı JavaScript'in bir şey ekleme şansı olmadan önce. SEO denetimleri, içerik envanteri, çeviri hazırlığı ve yapay zeka/makine öğrenimi eğitim verileri için genellikle istediğiniz sürüm budur.

      HTML'den metin çıkarmak istediğiniz durumlar

      İçerik denetimlerinden dikkat dağıtıcı unsurlardan arındırılmış okumaya - metin ayıklamayı kimin neden kullandığı.

      📝

      İçerik Denetimleri

      Kelimeleri sayın, okuma süresini ölçün, anahtar kelime yoğunluğunu kontrol edin ve sayfanızın metinsel gövdesinin hedeflediğiniz konuyu gerçekten yansıtıp yansıtmadığını değerlendirin.

      🌐

      Çeviri Hazırlığı

      Çevirmenlere, araçlarını bozan veya elle filtrelemeleri için ek zaman gerektiren HTML gürültüsü olmadan temiz kaynak metni teslim edin.

      📖

      Dikkat Dağıtıcı Unsursuz Okuma

      Pop-up'lar, kenar çubukları ve reklamlarla dolu karmaşık bir sayfadan bir makaleyi çıkarın. Bir not uygulamasına, Kindle'a veya sonra-oku aracına aktarın.

      Erişilebilirlik İncelemesi

      Bir ekran okuyucunun sayfada neyle karşılaşacağına dair kaba bir fikir edinin - okuma sırasını ve içerik önceliklerini kontrol etmek için gereklidir.

      📊

      SEO İçerik Analizi

      Ana içeriğinizin sunucu tarafında oluşturulduğunu (tarayıcılar tarafından görülebildiğini) doğrulayın, gövde metnindeki anahtar kelime varlığını kontrol edin ve şablon-içerik oranlarını tespit edin.

      🤖

      Yapay Zeka/ML Eğitim Verileri

      Dil modellerini, arama sistemlerini veya içerik sınıflandırıcılarını ince ayar yapmak için - etiketleri kendiniz kaldırmadan - herkese açık web sayfalarından temiz metin külliyatları oluşturun.

      Ne korunur, ne ayıklanır

      Tam olarak ne aldığınızı ve neyi kaybettiğinizi bilmeniz için açık kurallar.

      ✓ Korunanlar

      • Paragraf metni
      • Başlık metni (h1'den h6'ya)
      • Liste öğeleri (ul, ol)
      • Bağlantı çapa metni
      • Tablo hücresi metni
      • Blockquote ve alıntı metni
      • Form etiketi ve düğme metni
      • Tüm görünür gövde textContent

      ✗ Ayıklananlar

      • Tüm HTML etiketlerinin kendisi
      • <script> blokları ve içerikleri
      • <style> blokları ve satır içi CSS
      • <noscript> içeriği
      • <svg>, <iframe>, <object>, <embed>
      • Meta etiketleri ve head içeriği
      • Görüntü alt özellikleri
      • Dinamik JavaScript ile oluşturulan metin

      Boşluklar normalleştirilir: boşluk, sekme ve yeni satır dizileri daraltılır, böylece orijinal HTML girintisinden kaynaklanan büyük boş aralıklar elde etmezsiniz. Paragraf sonları, işaretlemenin ima ettiği yerlerde korunur.

      Kaputun altında beş adım

      Bir URL yapıştırmak ile çıkarılan metni görmek arasında neler olur.

      1. Sayfayı sunucu tarafında getirSunucumuz URL'yi doğrudan ister. Hiçbir JavaScript çalıştırılmaz - kaynak sunucusu tarafından gönderilen ham HTML yanıtını alırız.
      2. HTML'yi bir ağaca ayrıştırUygun bir HTML ayrıştırıcı, bozuk etiketler, eksik kapatmalar ve iç içe geçmiş satır içi öğeler gibi uç durumları ele alarak işaretlemeden DOM benzeri bir ağaç oluşturur.
      3. İçerik olmayan dalları budaScript, style, noscript ve yorum düğümleri, içerikleri çıktıya girmesin diye ayıklamadan önce silinir.
      4. Tüm metin düğümlerini okuGövdenin textContent özelliğini alırız; bu, her metin düğümünü belge sırasına göre birleştirir - bir okuyucunun göreceği kelimeleri elde edersiniz.
      5. Normalleştir ve görüntüleBoşluk dizileri daraltılır, ardışık boş satırlar birleştirilir ve sonuç, HTML kaynağıyla yan yana kelime ve karakter sayılarıyla birlikte gösterilir.

      HTML Metin Ayıklayıcı ve diğer yaklaşımlar

      Bu aracın tarayıcı Okuyucu Modu, kütüphaneler ve elle ayıklamayla karşılaştırması.

      YaklaşımEn iyi kullanımDezavantajlar
      Bu araçHızlı tek seferlik ayıklama, yan yana karşılaştırma, her cihazYalnızca sunucuda oluşturulan metin (JS ile oluşturulan içerik yok)
      Tarayıcı Okuyucu ModuTek bir makaleyi dikkat dağıtıcı unsurlar olmadan okumakTahmine dayalı sezgisel yöntemler kullanır; makale gövdesini atlayabilir veya yanlış tanımlayabilir
      Tarayıcıdan kopyala-yapıştırKısa bir alıntıyı görsel olarak almakTüm sayfalar için zahmetli; gizli stiller miras alabilir; görüntü alanı dışındaki içeriği kaçırır
      readability-js / Mercury ParserNode uygulamalarında betiklenmiş, makaleye odaklı ayıklamaBağlamak için bir kod tabanı gerektirir; yalnızca makaleye odaklıdır
      BeautifulSoup / CheerioBelirli kurallarla özel Python/JS sıyırıcılarSite başına seçiciler yazmak ve sürdürmek için geliştirici zamanı
      curl + pandoc / html2textGeliştirici makinesinde CLI boru hatlarıYalnızca terminal; kurulum ve yapılandırma yükü

      Çoğu kişi için - içerik ekipleri, SEO uzmanları, çevirmenler, araştırmacılar - URL'den temiz metne giden en hızlı yol, barındırılan bir ayıklayıcıdır. Yalnızca programatik tekrarlama, yalnızca makale gövdesi ayıklama veya genel araçların üstesinden gelemediği siteye özgü kurallara ihtiyacınız olduğunda bir kütüphane seçin ya da özel kod yazın.

      Sıkça sorulan sorular

      HTML sayfalarından metin çıkarma hakkında sık sorulan sorular.

      HTML ile metin arasındaki fark nedir?

      HTML, içeriği etiketlerle (<p>, <h1>, <a>, <div>, vb.) saran, tarayıcıların onu nasıl görüntüleyeceğini bilmesini sağlayan işaretleme dilidir. Metin ise bu etiketlerin içindeki insan tarafından okunabilir içeriktir. HTML'den "metin çıkardığınızda", yalnızca bir okuyucunun sayfada gerçekten göreceği kelimeleri tutmak için etiketleri, betikleri ve stili kaldırırsınız.

      JavaScript tarafından eklenen metni içerir mi?

      Hayır. Ayıklayıcı, herhangi bir istemci tarafı JavaScript çalışmadan önce sunucu tarafından döndürülen ham HTML üzerinde çalışır. React, Vue veya Angular üzerine inşa edilmiş tek sayfalı uygulamalar için, yüklemeden sonra eklenen içerik çıkarılan metinde görünmez. Bir sayfanın ana içeriği yalnızca istemci tarafında oluşturuluyorsa, genellikle çoğunlukla boş bir sonuç görürsünüz.

      Bu, tarayıcının Okuyucu Modu ile aynı mı?

      Amaç benzer - bir sayfanın içeriğinin dikkat dağıtıcı unsurlardan arındırılmış bir görünümü - ancak yöntem farklıdır. Okuyucu Modu, sayfanın hangi bölümünün ana makale olduğunu tahmin etmek için DOM sezgisel yöntemlerini kullanır ve gerisini gizler. Ayıklayıcımız, betikler ve stiller gibi içerik dışı öğeleri kaldırır ve belgenin tüm metnini korur. Hangi bölümün "makale" gövdesi olduğu konusunda daha az zeka ile daha fazla metin elde edersiniz.

      Tam olarak ne kaldırılıyor ve ne korunuyor?

      Kaldırılanlar: <script>, <style>, <noscript>, <svg>, <iframe>, <object> ve <embed> öğeleri, tüm etiket işaretlemesinin kendisiyle birlikte. Head içeriği (meta etiketleri, link etiketleri, title) da hariç tutulur.

      Korunanlar: paragrafların, başlıkların, liste öğelerinin, bağlantıların, tablo hücrelerinin ve gövde içindeki metin taşıyan herhangi bir öğenin görünür metni. Boşluklar normalleştirilir, böylece büyük boş satır dizileri elde etmezsiniz.

      İngilizce olmayan sayfalardan metin çıkarabilir miyim?

      Evet. UTF-8 kodlaması korunur, bu nedenle Arapça, Çince, Japonca, Korece, Kiril alfabesi, emoji ve diğer birçok yazı sistemi doğru şekilde aktarılır. Çeviri yapmıyoruz - metni orijinal dilinde alırsınız.

      PDF'lerden veya Word belgelerinden metin çıkarabilir miyim?

      Yalnızca HTML sayfaları desteklenir. PDF'ler ve diğer ikili biçimler farklı araçlar gerektirir. PDF desteğini yararlı bulursanız Twitter üzerinden bize bildirin - talebi ölçüyoruz.

      Bunu SEO için neden kullanayım?

      Arama motorları öncelikle bir sayfanın metinsel içeriğini dizine ekler. Yalnızca metni çıkarmak, anahtar kelime yoğunluğunu denetlemenize, en önemli içeriğinizin sunucuda oluşturulduğunu (ilk getirmede tarayıcılar tarafından görülebildiğini) doğrulamanıza, kelime sayılarını ölçmenize ve gezinme ile altbilgi şablon metinlerinin gerçek içeriğinizi boğmadığını kontrol etmenize olanak tanır.

      Çıkarılan metni indirebilir miyim?

      Evet. Çıkarılan metin panelinin yanındaki İndir düğmesini kullanarak bir .txt dosyası olarak kaydedin. Kopyala düğmesi metni panonuza yerleştirir.

      Verilerim gizli mi?

      Sorgularınızı saklamıyoruz veya çıkarmaları kimliğinize bağlamıyoruz. Yanıtlar performans için kısa süreliğine önbelleğe alınır. Tüm ayrıntılar için gizlilik politikamıza bakın.

      İlgili araçlar ve kılavuzlar

      Bu kaynaklarla web içeriği, kaynak kodu ve SEO konularında daha derine inin.