PDF'lerden veya diğer belgelerden metin çıkarabilir miyim?

Yalnızca HTML sayfaları desteklenir. PDF'ler, Word belgeleri ve diğer ikili biçimler farklı araçlar gerektirir. Gelecekte PDF desteği ekleyebiliriz - faydalı bulursanız bize bildirin.

Ücretsiz çevrimiçi araç - Kurulum gerektirmez

HTML Metin Ayıklayıcı

Q: HTML ile metin arasındaki fark nedir?

HTML, içeriği etiketlerle ( , , , , vb.) saran, tarayıcıların onu nasıl görüntüleyeceğini bilmesini sağlayan işaretleme dilidir. Metin ise bu etiketlerin içindeki insan tarafından okunabilir içeriktir. HTML'den 'metin çıkardığınızda', yalnızca bir okuyucunun sayfada gerçekten göreceği kelimeleri tutmak için etiketleri, betikleri ve stili kaldırırsınız.

Q: Bu, tarayıcının Okuyucu Modu ile aynı mı?

Amaç benzer - size sayfa içeriğinin dikkat dağıtıcı unsurlardan arındırılmış bir sürümünü sunmak - ancak yöntem farklıdır. Okuyucu Modu, sayfanın hangi bölümünün ana makale olduğunu tahmin etmek için DOM sezgisel yöntemlerini kullanır ve gerisini gizler. Ayıklayıcımız ham HTML üzerinde çalışır ve betikler, stiller gibi içerik dışı öğeleri kaldırarak belgenin tüm metnini korur. Hangi bölümün 'makale' gövdesi olduğu konusunda daha az zeka ile daha fazla metin elde edersiniz.

Q: Tam olarak ne kaldırılıyor ve ne korunuyor?

Kaldırılanlar: script, style, noscript, svg, iframe, object ve embed öğeleri ile tüm etiket işaretlemesinin kendisi ve head içeriği (meta, link, title). Korunanlar: paragrafların, başlıkların, liste öğelerinin, bağlantıların, tablo hücrelerinin ve gövde içindeki metin taşıyan herhangi bir öğenin görünür metni. Boşluklar normalleştirilir, böylece büyük boş satır dizileri elde etmezsiniz.

Q: İngilizce olmayan sayfalardan metin çıkarabilir miyim?

Evet. UTF-8 kodlaması korunur, böylece Arapça, Çince, Japonca, Korece, Kiril alfabesi ve emoji doğru şekilde aktarılır. Araç metni çevirmez - orijinal dilde alırsınız.

Q: Bunu SEO için neden kullanayım?

Arama motorları bir sayfanın metinsel içeriğini dizine ekler. Yalnızca metni çıkararak anahtar kelime yoğunluğunu denetleyebilir, en önemli içeriğinizin sunucuda oluşturulduğunu kontrol edebilir, kelime sayısını ölçebilir ve gezinme ile şablon metinlerinin gerçek içeriği boğmadığını doğrulayabilirsiniz.

Herhangi bir web sitesinden temiz, okunabilir metin çıkarın. HTML kaynak kodunu çıkarılmış metin içeriğiyle yan yana görün.

source.html

cikarilan-metin.txt

⚡Sayfa Hızı

🖥Sunucu Bilgisi

📄Sayfa Bilgisi

Genel Bakış

HTML'den metin çıkarma ne anlama gelir

Etiketleri, betikleri ve stilleri ayıklayın. Kelimeleri saklayın. Bir okuyucunun göreceği içeriği düz metin olarak alın.

Her web sayfası iki şeyin karışımıdır: işaretleme - bir tarayıcıya içeriği nasıl yapılandıracağını ve görüntüleyeceğini söyleyen HTML etiketleri - ve içeriğin kendisi, yani okuyucunun gerçekten gördüğü kelimeler, sayılar ve karakterler. Bir sayfanın kaynağını görüntülediğinizde, gördüklerinizin çoğu işaretlemedir: açılış ve kapanış etiketleri, sınıf adları, betik blokları, satır içi stiller ve meta veriler. Okunabilir içerik tüm bunların arasına sıkıştırılmıştır.

HTML Metin Ayıklayıcı tek bir iş yapar: okunabilir içeriği çekip çıkarır ve gerisini atar. Herkese açık herhangi bir URL'yi yapıştırın ve sayfanın temiz, düz metin sürümünü alın - etiket yok, betik yok, stil sayfası yok, gezinme gürültüsü yok. Orijinal HTML, karşılaştırabilmeniz, doğrulayabilmeniz ve ihtiyacınız olanı seçebilmeniz için yan yana görünür kalır.

Ayıklama sunucu tarafında ham HTML yanıtı üzerinde gerçekleştiği için, tam olarak bir arama motoru tarayıcısının ilk dizine ekleyeceği şeyi alırsınız - istemci tarafı JavaScript'in bir şey ekleme şansı olmadan önce. SEO denetimleri, içerik envanteri, çeviri hazırlığı ve yapay zeka/makine öğrenimi eğitim verileri için genellikle istediğiniz sürüm budur.

Kullanım Alanları

HTML'den metin çıkarmak istediğiniz durumlar

İçerik denetimlerinden dikkat dağıtıcı unsurlardan arındırılmış okumaya - metin ayıklamayı kimin neden kullandığı.

📝

İçerik Denetimleri

Kelimeleri sayın, okuma süresini ölçün, anahtar kelime yoğunluğunu kontrol edin ve sayfanızın metinsel gövdesinin hedeflediğiniz konuyu gerçekten yansıtıp yansıtmadığını değerlendirin.

🌐

Çeviri Hazırlığı

Çevirmenlere, araçlarını bozan veya elle filtrelemeleri için ek zaman gerektiren HTML gürültüsü olmadan temiz kaynak metni teslim edin.

📖

Dikkat Dağıtıcı Unsursuz Okuma

Pop-up'lar, kenar çubukları ve reklamlarla dolu karmaşık bir sayfadan bir makaleyi çıkarın. Bir not uygulamasına, Kindle'a veya sonra-oku aracına aktarın.

♿

Erişilebilirlik İncelemesi

Bir ekran okuyucunun sayfada neyle karşılaşacağına dair kaba bir fikir edinin - okuma sırasını ve içerik önceliklerini kontrol etmek için gereklidir.

📊

SEO İçerik Analizi

Ana içeriğinizin sunucu tarafında oluşturulduğunu (tarayıcılar tarafından görülebildiğini) doğrulayın, gövde metnindeki anahtar kelime varlığını kontrol edin ve şablon-içerik oranlarını tespit edin.

🤖

Yapay Zeka/ML Eğitim Verileri

Dil modellerini, arama sistemlerini veya içerik sınıflandırıcılarını ince ayar yapmak için - etiketleri kendiniz kaldırmadan - herkese açık web sayfalarından temiz metin külliyatları oluşturun.

Davranış

Ne korunur, ne ayıklanır

Tam olarak ne aldığınızı ve neyi kaybettiğinizi bilmeniz için açık kurallar.

✓ Korunanlar

Paragraf metni
Başlık metni (h1'den h6'ya)
Liste öğeleri (ul, ol)
Bağlantı çapa metni
Tablo hücresi metni
Blockquote ve alıntı metni
Form etiketi ve düğme metni
Tüm görünür gövde textContent

✗ Ayıklananlar

Tüm HTML etiketlerinin kendisi
<script> blokları ve içerikleri
<style> blokları ve satır içi CSS
<noscript> içeriği
<svg>, <iframe>, <object>, <embed>
Meta etiketleri ve head içeriği
Görüntü alt özellikleri
Dinamik JavaScript ile oluşturulan metin

Boşluklar normalleştirilir: boşluk, sekme ve yeni satır dizileri daraltılır, böylece orijinal HTML girintisinden kaynaklanan büyük boş aralıklar elde etmezsiniz. Paragraf sonları, işaretlemenin ima ettiği yerlerde korunur.

Nasıl Çalışır

Kaputun altında beş adım

Bir URL yapıştırmak ile çıkarılan metni görmek arasında neler olur.

Sayfayı sunucu tarafında getirSunucumuz URL'yi doğrudan ister. Hiçbir JavaScript çalıştırılmaz - kaynak sunucusu tarafından gönderilen ham HTML yanıtını alırız.
HTML'yi bir ağaca ayrıştırUygun bir HTML ayrıştırıcı, bozuk etiketler, eksik kapatmalar ve iç içe geçmiş satır içi öğeler gibi uç durumları ele alarak işaretlemeden DOM benzeri bir ağaç oluşturur.
İçerik olmayan dalları budaScript, style, noscript ve yorum düğümleri, içerikleri çıktıya girmesin diye ayıklamadan önce silinir.
Tüm metin düğümlerini okuGövdenin textContent özelliğini alırız; bu, her metin düğümünü belge sırasına göre birleştirir - bir okuyucunun göreceği kelimeleri elde edersiniz.
Normalleştir ve görüntüleBoşluk dizileri daraltılır, ardışık boş satırlar birleştirilir ve sonuç, HTML kaynağıyla yan yana kelime ve karakter sayılarıyla birlikte gösterilir.

Alternatifler

HTML Metin Ayıklayıcı ve diğer yaklaşımlar

Bu aracın tarayıcı Okuyucu Modu, kütüphaneler ve elle ayıklamayla karşılaştırması.

Yaklaşım	En iyi kullanım	Dezavantajlar
Bu araç	Hızlı tek seferlik ayıklama, yan yana karşılaştırma, her cihaz	Yalnızca sunucuda oluşturulan metin (JS ile oluşturulan içerik yok)
Tarayıcı Okuyucu Modu	Tek bir makaleyi dikkat dağıtıcı unsurlar olmadan okumak	Tahmine dayalı sezgisel yöntemler kullanır; makale gövdesini atlayabilir veya yanlış tanımlayabilir
Tarayıcıdan kopyala-yapıştır	Kısa bir alıntıyı görsel olarak almak	Tüm sayfalar için zahmetli; gizli stiller miras alabilir; görüntü alanı dışındaki içeriği kaçırır
`readability-js` / Mercury Parser	Node uygulamalarında betiklenmiş, makaleye odaklı ayıklama	Bağlamak için bir kod tabanı gerektirir; yalnızca makaleye odaklıdır
BeautifulSoup / Cheerio	Belirli kurallarla özel Python/JS sıyırıcılar	Site başına seçiciler yazmak ve sürdürmek için geliştirici zamanı
curl + pandoc / html2text	Geliştirici makinesinde CLI boru hatları	Yalnızca terminal; kurulum ve yapılandırma yükü

Çoğu kişi için - içerik ekipleri, SEO uzmanları, çevirmenler, araştırmacılar - URL'den temiz metne giden en hızlı yol, barındırılan bir ayıklayıcıdır. Yalnızca programatik tekrarlama, yalnızca makale gövdesi ayıklama veya genel araçların üstesinden gelemediği siteye özgü kurallara ihtiyacınız olduğunda bir kütüphane seçin ya da özel kod yazın.

SSS

Sıkça sorulan sorular

HTML sayfalarından metin çıkarma hakkında sık sorulan sorular.

HTML ile metin arasındaki fark nedir?

HTML, içeriği etiketlerle (<p>, <h1>, <a>, <div>, vb.) saran, tarayıcıların onu nasıl görüntüleyeceğini bilmesini sağlayan işaretleme dilidir. Metin ise bu etiketlerin içindeki insan tarafından okunabilir içeriktir. HTML'den "metin çıkardığınızda", yalnızca bir okuyucunun sayfada gerçekten göreceği kelimeleri tutmak için etiketleri, betikleri ve stili kaldırırsınız.

JavaScript tarafından eklenen metni içerir mi?

Hayır. Ayıklayıcı, herhangi bir istemci tarafı JavaScript çalışmadan önce sunucu tarafından döndürülen ham HTML üzerinde çalışır. React, Vue veya Angular üzerine inşa edilmiş tek sayfalı uygulamalar için, yüklemeden sonra eklenen içerik çıkarılan metinde görünmez. Bir sayfanın ana içeriği yalnızca istemci tarafında oluşturuluyorsa, genellikle çoğunlukla boş bir sonuç görürsünüz.

Bu, tarayıcının Okuyucu Modu ile aynı mı?

Amaç benzer - bir sayfanın içeriğinin dikkat dağıtıcı unsurlardan arındırılmış bir görünümü - ancak yöntem farklıdır. Okuyucu Modu, sayfanın hangi bölümünün ana makale olduğunu tahmin etmek için DOM sezgisel yöntemlerini kullanır ve gerisini gizler. Ayıklayıcımız, betikler ve stiller gibi içerik dışı öğeleri kaldırır ve belgenin tüm metnini korur. Hangi bölümün "makale" gövdesi olduğu konusunda daha az zeka ile daha fazla metin elde edersiniz.

Tam olarak ne kaldırılıyor ve ne korunuyor?

Kaldırılanlar: <script>, <style>, <noscript>, <svg>, <iframe>, <object> ve <embed> öğeleri, tüm etiket işaretlemesinin kendisiyle birlikte. Head içeriği (meta etiketleri, link etiketleri, title) da hariç tutulur.

Korunanlar: paragrafların, başlıkların, liste öğelerinin, bağlantıların, tablo hücrelerinin ve gövde içindeki metin taşıyan herhangi bir öğenin görünür metni. Boşluklar normalleştirilir, böylece büyük boş satır dizileri elde etmezsiniz.

İngilizce olmayan sayfalardan metin çıkarabilir miyim?

Evet. UTF-8 kodlaması korunur, bu nedenle Arapça, Çince, Japonca, Korece, Kiril alfabesi, emoji ve diğer birçok yazı sistemi doğru şekilde aktarılır. Çeviri yapmıyoruz - metni orijinal dilinde alırsınız.

PDF'lerden veya Word belgelerinden metin çıkarabilir miyim?

Yalnızca HTML sayfaları desteklenir. PDF'ler ve diğer ikili biçimler farklı araçlar gerektirir. PDF desteğini yararlı bulursanız Twitter üzerinden bize bildirin - talebi ölçüyoruz.

Bunu SEO için neden kullanayım?

Arama motorları öncelikle bir sayfanın metinsel içeriğini dizine ekler. Yalnızca metni çıkarmak, anahtar kelime yoğunluğunu denetlemenize, en önemli içeriğinizin sunucuda oluşturulduğunu (ilk getirmede tarayıcılar tarafından görülebildiğini) doğrulamanıza, kelime sayılarını ölçmenize ve gezinme ile altbilgi şablon metinlerinin gerçek içeriğinizi boğmadığını kontrol etmenize olanak tanır.

Çıkarılan metni indirebilir miyim?

Evet. Çıkarılan metin panelinin yanındaki İndir düğmesini kullanarak bir .txt dosyası olarak kaydedin. Kopyala düğmesi metni panonuza yerleştirir.

Verilerim gizli mi?

Sorgularınızı saklamıyoruz veya çıkarmaları kimliğinize bağlamıyoruz. Yanıtlar performans için kısa süreliğine önbelleğe alınır. Tüm ayrıntılar için gizlilik politikamıza bakın.

İlgili araçlar ve kılavuzlar

Bu kaynaklarla web içeriği, kaynak kodu ve SEO konularında daha derine inin.

Araç

Sayfa Kaynağını Görüntüle + Akıllı Analiz

Tarayıcınızda tam HTML kaynak kodunu SEO denetimi, teknoloji tespiti ve performans metrikleriyle inceleyin.

Araç

Web Sitesi Kodunu İndir

Yalnızca metne değil, tam HTML'ye mi ihtiyacınız var? Herhangi bir herkese açık sayfanın kaynağını indirilebilir dosya olarak kaydedin.

SEO

Kaynak kodu üzerinden SEO'yu geliştirme

HTML yapısının arama sıralamalarını nasıl etkilediği - ve bir sayfayı denetlerken nelere bakılacağı.

Kılavuz

HTML kaynak kodu nasıl okunur

HTML yapısı, etiketleri ve herhangi bir sayfanın işaretlemesini anlamak için başlangıç seviyesi bir tur.

Referans

Tüm HTML5 etiketleri referansı

Açıklamalarıyla birlikte HTML5 etiketlerinin tam dizini - çıkarılan veya ham işaretlemeyi incelerken yararlıdır.

Araçlar

Web geliştirme için en iyi kod editörleri

HTML, CSS ve JavaScript ile çalışmak için en iyi ücretsiz ve ücretli kod editörleri ile IDE'ler için bir kılavuz.