Alat online gratis - Tanpa perlu instalasi

Ekstraktor Teks HTML

Ekstrak teks bersih dan mudah dibaca dari situs web mana pun. Lihat kode sumber HTML berdampingan dengan konten teks yang diekstrak.

https://
source.html
teks-diekstrak.txt

Kecepatan Halaman

🖥Info Server

    📄Info Halaman

      Apa arti ekstraksi teks dari HTML

      Hapus tag, skrip, dan gaya. Simpan kata-katanya. Dapatkan konten yang sama seperti yang akan dilihat pembaca - sebagai teks biasa.

      Setiap halaman web merupakan campuran dari dua hal: markup - tag HTML yang memberi tahu browser cara menyusun dan menampilkan konten - dan konten itu sendiri, yaitu kata-kata, angka, dan karakter yang benar-benar dilihat pembaca. Saat Anda melihat kode sumber halaman, sebagian besar yang Anda lihat adalah markup: tag pembuka dan penutup, nama kelas, blok skrip, gaya inline, dan metadata. Konten yang dapat dibaca tersembunyi di antara semua itu.

      Ekstraktor Teks HTML melakukan satu tugas: menarik keluar konten yang dapat dibaca dan membuang sisanya. Tempel URL publik apa pun, dan Anda akan mendapatkan versi teks biasa yang bersih dari halaman - tanpa tag, tanpa skrip, tanpa stylesheet, tanpa gangguan navigasi. HTML asli tetap terlihat berdampingan sehingga Anda dapat membandingkan, memverifikasi, dan memilih apa yang Anda butuhkan.

      Karena ekstraksi dilakukan di sisi server pada respons HTML mentah, Anda mendapatkan persis apa yang pertama kali diindeks oleh crawler mesin pencari - sebelum JavaScript sisi klien sempat menambahkan apa pun. Untuk audit SEO, inventaris konten, persiapan terjemahan, dan data pelatihan AI/ML, itu biasanya versi yang Anda inginkan.

      Kapan Anda ingin mengekstrak teks dari HTML

      Dari audit konten hingga membaca bebas gangguan - inilah siapa yang menggunakan ekstraksi teks dan mengapa.

      📝

      Audit Konten

      Hitung kata, ukur waktu baca, periksa kepadatan kata kunci, dan evaluasi apakah isi tekstual halaman Anda benar-benar mencerminkan topik yang Anda targetkan.

      🌐

      Persiapan Terjemahan

      Berikan penerjemah teks sumber yang bersih tanpa gangguan HTML yang merusak alat mereka atau memakan waktu ekstra untuk difilter secara manual.

      📖

      Membaca Bebas Gangguan

      Tarik sebuah artikel keluar dari halaman yang penuh dengan popup, sidebar, dan iklan. Masukkan ke aplikasi catatan, Kindle, atau alat baca-nanti.

      Tinjauan Aksesibilitas

      Dapatkan gambaran kasar tentang apa yang akan ditemui pembaca layar di halaman - penting untuk memeriksa urutan baca dan prioritas konten.

      📊

      Analisis Konten SEO

      Konfirmasikan konten utama Anda di-render di server (terlihat oleh crawler), periksa keberadaan kata kunci pada teks body, dan kenali rasio boilerplate-ke-konten.

      🤖

      Data Pelatihan AI/ML

      Bangun korpus teks bersih dari halaman web publik untuk fine-tuning model bahasa, sistem pencarian, atau klasifikator konten - tanpa menghapus tag sendiri.

      Apa yang disimpan, apa yang dihapus

      Aturan yang jelas sehingga Anda tahu persis apa yang Anda dapatkan dan apa yang Anda hilangkan.

      ✓ Disimpan

      • Teks paragraf
      • Teks heading (h1 hingga h6)
      • Item daftar (ul, ol)
      • Teks anchor tautan
      • Teks sel tabel
      • Teks blockquote dan cite
      • Teks label dan tombol formulir
      • Semua textContent body yang terlihat

      ✗ Dihapus

      • Semua tag HTML itu sendiri
      • Blok <script> dan isinya
      • Blok <style> dan CSS inline
      • Konten <noscript>
      • <svg>, <iframe>, <object>, <embed>
      • Tag meta dan konten head
      • Atribut alt gambar
      • Teks dinamis yang di-render JavaScript

      Spasi dinormalkan: rangkaian spasi, tab, dan baris baru dimampatkan sehingga Anda tidak berakhir dengan celah kosong besar dari indentasi HTML asli. Jeda paragraf dipertahankan di tempat markup menyiratkannya.

      Lima langkah di balik layar

      Apa yang terjadi antara menempel URL dan melihat teks yang diekstrak.

      1. Ambil halaman di sisi serverServer kami meminta URL secara langsung. Tidak ada JavaScript yang dieksekusi - kami mendapatkan respons HTML mentah yang dikirim oleh origin.
      2. Parse HTML menjadi pohonParser HTML yang tepat membangun pohon mirip DOM dari markup, menangani kasus tepi seperti tag yang rusak, penutup yang hilang, dan elemen inline yang bersarang.
      3. Pangkas cabang non-kontenNode script, style, noscript, dan komentar dihapus sebelum ekstraksi sehingga isinya tidak pernah masuk ke output.
      4. Baca semua node teksKami menarik textContent dari body, yang menggabungkan setiap node teks dalam urutan dokumen - Anda mendapatkan kata-kata yang akan dilihat pembaca.
      5. Normalisasi dan tampilkanRangkaian spasi dimampatkan, baris kosong berturut-turut digabungkan, dan hasilnya ditampilkan berdampingan dengan HTML sumber bersama dengan jumlah kata dan karakter.

      Ekstraktor Teks HTML vs. pendekatan lain

      Bagaimana alat ini dibandingkan dengan Mode Baca browser, pustaka, dan ekstraksi manual.

      PendekatanTerbaik untukKompromi
      Alat iniEkstraksi satu kali yang cepat, perbandingan berdampingan, perangkat apa punHanya teks yang di-render server (bukan konten yang di-render JS)
      Mode Baca BrowserMembaca bebas gangguan dari satu artikelMenggunakan heuristik tebakan; dapat melewatkan atau salah mengidentifikasi isi artikel
      Salin-tempel dari browserMengambil potongan pendek secara visualMelelahkan untuk halaman penuh; dapat mewarisi gaya tersembunyi; melewatkan konten di luar viewport
      readability-js / Mercury ParserEkstraksi terfokus artikel berskrip di aplikasi NodeMemerlukan basis kode untuk dirangkai; fokus hanya pada artikel
      BeautifulSoup / CheerioScraper Python/JS kustom dengan aturan spesifikWaktu developer untuk menulis dan memelihara selector per situs
      curl + pandoc / html2textPipeline CLI di mesin devHanya terminal; overhead instalasi dan konfigurasi

      Bagi sebagian besar orang - tim konten, SEO, penerjemah, peneliti - rute tercepat dari URL ke teks bersih adalah ekstraktor yang di-host. Pilih pustaka atau tulis kode kustom hanya ketika Anda membutuhkan pengulangan terprogram, ekstraksi hanya isi artikel, atau aturan spesifik situs yang tidak dapat ditangani alat generik.

      Pertanyaan yang sering diajukan

      Pertanyaan umum tentang mengekstrak teks dari halaman HTML.

      Apa perbedaan antara HTML dan teks?

      HTML adalah bahasa markup yang membungkus konten dalam tag (<p>, <h1>, <a>, <div>, dll.) agar browser tahu cara menampilkannya. Teks hanyalah konten yang dapat dibaca manusia di dalam tag-tag tersebut. Ketika Anda "mengekstrak teks" dari HTML, Anda menghapus tag, skrip, dan gaya untuk menyimpan hanya kata-kata yang akan benar-benar dilihat pembaca di halaman.

      Apakah ini termasuk teks yang ditambahkan oleh JavaScript?

      Tidak. Ekstraktor berjalan pada HTML mentah yang dikembalikan oleh server, sebelum JavaScript sisi klien dieksekusi. Untuk single-page app yang dibangun dengan React, Vue, atau Angular, konten yang disisipkan setelah dimuat tidak akan muncul dalam teks yang diekstrak. Jika konten utama halaman hanya di-render di sisi klien, Anda biasanya akan melihat hasil yang hampir kosong.

      Apakah ini sama dengan Mode Baca di browser?

      Tujuannya mirip - tampilan konten halaman yang bebas gangguan - tetapi metodenya berbeda. Mode Baca menggunakan heuristik DOM untuk menebak bagian mana dari halaman yang merupakan artikel utama dan menyembunyikan sisanya. Ekstraktor kami menghapus elemen non-konten seperti skrip dan gaya dan menyimpan seluruh teks dokumen. Anda mendapatkan lebih banyak teks, dengan kecerdasan yang lebih sedikit tentang bagian mana yang merupakan isi "artikel".

      Apa saja yang dihapus vs disimpan?

      Dihapus: elemen <script>, <style>, <noscript>, <svg>, <iframe>, <object>, dan <embed> beserta seluruh markup tag itu sendiri. Konten head (tag meta, tag link, title) juga dikecualikan.

      Disimpan: teks yang terlihat dari paragraf, heading, item daftar, tautan, sel tabel, dan elemen pembawa teks lainnya di dalam body. Spasi dinormalkan agar Anda tidak mendapatkan rangkaian baris kosong yang panjang.

      Bisakah saya mengekstrak teks dari halaman non-Inggris?

      Ya. Enkode UTF-8 dipertahankan, sehingga Arab, Mandarin, Jepang, Korea, Sirilik, emoji, dan sebagian besar aksara lainnya hadir dengan benar. Kami tidak menerjemahkan - Anda mendapatkan teks dalam bahasa aslinya.

      Bisakah saya mengekstrak teks dari PDF atau dokumen Word?

      Hanya halaman HTML yang didukung. PDF dan format biner lainnya memerlukan alat yang berbeda. Beri tahu kami melalui Twitter jika Anda merasa dukungan PDF berguna - kami sedang mengukur permintaan.

      Mengapa saya akan menggunakan ini untuk SEO?

      Mesin pencari terutama mengindeks konten tekstual halaman. Mengekstrak hanya teksnya memungkinkan Anda mengaudit kepadatan kata kunci, memastikan bahwa konten terpenting Anda di-render di server (terlihat oleh crawler pada pengambilan pertama), mengukur jumlah kata, dan memeriksa bahwa navigasi dan boilerplate footer tidak menenggelamkan konten asli Anda.

      Bisakah saya mengunduh teks yang diekstrak?

      Ya. Gunakan tombol Unduh di sebelah panel teks yang diekstrak untuk menyimpannya sebagai file .txt. Tombol Salin menempatkannya di clipboard Anda.

      Apakah data saya privat?

      Kami tidak menyimpan kueri Anda atau mengaitkan ekstraksi dengan identitas Anda. Respons di-cache sebentar untuk kinerja. Detail lengkap ada di kebijakan privasi kami.

      Alat & panduan terkait

      Pelajari lebih dalam tentang konten web, kode sumber, dan SEO dengan sumber daya berikut.