Lihat Kode Sumber + Analisis Cerdas
Periksa kode sumber HTML lengkap di browser Anda dengan audit SEO, deteksi teknologi, dan metrik kinerja.
Ekstrak teks bersih dan mudah dibaca dari situs web mana pun. Lihat kode sumber HTML berdampingan dengan konten teks yang diekstrak.
Hapus tag, skrip, dan gaya. Simpan kata-katanya. Dapatkan konten yang sama seperti yang akan dilihat pembaca - sebagai teks biasa.
Setiap halaman web merupakan campuran dari dua hal: markup - tag HTML yang memberi tahu browser cara menyusun dan menampilkan konten - dan konten itu sendiri, yaitu kata-kata, angka, dan karakter yang benar-benar dilihat pembaca. Saat Anda melihat kode sumber halaman, sebagian besar yang Anda lihat adalah markup: tag pembuka dan penutup, nama kelas, blok skrip, gaya inline, dan metadata. Konten yang dapat dibaca tersembunyi di antara semua itu.
Ekstraktor Teks HTML melakukan satu tugas: menarik keluar konten yang dapat dibaca dan membuang sisanya. Tempel URL publik apa pun, dan Anda akan mendapatkan versi teks biasa yang bersih dari halaman - tanpa tag, tanpa skrip, tanpa stylesheet, tanpa gangguan navigasi. HTML asli tetap terlihat berdampingan sehingga Anda dapat membandingkan, memverifikasi, dan memilih apa yang Anda butuhkan.
Karena ekstraksi dilakukan di sisi server pada respons HTML mentah, Anda mendapatkan persis apa yang pertama kali diindeks oleh crawler mesin pencari - sebelum JavaScript sisi klien sempat menambahkan apa pun. Untuk audit SEO, inventaris konten, persiapan terjemahan, dan data pelatihan AI/ML, itu biasanya versi yang Anda inginkan.
Dari audit konten hingga membaca bebas gangguan - inilah siapa yang menggunakan ekstraksi teks dan mengapa.
Hitung kata, ukur waktu baca, periksa kepadatan kata kunci, dan evaluasi apakah isi tekstual halaman Anda benar-benar mencerminkan topik yang Anda targetkan.
Berikan penerjemah teks sumber yang bersih tanpa gangguan HTML yang merusak alat mereka atau memakan waktu ekstra untuk difilter secara manual.
Tarik sebuah artikel keluar dari halaman yang penuh dengan popup, sidebar, dan iklan. Masukkan ke aplikasi catatan, Kindle, atau alat baca-nanti.
Dapatkan gambaran kasar tentang apa yang akan ditemui pembaca layar di halaman - penting untuk memeriksa urutan baca dan prioritas konten.
Konfirmasikan konten utama Anda di-render di server (terlihat oleh crawler), periksa keberadaan kata kunci pada teks body, dan kenali rasio boilerplate-ke-konten.
Bangun korpus teks bersih dari halaman web publik untuk fine-tuning model bahasa, sistem pencarian, atau klasifikator konten - tanpa menghapus tag sendiri.
Aturan yang jelas sehingga Anda tahu persis apa yang Anda dapatkan dan apa yang Anda hilangkan.
textContent body yang terlihat<script> dan isinya<style> dan CSS inline<noscript><svg>, <iframe>, <object>, <embed>alt gambarSpasi dinormalkan: rangkaian spasi, tab, dan baris baru dimampatkan sehingga Anda tidak berakhir dengan celah kosong besar dari indentasi HTML asli. Jeda paragraf dipertahankan di tempat markup menyiratkannya.
Apa yang terjadi antara menempel URL dan melihat teks yang diekstrak.
textContent dari body, yang menggabungkan setiap node teks dalam urutan dokumen - Anda mendapatkan kata-kata yang akan dilihat pembaca.Bagaimana alat ini dibandingkan dengan Mode Baca browser, pustaka, dan ekstraksi manual.
| Pendekatan | Terbaik untuk | Kompromi |
|---|---|---|
| Alat ini | Ekstraksi satu kali yang cepat, perbandingan berdampingan, perangkat apa pun | Hanya teks yang di-render server (bukan konten yang di-render JS) |
| Mode Baca Browser | Membaca bebas gangguan dari satu artikel | Menggunakan heuristik tebakan; dapat melewatkan atau salah mengidentifikasi isi artikel |
| Salin-tempel dari browser | Mengambil potongan pendek secara visual | Melelahkan untuk halaman penuh; dapat mewarisi gaya tersembunyi; melewatkan konten di luar viewport |
readability-js / Mercury Parser | Ekstraksi terfokus artikel berskrip di aplikasi Node | Memerlukan basis kode untuk dirangkai; fokus hanya pada artikel |
| BeautifulSoup / Cheerio | Scraper Python/JS kustom dengan aturan spesifik | Waktu developer untuk menulis dan memelihara selector per situs |
| curl + pandoc / html2text | Pipeline CLI di mesin dev | Hanya terminal; overhead instalasi dan konfigurasi |
Bagi sebagian besar orang - tim konten, SEO, penerjemah, peneliti - rute tercepat dari URL ke teks bersih adalah ekstraktor yang di-host. Pilih pustaka atau tulis kode kustom hanya ketika Anda membutuhkan pengulangan terprogram, ekstraksi hanya isi artikel, atau aturan spesifik situs yang tidak dapat ditangani alat generik.
Pertanyaan umum tentang mengekstrak teks dari halaman HTML.
HTML adalah bahasa markup yang membungkus konten dalam tag (<p>, <h1>, <a>, <div>, dll.) agar browser tahu cara menampilkannya. Teks hanyalah konten yang dapat dibaca manusia di dalam tag-tag tersebut. Ketika Anda "mengekstrak teks" dari HTML, Anda menghapus tag, skrip, dan gaya untuk menyimpan hanya kata-kata yang akan benar-benar dilihat pembaca di halaman.
Tidak. Ekstraktor berjalan pada HTML mentah yang dikembalikan oleh server, sebelum JavaScript sisi klien dieksekusi. Untuk single-page app yang dibangun dengan React, Vue, atau Angular, konten yang disisipkan setelah dimuat tidak akan muncul dalam teks yang diekstrak. Jika konten utama halaman hanya di-render di sisi klien, Anda biasanya akan melihat hasil yang hampir kosong.
Tujuannya mirip - tampilan konten halaman yang bebas gangguan - tetapi metodenya berbeda. Mode Baca menggunakan heuristik DOM untuk menebak bagian mana dari halaman yang merupakan artikel utama dan menyembunyikan sisanya. Ekstraktor kami menghapus elemen non-konten seperti skrip dan gaya dan menyimpan seluruh teks dokumen. Anda mendapatkan lebih banyak teks, dengan kecerdasan yang lebih sedikit tentang bagian mana yang merupakan isi "artikel".
Dihapus: elemen <script>, <style>, <noscript>, <svg>, <iframe>, <object>, dan <embed> beserta seluruh markup tag itu sendiri. Konten head (tag meta, tag link, title) juga dikecualikan.
Disimpan: teks yang terlihat dari paragraf, heading, item daftar, tautan, sel tabel, dan elemen pembawa teks lainnya di dalam body. Spasi dinormalkan agar Anda tidak mendapatkan rangkaian baris kosong yang panjang.
Ya. Enkode UTF-8 dipertahankan, sehingga Arab, Mandarin, Jepang, Korea, Sirilik, emoji, dan sebagian besar aksara lainnya hadir dengan benar. Kami tidak menerjemahkan - Anda mendapatkan teks dalam bahasa aslinya.
Hanya halaman HTML yang didukung. PDF dan format biner lainnya memerlukan alat yang berbeda. Beri tahu kami melalui Twitter jika Anda merasa dukungan PDF berguna - kami sedang mengukur permintaan.
Mesin pencari terutama mengindeks konten tekstual halaman. Mengekstrak hanya teksnya memungkinkan Anda mengaudit kepadatan kata kunci, memastikan bahwa konten terpenting Anda di-render di server (terlihat oleh crawler pada pengambilan pertama), mengukur jumlah kata, dan memeriksa bahwa navigasi dan boilerplate footer tidak menenggelamkan konten asli Anda.
Ya. Gunakan tombol Unduh di sebelah panel teks yang diekstrak untuk menyimpannya sebagai file .txt. Tombol Salin menempatkannya di clipboard Anda.
Kami tidak menyimpan kueri Anda atau mengaitkan ekstraksi dengan identitas Anda. Respons di-cache sebentar untuk kinerja. Detail lengkap ada di kebijakan privasi kami.
Pelajari lebih dalam tentang konten web, kode sumber, dan SEO dengan sumber daya berikut.

Periksa kode sumber HTML lengkap di browser Anda dengan audit SEO, deteksi teknologi, dan metrik kinerja.

Butuh HTML lengkap, bukan hanya teks? Simpan kode sumber halaman publik apa pun sebagai file yang dapat diunduh.

Bagaimana struktur HTML memengaruhi peringkat pencarian - dan apa yang harus diperiksa saat mengaudit halaman.

Tur ramah pemula tentang struktur HTML, tag, dan cara memahami markup halaman mana pun.

Indeks lengkap tag HTML5 dengan deskripsi - berguna saat memeriksa markup mentah atau yang diekstrak.

Panduan editor kode dan IDE gratis dan berbayar terbaik untuk bekerja dengan HTML, CSS, dan JavaScript.