Alat online gratis - Tanpa perlu instalasi

Ekstraktor Teks HTML

Q: Apakah ini termasuk teks yang ditambahkan oleh JavaScript?

Tidak. Ekstraktor bekerja pada HTML mentah yang dikembalikan oleh server, sebelum JavaScript sisi klien berjalan. Untuk halaman yang dibangun sebagai single-page app (React, Vue, Angular), konten yang disisipkan setelah dimuat oleh JavaScript tidak akan ada dalam teks yang diekstrak.

Q: Apakah ini sama dengan Mode Baca di browser?

Tujuannya mirip - memberi Anda versi halaman yang bebas gangguan - tetapi metodenya berbeda. Mode Baca menggunakan heuristik DOM untuk menebak bagian mana dari halaman yang merupakan artikel utama dan menyembunyikan sisanya. Ekstraktor kami bekerja pada HTML mentah dan menghapus elemen non-konten seperti skrip dan gaya, menyimpan seluruh teks dokumen. Anda mendapatkan lebih banyak teks, dengan kecerdasan yang lebih sedikit tentang bagian mana yang merupakan isi 'artikel'.

Q: Apa saja yang dihapus vs yang disimpan?

Dihapus: elemen script, style, noscript, svg, iframe, object, dan embed, beserta seluruh markup tag itu sendiri dan konten head (meta, link, title). Disimpan: teks yang terlihat dari paragraf, heading, item daftar, tautan, sel tabel, dan elemen pembawa teks lainnya di dalam body. Spasi dinormalkan agar Anda tidak mendapatkan baris kosong yang panjang.

Q: Bisakah saya mengekstrak teks dari PDF atau dokumen lain?

Hanya halaman HTML yang didukung. PDF, dokumen Word, dan format biner lainnya memerlukan alat yang berbeda. Kami mungkin akan menambahkan dukungan PDF di masa depan - beri tahu kami jika Anda merasa ini berguna.

Q: Mengapa saya akan menggunakan ini untuk SEO?

Mesin pencari mengindeks konten tekstual halaman. Dengan mengekstrak hanya teks, Anda dapat mengaudit kepadatan kata kunci, memeriksa bahwa konten terpenting Anda di-render di server, mengukur jumlah kata, dan memastikan navigasi dan boilerplate tidak menenggelamkan konten yang sebenarnya.

Ekstrak teks bersih dan mudah dibaca dari situs web mana pun. Lihat kode sumber HTML berdampingan dengan konten teks yang diekstrak.

source.html

teks-diekstrak.txt

⚡Kecepatan Halaman

🖥Info Server

📄Info Halaman

Ikhtisar

Apa arti ekstraksi teks dari HTML

Hapus tag, skrip, dan gaya. Simpan kata-katanya. Dapatkan konten yang sama seperti yang akan dilihat pembaca - sebagai teks biasa.

Setiap halaman web merupakan campuran dari dua hal: markup - tag HTML yang memberi tahu browser cara menyusun dan menampilkan konten - dan konten itu sendiri, yaitu kata-kata, angka, dan karakter yang benar-benar dilihat pembaca. Saat Anda melihat kode sumber halaman, sebagian besar yang Anda lihat adalah markup: tag pembuka dan penutup, nama kelas, blok skrip, gaya inline, dan metadata. Konten yang dapat dibaca tersembunyi di antara semua itu.

Ekstraktor Teks HTML melakukan satu tugas: menarik keluar konten yang dapat dibaca dan membuang sisanya. Tempel URL publik apa pun, dan Anda akan mendapatkan versi teks biasa yang bersih dari halaman - tanpa tag, tanpa skrip, tanpa stylesheet, tanpa gangguan navigasi. HTML asli tetap terlihat berdampingan sehingga Anda dapat membandingkan, memverifikasi, dan memilih apa yang Anda butuhkan.

Karena ekstraksi dilakukan di sisi server pada respons HTML mentah, Anda mendapatkan persis apa yang pertama kali diindeks oleh crawler mesin pencari - sebelum JavaScript sisi klien sempat menambahkan apa pun. Untuk audit SEO, inventaris konten, persiapan terjemahan, dan data pelatihan AI/ML, itu biasanya versi yang Anda inginkan.

Kasus Penggunaan

Kapan Anda ingin mengekstrak teks dari HTML

Dari audit konten hingga membaca bebas gangguan - inilah siapa yang menggunakan ekstraksi teks dan mengapa.

📝

Audit Konten

Hitung kata, ukur waktu baca, periksa kepadatan kata kunci, dan evaluasi apakah isi tekstual halaman Anda benar-benar mencerminkan topik yang Anda targetkan.

🌐

Persiapan Terjemahan

Berikan penerjemah teks sumber yang bersih tanpa gangguan HTML yang merusak alat mereka atau memakan waktu ekstra untuk difilter secara manual.

📖

Membaca Bebas Gangguan

Tarik sebuah artikel keluar dari halaman yang penuh dengan popup, sidebar, dan iklan. Masukkan ke aplikasi catatan, Kindle, atau alat baca-nanti.

♿

Tinjauan Aksesibilitas

Dapatkan gambaran kasar tentang apa yang akan ditemui pembaca layar di halaman - penting untuk memeriksa urutan baca dan prioritas konten.

📊

Analisis Konten SEO

Konfirmasikan konten utama Anda di-render di server (terlihat oleh crawler), periksa keberadaan kata kunci pada teks body, dan kenali rasio boilerplate-ke-konten.

🤖

Data Pelatihan AI/ML

Bangun korpus teks bersih dari halaman web publik untuk fine-tuning model bahasa, sistem pencarian, atau klasifikator konten - tanpa menghapus tag sendiri.

Perilaku

Apa yang disimpan, apa yang dihapus

Aturan yang jelas sehingga Anda tahu persis apa yang Anda dapatkan dan apa yang Anda hilangkan.

✓ Disimpan

Teks paragraf
Teks heading (h1 hingga h6)
Item daftar (ul, ol)
Teks anchor tautan
Teks sel tabel
Teks blockquote dan cite
Teks label dan tombol formulir
Semua textContent body yang terlihat

✗ Dihapus

Semua tag HTML itu sendiri
Blok <script> dan isinya
Blok <style> dan CSS inline
Konten <noscript>
<svg>, <iframe>, <object>, <embed>
Tag meta dan konten head
Atribut alt gambar
Teks dinamis yang di-render JavaScript

Spasi dinormalkan: rangkaian spasi, tab, dan baris baru dimampatkan sehingga Anda tidak berakhir dengan celah kosong besar dari indentasi HTML asli. Jeda paragraf dipertahankan di tempat markup menyiratkannya.

Cara kerjanya

Lima langkah di balik layar

Apa yang terjadi antara menempel URL dan melihat teks yang diekstrak.

Ambil halaman di sisi serverServer kami meminta URL secara langsung. Tidak ada JavaScript yang dieksekusi - kami mendapatkan respons HTML mentah yang dikirim oleh origin.
Parse HTML menjadi pohonParser HTML yang tepat membangun pohon mirip DOM dari markup, menangani kasus tepi seperti tag yang rusak, penutup yang hilang, dan elemen inline yang bersarang.
Pangkas cabang non-kontenNode script, style, noscript, dan komentar dihapus sebelum ekstraksi sehingga isinya tidak pernah masuk ke output.
Baca semua node teksKami menarik textContent dari body, yang menggabungkan setiap node teks dalam urutan dokumen - Anda mendapatkan kata-kata yang akan dilihat pembaca.
Normalisasi dan tampilkanRangkaian spasi dimampatkan, baris kosong berturut-turut digabungkan, dan hasilnya ditampilkan berdampingan dengan HTML sumber bersama dengan jumlah kata dan karakter.

Alternatif

Ekstraktor Teks HTML vs. pendekatan lain

Bagaimana alat ini dibandingkan dengan Mode Baca browser, pustaka, dan ekstraksi manual.

Pendekatan	Terbaik untuk	Kompromi
Alat ini	Ekstraksi satu kali yang cepat, perbandingan berdampingan, perangkat apa pun	Hanya teks yang di-render server (bukan konten yang di-render JS)
Mode Baca Browser	Membaca bebas gangguan dari satu artikel	Menggunakan heuristik tebakan; dapat melewatkan atau salah mengidentifikasi isi artikel
Salin-tempel dari browser	Mengambil potongan pendek secara visual	Melelahkan untuk halaman penuh; dapat mewarisi gaya tersembunyi; melewatkan konten di luar viewport
`readability-js` / Mercury Parser	Ekstraksi terfokus artikel berskrip di aplikasi Node	Memerlukan basis kode untuk dirangkai; fokus hanya pada artikel
BeautifulSoup / Cheerio	Scraper Python/JS kustom dengan aturan spesifik	Waktu developer untuk menulis dan memelihara selector per situs
curl + pandoc / html2text	Pipeline CLI di mesin dev	Hanya terminal; overhead instalasi dan konfigurasi

Bagi sebagian besar orang - tim konten, SEO, penerjemah, peneliti - rute tercepat dari URL ke teks bersih adalah ekstraktor yang di-host. Pilih pustaka atau tulis kode kustom hanya ketika Anda membutuhkan pengulangan terprogram, ekstraksi hanya isi artikel, atau aturan spesifik situs yang tidak dapat ditangani alat generik.

FAQ

Pertanyaan yang sering diajukan

Pertanyaan umum tentang mengekstrak teks dari halaman HTML.

Apa perbedaan antara HTML dan teks?

HTML adalah bahasa markup yang membungkus konten dalam tag (<p>, <h1>, <a>, <div>, dll.) agar browser tahu cara menampilkannya. Teks hanyalah konten yang dapat dibaca manusia di dalam tag-tag tersebut. Ketika Anda "mengekstrak teks" dari HTML, Anda menghapus tag, skrip, dan gaya untuk menyimpan hanya kata-kata yang akan benar-benar dilihat pembaca di halaman.

Apakah ini termasuk teks yang ditambahkan oleh JavaScript?

Tidak. Ekstraktor berjalan pada HTML mentah yang dikembalikan oleh server, sebelum JavaScript sisi klien dieksekusi. Untuk single-page app yang dibangun dengan React, Vue, atau Angular, konten yang disisipkan setelah dimuat tidak akan muncul dalam teks yang diekstrak. Jika konten utama halaman hanya di-render di sisi klien, Anda biasanya akan melihat hasil yang hampir kosong.

Apakah ini sama dengan Mode Baca di browser?

Tujuannya mirip - tampilan konten halaman yang bebas gangguan - tetapi metodenya berbeda. Mode Baca menggunakan heuristik DOM untuk menebak bagian mana dari halaman yang merupakan artikel utama dan menyembunyikan sisanya. Ekstraktor kami menghapus elemen non-konten seperti skrip dan gaya dan menyimpan seluruh teks dokumen. Anda mendapatkan lebih banyak teks, dengan kecerdasan yang lebih sedikit tentang bagian mana yang merupakan isi "artikel".

Apa saja yang dihapus vs disimpan?

Dihapus: elemen <script>, <style>, <noscript>, <svg>, <iframe>, <object>, dan <embed> beserta seluruh markup tag itu sendiri. Konten head (tag meta, tag link, title) juga dikecualikan.

Disimpan: teks yang terlihat dari paragraf, heading, item daftar, tautan, sel tabel, dan elemen pembawa teks lainnya di dalam body. Spasi dinormalkan agar Anda tidak mendapatkan rangkaian baris kosong yang panjang.

Bisakah saya mengekstrak teks dari halaman non-Inggris?

Ya. Enkode UTF-8 dipertahankan, sehingga Arab, Mandarin, Jepang, Korea, Sirilik, emoji, dan sebagian besar aksara lainnya hadir dengan benar. Kami tidak menerjemahkan - Anda mendapatkan teks dalam bahasa aslinya.

Bisakah saya mengekstrak teks dari PDF atau dokumen Word?

Hanya halaman HTML yang didukung. PDF dan format biner lainnya memerlukan alat yang berbeda. Beri tahu kami melalui Twitter jika Anda merasa dukungan PDF berguna - kami sedang mengukur permintaan.

Mengapa saya akan menggunakan ini untuk SEO?

Mesin pencari terutama mengindeks konten tekstual halaman. Mengekstrak hanya teksnya memungkinkan Anda mengaudit kepadatan kata kunci, memastikan bahwa konten terpenting Anda di-render di server (terlihat oleh crawler pada pengambilan pertama), mengukur jumlah kata, dan memeriksa bahwa navigasi dan boilerplate footer tidak menenggelamkan konten asli Anda.

Bisakah saya mengunduh teks yang diekstrak?

Ya. Gunakan tombol Unduh di sebelah panel teks yang diekstrak untuk menyimpannya sebagai file .txt. Tombol Salin menempatkannya di clipboard Anda.

Apakah data saya privat?

Kami tidak menyimpan kueri Anda atau mengaitkan ekstraksi dengan identitas Anda. Respons di-cache sebentar untuk kinerja. Detail lengkap ada di kebijakan privasi kami.

Selanjutnya

Alat & panduan terkait

Pelajari lebih dalam tentang konten web, kode sumber, dan SEO dengan sumber daya berikut.

Alat

Lihat Kode Sumber + Analisis Cerdas

Periksa kode sumber HTML lengkap di browser Anda dengan audit SEO, deteksi teknologi, dan metrik kinerja.

Alat

Unduh Kode Situs

Butuh HTML lengkap, bukan hanya teks? Simpan kode sumber halaman publik apa pun sebagai file yang dapat diunduh.

SEO

Meningkatkan SEO melalui kode sumber

Bagaimana struktur HTML memengaruhi peringkat pencarian - dan apa yang harus diperiksa saat mengaudit halaman.

Panduan

Cara membaca kode sumber HTML

Tur ramah pemula tentang struktur HTML, tag, dan cara memahami markup halaman mana pun.

Referensi

Referensi semua tag HTML5

Indeks lengkap tag HTML5 dengan deskripsi - berguna saat memeriksa markup mentah atau yang diekstrak.

Alat

Editor kode terbaik untuk pengembangan web

Panduan editor kode dan IDE gratis dan berbayar terbaik untuk bekerja dengan HTML, CSS, dan JavaScript.