HTML'den Metne Dönüştürme - İşaretlemeyi Kaldır, İçeriği Sakla
Herhangi bir web sayfasından veya HTML'den HTML işaretlemesini, betikleri ve stilleri kaldırın - yalnızca okunabilir metin içeriğini saklayın. ETL işlem hatları, RAG / vektör-DB indeksleme, içerik geçişleri ve düz e-posta gövdesi oluşturma için idealdir.
Tamamen Özel
Anında İşlem
Tarayıcı Tabanlı
Özellikler
URL veya HTML'den düz metin çıkarın
Betikler, stiller ve etiketler kaldırılır
JavaScript ile oluşturulan SPA içeriği yakalanır
Kelime ve karakter sayısı döndürülür
Seçici / ağ boşta kalma / sabit zaman aşımı beklenir
X-Word-Count ve X-Character-Count başlıklarına sahip REST API
How It Looks
Before
After
Nasıl Çalışır
1
Bir URL veya HTML yapıştırın
2
Dönüştür'e tıklayın
3
Çıktıyı kopyalayın veya .txt olarak indirin
Yaygın Kullanım Alanları
Arama dizini ön işleme
RAG / vektör-DB alımı
Eski CMS'lerden içerik geçişi
Düz e-posta gövdesi oluşturma
Metin sınıflandırma işlem hatları
Sıkça Sorulan Sorular
JavaScript ile oluşturulan içeriği işliyor mu?
Evet - URL girişleri önce başsız Chrome'da işlenir, böylece SPA / dinamik içerik yakalanır. Doğrudan HTML girişleri daha hızlı bir yol için Chrome'u atlar.
Boşluk korunuyor mu?
Blok öğeleri yeni satırlar, satır içi öğeler boşluklar alır. Çıktı, kaynak sayfanın kırpılmış bir sürümü gibi okunur.
REST API var mı?
Evet - POST /api/v1/convert/text. Yanıt başlıkları X-Word-Count ve X-Character-Count içerir.
HTML'den Metne
Herhangi bir web sayfasından veya HTML'den HTML işaretlemesini, betikleri ve stilleri kaldırın - yalnızca okunabilir metin içeriğini saklayın. ETL işlem hatları, RAG / vektör-DB indeksleme, içerik geçişleri ve düz e-posta gövdesi oluşturma için idealdir.
Sign up