Chuyển đổi HTML sang Văn bản - Loại bỏ Mã đánh dấu, Giữ lại Nội dung
Loại bỏ mã đánh dấu HTML, tập lệnh và kiểu dáng khỏi bất kỳ trang web hoặc HTML nào - chỉ giữ lại nội dung văn bản có thể đọc được. Lý tưởng cho các quy trình ETL, lập chỉ mục RAG / vector-DB, di chuyển nội dung và tạo phần thân email thuần túy.
100% Riêng tư
Xử lý tức thì
Dựa trên trình duyệt
Tính năng
Trích xuất văn bản thuần túy từ URL hoặc HTML
Loại bỏ tập lệnh, kiểu dáng và thẻ
Nội dung SPA được hiển thị bằng JavaScript được chụp
Trả về số lượng từ và số lượng ký tự
Chờ bộ chọn / mạng không hoạt động / hết thời gian chờ cố định
API REST với các tiêu đề X-Word-Count và X-Character-Count
How It Looks
Before
After
Cách hoạt động
1
Dán URL hoặc HTML
2
Nhấp vào Chuyển đổi
3
Sao chép đầu ra hoặc tải xuống dưới dạng .txt
Trường hợp sử dụng phổ biến
Tiền xử lý chỉ mục tìm kiếm
Nhập RAG / vector-DB
Di chuyển nội dung từ CMS cũ
Tạo phần thân email thuần túy
Quy trình phân loại văn bản
Câu hỏi thường gặp
Nó có xử lý nội dung được hiển thị bằng JavaScript không?
Có - Đầu vào URL được hiển thị trong headless Chrome trước, vì vậy nội dung SPA / động được chụp. Đầu vào HTML trực tiếp bỏ qua Chrome để có đường dẫn nhanh hơn.
Khoảng trắng có được bảo toàn không?
Các phần tử khối nhận các dòng mới, các phần tử nội tuyến nhận khoảng trắng. Đầu ra đọc giống như một phiên bản được cắt giảm của trang nguồn.
Có API REST không?
Có - POST /api/v1/convert/text. Các tiêu đề phản hồi bao gồm X-Word-Count và X-Character-Count.
HTML sang Văn bản
Loại bỏ mã đánh dấu HTML, tập lệnh và kiểu dáng khỏi bất kỳ trang web hoặc HTML nào - chỉ giữ lại nội dung văn bản có thể đọc được. Lý tưởng cho các quy trình ETL, lập chỉ mục RAG / vector-DB, di chuyển nội dung và tạo phần thân email thuần túy.
Sign up