HTMLをテキストに変換 - マークアップを削除し、コンテンツを保持
あらゆるウェブページやHTMLからHTMLマークアップ、スクリプト、スタイルを削除し、読み取り可能なテキストコンテンツのみを保持します。ETLパイプライン、RAG/ベクトルDBインデックス作成、コンテンツ移行、プレーンメール本文生成に最適です。
100%プライベート
即時処理
ブラウザベース
機能
URLまたはHTMLからプレーンテキストを抽出
スクリプト、スタイル、タグを削除
JavaScriptでレンダリングされたSPAコンテンツをキャプチャ
単語数と文字数を返します
セレクター/ネットワークアイドル/固定タイムアウトを待機
X-Word-CountおよびX-Character-Countヘッダー付きREST API
How It Looks
Before
After
仕組み
1
URLまたはHTMLを貼り付け
2
変換をクリック
3
出力をコピーするか、.txtとしてダウンロード
一般的なユースケース
検索インデックスの前処理
RAG/ベクトルDBの取り込み
レガシーCMSからのコンテンツ移行
プレーンメール本文の生成
テキスト分類パイプライン
よくある質問
JavaScriptでレンダリングされたコンテンツも処理しますか?
はい。URL入力はまずヘッドレスChromeでレンダリングされるため、SPA/動的コンテンツもキャプチャされます。直接HTMLを入力した場合はChromeをスキップし、より高速に処理します。
空白文字は保持されますか?
ブロック要素には改行が、インライン要素にはスペースが追加されます。出力は、ソースページの簡略化されたバージョンのように表示されます。
REST APIはありますか?
はい。POST /api/v1/convert/textで利用可能です。レスポンスヘッダーにはX-Word-CountとX-Character-Countが含まれます。
HTMLからテキストへ
あらゆるウェブページやHTMLからHTMLマークアップ、スクリプト、スタイルを削除し、読み取り可能なテキストコンテンツのみを保持します。ETLパイプライン、RAG/ベクトルDBインデックス作成、コンテンツ移行、プレーンメール本文生成に最適です。
Sign up