HTMLをテキストに変換 - マークアップを削除し、コンテンツを保持

あらゆるウェブページやHTMLからHTMLマークアップ、スクリプト、スタイルを削除し、読み取り可能なテキストコンテンツのみを保持します。ETLパイプライン、RAG/ベクトルDBインデックス作成、コンテンツ移行、プレーンメール本文生成に最適です。

100%プライベート

即時処理

ブラウザベース

機能

URLまたはHTMLからプレーンテキストを抽出

スクリプト、スタイル、タグを削除

JavaScriptでレンダリングされたSPAコンテンツをキャプチャ

単語数と文字数を返します

セレクター/ネットワークアイドル/固定タイムアウトを待機

X-Word-CountおよびX-Character-Countヘッダー付きREST API

How It Looks

Before

After

仕組み

URLまたはHTMLを貼り付け

変換をクリック

出力をコピーするか、.txtとしてダウンロード

一般的なユースケース

検索インデックスの前処理

RAG/ベクトルDBの取り込み

レガシーCMSからのコンテンツ移行

プレーンメール本文の生成

テキスト分類パイプライン

よくある質問

JavaScriptでレンダリングされたコンテンツも処理しますか？

はい。URL入力はまずヘッドレスChromeでレンダリングされるため、SPA/動的コンテンツもキャプチャされます。直接HTMLを入力した場合はChromeをスキップし、より高速に処理します。

空白文字は保持されますか？

ブロック要素には改行が、インライン要素にはスペースが追加されます。出力は、ソースページの簡略化されたバージョンのように表示されます。

REST APIはありますか？

はい。POST /api/v1/convert/textで利用可能です。レスポンスヘッダーにはX-Word-CountとX-Character-Countが含まれます。

HTMLからテキストへ