HTML 转文本 - 去除标记,保留内容
从任何网页或 HTML 中去除 HTML 标记、脚本和样式 - 只保留可读文本内容。非常适合 ETL 管道、RAG / 向量数据库索引、内容迁移和纯文本邮件正文生成。
100% 隐私保护
即时处理
基于浏览器
功能特性
从 URL 或 HTML 提取纯文本
去除脚本、样式和标签
捕获 JavaScript 渲染的 SPA 内容
返回字数和字符数
等待选择器 / 网络空闲 / 固定超时
带有 X-Word-Count 和 X-Character-Count 标头的 REST API
How It Looks
Before
After
工作原理
1
粘贴 URL 或 HTML
2
点击转换
3
复制输出或下载为 .txt
常见用途
搜索索引预处理
RAG / 向量数据库摄取
从旧版 CMS 进行内容迁移
纯文本邮件正文生成
文本分类管道
常见问题
它能处理 JavaScript 渲染的内容吗?
是的 - URL 输入首先在无头 Chrome 中渲染,因此可以捕获 SPA / 动态内容。直接 HTML 输入会跳过 Chrome,以加快速度。
是否保留了空格?
块级元素会获得换行符,内联元素会获得空格。输出看起来像是源页面的精简版本。
有 REST API 吗?
是的 - POST /api/v1/convert/text。响应标头包括 X-Word-Count 和 X-Character-Count。