PDFSub 如何处理您的 PDF:浏览器、引擎和 AI
大多数在线 PDF 工具会将您的文件上传到远程服务器。PDFSub 使用三个处理层——基于浏览器的编辑、用于转换的隔离 PDFSub 引擎以及用于智能分析的 AI——每一层都旨在保护您的数据。本文将详细介绍其工作原理。
您需要将银行对账单转换为 Excel。或者将两份合同合并为一个 PDF。或者在发送给客户之前压缩纳税申报表。
于是您搜索“PDF 转换器”,点击第一个结果,然后将文件拖到上传框中。进度条开始填充。一个旋转的指示器在转动。三十秒后,您下载了结果。
简单。快速。但您的敏感文件刚刚穿越互联网,登陆了一个陌生人的服务器,被您无法检查的软件处理,然后(希望如此)被删除。
这就是在线文档工具的隐私悖论。您最需要处理的文件——银行对账单、纳税申报表、法律合同、医疗记录、财务报告——恰恰是您最应该小心共享的文件。然而,每个主要 PDF 工具的标准工作流程都要求您将这些文件交给第三方。
PDFSub 的构建初衷就是打破这种模式。对于大多数操作,您的文件永远不会离开您的设备。本文将详细介绍其工作原理、何时真正需要服务器端处理,以及您如何自行验证所有声明。

大多数在线 PDF 工具的工作原理
在解释 PDFSub 有何不同之处之前,了解其标准方法会有所帮助。几乎所有在线 PDF 工具——无论是免费还是付费——都遵循相同的模式:
- 您在设备上选择一个文件
- 文件通过互联网上传到提供商的服务器
- 服务器处理文件(合并、压缩、转换、提取数据)
- 结果作为下载文件发送给您
- 原始文件保留在他们的服务器上,直到(声称)被删除
这种架构从提供商的角度来看是合理的。服务器端处理更容易构建、更容易扩展,并使提供商能够完全控制。但从您的角度来看,这意味着您的文档接触了您无法控制的基础设施。
即使提供商使用 HTTPS,即使他们承诺在处理后删除文件,即使他们有令人放心的隐私政策——您的文件仍然在他们的服务器上。它存在于他们的内存中、他们的磁盘上,可能还存在于他们的备份和日志中。支持人员可能拥有访问权限。子处理器可能收到副本。如果他们的基础设施被泄露,您的文档可能会与其他数百万份文档一起暴露。
这适用于您使用过的几乎所有在线 PDF 工具。那些大牌、免费工具、“注重隐私”的工具——几乎所有都遵循这种上传-处理-下载模式。
“注重隐私”通常意味着什么
有些工具将自己宣传为注重隐私。但仔细看看这通常意味着什么:
- “文件在传输过程中加密”——这只是 HTTPS。每个网站都使用它。它保护您的文件在传输过程中,而不是在服务器上时。
- “文件在 2 小时后删除”——对于第三方服务器上的敏感文档来说,两小时是很长的时间。“删除”并不总是意味着从备份中擦除。
- “我们不读取您的文件”——技术上是正确的——自动化软件会处理它们。但文件仍然在他们的基础设施上,任何拥有服务器访问权限的人都可以访问。
- “SOC 2 认证”——这证明了安全流程的存在,而不是不可能发生泄露。四大(会计师事务所)中有三家拥有 SOC 2 认证,但 MOVEit 泄露事件仍然暴露了 9330 万人的数据。
这些措施本身没有错。它们只是对于真正敏感的文档来说不够充分。最安全的方法不是更好的加密或更短的保留期——而是根本不发送文件。
PDFSub 的不同之处:基于浏览器的处理

PDFSub 采取了根本不同的架构方法。PDFSub 不会将您的文件上传到服务器进行处理,而是在您的网页浏览器中直接运行处理软件。
当您打开 PDFSub 并加载 PDF 时,文件会从您的设备读取到您浏览器的内存中。处理代码——用 JavaScript 和 WebAssembly 编写——在您的计算机上运行,使用您的处理器和 RAM。结果在本地生成,并直接从您的浏览器下载到您的硬盘驱动器。
文件永远不会跨越网络。它永远不会接触远程服务器。没有上传,没有原始文件数据的下载,没有服务器端存储,没有保留期,也没有第三方访问。
这不是一个需要信任的市场宣传。这是一个您可以自行验证的技术架构(稍后会详细介绍)。
基于浏览器的处理实际上是如何工作的
您不需要成为软件工程师就能理解这一点。将传统的 PDF 工具想象成一个照片打印服务站。您将照片交给服务站,它会处理并打印,然后(希望如此)销毁您的原件。您必须信任服务站的操作员。
基于浏览器的处理更像是家里有一台照片打印机。照片永远不会离开您的家。处理在您的设备上进行,由您控制。
当 PDFSub 在您的浏览器中加载时,它会将处理软件下载到您的设备。然后该软件完全在您的机器上运行。您的浏览器提供了一个安全、沙盒化的环境,代码可以在其中读取和处理您的文件,而没有任何能力将原始文件数据发送到别处。
以下是典型操作的步骤流程:
- 您打开 PDFSub——您的浏览器下载应用程序代码(JavaScript、WebAssembly)。这就是处理引擎。
- 您选择一个 PDF 文件——您的浏览器从您的硬盘驱动器读取文件到本地内存。没有进行网络请求。
- 本地处理——JavaScript/WebAssembly 代码解析 PDF 结构、提取文本、操作页面或执行您选择的任何操作。所有计算都使用您设备的处理器。
- 结果在内存中生成——输出文件(合并的 PDF、Excel 电子表格、压缩的 PDF 等)在您的浏览器内存中创建。
- 您下载结果——文件直接从浏览器内存保存到您的硬盘驱动器。没有服务器参与。
在任何时候,原始文件——或其内容——都不会离开您的设备。浏览器的安全模型强制执行这一点:网页中运行的 JavaScript 在没有网络请求的情况下无法静默传输数据,您可以在实时监控网络请求。
浏览器安全模型保护您
现代网页浏览器提供了多层保护,使这种架构真正安全:
- 同源策略——来自一个网站的代码无法访问另一个网站的数据。没有其他标签页或网站可以读取您在 PDFSub 中处理的文件。
- 进程隔离——每个浏览器标签页都在一个单独的沙盒化进程中运行。您计算机上的其他应用程序无法访问正在处理的数据。
- 无持久化存储——当您关闭标签页时,内存中的所有数据都会被销毁。与服务器端处理不同,磁盘上没有残留副本,没有备份快照,没有包含您数据的日志文件。
- 可审计的网络活动——您的浏览器进行的每个网络请求都可以在开发者工具中看到。您可以实时验证没有文件数据被传输。
这不是 PDFSub 构建的专有安全系统。这是 Web 平台本身的安全模型,由 Chrome、Firefox、Safari 和 Edge 强制执行——这些浏览器背后有数十亿美元的安全投资。
甚至可以离线工作
一旦 PDFSub 的页面加载完成,即使您断开互联网连接,许多操作仍然可以工作。处理代码已经在您的浏览器中。文件已经在内存中。合并 PDF、压缩文档或提取文本不需要网络连接。
加载 PDFSub,打开飞行模式,然后处理文件。它可以工作——因为文件本来就不会被上传。
何时需要服务器端处理
透明度很重要,所以我们直说:并非所有操作都可以在您的浏览器中进行。某些任务需要浏览器不具备的功能,对于这些任务,PDFSub 确实会使用服务器端处理。
以下是具体场景:
需要 OCR 的扫描 PDF
当 PDF 是扫描图像——打印文档的照片——时,您的浏览器可以看到像素但无法读取文本。从图像中提取文本需要光学字符识别 (OCR),而这又需要 AI 模型,这些模型太大、计算量太大,无法在浏览器中运行。
对于扫描文档,PDF 会被发送到 PDFSub 的服务器,在那里由 AI 驱动的 OCR 从图像中读取文本,提取数据并返回结果。
AI 驱动的功能
诸如 AI 摘要、AI 翻译、AI 数据提取以及关于文档的 AI 聊天等功能需要运行在专用硬件上的大型语言模型。这些功能目前无法在浏览器中运行——模型需要大量的计算资源,这超出了消费级设备所能提供的范围。
当您使用 AI 功能时,相关的文档内容会被发送到服务器进行处理。
复杂的服务器端解析
某些 PDF 文档具有不寻常的编码、损坏的结构或边缘情况的格式,基于浏览器的解析器无法处理。在这些情况下,PDFSub 会回退到服务器端解析器,该解析器可以访问更强大的解析工具。
服务器端处理期间会发生什么
当需要服务器端处理时,具体流程如下:
- 加密传输——您的文件通过 TLS(与在线银行使用的加密相同)发送到 PDFSub 的服务器。
- 内存处理——文件会立即进行处理。在处理过程中,它会保留在服务器内存中,而不是写入永久存储。
- 返回结果——处理后的结果会发送回您的浏览器。
- 立即删除——原始文件和任何中间数据在处理完成后会立即从服务器内存中删除。
- 无保留——PDFSub 不存储您的文件,不记录文件内容,也不在处理后保留任何文档数据。
- 无 AI 训练——您的文档绝不会用于训练 AI 模型。文件内容会被处理并丢弃。
与其他工具的关键区别:PDFSub 仅在技术上需要时才使用服务器端处理,并且仅用于需要它的特定操作。大多数工具会发送每个文件到他们的服务器,而不管是否需要。
这对您的文档意味着什么
不同的文档类型有不同的处理路径。以下是实际的分类:
银行对账单(数字 PDF)
如果您从在线银行门户下载银行对账单,它是一个数字 PDF——文本是实际文本,而不是扫描图像。对于这些文档,PDFSub 的提取引擎完全在您的浏览器中运行。
交易日期、描述、金额和余额会在本地进行解析和结构化。输出——无论是 Excel、CSV、QBO、OFX 还是任何其他格式——都在您的设备上生成。您的银行对账单,包含账号、交易历史和余额,永远不会离开您的计算机。
这是银行对账单转换最常见的情况,因为如今绝大多数银行对账单都是以数字方式下载的。
银行对账单(扫描件)
如果您处理的是通过拍照或扫描获得的实体对账单,PDF 中包含的是图像而不是文本。这些需要服务器端 AI 从图像中读取文本。文件会被发送到服务器,处理后立即删除。
发票和收据
从数字发票和收据中提取文本在您的浏览器中进行。如果您需要 AI 驱动的分析——自动识别供应商名称、明细项目、税额和总计——这需要服务器端 AI 处理。
合同和法律文件
合并合同、压缩法律文件、提取特定页面、添加水印、编辑内容以及大多数其他 PDF 操作都在您的浏览器中完成。在此过程中,文档始终保留在您的设备上。
财务报告
对于数字 PDF,将财务报告的表格转换为 Excel 的操作在浏览器端进行。AI 驱动的分析——生成摘要、提取关键指标或询问有关内容的问题——需要服务器端处理。
通用规则
如果操作是结构性的(合并、拆分、压缩、旋转、提取页面、格式转换、添加水印)——它会在您的浏览器中进行。
如果操作需要 AI 理解(摘要、翻译、从复杂或扫描文档中提取数据、问答)——它需要服务器端处理。
PDFSub 提供 84+ 种工具。其中大部分是基于浏览器的操作,永远不会接触服务器。
适用于受监管行业
如果您在一个有严格数据处理要求的领域工作,基于浏览器和基于服务器的处理之间的区别具有实际的合规性影响。
医疗保健 (HIPAA)
HIPAA 要求覆盖实体和业务伙伴保护患者健康信息 (PHI)。当您使用基于云的工具处理包含 PHI 的文档时,该工具的提供商就成为业务伙伴——需要签署业务伙伴协议 (BAA)、记录在案的安全控制措施和数据泄露通知义务。
当您使用 PDFSub 的基于浏览器的工具处理包含 PHI 的文档时,文档永远不会离开您的设备。不共享 PHI,因此对于这些操作不需要 BAA。这简化了合规性,并消除了供应商风险的一个类别。
对于需要服务器端处理的 AI 驱动功能,适用标准的 HIPAA 供应商评估。
金融服务
银行、投资公司、保险公司和财务顾问处理的数据受《格雷姆-利希-布莱利法案》(Gramm-Leach-Bliley Act)、SEC 规定、FINRA 要求和州特定法规的管辖。这些要求有记录在案的数据处理程序、供应商风险评估以及与第三方共享客户数据的限制。
对于不需要 AI 的操作,基于浏览器的处理意味着客户财务数据保留在本地。这减少了您合规性文档中的第三方数据处理器数量,并简化了供应商风险评估。
法律
律师处理受律师-客户保密特权保护的文件。将特权文件上传到第三方服务器会带来风险,如果该文件被提供商访问、泄露或被传唤,保密特权可能会受到质疑。
对于特权文件的基本 PDF 操作——合并证据文件、压缩附件、提取页面——基于浏览器的处理意味着文件永远不会离开律师的设备。保密特权得以毫无疑问地维持。
会计和税务准备
IRS 要求所有税务专业人士维护书面信息安全计划 (WISP)。AICPA 限制向第三方披露机密客户信息。为客户财务文件使用基于云的工具会产生合规义务。
对于不需要服务器端 AI 的操作,基于浏览器的处理消除了这些义务。您的 WISP 会更简单,您的供应商风险清单会更短,您的合规性状况会更强。
如何自行验证
您不必完全相信 PDFSub 的说法。使用您网页浏览器中已有的工具,可以完全审计基于浏览器的架构。
第一步:打开开发者工具
在任何现代浏览器中,按 F12(或在页面上任意位置右键单击并选择“检查”)。这将打开开发者工具面板。
第二步:转到网络选项卡
点击 网络 选项卡。这将显示您的浏览器发出的每个网络请求——每个下载的文件、每个 API 调用、每次数据传输。没有任何内容可以从您的浏览器发送而不会出现在这里。
第三步:清除日志
点击清除按钮(一个带斜线的圆圈)以开始一个干净的记录。
第四步:处理文档
将 PDF 加载到 PDFSub 中并运行任何基于浏览器的操作——合并、压缩、提取文本、转换银行对账单。
第五步:检查网络日志
查看处理过程中出现的请求。对于基于浏览器的操作,您会看到:
- 无文件上传请求——没有 POST 或 PUT 请求将您的 PDF 数据传输到服务器。
- 任何请求中均无文档内容——文件字节保留在您浏览器的内存中。
- 仅有小的元数据请求——例如包含无文档数据的用法分析(页面浏览量、功能使用情况)。
这是安全研究人员用来审计 Web 应用程序的相同技术。如果 PDFSub 在秘密上传您的文件,那将立即显现。
AI 操作呢?
如果您使用需要服务器端 AI 的功能,您将在网络选项卡中看到一个网络请求。这是预期的——内容需要到达服务器进行 AI 处理。区别在于 PDFSub 会明确说明哪些操作需要这样做,而不是悄悄上传所有文件。
PDFSub 收集什么与不收集什么
完全透明意味着具体说明 PDFSub 处理和不处理哪些数据。
PDFSub 收集的内容
- 账户信息——如果您创建账户,您的电子邮件地址、姓名和订阅详情。
- 使用分析——您使用哪些工具、频率、页面浏览量和功能交互。这是标准的 Web 分析,有助于改进产品。
- 错误报告——如果出现问题,匿名错误信息(不是您的文档内容)有助于诊断和修复问题。
- 付款信息——由付款提供商处理(不直接由 PDFSub 存储)。
对于基于浏览器的操作,PDFSub 不收集的内容
- 您的文件内容——对于基于浏览器的操作,您的 PDF 字节永远不会传输到 PDFSub 的服务器。
- 提取的文本——交易描述、姓名、金额、日期——这些数据都不会离开您的设备进行本地操作。
- 文档元数据——PDF 中的文件名、作者字段、创建日期会保留在您的设备上。
- 处理后的输出——Excel 文件、CSV、合并的 PDF 或压缩文档在您的浏览器中生成并保存到您的设备。
对于服务器端操作
当操作需要服务器端处理时(AI 功能、扫描文档 OCR),文档内容会被发送到服务器进行处理,并在处理后立即删除。它不会被存储、记录、索引或用于完成您请求的操作之外的任何目的。
与其他方法的比较
为了将 PDFSub 的方法置于背景中,以下是它与常见替代方案的比较:
| 方法 | 处理发生地点 | 是否需要文件上传 | 数据保留 | 隐私级别 |
|---|---|---|---|---|
| PDFSub(基于浏览器的工具) | 您的设备 | 否 | 无 | 最高——文件永不离开 |
| PDFSub(AI 功能) | PDFSub 服务器 | 是(仅在需要时) | 无——立即删除 | 高——最小化暴露 |
| 典型云 PDF 工具 | 提供商服务器 | 是,总是 | 数小时至数天 | 中等——取决于提供商 |
| 企业云工具 | 提供商服务器 | 是,总是 | 根据保留策略 | 中等——有记录的控制 |
| 桌面软件 | 您的设备 | 否 | 本地文件 | 高——但需要安装 |
桌面软件在隐私方面是最接近的比较——两者都在本地处理。基于浏览器的优势:无需安装,可在任何有浏览器的设备上运行,始终保持最新,并且可从无法运行桌面软件的 Chromebook 和平板电脑上访问。
公正的权衡
没有一种方法是完美的,值得信赖意味着要诚实地说明局限性。
对于非常大的文件,基于浏览器的处理可能会更慢。 专用服务器和优化硬件对于超大文档(100+ 页)可能更快。对于典型文档,差异几乎无法察觉。
AI 功能需要服务器端处理。 如果您需要 AI 摘要、翻译或扫描文档的 OCR,内容必须到达服务器。PDFSub 通过首先使用本地处理,仅在必要时升级来最小化这一点。
浏览器功能有限制。 边缘情况——损坏的 PDF、不寻常的编码、极其复杂的布局——可能需要服务器端回退。PDFSub 会优雅地处理这种情况,但在此类情况下文件确实会离开您的设备。
原则:尽可能在本地处理,仅在确实需要时使用服务器端处理,并就两者进行透明沟通,在需要服务器处理时立即删除所有内容。
为什么这种架构很重要
软件的趋势是更多的云处理、更多的数据收集、更多的服务器端计算。对于敏感文档——银行对账单、纳税申报表、法律合同、医疗记录和财务报告——这种趋势恰恰是错误的。
最安全的文件是永远不离开您设备的文件。最安全的服务器是永远不会接收您数据的服务器。最强大的隐私政策是根本不需要存在的政策,因为提供商那里没有什么需要保护的。
PDFSub 的基于浏览器的架构不是一个市场差异化因素。它是一个基本的设计决策,塑造了每个工具的构建方式。当一项新功能可以在客户端实现时,它就会被实现。服务器端处理是例外,而不是默认。
对于注重隐私的专业人士、合规官和 IT 管理员来说——问题不仅仅是“这个工具有好的隐私政策吗?” 而是“这个工具是否需要访问我的文件?”
对于 PDFSub 所做的绝大多数事情,答案是否定的。
亲自尝试
评估 PDFSub 隐私架构的最佳方法是亲身体验。
开始您的 7 天免费试用——浏览所有 84+ 种工具,在打开网络选项卡的情况下处理文档,亲自看看。无需文件上传。无需服务器端处理。您的文档保留在您的设备上。
对于银行对账单转换、PDF 合并、压缩、文本提取以及数十种其他操作——您的文件永远不会离开您的浏览器。这不是一个承诺。这是一个您可以验证的架构。