PDFSub 如何在不上传文件的情况下处理 PDF
大多数在线 PDF 工具会将您的文件上传到远程服务器。PDFSub 则有所不同——它直接在您的浏览器中处理文档,因此敏感文件永远不会离开您的设备。以下是它的具体工作原理。
您需要将银行对账单转换为 Excel。或者将两份合同合并为一个 PDF。或者在通过电子邮件发送给客户之前压缩纳税申报表。
于是您在 Google 上搜索“PDF 转换器”,点击第一个结果,然后将文件拖入上传框。进度条加载,图标旋转。三十秒后,您下载了结果。
简单、快速。但您的敏感文档刚刚穿越了互联网,降落在陌生人的服务器上,由您无法检查的软件处理,并(希望)在之后被删除。
这就是在线文档工具的隐私悖论。您最需要处理的文档——银行对账单、纳税申报表、法律合同、医疗记录、财务报告——恰恰是您最应该谨慎分享的。然而,几乎所有主流 PDF 工具的标准工作流程都要求您将这些文件交给第三方。
PDFSub 的诞生就是为了打破这种模式。对于大多数操作,您的文件永远不会离开您的设备。本文将详细解释其工作原理、何时真正需要服务器端处理,以及您如何亲自验证这些说法。
大多数在线 PDF 工具的工作原理
在解释 PDFSub 的不同之处之前,了解标准方法会有所帮助。几乎所有的在线 PDF 工具(无论是免费还是付费)都遵循相同的模式:
- 您在设备上选择一个文件
- 文件通过互联网上传到提供商的服务器
- 服务器处理文件(合并、压缩、转换、提取数据)
- 结果作为下载发送回给您
- 原始文件保留在他们的服务器上,直到(据称)被删除
从提供商的角度来看,这种架构是有道理的。服务器端处理更容易构建、更容易扩展,并让提供商拥有完全的控制权。但从您的角度来看,这意味着您的文档接触到了您无法控制的基础设施。
即使提供商使用 HTTPS,即使他们承诺在处理后删除文件,甚至即使他们有令人放心的隐私政策——您的文件也曾在他们的服务器上存在过。它存在于他们的内存中、磁盘上,甚至可能存在于他们的备份和日志中。支持人员可能有权访问。分包处理商可能会收到副本。如果他们的基础设施遭到破坏,您的文档可能会与数百万其他文档一起泄露。
对于您使用过的几乎所有在线 PDF 工具来说,情况都是如此。大品牌、免费工具、“注重隐私”的工具——几乎都遵循这种“上传-处理-下载”模型。
“注重隐私”通常意味着什么
一些工具将自己标榜为具有隐私意识。但请仔细观察这通常意味着什么:
- “文件在传输过程中加密”——这只是 HTTPS。每个网站都在使用它。它保护您的文件在传输过程中的安全,而不是在服务器上的安全。
- “文件在 2 小时后删除”——对于第三方服务器上的敏感文档来说,两小时是很长的时间。而且“删除”并不总是意味着从备份中抹除。
- “我们不阅读您的文件”——技术上是对的,是由自动化软件处理的。但文件仍在他们的基础设施上,任何拥有服务器访问权限的人都可以访问。
- “通过 SOC 2 认证”——这证明存在安全流程,并不代表不会发生泄露。在 MOVEit 泄露事件暴露 9330 万人的数据时,四大跨国会计师事务所中有三家都拥有 SOC 2 认证。
这些措施都不坏,但对于真正敏感的文档来说是不够的。最安全的方法不是更好的加密或更短的保留期,而是从一开始就不发送文件。
PDFSub 的不同之处:基于浏览器的处理
PDFSub 采取了根本不同的架构方法。PDFSub 不会将您的文件上传到服务器进行处理,而是直接在您的 Web 浏览器中运行处理软件。
当您打开 PDFSub 并加载 PDF 时,文件会从您的设备读取到浏览器的内存中。处理代码(使用 JavaScript 和 WebAssembly 编写)在您的计算机上运行,使用您的处理器和内存。结果在本地生成,并直接从浏览器下载到您的硬盘。
文件从未跨越网络。它从未接触过远程服务器。没有上传,没有原始文件数据的下载,没有服务器端存储,没有保留期,也没有第三方访问。
这不仅仅是一个需要信任的营销口号。这是一种您可以亲自验证的技术架构(稍后会详细介绍)。
基于浏览器的处理实际上是如何工作的
您不需要成为软件工程师也能理解这一点。可以将传统的 PDF 工具想象成照片打印亭。您将照片交给打印亭,它进行处理并打印,然后(希望)销毁您的原件。您必须信任打印亭的操作员。
基于浏览器的处理更像是家里有一台照片打印机。照片从未离开过您的房子。处理过程在您的设备上进行,受您的控制。
当 PDFSub 在您的浏览器中加载时,它会将处理软件下载到您的设备。然后,该软件完全在您的机器上运行。您的浏览器提供了一个安全的沙箱环境,代码可以在其中读取和处理您的文件,而无法将原始文件数据发送到其他地方。
以下是典型操作的逐步流程:
- 您打开 PDFSub——您的浏览器下载应用程序代码(JavaScript、WebAssembly)。这就是处理引擎。
- 您选择一个 PDF 文件——您的浏览器将文件从硬盘读取到本地内存中。不发起任何网络请求。
- 本地进行处理——JavaScript/WebAssembly 代码解析 PDF 结构、提取文本、操作页面或执行您选择的任何操作。所有计算都使用您设备的处理器。
- 在内存中生成结果——输出文件(合并后的 PDF、Excel 表格、压缩后的 PDF 等)在您的浏览器内存中创建。
- 您下载结果——文件直接从浏览器内存保存到您的硬盘。不涉及服务器。
在任何时候,原始文件或其内容都不会离开您的设备。浏览器的安全模型强制执行了这一点:在网页中运行的 JavaScript 无法在不发起网络请求的情况下静默传输数据,而您可以实时监控网络请求。
浏览器安全模型保护着您
现代 Web 浏览器提供了多层保护,使这种架构真正安全:
- 同源策略——来自一个网站的代码无法访问来自另一个网站的数据。其他标签页或网站无法读取您在 PDFSub 中处理的文件。
- 进程隔离——每个浏览器标签页都在独立的沙箱进程中运行。您计算机上的其他应用程序无法访问正在处理的数据。
- 无持久存储——当您关闭标签页时,内存中的所有数据都会被销毁。与服务器端处理不同,磁盘上没有残留副本,没有备份快照,也没有包含您数据的日志文件。
- 可审计的网络活动——浏览器发起的每个网络请求在开发者工具中都是可见的。您可以实时验证没有文件数据被传输。
这并不是 PDFSub 构建的专有安全系统。这是 Web 平台本身的安全模型,由 Chrome、Firefox、Safari 和 Edge 强制执行——这些浏览器背后有数十亿美元的安全投资支持。
它甚至可以离线工作
一旦 PDFSub 的页面加载完成,即使您断开互联网连接,许多操作仍然可以工作。处理代码已经在您的浏览器中。文件已经在内存中。合并 PDF、压缩文档或提取文本不需要网络连接。
加载 PDFSub,开启飞行模式,然后处理文件。它依然有效——因为文件本来就不打算被上传。
何时需要服务器端处理
透明度至关重要,所以让我们直言不讳:并非所有操作都能在浏览器中完成。某些任务需要浏览器不具备的功能,对于这些任务,PDFSub 确实会使用服务器端处理。
以下是具体场景:
需要 OCR 的扫描版 PDF
当 PDF 是扫描图像(打印文档的照片)时,您的浏览器可以看到像素但无法读取文本。从图像中提取文本需要光学字符识别 (OCR),而这反过来又需要 AI 模型,这些模型太大且计算量太大,无法在浏览器中运行。
对于扫描文档,PDF 会被发送到 PDFSub 的服务器,在那里 AI 驱动的 OCR 会读取图像中的文本,提取数据并返回结果。
AI 驱动的功能
诸如 AI 摘要、AI 翻译、AI 数据提取以及关于文档的 AI 对话等功能,需要运行在专门硬件上的大语言模型。这些功能目前无法在浏览器中运行——这些模型需要大量的计算资源,超出了消费级设备所能提供的范围。
当您使用 AI 功能时,相关的文档内容会被发送到服务器进行处理。
复杂的服务器端解析
某些 PDF 文档具有不寻常的编码、损坏的结构或边缘情况格式,浏览器端解析器无法处理。在这种情况下,PDFSub 会回退到可以访问更强大解析工具的服务器端解析器。
服务器端处理期间会发生什么
当需要服务器端处理时,具体流程如下:
- 加密传输——您的文件通过 TLS(与在线银行相同的加密技术)发送到 PDFSub 的服务器
- 内存中处理——文件被立即处理。它在处理期间保存在服务器内存中,不会写入永久存储
- 返回结果——处理后的结果发送回您的浏览器
- 立即删除——处理完成后,原始文件和任何中间数据会立即从服务器内存中删除
- 无保留——PDFSub 不存储您的文件,不记录文件内容,处理后不保留任何文档数据
- 不用于 AI 训练——您的文档永远不会用于训练 AI 模型。文件内容在处理后即被丢弃
与其他工具的关键区别在于:PDFSub 仅在技术上必要时才使用服务器端处理,且仅针对需要它的特定操作。大多数工具无论是否需要,都会将每个文件发送到其服务器。
这对您的文档意味着什么
不同的文档类型有不同的处理路径。以下是实际分类:
银行对账单(电子 PDF)
如果您从网上银行门户下载银行对账单,它是电子 PDF——文本是真实的文本,而不是扫描图像。对于这些文档,PDFSub 的提取引擎完全在您的浏览器中运行。
交易日期、描述、金额和余额都在本地解析和结构化。输出结果——无论是 Excel、CSV、QBO、OFX 还是任何其他格式——都在您的设备上生成。您的银行对账单及其账号、交易历史和余额永远不会离开您的计算机。
这是银行对账单转换最常见的场景,因为当今绝大多数银行对账单都是以数字方式下载的。
银行对账单(扫描版)
如果您处理的是拍摄或扫描的纸质对账单,则 PDF 包含的是图像而非文本。这些需要服务器端 AI 来读取图像中的文本。文件会被发送到服务器,处理后立即删除。
发票和收据
从电子发票和收据中提取文本发生在您的浏览器中。如果您想要 AI 驱动的分析——自动识别供应商名称、行项目、税额和总额——这需要服务器端 AI 处理。
合同和法律文件
合并合同、压缩法律文件、提取特定页面、添加水印、脱敏内容以及大多数其他 PDF 操作都完全在您的浏览器中进行。文档在整个过程中都保留在您的设备上。
财务报告
对于电子 PDF,将财务报告的表格转换为 Excel 可以在浏览器端完成。AI 驱动的分析——生成摘要、提取关键指标或针对内容提问——则需要服务器端处理。
通用规则
如果操作是结构性的(合并、拆分、压缩、旋转、提取页面、转换格式、添加水印)——它发生在您的浏览器中。
如果操作需要 AI 理解(摘要、翻译、从复杂或扫描文档中提取数据、问答)——它需要服务器端处理。
PDFSub 提供 77+ 种工具。其中大部分是永远不会接触服务器的浏览器端操作。
针对受监管行业
如果您在对数据处理有严格要求的领域工作,浏览器端处理和服务器端处理之间的区别具有实际的合规性意义。
医疗保健 (HIPAA)
HIPAA 要求受监管实体和业务伙伴保护患者健康信息 (PHI)。当您使用基于云的工具处理包含 PHI 的文档时,该工具的提供商就成为了业务伙伴——需要签署业务伙伴协议 (BAA)、记录安全控制措施并承担泄露通知义务。
当您使用 PDFSub 的浏览器端工具处理包含 PHI 的 PDF 时,文档永远不会离开您的设备。由于没有共享 PHI,因此这些操作不需要 BAA。这简化了合规性并消除了供应商风险类别。
对于需要服务器端处理的 AI 功能,适用标准的 HIPAA 供应商评估。
金融服务
银行、投资公司、保险公司和财务顾问处理受 Gramm-Leach-Bliley 法案、SEC 规则、FINRA 要求和各州特定法规管辖的数据。这些要求有记录在案的数据处理程序、供应商风险评估,并限制与第三方共享客户数据。
基于浏览器的处理意味着对于不需要 AI 的操作,客户财务数据保留在本地。这减少了合规文档中的第三方数据处理商,并简化了供应商风险评估。
法律
律师处理受律师-客户特权保护的文档。将享有特权的文档上传到第三方服务器会带来风险,如果文档被访问、泄露或被提供商传唤,特权可能会受到挑战。
对于特权文档的基本 PDF 操作——合并证据文件、压缩证物、提取页面——基于浏览器的处理意味着文档从未离开律师的设备。特权得到了毫无疑问的维护。
会计和税务筹划
IRS 要求所有税务专业人员维护一份书面信息安全计划 (WISP)。AICPA 限制向第三方披露客户机密信息。对客户财务文档使用云端工具会产生合规义务。
基于浏览器的处理消除了不需要服务器端 AI 的操作的这些义务。您的 WISP 变得更简单,您的供应商风险清单更短,您的合规姿态更强大。
如何自行验证
您不必仅仅听信 PDFSub 的一面之词。基于浏览器的架构可以使用 Web 浏览器中内置的工具进行全面审计。
第 1 步:打开开发者工具
在任何现代浏览器中,按 F12(或在页面任意位置右键点击并选择“检查”)。这将打开开发者工具面板。
第 2 步:转到 Network 选项卡
点击 Network(网络)选项卡。这会显示您的浏览器发起的每个网络请求——每个下载的文件、每个 API 调用、每个数据传输。任何内容都无法在不出现在此处的情况下从您的浏览器发送出去。
第 3 步:清除日志
点击清除按钮(带斜杠的圆圈)以从空白状态开始。
第 4 步:处理文档
将 PDF 加载到 PDFSub 并运行任何基于浏览器的操作——合并、压缩、提取文本、转换银行对账单。
第 5 步:检查网络日志
查看处理期间出现的请求。对于基于浏览器的操作,您将看到:
- 没有文件上传请求——没有将您的 PDF 数据携带到服务器的 POST 或 PUT 请求
- 任何请求中都没有文档内容——文件字节保留在您的浏览器内存中
- 只有少量的元数据请求——例如不包含文档数据的使用分析(页面浏览量、功能使用情况)
这是安全研究人员用来审计 Web 应用程序的相同技术。如果 PDFSub 在秘密上传您的文件,它会立即变得可见。
AI 操作呢?
如果您使用需要服务器端 AI 的功能,您将在 Network 选项卡中看到一个网络请求。这是预料之中的——内容需要到达服务器进行 AI 处理。区别在于 PDFSub 对哪些操作需要这样做是透明的,而不是静默上传每个文件。
PDFSub 收集与不收集的内容
完全透明意味着明确 PDFSub 处理和不处理哪些数据。
PDFSub 收集的内容
- 账户信息——如果您创建账户,包括您的电子邮件地址、姓名和订阅详情
- 使用分析——您使用了哪些工具、频率、页面浏览量和功能交互。这是标准的 Web 分析,有助于改进产品
- 错误报告——如果出现问题,匿名错误信息(而非您的文档内容)有助于诊断和修复问题
- 付款信息——由付款提供商处理(PDFSub 不直接存储)
- 银行名称示例——中国工商银行、中国建设银行、招商银行、中国银行、交通银行、平安银行、中信银行、兴业银行、汇丰银行、德意志银行、法国巴黎银行、瑞银集团、桑坦德银行、荷兰国际集团、三菱日联银行、印度国家银行、巴克莱银行、联邦银行、渣打银行、花旗银行
对于浏览器端操作,PDFSub 不收集的内容
- 您的文件内容——对于浏览器端操作,您的 PDF 字节永远不会传输到 PDFSub 的服务器
- 提取的文本——交易描述、名称、金额、日期——对于本地操作,这些数据都不会离开您的设备
- 文档元数据——PDF 中的文件名、作者字段、创建日期都保留在您的设备上
- 处理后的输出——Excel 文件、CSV、合并后的 PDF 或压缩后的文档都在您的浏览器中生成并保存到您的设备
对于服务器端操作
当操作需要服务器端处理(AI 功能、扫描文档 OCR)时,文档内容会被发送到服务器进行处理,并在处理后立即删除。它不会被存储、记录、索引或用于除完成您请求的操作之外的任何目的。
与其他方法的比较
为了将 PDFSub 的方法置于背景中,以下是它与常见替代方案的比较:
| 方法 | 处理发生在哪里 | 是否需要上传文件 | 数据保留 | 隐私级别 |
|---|---|---|---|---|
| PDFSub (浏览器端工具) | 您的设备 | 否 | 无 | 最高——文件从未离开 |
| PDFSub (AI 功能) | PDFSub 服务器 | 是 (必要时) | 无——立即删除 | 高——极低暴露 |
| 典型云端 PDF 工具 | 提供商服务器 | 是,始终 | 数小时至数天 | 中等——取决于提供商 |
| 企业级云端工具 | 提供商服务器 | 是,始终 | 按保留政策 | 中等——有记录的控制措施 |
| 桌面软件 | 您的设备 | 否 | 本地文件 | 高——但需要安装 |
就隐私而言,桌面软件是最接近的比较对象——两者都在本地处理。基于浏览器的优势:无需安装,可在任何带浏览器的设备上运行,始终保持最新,并且可以从无法运行桌面软件的 Chromebook 和平板电脑访问。
诚实的权衡
没有哪种方法是完美的,值得信赖意味着对局限性保持诚实。
对于非常大的文件,基于浏览器的处理可能会较慢。 拥有优化硬件的专用服务器对于超大型文档(100 页以上)可能会更快。对于典型文档,差异微乎其微。
AI 功能需要服务器端处理。 如果您需要 AI 摘要、翻译或扫描文档的 OCR,内容必须到达服务器。PDFSub 通过优先使用本地处理并在必要时才升级来最大限度地减少这种情况。
浏览器功能有限制。 边缘情况——损坏的 PDF、不寻常的编码、极其复杂的布局——可能需要服务器端回退。PDFSub 会优雅地处理这些情况,但在这些情况下文件确实会离开您的设备。
我们的理念是:尽可能在本地处理,仅在真正需要时使用服务器端,对两者进行透明区分,并在需要服务器处理时立即删除所有内容。
为什么这种架构很重要
软件的趋势是更多的云处理、更多的数据收集、更多的服务器端计算。对于敏感文档——银行对账单、纳税申报表、法律合同、医疗记录和财务报告——这一趋势恰恰是背道而驰的。
最安全的文件是永远不会离开您设备的文件。最安全的服务器是永远不会收到您数据的服务器。最强大的隐私政策是不需要存在的政策,因为在提供商端没有任何东西需要保护。
PDFSub 的浏览器端架构不是一种营销差异化手段。这是一个塑造每个工具构建方式的基本设计决策。当一个新功能可以在客户端实现时,它就会被实现。服务器端处理是例外,而不是默认设置。
对于注重隐私的专业人士、合规官和 IT 经理来说,问题不仅在于“这个工具是否有良好的隐私政策?”,还在于“这个工具到底是否需要访问我的文件?”
对于 PDFSub 所做的大部分工作,答案是否定的。
亲自尝试
评估 PDFSub 隐私架构的最佳方式是亲身体验。
开始您的 7 天免费试用 —— 浏览所有 77+ 种工具,在打开 Network 选项卡的情况下处理文档,亲自查看。没有文件上传。没有服务器端处理。您的文档保留在您的设备上。
对于银行对账单转换、PDF 合并、压缩、文本提取以及数十种其他操作——您的文件永远不会离开您的浏览器。这不仅是一个承诺,而是一个您可以验证的架构。