PDFSub
定价APIMergeCompressEditE-Sign银行对账单博客
返回博客
教程移除 PDFPDF 工具隐私安全操作指南

如何从 PDF 中移除敏感信息

2026年3月2日
T
Todd Lahman
Founder, PDFSub

在 PDF 上绘制黑色方框并不能移除文本。文本仍然存在,可被选中、搜索和提取。以下是如何真正移除 PDF 中的敏感信息,使其永久销毁。


How to Redact Sensitive Information from a PDF

您有一份 PDF 文件,其中包含第 3 页的社会安全号码、第 7 页的客户家庭住址以及第 12 页表格中隐藏的银行账号。您需要与对方律师、监管机构、业务伙伴或公众分享这份文件,但这些敏感信息必须移除。

于是您打开 PDF,在社保号上画一个黑色矩形,保存,然后发送。

您犯了一个全世界最常见的移除错误。文本仍然存在。任何收到该 PDF 的人都可以选中“已移除”区域,复制隐藏的文本,然后粘贴到文本编辑器中。您客户的社保号现在就在别人的剪贴板上。

这并非理论上的风险。美国司法部、运输安全管理局 (TSA)、财富 500 强公司以及处理备受瞩目案件的律师事务所都曾发生过类似事件。真正的移除——即真正永久性地删除信息——需要一个特定的过程。在文本上绘制形状并非如此。

本指南将介绍什么是真正的移除,它与伪移除的区别,以及三种正确执行移除的方法——包括一种完全在您的浏览器中处理文档的方法,这样敏感内容就不会接触到服务器。

移除(Redaction)的真正含义

Real Redaction vs. Fake Redaction - What Actually Happens to Your Data

移除(Redaction)是指从文档中永久、不可逆地删除信息。不是隐藏,不是覆盖。是删除。

当您正确移除 PDF 时:可见文本会被黑色方框替换,底层字符数据会从 PDF 的内容流中删除,文本变得不可搜索,无法通过复制粘贴或程序化提取来恢复,并且相关的元数据(书签、注释、表单域)也会被清理。如果其中任何一项条件不满足,您就只是进行了一个视觉叠加——而不是真正的移除。

PDF 如何存储文本(以及为何覆盖无效)

要理解为何黑色方框无效,您需要了解 PDF 如何存储文本。

PDF 页面是一个内容流——一系列操作符,将单个字符放置在画布上的精确 x,y 坐标处。文本“社保号:123-45-6789”存储为定位命令,将每个字符放置在特定位置。在文本上方绘制一个黑色矩形只是向内容流添加了一个新的图形元素,但原始文本操作符保持不变。文本仍然在文件中。仍然可以选中。仍然可以提取。

将其想象成在打印文档的一行上贴一张黑纸。墨水仍然在下面的页面上。真正的移除相当于在数字世界中将页面上的那一行完全剪掉,并将碎片烧毁。

真正的移除 vs. 伪移除

真正的移除 伪移除
视觉外观 黑色方框覆盖内容 黑色方框覆盖内容
底层文本 永久删除 仍存在于文件中
选中并复制 无可选中内容 文本可被复制
文本搜索 无匹配项 找到匹配项
程序化提取 不返回数据 提取全部文本
元数据 已清理 未更改
可逆? 否 - 信息已销毁 是 - 移除覆盖层

从外部看,真正的移除和伪移除看起来完全相同。两者都有黑色方框。区别完全在于表面之下发生了什么——而这个区别导致了近年来一些最令人尴尬的信息泄露事件。

著名的移除失败案例

这些并非假设场景。以下每个案例都涉及主要组织中的专业人士,他们认为自己已经移除了敏感信息。但事实并非如此。

马纳福特案(2019 年)

保罗·马纳福特(Paul Manafort)的律师向美国地方法院提交了一份法庭文件,其中他们打算移除有关其客户与俄罗斯情报部门互动的细节。“移除”的部分是黑色方框——但底层文本完好无损。记者只需复制粘贴隐藏的文本,就揭露了马纳福特曾与一名俄罗斯同伙分享过民意调查数据。该故事占据了整个新闻周期。该法律团队使用了文字处理器的突出显示功能(黑色突出显示覆盖黑色文本),然后导出为 PDF,却未意识到文本层被保留了。

TSA 机场安检蓝图(2009 年)

运输安全管理局发布了一份经移除处理的机场安检程序手册版本。移除操作只是在 PDF 文本上绘制了简单的黑色矩形。安全研究人员移除了覆盖层,访问了完整的未移除文件,其中包含有关安检例外、执法识别程序和检查点漏洞的详细信息。TSA 不得不修改其整个安检协议。

AT&T / NSA 窃听案(2006 年)

在电子前哨基金会 (Electronic Frontier Foundation) 起诉 AT&T 未经授权窃听的诉讼中,AT&T 提交了一份包含“已移除”商业秘密的法律简报。移除操作是在 PDF 文本上绘制的黑色方框。完整的文本——描述了 NSA 在 AT&T 设施内的监控基础设施——可以被轻易提取。该文件在被撤下之前被下载了数千次。

模式

在每起案例中,失败模式都是相同的:在文本上绘制了一个视觉元素,而没有删除文本本身。而犯下这些错误的人并非粗心大意——他们是律师、政府官员和安全专业人士。他们使用的工具(文字处理器、基本 PDF 编辑器、注释功能)根本无法执行真正的移除。

您应该移除哪些信息?

答案取决于您的监管环境,但以下类别涵盖了商业文件中最常见的敏感数据。

个人身份信息 (PII)

  • 社会安全号码 (SSNs) 和纳税人识别号码 (TINs)
  • 银行账号和路由号码
  • 信用卡和借记卡号
  • 驾照和护照号码
  • 出生日期
  • 家庭住址和个人电话号码
  • 电子邮件地址(当与其他 PII 相关联时)
  • 生物识别标识符

财务信息

  • 账户余额和交易历史
  • 薪资和薪酬数据
  • 纳税申报数据
  • 投资账户详情
  • 贷款和抵押信息
  • 信用评分和信用报告数据

医疗健康信息 (HIPAA)

  • 患者姓名与健康数据结合
  • 医疗记录号
  • 诊断和治疗详情
  • 处方信息
  • 健康保险保单号
  • 实验室结果和医学影像报告

法律和商业信息

  • 法庭文件中的未成年人姓名
  • 刑事诉讼中的受害者和证人身份
  • 律师-客户特权通信
  • 商业秘密和专有配方
  • 密封的法庭记录和陪审团材料
  • 案件编号和案卷信息(在某些司法管辖区)
  • 保密和解条款

人力资源和雇佣记录

  • 员工社保号和税务扣缴数据
  • 薪资数据和奖金金额
  • 纪律处分记录和绩效评估
  • 病假详情
  • 背景调查结果
  • 内部调查笔记

总的原则是:如果信息可能识别特定个人、揭示其财务状况、暴露其病史或披露受保护的法律通信,则应在与不需要查看该信息的人共享文件之前将其移除。

按文件类型

不同类型的文件倾向于在不同位置隐藏敏感数据:

  • **法律文件:**当事方姓名和地址(尤其是在家庭/青少年案件中)、特权通信、证人身份、和解条款、财务附件中的社保号、未成年人姓名
  • **财务文件:**账户和路由号码、社保号/税号、交易详情、余额、薪资数据
  • 医疗记录 (HIPAA): HIPAA 的隐私规则列出了 18 类必须移除的标识符,以便进行去标识化,包括姓名、地理数据、日期、电话/传真/电子邮件、社保号、医疗记录号、健康计划 ID、账号、许可证号、设备标识符、生物识别数据和照片。违规罚款从每项 100 美元到 50,000 美元不等。
  • **人力资源文件:**税务表格(W-2、W-4、I-9)上的员工社保号、薪资数据、纪律处分记录、病假详情、背景调查结果、个人联系信息

方法 1:PDFSub 移除 PDF 工具(推荐)

PDFSub 的 移除 PDF 工具 执行真正的移除操作——移除标记下方的文本会从文件中永久删除,而不仅仅是视觉上覆盖。

而且由于该工具完全在您的浏览器中运行,包含您敏感信息的文件永远不会离开您的设备。

工作原理

步骤 1:上传您的 PDF。 将您的文档拖放到 移除 PDF 工具 上,或点击浏览。文件直接在您的浏览器中加载——不发生服务器上传。

步骤 2:标记要移除的区域。 选择您想要删除的文本或区域。您可以突出显示特定单词、句子、整段内容,或在图像和图表上绘制移除框。在您确认之前,该工具会向您展示将要移除的内容。

步骤 3:应用移除。 点击应用。该工具会永久地从 PDF 的内容流中删除标记的内容。文本被删除——不是隐藏,不是覆盖,是删除。一个黑色方框填补了内容原先的位置。

步骤 4:下载。 保存移除后的 PDF。您下载的文件不包含任何已删除信息的痕迹。您可以尝试选中移除区域中的文本(没有可选项)或搜索已删除内容(无匹配项)来验证这一点。

此方法为何最适合敏感文件

基于浏览器的处理。 整个移除过程在您的浏览器中进行。您的 PDF 永远不会通过互联网传输,永远不会登陆第三方服务器,也永远不会被记录、缓存或保留。对于合规性敏感的工作流程来说,这不是锦上添花——而是必需品。

真正的移除,而非注释。 文本实际上是从 PDF 的内部数据结构中删除的,而不仅仅是被覆盖。移除后,内容无法恢复。

经济实惠。 与每年 240 美元的 Adobe Acrobat Pro 不同,PDFSub 以极低的成本提供专业的移除功能。从 7 天免费试用 开始,验证该工具是否满足您的需求。

适用于任何设备。 在 Windows、Mac、Linux、Chromebook 和平板电脑上移除 PDF——只要有现代网络浏览器即可。


方法 2:Adobe Acrobat Pro

Adobe Acrobat Pro 包含一个专用的移除工具,可执行真正的移除操作。它是法律和政府工作流程的行业标准。

如何在 Acrobat Pro 中移除

步骤 1:打开移除工具。 转到“工具”>“移除”。这将打开移除工具栏。

步骤 2:标记要移除的内容。 单击并拖动以选择文本,移除整页内容,或使用“查找并移除”在整个文档中搜索模式(如社保号格式)。

步骤 3:应用移除。 这是许多用户会错过的关键步骤。标记会在文本周围放置红色轮廓——但这并不会立即删除它。您必须单击“应用”才能永久删除内容。

步骤 4:移除隐藏信息。 使用“移除隐藏信息”来清理元数据、注释、表单域和嵌入式文件。

优点和缺点

Acrobat Pro 是行业标准,在法律/政府领域得到广泛认可,提供批量“查找并移除”功能,并能移除隐藏信息。然而,它的成本为每年 240 美元,需要桌面安装,并且两步过程(标记然后应用)经常导致用户忘记应用步骤而出错。

两步陷阱

这一点值得强调,因为它会导致真实的数据泄露:标记内容以供移除与实际移除内容不同。 标记只是放置了一个视觉指示。文本仍然在文件中。只有应用操作才会删除它。如果您在标记后、应用前保存并共享,那么您就共享了一个带有伪移除的文档。


方法 3:Mac 上的预览 (Preview)

Apple 的预览 (Preview) 应用(内置于 macOS 中)具有注释工具,可以在文本上方放置黑色矩形。许多 Mac 用户认为这构成了移除。事实并非如此。

预览实际做了什么

当您使用预览的矩形注释工具覆盖文本时:

  1. 一个黑色形状被绘制在 PDF 内容的上方
  2. 底层文本完全 intact
  3. 通过单击并拖动矩形下方的文本,仍然可以选中该文本
  4. 文本仍在搜索结果中(Cmd+F)
  5. 任何 PDF 解析工具都可以提取该文本
  6. 该注释可以完全移除,显示原始文本

警告:预览不执行真正的移除

预览的注释不是移除。 它们与导致前面提到的马纳福特案、TSA 和 AT&T 失败的视觉叠加完全相同。使用预览“移除” PDF 并共享它,其功能等同于共享未移除的文档。

截至 macOS Sequoia (2025),预览不包含真正的移除功能。如果您使用的是 Mac,请改用 PDFSub 基于浏览器的 移除 PDF 工具 或 Adobe Acrobat Pro。

如何验证预览的失败

亲自尝试:在预览中打开任何 PDF,在一些文本上方绘制一个填充黑色的矩形,保存,重新打开,然后按 Cmd+F 搜索“隐藏”的文本。它会被找到。它从未被移除。这个 30 秒的测试证明了为何注释工具在用于移除时是危险的。


移除最佳实践

正确选择移除工具只是成功的一半。移除过程同样重要。

1. 移除后务必验证

应用移除后,测试输出。尝试选中移除区域中的文本——如果您可以在黑色方框下方选中任何内容,则表示移除失败。搜索(Ctrl+F / Cmd+F)您本应删除的内容。在不同的 PDF 查看器中打开文件,因为有些查看器处理注释的方式不同。对于高风险移除(法律诉讼、监管提交),请使用文本提取工具转储所有文本,并确认已移除的内容确实不存在。

2. 移除元数据

移除可见文本是必要的,但并非充分条件。PDF 包含可能泄露敏感信息的元数据:文档属性(作者、组织、创建日期)、注释和批注、表单域数据、嵌入式文件附件、书签、JavaScript 和 XMP 元数据。彻底的移除流程除了移除可见内容外,还需要移除所有这些。

3. 从副本操作

切勿移除原始文档。制作一份副本,将原件存储在安全位置,在副本上执行所有移除操作,验证无误后,仅分发移除后的版本。未移除的原件可能稍后在法律诉讼、审计跟踪或内部审查中需要用到。

4. 使用一致的移除外观

在您的组织内标准化移除的外观。黑色方框是法律和政府文件的标准。可以考虑添加移除标签(例如,“REDACTED”、“PRIVILEGED”、“PII REMOVED”),以便读者了解内容被移除的原因。

5. 记录和审查

出于法律和合规目的,请记录谁执行了移除操作、何时执行、移除了哪些类别的信息以及使用了什么工具。如果移除的充分性受到质疑,这可以创建一个审计跟踪。

在文件离开您的组织之前,让第二个人审查已移除的文件。新鲜的视角可以发现遗漏的移除、不完整的删除以及可能允许读者从周围文本推断出已移除内容的上下文线索。双人审查是政府 FOIA 办公室的标准做法。


批量移除:查找和删除模式

当您需要在大型文档中移除同一种类型的信息时,手动选择会变得不切实际。批量移除通过搜索模式并一次性标记所有匹配项来自动化该过程。

常见的批量移除模式:

数据类型 模式格式
社会安全号码 XXX-XX-XXXX, XXX XX XXXX, XXXXXXXXX
电子邮件地址 [email protected]
电话号码 (XXX) XXX-XXXX, XXX-XXX-XXXX, +1XXXXXXXXXX
信用卡号 13-19 位数字序列,通常以四位一组的形式出现
账号 紧跟在“Account #”或“Acct”后面的 8-17 位数字序列
出生日期 MM/DD/YYYY, Month DD, YYYY, DD-MM-YYYY

工作流程:定义您的模式,在所有页面上运行搜索,审查每个匹配项(并非每个模式匹配项都实际敏感),一次性应用,然后手动检查不匹配您模式的内容。姓名、地址和自由文本描述很少匹配简单模式,需要人工审查。


移除的法律要求

移除不仅仅是最佳实践。在许多情况下,它是一项法律要求。

FOIA(信息自由法)。 联邦机构在回应 FOIA 请求时必须披露文件,但被要求移除属于九项特定豁免的信息——包括国家安全信息、商业秘密、个人隐私和执法记录。州级公开记录法也施加了类似的要求。不当移除可能导致诉讼、法院命令和机构制裁。

GDPR。 根据欧盟《通用数据保护条例》,组织在回应数据主体访问请求(第 15 条)时,必须移除同一文件中的任何第三方个人数据。“擦除权”(第 17 条)也可能要求移除组织必须保留的文件中的个人数据。违规行为可能导致高达 2000 万欧元或年全球收入 4% 的罚款。

HIPAA。 受保护的健康信息在用于非治疗目的披露之前必须进行去标识化。 “安全港”方法要求移除前面列出的所有 18 类标识符。罚款从每项 100 美元到 50,000 美元不等。

法院命令。 法院通常会命令移除公开文件中未成年人姓名、商业秘密、告密者身份和密封材料。不遵守规定可能导致藐视法庭制裁、案件驳回或律师纪律处分。

州隐私法。 加州的 CCPA/CPRA、弗吉尼亚州的 CDPA、科罗拉多州的 CPA 以及类似的州法律都施加了类似 GDPR 的义务。组织在回应消费者数据请求时,必须在披露前移除第三方信息。


常见问题解答

被移除的文本可以恢复吗?

如果移除操作是使用真正的移除工具正确执行的——那么不行。字符数据被永久删除。没有隐藏层,没有加密备份,没有法证恢复路径。如果“移除”只是一个覆盖文本的形状(伪移除),那么是的——任何人都可以使用基本的 PDF 查看器选中、复制和粘贴隐藏的文本。

我可以移除 PDF 中图像里的信息吗?

可以。移除工具可以在嵌入式图像的区域上放置方框,用实心填充覆盖受影响的区域,从而销毁原始像素。这对于文本作为图像一部分而非可选字符的扫描文档很重要。

移除表单域怎么样?

PDF 表单域将数据存储在可见页面内容之外。覆盖表单域可见位置的移除框并不一定能删除存储的数据。彻底的移除还必须展平或删除表单域及其关联数据。

移除会改变页面布局吗?

不会。被移除的区域会被实心彩色方框替换,这些方框占据与移除内容相同的空间。周围的文本和布局保持其原始位置。

我可以撤销移除操作吗?

不可以——这就是移除的意义。移除是永久且不可逆的。这就是为什么您应该始终从副本操作,并安全地存储未移除的原件。

移除与加密有何不同?

加密限制了谁可以访问整个文档。移除限制了文档中的哪些内容是可见的,而任何人都可以访问。它们服务于不同的目的,并且经常一起使用。

覆盖文本后打印为 PDF 是否是有效的移除方法?

不可靠。某些打印到 PDF 的驱动程序会展平视觉层并移除底层文本。某些驱动程序则会保留它。此方法不应依赖于敏感移除。请使用专用的移除工具。

我可以移除受密码保护的 PDF 吗?

您需要先解锁 PDF 才能移除。如果 PDF 有所有者密码(限制编辑)或用户密码(限制打开),您需要先获得该密码。解锁后,移除过程与任何未受保护的 PDF 相同。


结论

一个看起来已移除但实际上并未移除的文档比未移除的文档更糟糕——它会制造一种虚假的安全感,导致人们分享本应受到保护的敏感信息。

三个要点:

  1. 使用真正的移除工具。 在文本上绘制形状并不能移除任何东西。文本仍然保留在文件中。请使用能够删除底层内容的工具。
  2. 每次都要验证。 尝试选中移除区域中的文本,搜索已删除的内容,并在第二个应用程序中进行测试。
  3. 在处理过程中保护文档。 如果您的工具将 PDF 上传到服务器,那么您的敏感文档现在就位于第三方服务器上。PDFSub 的 移除 PDF 工具 在您的浏览器中处理文档——文件永远不会离开您的设备。

搞错移除的代价是暴露的社保号、泄露的医疗记录、披露的商业秘密以及高达数百万的监管罚款。搞对的代价是您花费的几分钟时间。

免费试用 PDFSub 的移除 PDF 工具 7 天,亲自验证敏感内容是否已永久消失。

返回博客

有疑问? 联系我们

PDFSub

您所需的一切 PDF 和文档工具,尽在一处。快速、安全且私密。

符合 GDPR符合 CCPA符合 SOC 2
由 PDFSub Engine 提供支持

产品

  • 所有工具
  • 功能
  • 银行对账单
  • API
  • 定价
  • 常见问题
  • 博客

支持

  • 关于我们
  • 帮助中心
  • 联系我们
  • 常见问题

法律条款

  • 隐私政策
  • 服务条款
  • Cookie 政策

© 2026 PDFSub. 保留所有权利。

在美国制造,怀揣对全球用户的热忱