如何为法律发现进行PDF redaction:分步指南
法律发现中的redaction错误可能导致制裁、疏忽索赔和纪律处分。以下是如何正确redact PDF的方法——真正移除数据,而不仅仅是视觉遮盖。
您即将向对方律师提供 4,000 份文件。在这些 PDF 中,有三段特权律师-客户沟通内容、两页工作成果分析以及十七个联邦规则要求您在提交前进行redaction的社会安全号码。
您在敏感文本上绘制黑色矩形,保存 PDF,然后提交该文件集。
您刚刚将所有试图隐藏的内容都交给了对方律师。文本仍然在文件中。他们可以选中它、复制它、粘贴它,并阅读它。每一条特权沟通。每一个社保号码。您以为已删除的每一份工作成果。
这不是假设。这已发生在联邦刑事案件的辩护团队、提供 FOIA 记录的政府机构以及处理数百万美元诉讼的律师事务所身上。后果包括法院制裁、疏忽索赔以及律师协会纪律处分。
本指南涵盖了真正的 redaction 在 PDF 文件级别上实际做什么、联邦规则要求您 redaction 什么、如何验证 redaction 是否成功以及如何构建 redaction 工作流程来保护您的客户和您的执照。

真正的 Redaction 与视觉遮盖:技术现实
在讨论法律要求之前,您需要了解当您“redact” PDF 文件时,文件内部会发生什么。这个区别是本指南中最重要的概念。
PDF 如何存储文本
PDF 页面是一个内容流——一系列操作符,将单个字符放置在画布上的精确坐标。当 PDF 显示“SSN: 123-45-6789”时,文件包含将每个字符放置在特定 x,y 位置的指令。这与 Word 文档或网页根本不同。文本被嵌入到基于坐标的渲染流中。
当您使用注释工具、高亮工具或形状工具在文本上方绘制黑色矩形时,您正在向页面添加一个新的图形元素。原始文本操作符保持在原来的位置。黑色矩形就像贴在打印纸上的便利贴一样覆盖在文本上方。
结果:任何收到 PDF 的人都可以选中矩形下方的区域,复制它,然后将完整的未 redaction 文本粘贴到任何文本编辑器中。程序化工具可以更轻松地提取文本——无需手动选择。
真正的 Redaction 的作用
真正的 redaction 会永久修改 PDF 内容流。它不会在文本上方添加图层。它会从文件结构中删除文本操作符本身。在真正的 redaction 之后:
- 字符数据已从内容流中删除
- 可视区域显示一个黑色(或彩色)框
- 框下方没有任何内容——没有可供选择、复制或提取的文本
- 文本无法通过任何方式恢复
- 搜索工具找不到已 redaction 内容的匹配项
- 关于已 redaction 内容的元数据已被清理
这是一个不可逆的操作。一旦文本被真正 redaction,它就消失了。没有撤销。这就是全部目的。
对比
| 视觉遮盖 | 真正的 Redaction | |
|---|---|---|
| 视觉外观 | 文本上方的黑色框 | 文本上方的黑色框 |
| 底层文本 | 仍在 PDF 内容流中 | 已永久删除 |
| 选择和复制 | 可复制完整文本 | 无内容可选择 |
| 文本搜索 | 找到匹配项 | 无匹配项 |
| 程序化提取 | 返回完整文本 | 不返回数据 |
| 元数据 | 作者、评论、属性完好 | 已清理 |
| 可逆 | 是——移除注释层 | 否——数据已销毁 |
从外部看,两者看起来完全相同。区别完全在表面之下。
高调的 Redaction 故障
这些不是边缘案例。它们涉及经验丰富的律师和政府专业人士,他们认为他们的 redaction 是有效的。
Manafort 案(2019 年)
保罗·马纳福特的律师在联邦法院提交的文件中使用了实际上是黑色高亮文本的“redaction”。记者复制了黑色条纹下的文本,揭露了马纳福特曾与俄罗斯同伙分享总统竞选民意调查数据并讨论了乌克兰和平计划。redaction 失败导致了数十万美元的额外法律费用,造成了巨大的声誉损害,并加剧了案件结果的严重性。
原因很简单:有人使用了文字处理器的黑色高亮功能并导出为 PDF。文本层被完全保留。
TSA 安全手册(2009 年)
运输安全管理局发布了其机场安全筛查程序手册的 redaction 版本。“redaction”是绘制在文本上方的黑色矩形。安全研究人员移除了覆盖层,访问了完整文档,揭示了筛查例外情况、执法识别程序和检查点漏洞。TSA 不得不修改其整个筛查协议。
AT&T / NSA 监控(2006 年)
在电子前线基金会诉 AT&T 的诉讼中,该公司提交了一份法律简报,其中包含“redacted”的商业秘密。redaction 是覆盖在文本上的黑色框。完整内容——描述 AT&T 设施内的 NSA 监控基础设施——可以轻易提取。该文件被下载了数千次。
共同点
在所有案例中,失败模式都是相同的:在没有删除文本本身的情况下,将视觉元素放置在文本上方。犯下这些错误的人不是粗心的业余爱好者。他们是律师、政府官员和安全专业人士,他们使用的工具根本不执行真正的 redaction。
联邦规则要求您 Redaction 什么
Fed. R. Civ. P. 5.2:法院文件的隐私保护
《联邦民事诉讼规则》第 5.2 条要求,任何包含某些类别个人信息的法院文件都只能包含部分标识符:
| 信息类型 | 必须 Redaction 的内容 | 可以保留的内容 |
|---|---|---|
| 社会安全号码 | 最后 4 位数字除外所有 | 仅最后 4 位数字 |
| 税号 | 最后 4 位数字除外所有 | 仅最后 4 位数字 |
| 出生日期 | 月和日 | 仅出生年份 |
| 未成年人姓名 | 全名 | 仅首字母 |
| 财务账户号码 | 最后 4 位数字除外所有 | 仅最后 4 位数字 |
这不是可选项。它适用于联邦民事案件中的每一份文件。许多州法院已采纳类似或相同的规则。
重要的是,第 5.2 条特别适用于法院文件。当事方之间的证据披露受不同规则管辖,但实际情况是,大多数证据披露协议也要求 redaction PII——并且任何可能最终提交给法院的文件都需要准备好进行 redaction。
FRCP Rule 26(b)(5):特权日志
当您基于特权(律师-客户特权、工作成果原则或另一项公认的特权)扣留或 redaction 信息时,第 26(b)(5)(A) 条要求您:
- 明确说明特权主张
- 详细描述被扣留材料的性质,以便对方能够评估主张——而无需透露特权内容本身
这意味着基于特权进行的每一次 redaction 都必须在特权日志中有一条相应的记录。日志通常包括日期、文件类型、作者、收件人、一般主题以及所声称的特定特权。
如果您 redaction 了内容但未能记录,对方律师可以质疑该 redaction。如果法院认为理由不足,您可能会被命令提供未 redaction 的文件——或面临制裁。
证据披露中应 Redaction 的类别
除了第 5.2 条中强制性的 PII 类别外,证据披露 redaction 通常分为以下几类:
律师-客户特权沟通——律师与客户之间为获取或提供法律建议而进行的保密沟通。这包括电子邮件、备忘录、笔记以及反映此类沟通实质的任何文件。
律师工作成果——为准备诉讼而准备的材料。这可能包括访谈笔记、备忘录、法律研究、精神印象、策略和法律理论。根据工作成果原则,意见工作成果(精神印象和法律结论)比事实工作成果受到更强的保护。
无关的个人数据——尽管法院普遍认为,您不能单方面从证据披露中 redaction 您认为“无关”的信息,但您可以根据第 26(c)(1) 条寻求保护令,以屏蔽与索赔或抗辩无关的个人信息。
商业秘密和机密商业信息——通常受约定保护令管辖,而不是 redaction,但在某些披露中,redaction 特定商业秘密内容可能是适当的。
法律发现的逐步 Redaction 工作流程
步骤 1:确定需要 Redaction 的内容
在接触任何文件之前,请确定您的 redaction 类别。创建一份书面协议,规定:
- 将 redaction 的信息类别(根据第 5.2 条的 PII、特权内容、工作成果)
- 谁审查文件并做出 redaction 决定
- 如何记录 redaction 决定以供特权日志使用
- 哪些质量保证流程可验证 redaction 的完整性
对于大型披露,此协议应在第 26(f) 条会议期间与对方律师达成一致。早期达成一致可以避免日后的争议。
步骤 2:执行真正的 Redaction
使用 PDFSub 的 Redact PDF 工具:
-
上传文件——该工具直接在您的浏览器中处理文件。PDF 永远不会离开您的设备,从而消除了将客户文件上传到外部服务器的保密风险。
-
选择要 Redaction 的文本——高亮显示包含特权或敏感信息的特定文本、段落或区域。您可以选择单个单词、完整句子或矩形区域。
-
应用 Redaction——该工具会永久从 PDF 内容流中删除选定的文本。这是真正的 redaction——底层数据被销毁,而不是被覆盖。
-
保存 Redacted 文件——下载新的 PDF。已 redaction 的内容已永久从文件中删除。
由于该工具在浏览器中运行,敏感的客户数据——社会安全号码、特权沟通、财务账户号码——永远不会上传到任何服务器。这直接解决了《模特规则 1.6》下的保密义务。
步骤 3:清理元数据
Redaction 可见文本只是工作的一半。PDF 文件包含元数据,这些元数据可能会泄露您打算保密的信息:
- 文档属性——作者姓名、创建日期、修改日期、用于创建文档的软件
- 评论和注释——审查评论、便签以及早期草稿中的修订跟踪
- 书签——可能引用已 redaction 部分名称的导航书签
- 嵌入式文件附件——某些 PDF 包含附件,其中可能包含未 redaction 的版本
- 表单字段数据——隐藏的表单字段可能包含已填写然后“清除”的数据
- XMP 元数据——扩展元数据,可能包括编辑历史、版本信息等
在 redaction 内容后,请审查并清理文档的元数据。删除作者信息、评论以及任何未包含在披露中的嵌入式文件。
步骤 4:维护特权日志
对于基于特权的每一次 redaction,请创建一条特权日志条目,包含:
- 文档标识符(Bates 编号或文件名)
- 文档日期
- 作者和收件人
- 文档类型(电子邮件、备忘录、信函、报告)
- 一般主题——足以让对方律师评估特权主张,但又不会透露特权内容
- 声称的特权——律师-客户特权、工作成果、联合辩护等
维护良好的特权日志是您应对 redaction 挑战的防御。没有它,法院可能会命令披露未 redaction 的文件。
步骤 5:验证 Redaction
这是大多数人会跳过的步骤——也是防止 Manafort 级别故障的步骤。
验证清单:
-
尝试选择已 Redaction 的区域——打开已 Redaction 的 PDF,并尝试在已 Redaction 的区域中选择文本。如果您可以选中文本,则 redaction 失败。
-
尝试从已 Redaction 的区域复制——即使选择看起来是空的,也尝试从已 Redaction 的区域复制并粘贴到文本编辑器中。如果出现任何文本,则 redaction 失败。
-
搜索已知的 Redaction 内容——如果您 redaction 了文本“123-45-6789”,请使用 PDF 的搜索功能搜索该字符串。如果返回结果,则 redaction 失败。
-
使用文本提取工具检查——使用 PDFSub 的文本提取功能从文档中提取所有文本。审查输出中是否包含应被 redaction 的任何内容。
-
检查元数据——验证文档属性、评论和嵌入式文件是否已清理。
在披露之前,对每个文档执行此验证。对于大型披露,请建立质量保证样本——随机验证至少 10% 的已 redaction 文档,并 100% 验证包含最敏感类别(SSN、财务账户、特权沟通)的文档。
步骤 6:自信地进行披露
验证通过后,文档即可进行披露。您的已 redaction 内容已从文件中永久删除,您的特权日志记录了每次 redaction 的依据,并且您已验证没有可恢复的数据残留。
常见的 Redaction 错误及避免方法
错误 1:使用高亮或注释工具
文字处理器和基本的 PDF 查看器提供高亮和注释工具,它们看起来像 redaction,但实际上并没有改变底层文本。黑色高亮、评论框和绘制形状都是视觉覆盖。它们都不会删除数据。
错误 2:Redaction 打印副本
有些律师会打印文档,用黑色记号笔在纸上涂抹,然后扫描结果。虽然这确实删除了数字文本层(扫描会创建一个新图像),但它引入了 OCR 风险:如果扫描件之后被光学字符识别软件处理,不完美的标记覆盖下的文本可能会被部分重建。它还会产生质量较低的文档并增加不必要的步骤。
错误 3:忘记元数据
您可以完美地 redaction 文档正文中所有特权文本,但仍然通过文档属性、注释或嵌入式附件泄露相同的信息。元数据清理必须是每个 redaction 工作流程的一部分。
错误 4:无特权日志的 Redaction
无文档记录的 redaction 会招致质疑。如果对方律师质疑某项 redaction,而您无法提供特权日志条目来证明其合理性,法院可能会命令披露未 redaction 的文件——或做出不利推断。
错误 5:未能验证
验证只需几分钟。在高风险案件中,一次 redaction 失败可能需要数年才能解决。切勿在运行验证清单之前披露已 redaction 的文件。
建立全所 Redaction 协议
对于定期进行证据披露的律师事务所和法律部门来说,标准化的 redaction 协议可以防止个人错误成为全所问题。
培训: 每位处理 redaction 的律师和律师助理都应了解视觉遮盖与真正 redaction 之间的区别。一次 30 分钟的现场演示培训可以避免多年的潜在疏忽风险。
工具标准化: 选择一个 redaction 工具,并要求在全所范围内使用。使用不一致的工具会增加有人误用高亮工具而不是 redaction 工具的风险。
质量保证: 在披露工作流程中建立验证步骤。指定第二双眼睛——不是执行 redaction 的人——来运行验证清单。
特权日志集成: 在 redaction 时构建特权日志,而不是事后构建。从已 redaction 的文件追溯构建特权日志容易出错且耗时。
文件保留: 保留原始未 redaction 的文件和已 redaction 的披露版本。如果特权主张受到质疑,并且法院进行庭内审查,您可能需要原始文件。
为什么基于浏览器的 Redaction 对法律道德很重要
美国律师协会的《模特规则 1.6》要求律师做出“合理的努力,以防止与客户代理相关的信息的无意或未经授权的披露,或未经授权的访问”。《模特规则 1.1》,评论 8,进一步要求技术能力。
当您将客户的文件上传到基于云的 PDF 工具时,您会将该客户的数据——可能包括特权沟通、社会安全号码和财务账户信息——发送到外部服务器。您可能不知道该服务器的位置、谁可以访问它、数据保留多长时间,或者其他用户的其他数据是否在同一基础设施上处理。
基于浏览器的处理完全消除了这种风险类别。当 PDFSub 的 Redact PDF 工具在您的浏览器中处理文件时,文件永远不会离开您的设备。没有服务器上传,没有云存储,没有数据保留。处理在浏览器的内存中本地进行,当您关闭标签页时,数据就会消失。
对于处理敏感客户信息的律师——几乎所有律师都是如此——这一区别直接解决了规则 1.6 中的“合理努力”标准。
常见问题解答
在文本上绘制黑色框与 redaction 它是否相同?
不是。绘制黑色框、使用黑色高亮或在文本上方放置注释都是视觉遮盖。文本仍然保留在 PDF 内容流中,任何收到文件的人都可以选中、复制、搜索和提取。真正的 redaction 会永久从文件结构中删除文本。两者在视觉上看起来完全相同,但只有真正的 redaction 才能实际移除数据。
如果在诉讼过程中发现 redaction 失败会怎样?
后果因司法管辖区和严重程度而异,但可能包括法院施加的制裁(金钱处罚或不利推断指示)、受影响客户的疏忽索赔、因违反保密义务而提起的律师协会纪律处分程序,以及对适用于已暴露信息的特权或保护的放弃。在 Manafort 案中,redaction 失败暴露了主导新闻周期并实质上影响案件结果的信息。
我是否需要 redaction 元数据以及可见文本?
是的。PDF 元数据可能包含作者姓名、文档创建和编辑日期、注释、修订跟踪、嵌入式文件以及其他可能具有特权或敏感性的信息。即使正文已完美 redaction 的文档,也可能通过其元数据泄露信息。请始终将元数据清理作为 redaction 工作流程的一部分。
我可以从证据披露文件中 redaction 无关信息吗?
联邦法院普遍认为,《联邦民事诉讼规则》不允许一方仅因认为信息无关而单方面 redaction 信息。但是,您可以根据第 26(c)(1) 条寻求保护令,以屏蔽与索赔或抗辩无关的真正无关的个人信息。更安全的方法是尽早与对方律师进行沟通,并在证据披露过程的早期建立商定的 redaction 协议。
如何在特权日志中处理 Redaction?
对于基于特权主张的每一次 redaction,您的特权日志应包括文档标识符(如 Bates 编号)、日期、作者和收件人、文档类型、主题的通用描述(足够详细以便对方评估主张,但又不会透露特权内容),以及所主张的具体特权。第 26(b)(5)(A) 条要求这样做——不充分的特权日志条目可能导致法院命令披露未 redaction 的文件。
PDFSub 的 redaction 是真正的 redaction 还是视觉覆盖?
PDFSub 的 Redact PDF 工具执行真正的 redaction。它会永久从 PDF 内容流中删除选定的文本。Redaction 后,文本无法通过任何方式被选中、复制、搜索或提取。该工具完全在您的浏览器中处理文件——文档永远不会离开您的设备——这符合《模特规则 1.6》下律师的保密义务。
总结
Redaction 错误是法律实践中最可避免的错误之一,但它们仍在发生,因为大多数人使用的工具——高亮功能、注释层、黑色形状——看起来有效,但实际上并没有移除数据。
解决方案很简单:使用执行真正 redaction(而非视觉遮盖)的工具,在 redaction 内容后清理元数据,为每次基于特权的 redaction 维护特权日志,并在披露前验证每个文档。始终如一地执行这四项操作,您就可以消除一整类疏忽风险。
如果您经常处理证据披露文件,PDFSub 的 Redact PDF 工具直接在您的浏览器中执行真正的 redaction——无需服务器上传,无需云存储,无需数据保留。有关完整的工具集,包括文档比较、电子签名、OCR 和合并,请参阅 面向律师的 PDF 工具 指南。