如何将 PDF 转换为 PDF/A 以进行长期存档
PDF/A 是长期文档保存的 ISO 标准。了解如何将 PDF 转换为 PDF/A —— 这是政府、法律和合规存档的必要要求。
您可能被要求以 PDF/A 格式提交文档。这可能是政府备案、法院提交材料、医疗记录或企业合规性要求。看着普通的 PDF 文件,您可能会产生疑问:它有什么问题?为什么需要是 “PDF/A”?又该如何转换?
PDF/A 是一项 ISO 标准 (ISO 19005),专为一个目的而设计:确保 PDF 文档在数十年后,在任何系统上都能以完全相同的方式重现。普通的 PDF 可能会引用外部字体、链接到网站、运行 JavaScript,并依赖于 20 年后可能不复存在的系统资源。而 PDF/A 文件是完全自包含的 —— 渲染文档所需的一切都嵌入在文件本身中。
这一点比您想象的更重要。政府档案馆需要打开 50 年后的文档;法院需要确保证据未被更改;医疗系统需要患者记录在任何平台上都能呈现一致。PDF/A 保证了这一点。
本指南将解释什么是 PDF/A、您需要哪种变体、谁需要它,以及如何转换现有的 PDF。
PDF/A 与普通 PDF 的区别
标准 PDF 非常灵活。它可以嵌入字体或引用系统字体,可以包含用于交互式表单的 JavaScript,可以链接到外部内容,还可以使用加密。这种灵活性使 PDF 非常适合日常使用,但却给长期保存带来了问题。
想象一下,当您尝试打开一个 20 年前的 PDF,而它引用的字体在您的系统上并不存在时会发生什么。查看器会替换成另一种字体,文档突然看起来就不一样了 —— 文字重排、列移位、表格错乱。对于普通的商业文档,这只是令人烦恼;但对于法律合同或政府记录,这是不可接受的。
PDF/A 通过执行严格的规则消除了这些风险:
所有内容必须嵌入
字体: 文档中使用的每种字体都必须完全嵌入,而不仅仅是引用。这意味着整个字体文件(或至少是所使用的字形子集)都存储在 PDF 内部。即使该字体从地球上的每个操作系统中消失,文档也能正确渲染。
色彩特性文件: 文档必须包含 ICC 色彩特性文件,以精确定义颜色的显示方式。普通 PDF 可能会说“使用红色”,并将解释权留给查看器。PDF/A 文件则使用标准化的色彩特性文件指定具体的红色色调。
图像: 所有图像必须嵌入,不得链接。不允许使用外部 URL,也不允许引用网络驱动器上的文件。
某些功能被禁止
JavaScript: 不允许包含可执行代码。依赖 JavaScript 计算的交互式表单在 PDF/A 中将无法工作。表单字段可以保留,但任何脚本都会被剥离。
加密: PDF/A 文件不能加密或受密码保护。理由是加密依赖于特定的算法和密钥长度,这些可能会过时 —— 而一个无法打开的档案是毫无用处的。
外部引用: 不允许链接到外部内容,不允许从互联网流式传输多媒体,也不允许依赖文件之外的任何内容。
透明度(在 PDF/A-1 中): 最早的 PDF/A 标准不支持图形中的透明度。后来的版本(PDF/A-2 和 PDF/A-3)增加了对透明度的支持。
PDF/A 合规级别详解
PDF/A 并非单一标准,它有多个变体,每个变体都在前一个版本的基础上进行了扩展。以下是您需要了解的内容。
PDF/A-1b (ISO 19005-1, Level B)
2005 年发布的原始 PDF/A 标准。Level B(“基础级”)确保文档的视觉外观得以保留 —— 文档在任何系统上看起来都一样。它不保证文本可以被搜索或提取(那是 Level A 的功能)。
最适用于: 仅要求视觉保留的简单文档。这是支持最广泛的变体 —— 如果您不确定使用哪种,PDF/A-1b 是最安全的选择。
PDF/A-1a (ISO 19005-1, Level A)
Level A(“可访问级”)增加了对文档结构的要求:标记内容、正确的阅读顺序、Unicode 文本映射以及图像的替代文本。这使得文档完全符合屏幕阅读器的访问要求,并确保文本可以可靠地被搜索和提取。
最适用于: 需要符合 ADA、Section 508 或 WCAG 合规性要求的文档。
PDF/A-2b (ISO 19005-2, Level B)
发布于 2011 年,PDF/A-2 基于较新的 PDF 1.7 规范。它增加了对 JPEG2000 图像压缩、图形透明度和 PDF 图层(可选内容组)的支持。它还允许将其他 PDF/A 文件作为附件嵌入。
最适用于: 具有透明效果、分层内容或嵌入 PDF 附件的现代文档。是大多数新转换的推荐选择。
PDF/A-3b (ISO 19005-3, Level B)
PDF/A-3 的关键创新在于:它允许将任何文件类型作为附件嵌入,而不仅仅是其他 PDF/A 文件。这意味着您可以将原始 Word 文档、XML 数据文件、CSV 电子表格或任何其他源文件与存档的 PDF 一起保存。
最适用于: 电子发票(ZUGFeRD 和 Factur-X 标准要求 PDF/A-3)、源数据需要随视觉文档一同移动的混合存档,以及需要在单个文件中同时包含人类可读和机器可读格式的工作流。
您应该选择哪种变体?
| 需求 | 推荐变体 |
|---|---|
| 通用存档 | PDF/A-2b |
| 最大兼容性 | PDF/A-1b |
| 无障碍合规性 | PDF/A-2a |
| 电子发票 (ZUGFeRD / Factur-X) | PDF/A-3b |
| 带有源文件附件的存档 | PDF/A-3b |
| 政府提交(请检查具体要求) | 通常为 PDF/A-1b 或 PDF/A-2b |
如有疑问,请咨询接收机构他们接受哪种变体。如果他们只说“PDF/A”而未指定,PDF/A-2b 是最安全的现代选择。
谁需要 PDF/A?
PDF/A 不仅仅是“锦上添花” —— 许多机构和法规都强制要求使用它。
政府档案馆
美国国家档案和记录管理局 (NARA) 要求永久性电子记录使用 PDF/A。欧盟委员会规定官方文件必须使用 PDF/A。全球许多国家档案馆也有类似要求。
法院和法律系统
越来越多的法院系统要求电子备案使用 PDF/A。逻辑很简单:法律文档必须完全按照提交时的样子保存,可能长达数十年。PDF/A 的自包含特性确保了今天提交的合同在 2060 年审查时看起来完全一致。
医疗保健
医疗记录和临床文档必须以标准化格式保存。PDF/A 已被医疗信息系统 (HIS) 和电子健康记录 (EHR) 平台广泛采用。
金融服务
银行监管机构、审计追踪和财务报告越来越多地要求使用 PDF/A 进行长期记录保留。《巴塞尔协议》和各国银行法规规定某些文件的保留期限为 5-10 年以上。
电子发票
欧洲电子发票标准 ZUGFeRD(德国/奥地利)和 Factur-X(法国)特别要求 PDF/A-3b 格式。PDF/A 文档包含人类可读的发票,而嵌入的 XML 附件则携带机器可读的结构化数据。
企业合规性
许多大型组织已采用 PDF/A 作为其标准存档格式。如果您与企业客户、政府承包商或受监管行业合作,迟早会遇到 PDF/A 要求。
如何使用 PDFSub 将 PDF 转换为 PDF/A
PDFSub 的 PDF 转 PDF/A 工具 使用 PDFSub Engine 在服务端进行转换处理,该引擎负责嵌入字体、转换色彩特性文件、移除禁止功能以及验证输出等复杂工作。
分步指南
第 1 步:打开工具。 导航至 pdfsub.com/tools/pdf-to-pdfa。
第 2 步:上传您的 PDF。 拖放文件或点击浏览。文件将上传到 PDFSub 的安全处理服务器。
第 3 步:选择合规级别。 选择您的 PDF/A 变体 —— PDF/A-1b、PDF/A-2b 或 PDF/A-3b。如果您不确定,推荐使用默认的 PDF/A-2b。
第 4 步:转换。 点击转换按钮。PDFSub Engine 将处理文档:嵌入字体、添加色彩特性文件、剥离 JavaScript 和加密,并执行其他必要的转换。
第 5 步:下载。 转换后的 PDF/A 文件将开始下载,元数据中已包含合规级别。您可以使用任何 PDF/A 验证器验证转换结果。
转换过程的作用
转换引擎会自动执行多项转换:
- 嵌入所有字体 —— 查找并嵌入任何已引用但未嵌入的字体
- 添加 ICC 色彩特性文件 —— 通常为用于屏幕显示的 sRGB,确保颜色呈现一致
- 剥离 JavaScript —— 移除任何脚本(表单字段保留但失去交互性)
- 移除加密 —— 剥离密码保护(文档必须是可访问的)
- 转换透明度 —— 对于 PDF/A-1,透明元素将被拼合为不透明的等效元素
- 添加 PDF/A 元数据 —— 更新 XMP 元数据块以声明合规性
转换问题排查
“字体无法嵌入”
某些字体具有防止嵌入的许可限制。如果转换因受限字体而失败,您有两个选择:使用可嵌入的替代字体(转换工具可以使用视觉相似的字体自动完成此操作),或者返回源文档并在重新导出为 PDF 之前更改字体。
转换后文档看起来略有不同
这通常发生在透明度被拼合(针对 PDF/A-1 转换)或字体被替换时。如果视觉保真度至关重要,请尝试转换为 PDF/A-2b 而不是 PDF/A-1b —— 较新的标准原生支持透明度,从而消除了大多数视觉差异。
转换后文件变大
这是正常现象。PDF/A 文件嵌入了所有内容 —— 字体、色彩特性文件、完整的元数据。一个引用系统字体的普通 PDF 可能只有 200 KB,但完全嵌入这些字体的 PDF/A 版本可能会达到 2 MB。体积增加是实现自包含的成本。
表单字段失去交互性
PDF/A 禁止使用 JavaScript,因此表单计算、验证脚本和动态行为会被剥离。表单字段本身会保留 —— 它们仍然可以填写 —— 但任何自动化行为都会消失。如果您需要交互式表单,PDF/A 不适合作为工作副本格式。请仅在文档定稿存档时使用 PDF/A。
常见问题解答
我还能编辑 PDF/A 文档吗?
PDF/A 是一种存档格式,而不是一种锁定格式。您可以在任何 PDF 编辑器中打开并编辑 PDF/A 文件。但是,编辑可能会破坏 PDF/A 合规性 —— 编辑器可能会添加违反标准的功能或删除元数据。编辑后,您需要重新转换为 PDF/A 以恢复合规性。因此,最好保留可编辑的源文件,仅在文档最终确定时才转换为 PDF/A。
PDF/A 与“只读”PDF 是一回事吗?
不是。只读 PDF 是具有所有者级密码保护以防止编辑的文件。而 PDF/A 实际上禁止加密 —— 它根本不能受密码保护。PDF/A 关注的是保存,而不是访问控制。任何人都可以打开、复制并(从技术上讲)编辑 PDF/A 文件。
如何验证我的 PDF 是否为有效的 PDF/A?
有多种工具可以验证 PDF/A 合规性。Adobe Acrobat Pro 内置了 PDF/A 验证功能。免费的 veraPDF 工具是许多档案馆和图书馆使用的开源验证器。PDFSub 的转换过程包含验证 —— 如果输出通过验证,您将看到合规性指示器。
转换为 PDF/A 会改变文档的外观吗?
在大多数情况下不会。PDF/A 的核心目的就是视觉保留。但在某些极端情况下可能会产生细微变化:PDF/A-1 中的透明度拼合、不可嵌入字体的替换以及多媒体元素的移除。转换为 PDF/A-2b 或 PDF/A-3b 可以最大限度地减少这些问题,因为较新的标准支持更多功能。
PDF/A 和 PDF/X 有什么区别?
PDF/A 用于存档 —— 具有保证重现性的长期保存。PDF/X 用于印刷生产 —— 确保文档在不同的印刷系统上都能正确打印。它们是针对不同目的的不同标准,尽管一个文档在技术上可以同时符合这两个标准。
总结
PDF/A 是长期文档保存的 ISO 标准。它通过在文件内部嵌入渲染所需的一切内容,确保您的文档在未来的任何时间点、在任何系统上都能以完全相同的方式打开和显示。
对于大多数转换,PDF/A-2b 是推荐的选择 —— 它很现代,支持广泛,并且可以处理透明度和 JPEG2000 等原始 PDF/A-1b 标准不支持的功能。当需要最大的向后兼容性时,请使用 PDF/A-1b;当需要嵌入非 PDF 附件(特别是用于电子发票)时,请使用 PDF/A-3b。
转换过程是自动化的 —— 工具会处理字体嵌入、色彩特性文件、JavaScript 移除和验证。您的工作只需上传 PDF 并选择合规级别。
准备好转换了吗?尝试 PDFSub 的 PDF 转 PDF/A 工具 —— 上传您的文档,选择合规级别,几秒钟内即可获得适合存档的文件。