如何对扫描版 PDF 进行 OCR 识别(使其可搜索)
扫描版 PDF 只是页面的图片——您无法搜索、复制或编辑其中的文本。OCR 通过添加不可见的文本层来解决这个问题。以下是使用三种不同方法进行操作的指南。
您扫描了一堆文档到 PDF。它们在屏幕上看起来很好——清晰、易读、专业。但尝试搜索单词、复制段落或选择电话号码时,却没有任何反应。您的光标只是在页面上拖出一个蓝色矩形,就像在选择一张图片。因为这正是您正在做的事情。
扫描版 PDF 其实是照片。每一页都是一张单独的图像——一个由像素组成的扁平网格,没有字母、单词或句子的概念。您的计算机在扫描版 PDF 中看到的文本与在日落的 JPEG 图片中看到的一样多:完全没有。
OCR(光学字符识别)解决了这个问题。它分析每一页的图像,识别字符,并在原始扫描件上方添加一个不可见的文本层。视觉外观保持不变,但现在您可以搜索、复制、选择文本,并让屏幕阅读器访问它。
本指南涵盖了什么是 OCR、它的工作原理、三种对扫描版 PDF 进行 OCR 处理的方法,以及如何获得最佳效果。
如何判断您的 PDF 是否需要 OCR
在投入时间进行 OCR 之前,请检查您的 PDF 是否真的需要它。许多 PDF 是“原生数字”文档——由 Word 文档、Excel 表格或网页创建——并且已经包含真实的文本层。
5 秒测试法
- 在任何查看器(Adobe Reader、Preview、Chrome、Edge)中打开您的 PDF
- 按下 Ctrl+F (Windows/Linux) 或 Cmd+F (Mac)
- 输入一个您在页面上能看到的单词
- 如果查看器高亮显示了该单词:您的 PDF 已经拥有可搜索的文本。不需要 OCR。
- 如果未找到任何内容:您的 PDF 仅包含图像。它需要 OCR。
选择测试法
尝试在页面上点击并拖动以选择文本:
- 如果您可以选中单个单词且它们以蓝色高亮显示:该 PDF 拥有文本层。
- 如果整个页面被选为一个块(就像选择图片一样):该 PDF 是没有文本层的扫描件。
- 如果您可以选中部分文本但无法选中其他文本:该 PDF 具有部分 OCR 或混合内容——某些页面是数字生成的,其他页面是扫描的。
需要 OCR 的常见 PDF 类型
| 文档类型 | 通常需要 OCR 吗? | 原因 |
|---|---|---|
| 扫描的纸质文档 | 是 | 纯图像,无文本数据 |
| 保存为 PDF 的传真文档 | 是 | 传真输出是位图图像 |
| 文档照片(手机拍摄) | 是 | 相机拍摄 = 图像 |
| 复印机“扫描至电子邮件”生成的 PDF | 是 | 大多数复印机生成图像 PDF |
| 从 Word/Excel 导出的 PDF | 否 | 原生数字,包含文本层 |
| 网页浏览器生成的 PDF(打印为 PDF) | 否 | 文本被保留 |
| 网上下载的政府表格 | 通常不需要 | 大多数是原生数字文档 |
| 作为 PDF 附件发送的收据 | 通常不需要 | 由带有文本的 POS 系统生成 |
什么是 OCR?通俗易懂的解释
OCR 代表光学字符识别 (Optical Character Recognition)。 这是一种从图像中读取文本的技术——通过分析像素模式来识别字母、数字和符号,就像您的眼睛阅读页面上的文字一样。
当您扫描文档时,扫描仪会创建一张照片。这张照片包含像素——有墨水的地方是暗色,有纸的地方是亮色——但没有实际的文本数据。扫描仪并不知道像素的某种排列拼写出了“发票 (Invoice)”。它只是记录了图像。
OCR 获取该图像,分析形状,将它们与已知的字符模式匹配,并输出这些形状代表的文本。结果是一个看起来与原始扫描件完全相同但包含不可见文本层的 PDF。当您按下 Ctrl+F 并搜索“十二月”时,PDF 查看器会检查文本层,找到匹配项,并在图像上该单词出现的区域进行高亮显示。
OCR 的发展历程
OCR 的历史可以追溯到 20 世纪 50 年代,当时的早期系统只能在受控环境中处理特定字体。这项技术经历了模板匹配(70-80 年代)、特征提取(90 年代-2000 年代)和机器学习(2010 年代)的演变。今天的 OCR 将用于字符识别的深度神经网络与使用上下文解决歧义的语言模型相结合——如果系统不确定一个字符是“l”还是“1”,周围的单词会帮助它做出决定。
现代 OCR 引擎在清晰、扫描良好的印刷文档上可以达到 99% 以上的字符准确率。
OCR 的工作原理:技术流程
OCR 不是单一的算法。它是一个步骤流水线,每一步都建立在前一步的基础上。
第 1 步:图像预处理
在进行任何字符识别之前,OCR 引擎会清理图像。这包括二值化(转换为黑白以获得最大对比度)、纠偏(纠正哪怕是轻微的页面旋转——1-2 度的倾斜都会显著降低准确度)、去噪(消除扫描仪伪影和斑点)以及边缘去除(剥离黑色边缘和装订阴影)。
第 2 步:版面分析
引擎识别页面结构——文本块、列、图像、页眉、页脚、表格和阅读顺序。如果没有这一步,双栏文档可能会产生混乱的输出,同时横跨两栏读取。
第 3 步:字符分割
在每个文本块内,单个字符被分离出来。行由垂直间距分隔,单词由水平间隙分隔,单词内的字符由其边界分隔。这比听起来要难——许多字体中的字符会重叠或接触,而在阿拉伯语和梵文等脚本中,字符以复杂的方式连接。
第 4 步:字符识别
每个分割出的字符图像都使用在数百万个标记字符图像上训练的深度神经网络进行分类。网络输出一个按置信度排序的候选列表,而不是单一答案。一个清晰的“A”可能会获得 99.8% 的置信度。一个退化的字符可能会产生更平坦的分布。
第 5 步:语言建模
原始字符识别容易出错。上下文可以解决歧义。“lnvoice”是一个单词吗?不——“l”实际上是“I”,使其成为“Invoice”。统计语言模型预测可能的字符序列,格式验证将规则应用于日期和数字等模式。
第 6 步:输出生成
识别出的文本被映射回原始图像坐标,并作为不可见的文本层写入 PDF。每个单词都与其视觉对应部分精确对齐,从而实现搜索和高亮功能。
方法 1:PDFSub OCR 工具(推荐)
PDFSub 的 OCR 工具 处理扫描版 PDF 并添加可搜索的文本层,同时保留每一页的原始视觉外观。
分步说明
- 访问 OCR 工具 — 导航至 pdfsub.com/tools/ocr
- 上传您的扫描版 PDF — 拖放文件或点击浏览。无需拆分大型文档——多页 PDF 会自动处理。
- OCR 处理您的文档 — 工具分析每一页,识别文本,并构建不可见的文本层。处理时间取决于页数和复杂性,但大多数文档在几秒钟内即可完成。
- 下载您的可搜索 PDF — 输出文件看起来与原始扫描件完全相同,但现在支持文本搜索、文本选择和复制粘贴。
为什么选择 PDFSub
支持 130 多种语言。 OCR 适用于英语、西班牙语、法语、德语、中文、日语、韩语、阿拉伯语、印地语、俄语、葡萄牙语以及 120 多种其他语言。多语言文档会自动处理——您无需提前指定语言。
保留原始外观。 OCR 过程在不改变视觉内容的情况下添加文本数据。您的扫描页面看起来完全一样。字体、布局、印章、签名和手写注释都保持原样。
无需安装软件。 一切都在您的浏览器或安全服务器上运行。无需下载任何内容,无需检查系统要求,也没有兼容性问题。
注重隐私的设计。 上传的文档在处理后会被删除。PDFSub 不会存储您的文件或将其用于训练。
免费试用。 PDFSub 提供 7 天免费试用,因此您可以在订阅前在自己的文档上测试 OCR 效果。
方法 2:Adobe Acrobat Pro
Adobe Acrobat Pro 在其“扫描和 OCR”工具集中包含一个名为“识别文本”的内置 OCR 功能。
分步说明
- 在 Adobe Acrobat Pro 中打开扫描版 PDF
- 转到工具并选择扫描和 OCR
- 点击识别文本并选择在本文件中或在多个文件中
- 在设置下,选择可搜索图像(添加不可见文本层——推荐)
- 点击识别文本开始处理
- 保存文件
优势与局限性
Adobe 在清晰的英文扫描件上提供很高的准确度,支持批量处理,并允许您直接纠正 OCR 错误。然而,Acrobat Pro 的年度计划费用为每月 19.99 美元(每年 239.88 美元),需要桌面安装(没有基于浏览器的 OCR),仅支持约 20 种语言,且处理超过 50 页的文档时速度较慢。
方法 3:Google 云端硬盘(免费但有损)
Google 云端硬盘包含一个基本的 OCR 功能,可以从扫描版 PDF 中提取文本,但有一个显著的权衡。
分步说明
- 将您的扫描版 PDF 上传到 Google 云端硬盘
- 右键点击文件,选择打开方式,然后选择Google 文档
- Google 会处理 PDF 并创建一个包含提取文本的 Google 文档
- 文本现在可以搜索、选择和编辑了
优势与局限性
Google 云端硬盘 OCR 完全免费,在清晰的打印文档上具有良好的准确度,并能自动检测语言。然而,有一个关键的权衡:它会破坏排版格式。 Google 不会为您的 PDF 添加文本层,而是将文本提取到 Google 文档中。表格会变成纯文本,分栏会塌陷,原始布局会丢失。您最终得到的是一个 Google 文档,而不是一个可搜索的 PDF。
它也最适合 10 页以下的文档。较长的文档可能会被截断。
最适合: 当您不需要原始布局,只需提取文本内容时。如果您需要保留外观的可搜索 PDF,请使用方法 1 或方法 2。
OCR 准确度:按文档类型划分的预期
OCR 并非魔法。准确度因文档质量、内容类型和扫描条件而异。以下是实际测试显示的结果。
打印文档(现代字体):95-99%
现代印刷文档——激光打印机打印的发票、合同、报告——是最佳情况。标准字体在 OCR 训练数据中得到了很好的体现,白纸上的清晰打印产生了高对比度图像。在 250 个单词的页面(约 1,500 个字符)上达到 99% 的准确度,预计会有大约 15 个字符错误——大多数无关紧要,例如句号被误读为逗号,或小写字母“l”与“1”混淆。
较旧的打字机文档:85-95%
机械打字机带来了挑战:字母对齐不一致、色带磨损导致的墨水密度变化以及统一的字符宽度导致的分割困惑。尽管如此,打字文本是单独成型且水平对齐的,因此大多数 OCR 引擎都能很好地处理它以用于搜索目的。
手写文本:60-80%
手写仍然是 OCR 面临的最大挑战。变异性巨大——不仅人与人之间不同,甚至同一个人在同一页上的书写也不同。整齐的印刷体可能达到 80-85%。横格纸上的铅笔草书可能会降至 60% 以下。务必手动核实手写文档中的关键数据。
混合内容(文本 + 表格):90-97%
将文本与表格数据结合的文档增加了版面分析的挑战。单元格内的字符识别通常是准确的,但结构错误——误判单元格边界、列分配错误、多行单元格被拆分为多行——会破坏数据关系,这比单个字符错误更重要。
准确度汇总表
| 文档类型 | 字符准确度 | 是否可搜索? | 数据提取是否可靠? |
|---|---|---|---|
| 现代印刷(激光) | 95-99% | 极佳 | 是 |
| 现代印刷(喷墨) | 93-98% | 极佳 | 通常是 |
| 较旧的打字机 | 85-95% | 良好 | 需核实 |
| 清晰手写(印刷体) | 70-80% | 部分 | 否——需核实所有内容 |
| 草书手写 | 60-70% | 较差 | 否 |
| 混合文本 + 表格 | 90-97% | 良好 | 需结构性审核 |
| 退化/损坏的纸张 | 70-90% | 视情况而定 | 需大量核实 |
OCR 之前的扫描最佳实践
影响 OCR 准确度的最大单一因素不是 OCR 软件,而是扫描质量。在糟糕的扫描件上运行的出色 OCR 引擎产生的结果,会比在出色的扫描件上运行的平庸引擎产生的结果更差。
分辨率:最低 300 DPI
DPI(每英寸点数) 决定了扫描仪捕获的细节量。
- 300 DPI:大多数文档的标准。足以可靠识别正常文本大小(10-12pt)的标准字体。
- 600 DPI:推荐用于小字体(脚注、精细印刷)或需要最高准确度时。
- 150 DPI 或更低:不推荐。字符太小,无法可靠识别。准确度显著下降。
- 1200 DPI:对于 OCR 来说大材小用。准确度没有提升,且文件体积会变得巨大。
颜色模式:灰度通常最佳
- 灰度 (Grayscale):最适合大多数文档。保留足够的对比度以进行良好的二值化,同时保持文件大小可控。
- 黑白 (Black and White):适用于清晰、高对比度的文档,但可能会破坏边缘区域的细节。
- 彩色 (Color):仅在文档包含需要保留的颜色编码信息时才有必要。对于 OCR 目的,彩色相比灰度没有额外优势。
对齐与方向
- 保持页面笔直。 即使是 2-3 度的偏斜也会使 OCR 准确度降低 5-10%。使用扫描仪的纸张指南来保持页面对齐。
- 单面扫描时正面朝下。 避免背面透过的墨迹产生阴影文本,从而干扰 OCR 引擎。
- 对装订文档使用平板扫描仪。 自动进纸扫描仪可能会使书籍或装订报告的页面发生偏斜。平板扫描可保持页面平整且对齐正确。
扫描仪维护与文档准备
- 批量扫描前清洁玻璃面——污迹会在每一页上产生伪影
- 通过扫描空白页检查条纹——垂直线表示滚轮脏了
- 取下订书钉和回形针以防止卡纸和划伤
- 抚平褶皱页面——深褶皱会产生 OCR 引擎可能误读的阴影
- 用胶带在背面修复撕裂——正面的胶带会产生反光
OCR 之后:下一步做什么
运行 OCR 只是第一步。以下是如何充分利用您新获得的可搜索文档。
验证结果
务必抽查 OCR 输出,尤其是关键文档:
- 搜索您知道出现在文档中的关键词。 如果 Ctrl+F 能一致地找到它们,说明 OCR 正在工作。
- 复制一个段落并将其粘贴到文本编辑器中。 通读一遍,检查是否有明显的错误——乱码、字符缺失、荒谬的替换。
- 仔细检查数字。 财务金额、日期、电话号码和账号是高风险数据。交易金额中将“6”误读为“8”是一个严重的问题。OCR 引擎偶尔会混淆相似的数字(0/O, 1/l, 5/S, 6/8)。
纠错与整理
如果您在关键文档中发现错误,Adobe Acrobat Pro 允许您直接编辑文本层,或者您可以以 600 DPI 重新扫描有问题的页面并重新运行 OCR。对于手写部分,手动转录通常比纠正糟糕的 OCR 更快。
一旦可搜索,您的 PDF 就可以集成到现有的工作流中。桌面搜索(Windows 搜索、Mac 上的 Spotlight)会自动为它们建立索引。文档管理系统(SharePoint、Google 云端硬盘、Dropbox)支持在整个库中进行全文搜索。良好的文件名加上可搜索的内容是理想的组合。
OCR 的实际应用场景
纸质档案数字化
企业、律师事务所和政府机构通常拥有数十年的纸质文档。仅扫描为 PDF 会创建只能通过文件名搜索的图像文件。添加 OCR 可将静态档案转变为可查询的数据库。典型工作流:以 300 DPI 灰度扫描,运行 OCR,应用命名规范,并上传到文档管理系统。
使法律文档可搜索
法律专业人士在证据开示和尽职调查期间处理海量文档。对方律师可能会提供数千页扫描文档。如果没有 OCR,审查意味着必须手动阅读每一页。有了 OCR,律师可以在整个文档集中搜索关键词、姓名、日期和金额——使审查在现实的时间表内变得可行。
无障碍合规性
根据《美国残疾人法案》(ADA) 和第 508 条,政府机构和联邦资助组织的数字文档必须具备无障碍性。屏幕阅读器无法解释仅含图像的 PDF——它们需要文本层。OCR 是迈向合规的第一步。后续可能还需要额外工作(标题结构、替代文本、阅读顺序标签),但如果没有文本层,无障碍化是不可能的。
保险与金融处理
保险公司和银行接收数以百万计的扫描理赔单、医疗记录、支票和贷款申请。OCR 实现了自动化数据提取——将保单号、理赔金额、服务日期和账户详情从扫描文档中提取到处理系统中。
学术与研究档案
大学、图书馆和档案馆正在将历史文献、报纸和手稿数字化。OCR 使数百年的知识变得可搜索。Google 图书和 Internet Archive 等项目已经对数十亿页内容进行了 OCR 处理,实现了在那些需要耗费一生才能读完的馆藏中进行全文搜索。
常见问题解答
我可以一次对多个 PDF 进行 OCR 处理吗(批量处理)?
可以。PDFSub 支持在单次操作中处理多页文档。对于大型批量任务——数百或数千个文件——您可以通过该工具按顺序处理它们。Adobe Acrobat Pro 还通过其“动作向导”功能提供批量 OCR,可以自动处理整个文件夹的 PDF。
OCR 会改变我 PDF 的外观吗?
不会。正确的 OCR 会在可见的页面图像后面添加一个不可见的文本层。扫描版 PDF 的视觉外观保持不变——相同的页面、相同的布局、相同的分辨率。文本层仅对搜索功能、文本选择、复制粘贴和屏幕阅读器“可见”。
如果我对已经有可搜索文本的 PDF 运行 OCR 会怎样?
大多数 OCR 工具会检测现有的文本层,并跳过这些页面或为您提供重新处理的选项。对已经可搜索的 PDF 运行 OCR 通常是无害的,但没有必要——它不会改善现有的文本层,并可能由于冗余数据而略微增加文件大小。
OCR 处理后我的文件体积会增加吗?
会略有增加。对于典型的扫描文档,预计会增加 5-15%。文本层本身很小(字符和位置数据),与构成扫描 PDF 主体的图像数据相比,这种增加微不足道。
OCR 能处理扫描页面和数字页面混合的 PDF 吗?
可以。优秀的 OCR 工具会独立处理每一页。已经有文本层的页面会被检测到并可以跳过。仅含图像的页面会被处理。结果是一个完全可搜索的 PDF,无论原始文件是如何组装的。
OCR 支持哪些语言?
语言支持因工具而异。PDFSub 的 OCR 支持 130 多种语言,包括拉丁脚本(英语、西班牙语、法语、德语)、CJK(中文、日语、韩语)、西里尔字母(俄语、乌克兰语)、阿拉伯脚本(阿拉伯语、波斯语、乌尔都语)、梵文(印地语、马拉地语)等等。
OCR 能识别手写体吗?
部分可以。整齐的印刷体准确度可达 70-80%。草书则难得多(60-70% 或更低)。对于手写文档中的关键数据,请务必手动验证结果。
OCR 与 PDF 文本提取是一回事吗?
不是。OCR 将文本图像转换为实际字符——当没有文本数据、只有像素时需要它。PDF 文本提取读取数字 PDF 内容流中已经存在的文本——当文本被困在您无法轻松处理的格式中时需要它。如果您的 PDF 是原生数字的,您需要提取。如果是扫描的,您首先需要 OCR。
OCR 适用于手机拍摄的照片吗?
适用,但准确度取决于照片质量。为了获得最佳效果:保持手机与文档平行,确保光线均匀(无阴影),填满画面,保持稳定,并尽可能使用手机的文档扫描模式。手机照片对于清晰的打印文本通常能达到 85-95% 的准确度——低于平板扫描,但通常足以支持搜索。
OCR 后我可以编辑文本吗?
OCR 文本层是不可见的,位于扫描图像上方。您可以复制文本并将其粘贴到任何编辑器中,使用 Adobe Acrobat Pro 直接编辑文本层,或导出为 Word 或纯文本进行编辑。要更改扫描文档的可见内容,您需要重新扫描或使用 PDF 编辑器在图像上方添加注释。
开始使用 OCR
如果您有需要变得可搜索的扫描版 PDF,最快的路径非常简单:
- 测试您的 PDF — 使用 Ctrl+F 测试来确认它们是否需要 OCR
- 尝试 PDFSub 的 OCR 工具 — 在 pdfsub.com/tools/ocr 上传扫描版 PDF 并查看结果
- 验证输出 — 抽查几页以确认准确度符合您的需求
- 处理剩余文档 — 一旦您对结果有信心,就可以处理积压的文档了
PDFSub 提供 7 天免费试用,其中包括访问 OCR 工具和平台上所有其他 PDF 工具的权限。无需信用卡即可开始——上传扫描文档,体验可搜索文本带来的改变。