如何對掃描的 PDF 進行 OCR(使其可搜尋)
掃描的 PDF 只是頁面的圖片——您無法搜尋、複製或編輯文字。OCR 透過添加不可見的文字層來解決這個問題。以下是使用三種不同方法的操作指南。
您掃描了一堆文件到 PDF。它們在螢幕上看起來很好——清晰、易讀、專業。但嘗試搜尋單字、複製段落或選擇電話號碼時,卻沒有任何反應。您的游標只是在頁面上拖出一個藍色矩形,就像在選擇圖片一樣。因為這正是您正在做的事情。
掃描的 PDF 是照片。每一頁都是單張影像——一個由像素組成的平面網格,沒有字母、單字或句子的概念。您的電腦在掃描的 PDF 中看到的文字量與在日落的 JPEG 圖片中看到的文字量完全相同:零。
OCR(光學字元辨識)解決了這個問題。它分析每一頁的影像,辨識字元,並在原始掃描件上方添加一個不可見的文字層。視覺外觀保持不變,但現在您可以搜尋、複製、選取文字,並讓螢幕閱讀器存取它。
本指南涵蓋了什麼是 OCR、其運作原理、三種對掃描 PDF 進行 OCR 的方法,以及如何獲得最佳效果。
如何判斷您的 PDF 是否需要 OCR
在投入時間進行 OCR 之前,請檢查您的 PDF 是否真的需要它。許多 PDF 是「原生數位」的——由 Word 文件、Excel 試算表或網頁建立——並且已經包含真實的文字層。
5 秒測試
- 在任何檢視器(Adobe Reader、Preview、Chrome、Edge)中打開您的 PDF
- 按下 Ctrl+F (Windows/Linux) 或 Cmd+F (Mac)
- 輸入您在頁面上看到的一個單字
- 如果檢視器反白顯示該單字:您的 PDF 已經擁有可搜尋的文字。不需要 OCR。
- 如果找不到任何內容:您的 PDF 僅包含影像。它需要 OCR。
選取測試
嘗試在頁面上點擊並拖動以選取文字:
- 如果您可以選取單個單字且它們以藍色反白顯示:該 PDF 擁有文字層。
- 如果整個頁面被選取為一個區塊(就像選取圖片一樣):該 PDF 是沒有文字層的掃描件。
- 如果您可以選取部分文字但無法選取其他文字:該 PDF 具有部分 OCR 或混合內容——某些頁面是數位的,其他頁面是掃描的。
常見需要 OCR 的 PDF 類型
| 文件類型 | 通常需要 OCR 嗎? | 原因 |
|---|---|---|
| 掃描的紙本文件 | 是 | 純影像,無文字數據 |
| 儲存為 PDF 的傳真文件 | 是 | 傳真輸出為點陣影像 |
| 文件照片(手機相機) | 是 | 相機擷取 = 影像 |
| 影印機「掃描至電子郵件」的 PDF | 是 | 大多數影印機產生影像 PDF |
| 從 Word/Excel 匯出的 PDF | 否 | 原生數位,包含文字層 |
| 來自網頁瀏覽器的 PDF(列印至 PDF) | 否 | 文字被保留 |
| 線上下載的政府表單 | 通常不需要 | 大多數是原生數位的 |
| 作為 PDF 附件發送的收據郵件 | 通常不需要 | 由 POS 系統生成,帶有文字 |
什麼是 OCR?淺顯易懂的解釋
OCR 代表光學字元辨識(Optical Character Recognition)。 這是一項從影像中讀取文字的技術——透過分析像素模式來辨識字母、數字和符號,就像您的眼睛閱讀頁面上的單字一樣。
當您掃描文件時,掃描器會建立一張照片。那張照片包含像素——有墨水的地方是暗的,有紙的地方是亮的——但沒有實際的文字數據。掃描器不知道像素的排列拼出了「發票」。它只是記錄了影像。
OCR 接收該影像,分析形狀,將其與已知的字元模式進行比對,並輸出這些形狀所代表的文字。結果是一個看起來與原始掃描件完全相同,但包含不可見文字層的 PDF。當您按下 Ctrl+F 並搜尋「十二月」時,PDF 檢視器會檢查文字層,找到匹配項,並在影像中該單字出現的區域反白顯示。
OCR 的發展歷程
OCR 可以追溯到 1950 年代,當時的早期系統只能在受控環境中處理特定字體。這項技術經歷了模板比對(1970-80 年代)、特徵提取(1990-2000 年代)和機器學習(2010 年代)的演變。今天的 OCR 結合了用於字元辨識的深度神經網絡與使用上下文解決歧義的語言模型——如果系統不確定一個字元是「l」還是「1」,周圍的單字會幫助它做出決定。
現代 OCR 引擎在乾淨、掃描良好的印刷文件上可以達到超過 99% 的字元準確度。
OCR 的運作原理:技術流程
OCR 並非單一算法。它是一個由多個步驟組成的流程,每一步都建立在前一步的基礎上。
第 1 步:影像預處理
在進行任何字元辨識之前,OCR 引擎會清理影像。這包括 二值化(轉換為黑白以獲得最大對比度)、糾偏(校正微小的頁面旋轉——1-2 度的傾斜就會顯著降低準確度)、去噪(消除掃描器產生的雜點和斑點)以及 邊框移除(去除黑色邊緣和裝訂陰影)。
第 2 步:版面分析
引擎會辨識頁面結構——文字塊、欄位、影像、頁首、頁尾、表格和閱讀順序。如果沒有這一步,雙欄文件可能會產生混亂的輸出,同時橫跨兩欄閱讀。
第 3 步:字元分割
在每個文字塊中,單個字元被分離出來。行由垂直間距分隔,單字由水平間隙分隔,而單字內的字元則由其邊界分隔。這比聽起來要難——許多字體中的字元會重疊或接觸,而在阿拉伯文和梵文等劇本中,字元以複雜的方式連接。
第 4 步:字元辨識
每個分割出的字元影像都會使用在數百萬個標記字元影像上訓練過的深度神經網絡進行分類。網絡輸出一個按置信度排序的候選列表,而不是單一答案。一個清晰的「A」可能獲得 99.8% 的置信度。一個退化的字元可能會產生更平坦的分佈。
第 5 步:語言建模
原始字元辨識容易出錯。上下文可以解決歧義。例如「lnvoice」是一個單字嗎?不是——「l」實際上是「I」,使其成為「Invoice」。統計語言模型預測可能的字元序列,格式驗證則將規則應用於日期和數字等模式。
第 6 步:輸出生成
辨識出的文字被映射回原始影像座標,並作為不可見的文字層寫入 PDF 中。每個單字都與其視覺對應部分精確對齊,從而實現搜尋和反白功能。
方法 1:PDFSub OCR 工具(推薦)
PDFSub 的 OCR 工具 處理掃描的 PDF 並添加可搜尋的文字層,同時保留每一頁的原始視覺外觀。
分步說明
- 前往 OCR 工具 — 導航至 pdfsub.com/tools/ocr
- 上傳您的掃描 PDF — 拖放您的檔案或點擊瀏覽。無需拆分大型文件——多頁 PDF 會自動處理。
- OCR 處理您的文件 — 該工具分析每一頁,辨識文字,並建立不可見的文字層。處理時間取決於頁數和複雜度,但大多數文件在幾秒鐘內即可完成。
- 下載您的可搜尋 PDF — 輸出檔案看起來與原始掃描件完全相同,但現在支援文字搜尋、文字選取和複製貼上。
為什麼選擇 PDFSub
支援 130 多種語言。 OCR 適用於英文、西班牙文、法文、德文、中文、日文、韓文、阿拉伯文、印地文、俄文、葡萄牙文以及 120 多種其他語言的文件。多語言文件會自動處理——您不需要提前指定語言。
保留原始外觀。 OCR 過程在不改變視覺內容的情況下添加文字數據。您的掃描頁面看起來完全一樣。字體、版面、印章、簽名和手寫註釋都保持不變。
無需安裝軟體。 一切都在您的瀏覽器或安全伺服器上運行。無需下載任何內容,無需檢查系統要求,也沒有相容性問題。
重視隱私的設計。 上傳的文件在處理後會被刪除。PDFSub 不會儲存您的檔案或將其用於訓練。
免費試用。 PDFSub 提供 7 天免費試用,因此您可以在決定訂閱前在自己的文件上測試 OCR。
方法 2:Adobe Acrobat Pro
Adobe Acrobat Pro 在其「掃描與 OCR」工具集中包含一個名為「辨識文字」的內建 OCR 功能。
分步說明
- 在 Adobe Acrobat Pro 中打開您的掃描 PDF
- 前往 工具 並選擇 掃描與 OCR
- 點擊 辨識文字 並選擇 在此檔案中 或 在多個檔案中
- 在設定下,選擇 可搜尋的影像(添加不可見文字層——推薦)
- 點擊 辨識文字 開始處理
- 儲存檔案
優點與限制
Adobe 在乾淨的英文掃描件上提供高準確度,支援批次處理,並允許您直接糾正 OCR 錯誤。然而,Acrobat Pro 的年度計劃每月費用為 19.99 美元(每年 239.88 美元),需要桌面安裝(無基於瀏覽器的 OCR),僅支援約 20 種語言,且處理超過 50 頁的文件時速度可能較慢。
方法 3:Google 雲端硬碟(免費,但有損)
Google 雲端硬碟包含一個基本的 OCR 功能,可以從掃描的 PDF 中提取文字——但有一個顯著的權衡。
分步說明
- 將您的掃描 PDF 上傳到 Google 雲端硬碟
- 右鍵點擊檔案,選擇 開啟方式,然後選擇 Google 文件
- Google 會處理 PDF 並建立一個包含提取文字的 Google 文件
- 文字現在可以搜尋、選取和編輯
優點與限制
Google 雲端硬碟 OCR 完全免費,在乾淨的打字文件上提供良好的準確度,並能自動偵測語言。然而,有一個關鍵的權衡:它會破壞格式。 Google 不會在您的 PDF 中添加文字層——它是將文字提取到 Google 文件中。表格會變成純文字,欄位會塌陷,原始版面會丟失。您最終得到的是一個 Google 文件,而不是一個可搜尋的 PDF。
它也最適合處理 10 頁以下的文件。較長的文件可能會被截斷。
最適合: 當您不需要原始版面,只需提取文字內容時。如果您需要保留外觀的可搜尋 PDF,請使用方法 1 或方法 2。
OCR 準確度:不同文件類型的預期表現
OCR 並非萬能。準確度會根據文件品質、內容類型和掃描條件而有很大差異。以下是實際測試的結果。
打字文件(現代字體):95-99%
現代印刷文件——發票、合約、用雷射印表機列印的報告——是最佳情況。標準字體在 OCR 訓練數據中得到了很好的體現,而在白紙上的乾淨印刷會產生高對比度的影像。在 250 個單字的頁面(約 1,500 個字元)上達到 99% 的準確度,預計會有約 15 個字元錯誤——大多數無關緊要,例如句號被誤讀為逗號,或小寫「l」與「1」混淆。
舊式打字機文件:85-95%
機械打字機帶來了挑戰:字母對齊不一致、色帶磨損導致墨水密度變化,以及統一的字元寬度導致分割困惑。儘管如此,打字機文字是單獨成形且水平對齊的,因此大多數 OCR 引擎處理它來進行搜尋是足夠的。
手寫文字:60-80%
手寫仍然是 OCR 最大的挑戰。變異性巨大——不僅在人與人之間,甚至在同一個人在同一頁上的書寫也是如此。整齊的正楷印刷可能達到 80-85%。在橫線紙上用鉛筆寫的草寫可能會降至 60% 以下。務必手動驗證手寫文件中的關鍵數據。
混合內容(文字 + 表格):90-97%
結合文字與表格數據的文件增加了版面分析的挑戰。單元格內的字元辨識通常是準確的,但結構錯誤——誤判單元格邊界、欄位分配錯誤、多行單元格被拆分為多列——會破壞數據關係,這比單個字元錯誤更重要。
準確度摘要表
| 文件類型 | 字元準確度 | 可搜尋? | 數據擷取是否可靠? |
|---|---|---|---|
| 現代印刷(雷射) | 95-99% | 極佳 | 是 |
| 現代印刷(噴墨) | 93-98% | 極佳 | 通常可靠 |
| 舊式打字機 | 85-95% | 良好 | 需驗證 |
| 清晰手寫(正楷) | 70-80% | 部分 | 否——需驗證一切 |
| 草寫手寫 | 60-70% | 較差 | 否 |
| 混合文字 + 表格 | 90-97% | 良好 | 需結構審查 |
| 劣化/損壞的紙張 | 70-90% | 視情況而定 | 需大量驗證 |
OCR 前的掃描最佳實踐
影響 OCR 準確度的單一最大因素不是 OCR 軟體,而是掃描品質。一個優秀的 OCR 引擎處理糟糕的掃描件,其結果會比一個平庸的引擎處理優秀的掃描件更差。
解析度:至少 300 DPI
DPI(每英吋點數) 決定了掃描器擷取的細節量。
- 300 DPI:大多數文件的標準。足以可靠地辨識正常文字大小(10-12pt)的標準字體。
- 600 DPI:推薦用於小文字(腳註、細則)或需要最高準確度時。
- 150 DPI 或更低:不推薦。字元太小,無法可靠辨識。準確度會顯著下降。
- 1200 DPI:對於 OCR 來說太過頭了。準確度不會提高,且檔案大小會變得巨大。
色彩模式:灰階通常最佳
- 灰階:最適合大多數文件。保留足夠的對比度以進行良好的二值化,同時保持檔案大小可控。
- 黑白:適用於乾淨、高對比度的文件,但可能會破壞邊緣區域的細節。
- 彩色:僅在文件包含您需要保留的顏色編碼資訊時才必要。就 OCR 而言,彩色相對於灰階沒有額外好處。
對齊與方向
- 保持頁面筆直。 即使是 2-3 度的傾斜也會使 OCR 準確度降低 5-10%。使用掃描器的紙張導軌來保持頁面對齊。
- 單面掃描時正面朝下。 避免背面透出的墨跡產生陰影文字,從而干擾 OCR 引擎。
- 對裝訂文件使用平台式掃描器。 自動進紙掃描器可能會使書籍或裝訂報告的頁面傾斜。平台式掃描能保持頁面平整且對齊正確。
掃描器維護與文件準備
- 批量掃描前清潔玻璃 — 污跡會在每一頁上產生雜點
- 掃描空白頁檢查條紋 — 垂直線表示滾輪髒了
- 移除訂書針和迴紋針 以防止卡紙和刮傷
- 壓平有摺痕的頁面 — 深層摺痕會產生 OCR 引擎可能誤讀的陰影
- 在背面用膠帶修復撕裂 — 正面的膠帶會產生反光
OCR 之後:下一步該做什麼
運行 OCR 只是第一步。以下是如何充分利用您新獲得的可搜尋文件。
驗證結果
務必對 OCR 輸出進行抽查,尤其是對於關鍵文件:
- 搜尋關鍵術語,即您知道出現在文件中的詞。如果 Ctrl+F 能一致地找到它們,說明 OCR 正在運作。
- 複製一個段落並將其貼到文字編輯器中。 閱讀是否有明顯錯誤——混亂的單字、缺失的字元、荒謬的替換。
- 仔細檢查數字。 財務金額、日期、電話號碼和帳號都是高風險數據。交易金額中的「6」被誤讀為「8」是一個嚴重的問題。OCR 引擎偶爾會混淆相似的數字(0/O, 1/l, 5/S, 6/8)。
糾正錯誤並整理
如果您在關鍵文件中發現錯誤,Adobe Acrobat Pro 允許您直接編輯文字層,或者您可以以 600 DPI 重新掃描有問題的頁面並重新運行 OCR。對於手寫部分,手動轉錄通常比糾正糟糕的 OCR 更快。
一旦變為可搜尋,您的 PDF 就可以整合到現有的工作流程中。桌面搜尋(Windows 搜尋、Mac 上的 Spotlight)會自動為其建立索引。文件管理系統(SharePoint、Google 雲端硬碟、Dropbox)支援對您的庫進行全文搜尋。良好的檔名加上可搜尋的內容是理想的組合。
OCR 的實際應用案例
紙本檔案數位化
企業、律師事務所和政府機構通常擁有數十年的紙本文件。僅僅掃描成 PDF 會產生只能透過檔名搜尋的影像檔案。添加 OCR 則能將被動檔案轉化為可查詢的資料庫。典型流程:以 300 DPI 灰階掃描、運行 OCR、應用命名規範,然後上傳到文件管理系統。
使法律文件可搜尋
法律專業人士在證據開示和盡職調查期間處理大量文件。對方律師可能會提供數千頁的掃描文件。如果沒有 OCR,審查意味著手動閱讀每一頁。有了 OCR,律師可以在整個文件集中搜尋關鍵術語、姓名、日期和金額,使審查在現實的時間範圍內變得可行。
無障礙合規性
根據《美國身心障礙者法案》(ADA) 和第 508 條,政府機構和聯邦資助組織的數位文件必須具備無障礙性。螢幕閱讀器無法解讀僅含影像的 PDF——它們需要文字層。OCR 是邁向合規的第一步。後續可能還需要額外工作(標題結構、替代文字、閱讀順序標籤),但如果沒有文字層,無障礙化是不可能的。
保險與金融處理
保險公司和銀行接收數百萬份掃描的理賠表單、醫療記錄、支票和貸款申請。OCR 實現了自動化數據提取——將保單號碼、理賠金額、服務日期和帳戶詳細資訊從掃描文件中提取到處理系統中。
學術與研究檔案
大學、圖書館和檔案館正在將歷史文件、報紙和手稿數位化。OCR 使數世紀的知識變得可搜尋。像 Google 圖書和 Internet Archive 這樣的項目已經對數十億頁內容進行了 OCR,實現了對那些手動閱讀需要耗費數輩子時間的館藏進行全文搜尋。
常見問題
我可以一次對多個 PDF 進行 OCR 嗎(批次處理)?
是的。PDFSub 支援在單次操作中處理多頁文件。對於大型批次作業——數百或數千個檔案——您可以透過工具順序處理它們。Adobe Acrobat Pro 也透過其「動作精靈」功能提供批次 OCR,可以自動處理整個資料夾的 PDF。
OCR 會改變我的 PDF 外觀嗎?
不會。正確的 OCR 會在可見的頁面影像後方添加一個不可見的文字層。掃描 PDF 的視覺外觀保持不變——相同的頁面、相同的版面、相同的解析度。文字層僅對搜尋功能、文字選取、複製貼上和螢幕閱讀器「可見」。
如果我對已經有可搜尋文字的 PDF 運行 OCR 會發生什麼?
大多數 OCR 工具會偵測現有的文字層,並跳過這些頁面或為您提供重新處理的選項。對已經可搜尋的 PDF 運行 OCR 通常是無害的,但沒有必要——它不會改善現有的文字層,且由於冗餘數據,可能會略微增加檔案大小。
OCR 後我的檔案大小會增加嗎?
會稍微增加。典型的掃描文件預計會增加 5-15%。文字層本身很小(字元和位置數據),與構成掃描 PDF 主體的影像數據相比,增加的量微不足道。
OCR 能處理混合了掃描頁面和數位頁面的 PDF 嗎?
是的。優秀的 OCR 工具會獨立處理每一頁。已經有文字層的頁面會被偵測到並可以跳過。僅含影像的頁面則會被處理。結果是一個完全可搜尋的 PDF,無論原始文件是如何組裝的。
OCR 支援哪些語言?
語言支援因工具而異。PDFSub 的 OCR 支援 130 多種語言,包括拉丁語系(英文、西班牙文、法文、德文)、CJK(中文、日文、韓文)、西里爾字母(俄文、烏克蘭文)、阿拉伯字母(阿拉伯文、波斯文、烏爾都文)、梵文(印地文、馬拉地文)等等。
OCR 能讀取手寫文字嗎?
部分可以。整齊的正楷印刷準確度可達 70-80%。草寫則困難得多(60-70% 或更低)。對於手寫文件中的關鍵數據,請務必手動驗證結果。
OCR 與 PDF 文字提取相同嗎?
不同。OCR 將文字影像轉換為實際字元——當沒有文字數據、只有像素時需要它。PDF 文字提取則是讀取數位 PDF 內容流中已經存在的文字——當文字被困在您無法輕易處理的格式中時需要它。如果您的 PDF 是原生數位的,您需要的是提取。如果是掃描的,您首先需要 OCR。
OCR 適用於手機拍攝的照片嗎?
是的,但準確度取決於照片品質。為了獲得最佳效果:保持手機與文件平行,確保光線均勻(無陰影),填滿畫面,保持穩定,並儘可能使用手機的文件掃描模式。手機照片對於乾淨的印刷文字通常能產生 85-95% 的準確度——低於平台式掃描,但通常足以滿足搜尋需求。
OCR 後我可以編輯文字嗎?
OCR 文字層是不可見的,且位於掃描影像之上。您可以複製文字並將其貼到任何編輯器中,使用 Adobe Acrobat Pro 直接編輯文字層,或匯出為 Word 或純文字進行編輯。要更改掃描文件的可見內容,您需要重新掃描或使用 PDF 編輯器在影像上方添加註釋。
開始使用 OCR
如果您有需要使其可搜尋的掃描 PDF,最快的方法很簡單:
- 測試您的 PDF — 使用 Ctrl+F 測試來確認它們是否需要 OCR
- 嘗試 PDFSub 的 OCR 工具 — 在 pdfsub.com/tools/ocr 上傳掃描的 PDF 並查看結果
- 驗證輸出 — 抽查幾頁以確認準確度符合您的需求
- 處理剩餘文件 — 一旦您對結果有信心,就可以處理積壓的文件
PDFSub 提供 7 天免費試用,包括存取 OCR 工具和平台上所有其他 PDF 工具。無需信用卡即可開始——上傳掃描文件,親自體驗可搜尋文字帶來的改變。