如何為掃描式 PDF 進行 OCR(使其可搜尋)
掃描式 PDF 僅為頁面圖片,無法搜尋、複製或編輯文字。OCR 可透過新增隱藏的文字圖層來解決此問題。以下是三種不同方法的說明。
您已將一疊文件掃描成 PDF。它們在螢幕上看起來不錯 — 清晰、易讀、專業。但試著搜尋某個字、複製某段、或選取某個電話號碼時,卻什麼也沒發生。您的游標就像在選取圖片一樣,拖曳出一個藍色矩形。因為這正是您正在做的事。
掃描式 PDF 實際上是照片。每一頁都是單一圖像 — 一個沒有字母、單字或句子概念的平面像素網格。您的電腦在掃描式 PDF 中看到的文字量,與看到日落的 JPEG 圖像一樣:零。
OCR(光學字元辨識)解決了這個問題。它會分析每一頁的圖像,識別字元,並在原始掃描檔的頂部新增一個隱藏的文字圖層。視覺外觀保持不變,但現在您可以搜尋、複製、選取文字,並讓螢幕閱讀器存取它。
本指南涵蓋 OCR 是什麼、它的運作方式、OCR 掃描式 PDF 的三種方法,以及如何獲得最佳結果。

如何判斷您的 PDF 是否需要 OCR
在投入 OCR 之前,請檢查您的 PDF 是否真的需要。許多 PDF 是「數位原生」— 由 Word 文件、Excel 試算表或網頁建立 — 且已包含真正的文字圖層。
5 秒測試
- 在任何檢視器(Adobe Reader、Preview、Chrome、Edge)中開啟您的 PDF
- 按下 Ctrl+F(Windows/Linux)或 Cmd+F(Mac)
- 輸入您在頁面上看到的某個字
- 如果檢視器反白顯示該字:您的 PDF 已包含可搜尋的文字。不需要 OCR。
- 如果找不到任何內容:您的 PDF 僅為圖像。需要 OCR。
選取測試
嘗試點擊並拖曳以選取頁面上的文字:
- 如果您可以選取個別單字 並反白顯示:PDF 包含文字圖層。
- 如果整個頁面被選取為一個區塊(如同選取圖片):PDF 是沒有文字圖層的掃描檔。
- 如果您可以選取部分文字但無法選取其他文字:PDF 包含部分 OCR 或混合內容 — 某些頁面是數位的,其他頁面是掃描的。
需要 OCR 的常見 PDF 類型
| 文件類型 | 通常需要 OCR? | 原因 |
|---|---|---|
| 掃描的紙本文件 | 是 | 純圖像,無文字資料 |
| 傳真文件儲存為 PDF | 是 | 傳真輸出為點陣圖像 |
| 文件照片(手機相機) | 是 | 相機拍攝 = 圖像 |
| 從影印機「掃描至電子郵件」產生的 PDF | 是 | 大多數影印機產生圖像式 PDF |
| 從 Word/Excel 匯出的 PDF | 否 | 數位原生,包含文字圖層 |
| 從網頁瀏覽器(列印至 PDF)產生的 PDF | 否 | 保留文字 |
| 線上下載的政府表格 | 通常否 | 大多數為數位原生 |
| 以 PDF 附件形式收到的收據 | 通常否 | 由 POS 系統產生,包含文字 |
什麼是 OCR?淺顯易懂的解釋
OCR 代表光學字元辨識 (Optical Character Recognition)。 這項技術可以從圖像中讀取文字 — 分析像素模式以識別字母、數字和符號,就像您的眼睛閱讀頁面上的單字一樣。
當您掃描文件時,掃描器會建立一張照片。該照片包含像素 — 墨水處為黑色,紙張處為白色 — 但沒有實際的文字資料。掃描器不知道像素的排列組合拼寫出「Invoice」。它只記錄圖像。
OCR 則會取得該圖像,分析其形狀,與已知的字元模式進行比對,並輸出這些形狀所代表的文字。結果是一個看起來與原始掃描檔完全相同,但包含隱藏文字圖層的 PDF。當您按下 Ctrl+F 並搜尋「December」時,PDF 檢視器會檢查文字圖層,找到比對,並反白顯示該單字在圖像上出現的區域。
OCR 的發展
OCR 可追溯到 1950 年代,當時的早期系統只能在受控環境中處理特定字體。該技術透過範本比對(1970-80 年代)、特徵提取(1990-2000 年代)和機器學習(2010 年代)不斷演進。今日的 OCR 結合了用於字元辨識的深度神經網路和使用上下文來解析歧義的語言模型 — 如果系統不確定某個字元是「l」還是「1」,周圍的單字會幫助它決定。
現代 OCR 引擎在乾淨、掃描良好的印刷文件上可達到超過 99% 的字元準確度。
OCR 的運作方式:技術流程
OCR 並非單一演算法。它是一個步驟流程,每個步驟都以前一個步驟為基礎。
步驟 1:圖像預處理
在任何字元辨識發生之前,OCR 引擎會清理圖像。這包括二值化(轉換為黑白以獲得最大對比度)、去歪斜(校正即使是輕微的頁面傾斜 — 1-2 度的傾斜會顯著降低準確度)、雜訊移除(消除掃描器瑕疵和斑點),以及邊框移除(去除黑色邊緣和裝訂陰影)。
步驟 2:版面分析
引擎會識別頁面結構 — 文字區塊、欄、圖像、頁眉、頁腳、表格和閱讀順序。沒有這個步驟,雙欄文件可能會產生混亂的輸出,同時讀取兩欄。
步驟 3:字元分割
在每個文字區塊內,會隔離個別的字元。行由垂直間距分隔,單字由水平間隙分隔,單字內的字元由它們的邊界分隔。這比聽起來要困難 — 許多字體的字元會重疊或連接,而在阿拉伯文和梵文等腳本中,字元會以複雜的方式連接。
步驟 4:字元辨識
每個分割的字元圖像都使用在數百萬個標記字元圖像上訓練的深度神經網路進行分類。網路會輸出一個包含候選字元的信心排序列表,而不是單一答案。乾淨的「A」可能會獲得 99.8% 的信心。退化的字元可能會產生更平坦的分布。
步驟 5:語言建模
原始字元辨識容易出錯。上下文可以解析歧義。 「lnvoice」是一個單字嗎?不是 — 「l」實際上是「I」,使其成為「Invoice」。統計語言模型會預測可能的字元序列,而格式驗證會將規則應用於日期和數字等模式。
步驟 6:輸出生成
辨識出的文字會被映射回原始圖像座標,並作為隱藏的文字圖層寫入 PDF。每個單字都與其視覺對應物精確對齊,從而實現搜尋和反白顯示功能。
方法 1:PDFSub OCR 工具(推薦)

PDFSub 的 OCR 工具 可處理掃描式 PDF 並新增可搜尋的文字圖層,同時保留每一頁的原始視覺外觀。
操作說明
- 前往 OCR 工具 — 導覽至 pdfsub.com/tools/ocr
- 上傳您的掃描式 PDF — 拖放您的檔案或點擊瀏覽。無需分割大型文件 — 多頁 PDF 會自動處理。
- OCR 處理您的文件 — 工具會分析每一頁,辨識文字,並建立隱藏的文字圖層。處理時間取決於頁數和複雜度,但大多數文件會在幾秒鐘內完成。
- 下載您的可搜尋 PDF — 輸出檔案的外觀與您的原始掃描檔相同,但現在支援文字搜尋、文字選取和複製貼上。
為什麼選擇 PDFSub
支援 130 多種語言。 OCR 可處理英文、西班牙文、法文、德文、中文、日文、韓文、阿拉伯文、印地文、俄文、葡萄牙文以及 120 多種其他語言的文件。多語言文件會自動處理 — 您無需預先指定語言。
保留原始外觀。 OCR 流程在不改變視覺內容的情況下新增文字資料。您的掃描頁面外觀完全相同。字體、版面、圖章、簽名和手寫註釋都保持不變。
無需安裝軟體。 所有功能都在您的瀏覽器或安全伺服器上運行。無需下載任何內容,無需檢查系統需求,也無需擔心相容性問題。
注重隱私的設計。 上傳的文件在處理後會被刪除。PDFSub 不會儲存您的檔案,也不會將其用於訓練。
免費試用。 PDFSub 提供 7 天免費試用,讓您在決定購買前,可以在自己的文件上測試 OCR 功能。
方法 2:Adobe Acrobat Pro
Adobe Acrobat Pro 包含一個內建的 OCR 功能,稱為「掃描與 OCR」工具組中的「辨識文字」。
操作說明
- 在 Adobe Acrobat Pro 中開啟您的掃描式 PDF
- 前往 工具 並選擇 掃描與 OCR
- 點擊 辨識文字 並選擇 在此檔案中 或 在多個檔案中
- 在設定下,選擇 可搜尋圖像(新增隱藏文字圖層 — 推薦)
- 點擊 辨識文字 開始處理
- 儲存檔案
優點與限制
Adobe 在乾淨的英文掃描檔上提供高準確度,支援批次處理,並允許您直接修正 OCR 錯誤。然而,Acrobat Pro 的年約方案每月需 $19.99(每年 $239.88),需要桌面安裝(無瀏覽器 OCR 功能),僅支援約 20 種語言,且處理超過 50 頁的文件可能會很慢。
方法 3:Google 雲端硬碟(免費,但會損失格式)
Google 雲端硬碟包含一個基本的 OCR 功能,可從掃描式 PDF 中擷取文字 — 但有一個重大的取捨。
操作說明
- 將您的掃描式 PDF 上傳至 Google 雲端硬碟
- 右鍵點擊檔案並選擇 選擇開啟工具,然後選擇 Google 文件
- Google 會處理 PDF 並建立一個包含擷取文字的 Google 文件
- 文字現在可供搜尋、選取和編輯
優點與限制
Google 雲端硬碟的 OCR 完全免費,在乾淨的打字文件上準確度良好,並能自動偵測語言。然而,有一個關鍵的取捨:它會破壞格式。 Google 並非在您的 PDF 中新增文字圖層 — 而是將文字擷取到 Google 文件中。表格變成純文字,欄位合併,原始版面消失。最終您得到的是一個 Google 文件,而不是一個可搜尋的 PDF。
它也最適合處理少於 10 頁的文件。較長的文件可能會被截斷。
最適合: 當您不需要原始版面時,擷取文字內容。如果您需要保留外觀的可搜尋 PDF,請使用方法 1 或方法 2。
OCR 準確度:依文件類型預期
OCR 並非魔法。準確度會因文件品質、內容類型和掃描條件而有顯著差異。以下是實際測試結果。
打字文件(現代字體):95-99%
現代印刷文件 — 發票、合約、雷射印表機列印的報告 — 是最佳情況。標準字體在 OCR 訓練資料中代表性良好,乾淨的白紙列印可產生高對比圖像。在每頁 250 個單字(約 1,500 個字元)上達到 99% 的準確度,預計約有 15 個字元錯誤 — 大多數無關緊要,例如將句號誤讀為逗號,或將小寫「l」誤認為「1」。
較舊的打字文件:85-95%
機械打字機帶來挑戰:字母對齊不一致、碳帶磨損導致墨水密度變化,以及字元寬度均勻導致分割混淆。儘管如此,打字文本是獨立形成的且水平對齊的,因此大多數 OCR 引擎都能很好地處理,足以用於搜尋目的。
手寫文字:60-80%
手寫仍然是 OCR 最嚴峻的挑戰。變異性極大 — 不僅在不同人之間,甚至在一個人同一頁上的書寫之間。整齊的印刷體可能達到 80-85%。在有線紙上用鉛筆書寫的草書可能低於 60%。務必手動驗證手寫文件中的關鍵數據。
混合內容(文字 + 表格):90-97%
結合文字和表格數據的文件增加了版面分析的挑戰。儲存格內的字元辨識通常很準確,但結構錯誤 — 儲存格邊界識別錯誤、欄位分配錯誤、多行儲存格分割成列 — 會損壞數據關係,其影響比個別字元錯誤更大。
準確度摘要表
| 文件類型 | 字元準確度 | 可搜尋? | 數據擷取可靠? |
|---|---|---|---|
| 現代印刷(雷射) | 95-99% | 極佳 | 是 |
| 現代印刷(噴墨) | 93-98% | 極佳 | 通常 |
| 較舊的打字文件 | 85-95% | 良好 | 需驗證 |
| 整齊的手寫(印刷體) | 70-80% | 部分 | 否 — 需驗證所有內容 |
| 草書手寫 | 60-70% | 差 | 否 |
| 混合文字 + 表格 | 90-97% | 良好 | 需結構審查 |
| 退化/損壞的紙張 | 70-90% | 視情況 | 需大量驗證 |
OCR 前掃描的最佳實踐
OCR 準確度的最大因素不是 OCR 軟體 — 而是掃描品質。一個優秀的 OCR 引擎處理不良的掃描檔,其結果會比一個平庸的引擎處理優秀的掃描檔更差。
解析度:最低 300 DPI
**DPI(每英吋點數)**決定了掃描器捕捉細節的程度。
- 300 DPI:大多數文件的標準。足以可靠辨識標準字體和正常文字大小(10-12pt)。
- 600 DPI:建議用於小字(註腳、細則)或需要最大準確度時。
- 150 DPI 或更低:不建議。字元太小,無法可靠辨識。準確度顯著下降。
- 1200 DPI:OCR 過度。沒有準確度提升,且檔案大小會變得龐大。
顏色模式:灰階通常最佳
- 灰階:最適合大多數文件。保留足夠的對比度以進行良好的二值化,同時保持可管理的檔案大小。
- 黑白:可用於乾淨、高對比度的文件,但可能會破壞邊緣區域的細節。
- 彩色:僅在文件包含您需要保留的顏色編碼資訊時才需要。對於 OCR 目的,顏色不像灰階那樣有益。
對齊與方向
- 保持頁面平直。 即使是 2-3 度的傾斜也會使 OCR 準確度降低 5-10%。使用掃描器的紙張導板保持頁面對齊。
- 單面掃描,正面朝下。 避免背面滲透產生陰影文字,使 OCR 引擎混淆。
- 使用平台掃描器處理裝訂文件。 紙匣式掃描器可能會使書籍或裝訂報告的頁面傾斜。平台掃描可保持頁面平整且對齊正確。
掃描器維護與文件準備
- 掃描批次前請清潔玻璃 — 污漬會在每頁上產生瑕疵
- 掃描空白頁檢查條紋 — 垂直線表示滾輪髒污
- 移除訂書針和迴紋針 以防止卡紙和刮傷
- 撫平摺痕頁面 — 深摺痕會產生 OCR 引擎可能誤讀的陰影
OCR 後:後續步驟
執行 OCR 只是第一步。以下是如何充分利用您新可搜尋的文件。
驗證結果
務必抽查 OCR 結果,特別是關鍵文件:
- 搜尋您知道出現在文件中的關鍵字詞。 如果 Ctrl+F 持續找到它們,表示 OCR 正在運作。
- 複製一段文字並貼到文字編輯器中。 仔細閱讀是否有明顯錯誤 — 亂碼、遺失字元、無意義的替代。
- 仔細檢查數字。 金額、日期、電話號碼和帳戶號碼是高風險數據。交易金額中將「6」誤讀為「8」是個實際問題。OCR 引擎偶爾會混淆相似的數字(0/O、1/l、5/S、6/8)。
修正錯誤與整理
如果您在關鍵文件中發現錯誤,Adobe Acrobat Pro 允許您直接編輯文字圖層,或者您可以以 600 DPI 重新掃描有問題的頁面並重新執行 OCR。對於手寫部分,手動抄寫通常比修正不良的 OCR 更快。
一旦可搜尋,您的 PDF 就會整合到現有工作流程中。桌面搜尋(Windows 搜尋、Mac 上的 Spotlight)會自動索引它們。文件管理系統(SharePoint、Google 雲端硬碟、Dropbox)可實現跨圖書館的全文搜尋。良好的檔案名稱加上可搜尋的內容是理想的組合。
OCR 的實際應用案例
數位化紙本檔案
企業、律師事務所和政府機構通常有數十年的紙本文件。僅僅掃描成 PDF 會產生只能按檔名搜尋的圖像檔案。新增 OCR 可將被動檔案庫轉變為可查詢的資料庫。典型工作流程:以 300 DPI 灰階掃描,執行 OCR,套用命名慣例,然後上傳至文件管理系統。
使法律文件可搜尋
法律專業人士在證據開示和盡職調查過程中會處理大量的文檔。對造律師可能會提供數千頁的掃描文件。沒有 OCR,審閱意味著手動閱讀每一頁。有了 OCR,律師就可以在整套文件中搜尋關鍵字詞、姓名、日期和金額 — 使審閱在合理的時間範圍內可行。
無障礙合規性
根據《美國殘疾人法案》(ADA)和第 508 節,政府機構和聯邦資助組織的數位文件必須是無障礙的。螢幕閱讀器無法解讀僅圖像式 PDF — 它們需要文字圖層。OCR 是實現合規性的第一步。後續可能需要額外工作(標題結構、替代文字、閱讀順序標籤),但沒有文字圖層,無障礙是不可能的。
保險與金融處理
保險公司和銀行收到數百萬份掃描的理賠表、醫療記錄、支票和貸款申請。OCR 可實現自動化數據擷取 — 從掃描文件中提取保單號碼、理賠金額、服務日期和帳戶詳細資訊到處理系統。
學術與研究檔案
大學、圖書館和檔案館正在將歷史文件、報紙和手稿數位化。OCR 使數百年來的知識變得可搜尋。Google 圖書和 Internet Archive 等專案已對數十億頁進行 OCR,使得跨集合的全文搜尋成為可能,而手動閱讀這些內容需要一生時間。
常見問題
我可以一次 OCR 多個 PDF 嗎(批次處理)?
可以。PDFSub 支援一次處理多頁文件。對於大型批次作業 — 數百或數千個檔案 — 您需要透過該工具依序處理。Adobe Acrobat Pro 也透過其「動作精靈」功能提供批次 OCR,該功能可以自動處理整個資料夾的 PDF。
OCR 會改變我的 PDF 外觀嗎?
不會。正確的 OCR 會在可見的頁面圖像後面新增一個隱藏的文字圖層。您的掃描式 PDF 的視覺外觀保持不變 — 相同的頁面、相同的版面、相同的解析度。文字圖層僅對搜尋功能、文字選取、複製貼上和螢幕閱讀器「可見」。
如果我對已經有可搜尋文字的 PDF 執行 OCR 會怎樣?
大多數 OCR 工具會偵測現有的文字圖層,並跳過這些頁面,或提供重新處理的選項。對已可搜尋的 PDF 執行 OCR 通常無害但沒有必要 — 它不會改善現有的文字圖層,且由於數據冗餘,可能會稍微增加檔案大小。
OCR 後我的檔案大小會增加嗎?
會稍微增加。對於典型的掃描文件,預計會增加 5-15%。文字圖層本身很小(字元和位置數據),與構成掃描式 PDF 大部分的圖像數據相比,增加量可以忽略不計。
OCR 能處理混合掃描和數位頁面的 PDF 嗎?
可以。良好的 OCR 工具會獨立處理每一頁。已經有文字圖層的頁面會被偵測到並可以被跳過。僅圖像式頁面會被處理。結果是一個完全可搜尋的 PDF,無論原始文件是如何組成的。
OCR 支援哪些語言?
語言支援因工具而異。PDFSub 的 OCR 支援 130 多種語言,包括拉丁字母(英語、西班牙語、法語、德語)、CJK(中文、日文、韓文)、西里爾字母(俄語、烏克蘭語)、阿拉伯字母(阿拉伯語、波斯語、烏爾都語)、梵文(印地語、馬拉地語)等等。
OCR 能讀取手寫文字嗎?
部分可以。整齊的印刷體準確度可達 70-80%。草書則困難得多(60-70% 或更低)。對於手寫文件中的關鍵數據,請務必手動驗證結果。
OCR 與 PDF 文字擷取是同一回事嗎?
不是。OCR 將文字圖像轉換為實際字元 — 當沒有文字數據,只有像素時需要。PDF 文字擷取讀取數位 PDF 內容流中已存在的文字 — 當文字被困在不易處理的格式時需要。如果您的 PDF 是數位原生,您需要擷取。如果它是掃描的,您首先需要 OCR。
OCR 能處理手機相機拍攝的照片嗎?
可以,但準確度取決於照片品質。為獲得最佳效果:將手機與文件平行放置,確保光線均勻(無陰影),填滿畫面,保持穩定,並在可用時使用手機的文檔掃描模式。手機照片對於乾淨的印刷文字通常能達到 85-95% 的準確度 — 比平台掃描器低,但對於可搜尋性來說通常足夠。
OCR 後我可以編輯文字嗎?
OCR 文字圖層是隱藏的,位於掃描圖像上方。您可以複製文字並貼到任何編輯器中,使用 Adobe Acrobat Pro 直接編輯文字圖層,或匯出到 Word 或純文字進行編輯。要更改掃描文件的可見內容,您需要重新掃描或使用 PDF 編輯器在圖像上方新增註釋。
開始使用 OCR
如果您有需要可搜尋的掃描式 PDF,最快的方法很簡單:
- 測試您的 PDF — 使用 Ctrl+F 測試以確認它們需要 OCR
- 試用 PDFSub 的 OCR 工具 — 在 pdfsub.com/tools/ocr 上傳掃描式 PDF 並查看結果
- 驗證輸出 — 抽查幾頁以確認準確度符合您的需求
- 處理剩餘文件 — 一旦您對結果有信心,就可以開始處理積壓的文件
PDFSub 提供 7 天免費試用,包括 OCR 工具和平台上所有其他 PDF 工具的存取權。上傳掃描文件,體驗可搜尋文字帶來的差異。可隨時取消。