您已將一疊文件掃描成 PDF。它們在螢幕上看起來不錯 — 清晰、易讀、專業。但試著搜尋某個字、複製某段、或選取某個電話號碼時，卻什麼也沒發生。您的游標就像在選取圖片一樣，拖曳出一個藍色矩形。因為這正是您正在做的事。

掃描式 PDF 實際上是照片。每一頁都是單一圖像 — 一個沒有字母、單字或句子概念的平面像素網格。您的電腦在掃描式 PDF 中看到的文字量，與看到日落的 JPEG 圖像一樣：零。

OCR（光學字元辨識）解決了這個問題。它會分析每一頁的圖像，識別字元，並在原始掃描檔的頂部新增一個隱藏的文字圖層。視覺外觀保持不變，但現在您可以搜尋、複製、選取文字，並讓螢幕閱讀器存取它。

本指南涵蓋 OCR 是什麼、它的運作方式、OCR 掃描式 PDF 的三種方法，以及如何獲得最佳結果。

How to OCR a scanned PDF - converting image-only pages into searchable, selectable text

如何判斷您的 PDF 是否需要 OCR

在投入 OCR 之前，請檢查您的 PDF 是否真的需要。許多 PDF 是「數位原生」— 由 Word 文件、Excel 試算表或網頁建立 — 且已包含真正的文字圖層。

5 秒測試

在任何檢視器（Adobe Reader、Preview、Chrome、Edge）中開啟您的 PDF
按下 Ctrl+F（Windows/Linux）或 Cmd+F（Mac）
輸入您在頁面上看到的某個字
如果檢視器反白顯示該字：您的 PDF 已包含可搜尋的文字。不需要 OCR。
如果找不到任何內容：您的 PDF 僅為圖像。需要 OCR。

選取測試

嘗試點擊並拖曳以選取頁面上的文字：

如果您可以選取個別單字 並反白顯示：PDF 包含文字圖層。
如果整個頁面被選取為一個區塊（如同選取圖片）：PDF 是沒有文字圖層的掃描檔。
如果您可以選取部分文字但無法選取其他文字：PDF 包含部分 OCR 或混合內容 — 某些頁面是數位的，其他頁面是掃描的。

需要 OCR 的常見 PDF 類型

文件類型	通常需要 OCR？	原因
掃描的紙本文件	是	純圖像，無文字資料
傳真文件儲存為 PDF	是	傳真輸出為點陣圖像
文件照片（手機相機）	是	相機拍攝 = 圖像
從影印機「掃描至電子郵件」產生的 PDF	是	大多數影印機產生圖像式 PDF
從 Word/Excel 匯出的 PDF	否	數位原生，包含文字圖層
從網頁瀏覽器（列印至 PDF）產生的 PDF	否	保留文字
線上下載的政府表格	通常否	大多數為數位原生
以 PDF 附件形式收到的收據	通常否	由 POS 系統產生，包含文字

什麼是 OCR？淺顯易懂的解釋

OCR 代表光學字元辨識 (Optical Character Recognition)。 這項技術可以從圖像中讀取文字 — 分析像素模式以識別字母、數字和符號，就像您的眼睛閱讀頁面上的單字一樣。

當您掃描文件時，掃描器會建立一張照片。該照片包含像素 — 墨水處為黑色，紙張處為白色 — 但沒有實際的文字資料。掃描器不知道像素的排列組合拼寫出「Invoice」。它只記錄圖像。

OCR 則會取得該圖像，分析其形狀，與已知的字元模式進行比對，並輸出這些形狀所代表的文字。結果是一個看起來與原始掃描檔完全相同，但包含隱藏文字圖層的 PDF。當您按下 Ctrl+F 並搜尋「December」時，PDF 檢視器會檢查文字圖層，找到比對，並反白顯示該單字在圖像上出現的區域。

OCR 的發展

OCR 可追溯到 1950 年代，當時的早期系統只能在受控環境中處理特定字體。該技術透過範本比對（1970-80 年代）、特徵提取（1990-2000 年代）和機器學習（2010 年代）不斷演進。今日的 OCR 結合了用於字元辨識的深度神經網路和使用上下文來解析歧義的語言模型 — 如果系統不確定某個字元是「l」還是「1」，周圍的單字會幫助它決定。

現代 OCR 引擎在乾淨、掃描良好的印刷文件上可達到超過 99% 的字元準確度。

OCR 的運作方式：技術流程

OCR 並非單一演算法。它是一個步驟流程，每個步驟都以前一個步驟為基礎。

步驟 1：圖像預處理

在任何字元辨識發生之前，OCR 引擎會清理圖像。這包括二值化（轉換為黑白以獲得最大對比度）、去歪斜（校正即使是輕微的頁面傾斜 — 1-2 度的傾斜會顯著降低準確度）、雜訊移除（消除掃描器瑕疵和斑點），以及邊框移除（去除黑色邊緣和裝訂陰影）。

步驟 2：版面分析

引擎會識別頁面結構 — 文字區塊、欄、圖像、頁眉、頁腳、表格和閱讀順序。沒有這個步驟，雙欄文件可能會產生混亂的輸出，同時讀取兩欄。

步驟 3：字元分割

在每個文字區塊內，會隔離個別的字元。行由垂直間距分隔，單字由水平間隙分隔，單字內的字元由它們的邊界分隔。這比聽起來要困難 — 許多字體的字元會重疊或連接，而在阿拉伯文和梵文等腳本中，字元會以複雜的方式連接。

步驟 4：字元辨識

每個分割的字元圖像都使用在數百萬個標記字元圖像上訓練的深度神經網路進行分類。網路會輸出一個包含候選字元的信心排序列表，而不是單一答案。乾淨的「A」可能會獲得 99.8% 的信心。退化的字元可能會產生更平坦的分布。

步驟 5：語言建模

原始字元辨識容易出錯。上下文可以解析歧義。「lnvoice」是一個單字嗎？不是 — 「l」實際上是「I」，使其成為「Invoice」。統計語言模型會預測可能的字元序列，而格式驗證會將規則應用於日期和數字等模式。

步驟 6：輸出生成

辨識出的文字會被映射回原始圖像座標，並作為隱藏的文字圖層寫入 PDF。每個單字都與其視覺對應物精確對齊，從而實現搜尋和反白顯示功能。

方法 1：PDFSub OCR 工具（推薦）

How OCR converts a scanned PDF to searchable text - Upload Scan, OCR Analysis, Extract Text, Searchable PDF

PDFSub 的 OCR 工具可處理掃描式 PDF 並新增可搜尋的文字圖層，同時保留每一頁的原始視覺外觀。

操作說明

前往 OCR 工具 — 導覽至 pdfsub.com/tools/ocr
上傳您的掃描式 PDF — 拖放您的檔案或點擊瀏覽。無需分割大型文件 — 多頁 PDF 會自動處理。
OCR 處理您的文件 — 工具會分析每一頁，辨識文字，並建立隱藏的文字圖層。處理時間取決於頁數和複雜度，但大多數文件會在幾秒鐘內完成。
下載您的可搜尋 PDF — 輸出檔案的外觀與您的原始掃描檔相同，但現在支援文字搜尋、文字選取和複製貼上。

為什麼選擇 PDFSub

支援 130 多種語言。 OCR 可處理英文、西班牙文、法文、德文、中文、日文、韓文、阿拉伯文、印地文、俄文、葡萄牙文以及 120 多種其他語言的文件。多語言文件會自動處理 — 您無需預先指定語言。

保留原始外觀。 OCR 流程在不改變視覺內容的情況下新增文字資料。您的掃描頁面外觀完全相同。字體、版面、圖章、簽名和手寫註釋都保持不變。

無需安裝軟體。 所有功能都在您的瀏覽器或安全伺服器上運行。無需下載任何內容，無需檢查系統需求，也無需擔心相容性問題。

注重隱私的設計。 上傳的文件在處理後會被刪除。PDFSub 不會儲存您的檔案，也不會將其用於訓練。

免費試用。 PDFSub 提供 7 天免費試用，讓您在決定購買前，可以在自己的文件上測試 OCR 功能。

方法 2：Adobe Acrobat Pro

Adobe Acrobat Pro 包含一個內建的 OCR 功能，稱為「掃描與 OCR」工具組中的「辨識文字」。

操作說明

在 Adobe Acrobat Pro 中開啟您的掃描式 PDF
前往工具並選擇 掃描與 OCR
點擊 辨識文字 並選擇 在此檔案中 或 在多個檔案中
在設定下，選擇 可搜尋圖像（新增隱藏文字圖層 — 推薦）
點擊 辨識文字 開始處理
儲存檔案

優點與限制

Adobe 在乾淨的英文掃描檔上提供高準確度，支援批次處理，並允許您直接修正 OCR 錯誤。然而，Acrobat Pro 的年約方案每月需 $19.99（每年 $239.88），需要桌面安裝（無瀏覽器 OCR 功能），僅支援約 20 種語言，且處理超過 50 頁的文件可能會很慢。

方法 3：Google 雲端硬碟（免費，但會損失格式）

Google 雲端硬碟包含一個基本的 OCR 功能，可從掃描式 PDF 中擷取文字 — 但有一個重大的取捨。

操作說明

將您的掃描式 PDF 上傳至 Google 雲端硬碟
右鍵點擊檔案並選擇 選擇開啟工具，然後選擇 Google 文件
Google 會處理 PDF 並建立一個包含擷取文字的 Google 文件
文字現在可供搜尋、選取和編輯

優點與限制

Google 雲端硬碟的 OCR 完全免費，在乾淨的打字文件上準確度良好，並能自動偵測語言。然而，有一個關鍵的取捨：它會破壞格式。 Google 並非在您的 PDF 中新增文字圖層 — 而是將文字擷取到 Google 文件中。表格變成純文字，欄位合併，原始版面消失。最終您得到的是一個 Google 文件，而不是一個可搜尋的 PDF。

它也最適合處理少於 10 頁的文件。較長的文件可能會被截斷。

最適合： 當您不需要原始版面時，擷取文字內容。如果您需要保留外觀的可搜尋 PDF，請使用方法 1 或方法 2。

OCR 準確度：依文件類型預期

OCR 並非魔法。準確度會因文件品質、內容類型和掃描條件而有顯著差異。以下是實際測試結果。

打字文件（現代字體）：95-99%

現代印刷文件 — 發票、合約、雷射印表機列印的報告 — 是最佳情況。標準字體在 OCR 訓練資料中代表性良好，乾淨的白紙列印可產生高對比圖像。在每頁 250 個單字（約 1,500 個字元）上達到 99% 的準確度，預計約有 15 個字元錯誤 — 大多數無關緊要，例如將句號誤讀為逗號，或將小寫「l」誤認為「1」。

較舊的打字文件：85-95%

機械打字機帶來挑戰：字母對齊不一致、碳帶磨損導致墨水密度變化，以及字元寬度均勻導致分割混淆。儘管如此，打字文本是獨立形成的且水平對齊的，因此大多數 OCR 引擎都能很好地處理，足以用於搜尋目的。

手寫文字：60-80%

手寫仍然是 OCR 最嚴峻的挑戰。變異性極大 — 不僅在不同人之間，甚至在一個人同一頁上的書寫之間。整齊的印刷體可能達到 80-85%。在有線紙上用鉛筆書寫的草書可能低於 60%。務必手動驗證手寫文件中的關鍵數據。

混合內容（文字 + 表格）：90-97%

結合文字和表格數據的文件增加了版面分析的挑戰。儲存格內的字元辨識通常很準確，但結構錯誤 — 儲存格邊界識別錯誤、欄位分配錯誤、多行儲存格分割成列 — 會損壞數據關係，其影響比個別字元錯誤更大。

準確度摘要表

文件類型	字元準確度	可搜尋？	數據擷取可靠？
現代印刷（雷射）	95-99%	極佳	是
現代印刷（噴墨）	93-98%	極佳	通常
較舊的打字文件	85-95%	良好	需驗證
整齊的手寫（印刷體）	70-80%	部分	否 — 需驗證所有內容
草書手寫	60-70%	差	否
混合文字 + 表格	90-97%	良好	需結構審查
退化/損壞的紙張	70-90%	視情況	需大量驗證

OCR 前掃描的最佳實踐

OCR 準確度的最大因素不是 OCR 軟體 — 而是掃描品質。一個優秀的 OCR 引擎處理不良的掃描檔，其結果會比一個平庸的引擎處理優秀的掃描檔更差。

解析度：最低 300 DPI

**DPI（每英吋點數）**決定了掃描器捕捉細節的程度。

300 DPI：大多數文件的標準。足以可靠辨識標準字體和正常文字大小（10-12pt）。
600 DPI：建議用於小字（註腳、細則）或需要最大準確度時。
150 DPI 或更低：不建議。字元太小，無法可靠辨識。準確度顯著下降。
1200 DPI：OCR 過度。沒有準確度提升，且檔案大小會變得龐大。

顏色模式：灰階通常最佳

灰階：最適合大多數文件。保留足夠的對比度以進行良好的二值化，同時保持可管理的檔案大小。
黑白：可用於乾淨、高對比度的文件，但可能會破壞邊緣區域的細節。
彩色：僅在文件包含您需要保留的顏色編碼資訊時才需要。對於 OCR 目的，顏色不像灰階那樣有益。

對齊與方向

保持頁面平直。 即使是 2-3 度的傾斜也會使 OCR 準確度降低 5-10%。使用掃描器的紙張導板保持頁面對齊。
單面掃描，正面朝下。 避免背面滲透產生陰影文字，使 OCR 引擎混淆。
使用平台掃描器處理裝訂文件。 紙匣式掃描器可能會使書籍或裝訂報告的頁面傾斜。平台掃描可保持頁面平整且對齊正確。

掃描器維護與文件準備

掃描批次前請清潔玻璃 — 污漬會在每頁上產生瑕疵
掃描空白頁檢查條紋 — 垂直線表示滾輪髒污
移除訂書針和迴紋針 以防止卡紙和刮傷
撫平摺痕頁面 — 深摺痕會產生 OCR 引擎可能誤讀的陰影

OCR 後：後續步驟

執行 OCR 只是第一步。以下是如何充分利用您新可搜尋的文件。

驗證結果

務必抽查 OCR 結果，特別是關鍵文件：

搜尋您知道出現在文件中的關鍵字詞。 如果 Ctrl+F 持續找到它們，表示 OCR 正在運作。
複製一段文字並貼到文字編輯器中。 仔細閱讀是否有明顯錯誤 — 亂碼、遺失字元、無意義的替代。
仔細檢查數字。 金額、日期、電話號碼和帳戶號碼是高風險數據。交易金額中將「6」誤讀為「8」是個實際問題。OCR 引擎偶爾會混淆相似的數字（0/O、1/l、5/S、6/8）。

測試您的 PDF — 使用 Ctrl+F 測試以確認它們需要 OCR
試用 PDFSub 的 OCR 工具 — 在 pdfsub.com/tools/ocr 上傳掃描式 PDF 並查看結果
驗證輸出 — 抽查幾頁以確認準確度符合您的需求
處理剩餘文件 — 一旦您對結果有信心，就可以開始處理積壓的文件

PDFSub 提供 7 天免費試用，包括 OCR 工具和平台上所有其他 PDF 工具的存取權。上傳掃描文件，體驗可搜尋文字帶來的差異。可隨時取消。

本指南涵蓋 OCR 是什麼、它的運作方式、OCR 掃描式 PDF 的三種方法，以及如何獲得最佳結果。

How to OCR a scanned PDF - converting image-only pages into searchable, selectable text

如何判斷您的 PDF 是否需要 OCR

在投入 OCR 之前，請檢查您的 PDF 是否真的需要。許多 PDF 是「數位原生」— 由 Word 文件、Excel 試算表或網頁建立 — 且已包含真正的文字圖層。

5 秒測試

在任何檢視器（Adobe Reader、Preview、Chrome、Edge）中開啟您的 PDF
按下 Ctrl+F（Windows/Linux）或 Cmd+F（Mac）
輸入您在頁面上看到的某個字
如果檢視器反白顯示該字：您的 PDF 已包含可搜尋的文字。不需要 OCR。
如果找不到任何內容：您的 PDF 僅為圖像。需要 OCR。

選取測試

嘗試點擊並拖曳以選取頁面上的文字：

如果您可以選取個別單字 並反白顯示：PDF 包含文字圖層。
如果整個頁面被選取為一個區塊（如同選取圖片）：PDF 是沒有文字圖層的掃描檔。
如果您可以選取部分文字但無法選取其他文字：PDF 包含部分 OCR 或混合內容 — 某些頁面是數位的，其他頁面是掃描的。

需要 OCR 的常見 PDF 類型

文件類型	通常需要 OCR？	原因
掃描的紙本文件	是	純圖像，無文字資料
傳真文件儲存為 PDF	是	傳真輸出為點陣圖像
文件照片（手機相機）	是	相機拍攝 = 圖像
從影印機「掃描至電子郵件」產生的 PDF	是	大多數影印機產生圖像式 PDF
從 Word/Excel 匯出的 PDF	否	數位原生，包含文字圖層
從網頁瀏覽器（列印至 PDF）產生的 PDF	否	保留文字
線上下載的政府表格	通常否	大多數為數位原生
以 PDF 附件形式收到的收據	通常否	由 POS 系統產生，包含文字

前往 OCR 工具 — 導覽至 pdfsub.com/tools/ocr
上傳您的掃描式 PDF — 拖放您的檔案或點擊瀏覽。無需分割大型文件 — 多頁 PDF 會自動處理。
OCR 處理您的文件 — 工具會分析每一頁，辨識文字，並建立隱藏的文字圖層。處理時間取決於頁數和複雜度，但大多數文件會在幾秒鐘內完成。
下載您的可搜尋 PDF — 輸出檔案的外觀與您的原始掃描檔相同，但現在支援文字搜尋、文字選取和複製貼上。

為什麼選擇 PDFSub

保留原始外觀。 OCR 流程在不改變視覺內容的情況下新增文字資料。您的掃描頁面外觀完全相同。字體、版面、圖章、簽名和手寫註釋都保持不變。

無需安裝軟體。 所有功能都在您的瀏覽器或安全伺服器上運行。無需下載任何內容，無需檢查系統需求，也無需擔心相容性問題。

注重隱私的設計。 上傳的文件在處理後會被刪除。PDFSub 不會儲存您的檔案，也不會將其用於訓練。

免費試用。 PDFSub 提供 7 天免費試用，讓您在決定購買前，可以在自己的文件上測試 OCR 功能。

方法 2：Adobe Acrobat Pro

Adobe Acrobat Pro 包含一個內建的 OCR 功能，稱為「掃描與 OCR」工具組中的「辨識文字」。

操作說明

在 Adobe Acrobat Pro 中開啟您的掃描式 PDF
前往工具並選擇 掃描與 OCR
點擊 辨識文字 並選擇 在此檔案中 或 在多個檔案中
在設定下，選擇 可搜尋圖像（新增隱藏文字圖層 — 推薦）
點擊 辨識文字 開始處理
儲存檔案

將您的掃描式 PDF 上傳至 Google 雲端硬碟
右鍵點擊檔案並選擇 選擇開啟工具，然後選擇 Google 文件
Google 會處理 PDF 並建立一個包含擷取文字的 Google 文件
文字現在可供搜尋、選取和編輯

文件類型	字元準確度	可搜尋？	數據擷取可靠？
現代印刷（雷射）	95-99%	極佳	是
現代印刷（噴墨）	93-98%	極佳	通常
較舊的打字文件	85-95%	良好	需驗證
整齊的手寫（印刷體）	70-80%	部分	否 — 需驗證所有內容
草書手寫	60-70%	差	否
混合文字 + 表格	90-97%	良好	需結構審查
退化/損壞的紙張	70-90%	視情況	需大量驗證

OCR 前掃描的最佳實踐

OCR 準確度的最大因素不是 OCR 軟體 — 而是掃描品質。一個優秀的 OCR 引擎處理不良的掃描檔，其結果會比一個平庸的引擎處理優秀的掃描檔更差。

解析度：最低 300 DPI

**DPI（每英吋點數）**決定了掃描器捕捉細節的程度。

300 DPI：大多數文件的標準。足以可靠辨識標準字體和正常文字大小（10-12pt）。
600 DPI：建議用於小字（註腳、細則）或需要最大準確度時。
150 DPI 或更低：不建議。字元太小，無法可靠辨識。準確度顯著下降。
1200 DPI：OCR 過度。沒有準確度提升，且檔案大小會變得龐大。

顏色模式：灰階通常最佳

灰階：最適合大多數文件。保留足夠的對比度以進行良好的二值化，同時保持可管理的檔案大小。
黑白：可用於乾淨、高對比度的文件，但可能會破壞邊緣區域的細節。
彩色：僅在文件包含您需要保留的顏色編碼資訊時才需要。對於 OCR 目的，顏色不像灰階那樣有益。

對齊與方向

保持頁面平直。 即使是 2-3 度的傾斜也會使 OCR 準確度降低 5-10%。使用掃描器的紙張導板保持頁面對齊。
單面掃描，正面朝下。 避免背面滲透產生陰影文字，使 OCR 引擎混淆。
使用平台掃描器處理裝訂文件。 紙匣式掃描器可能會使書籍或裝訂報告的頁面傾斜。平台掃描可保持頁面平整且對齊正確。

掃描器維護與文件準備

掃描批次前請清潔玻璃 — 污漬會在每頁上產生瑕疵
掃描空白頁檢查條紋 — 垂直線表示滾輪髒污
移除訂書針和迴紋針 以防止卡紙和刮傷
撫平摺痕頁面 — 深摺痕會產生 OCR 引擎可能誤讀的陰影

OCR 後：後續步驟

執行 OCR 只是第一步。以下是如何充分利用您新可搜尋的文件。

驗證結果

務必抽查 OCR 結果，特別是關鍵文件：

搜尋您知道出現在文件中的關鍵字詞。 如果 Ctrl+F 持續找到它們，表示 OCR 正在運作。
複製一段文字並貼到文字編輯器中。 仔細閱讀是否有明顯錯誤 — 亂碼、遺失字元、無意義的替代。
仔細檢查數字。 金額、日期、電話號碼和帳戶號碼是高風險數據。交易金額中將「6」誤讀為「8」是個實際問題。OCR 引擎偶爾會混淆相似的數字（0/O、1/l、5/S、6/8）。

測試您的 PDF — 使用 Ctrl+F 測試以確認它們需要 OCR
試用 PDFSub 的 OCR 工具 — 在 pdfsub.com/tools/ocr 上傳掃描式 PDF 並查看結果
驗證輸出 — 抽查幾頁以確認準確度符合您的需求
處理剩餘文件 — 一旦您對結果有信心，就可以開始處理積壓的文件

PDFSub 提供 7 天免費試用，包括 OCR 工具和平台上所有其他 PDF 工具的存取權。上傳掃描文件，體驗可搜尋文字帶來的差異。可隨時取消。