如何將 PDF 表格擷取至 Excel:5 種方法比較
PDF 會將表格儲存為 x,y 座標上的分散文字片段 — 沒有列、沒有欄、沒有儲存格。以下說明如何將該資料實際匯入試算表,從免費的瀏覽器工具到 Python 指令碼。

您有一個包含您需要在 Excel 中使用的表格的 PDF。它可能是一份財務報告、銀行對帳單、發票或研究論文。資料就在那裡 — 在畫面上整齊地組織在列和欄中。但當您嘗試將其匯出時,一切都分崩離析。
這是因為 PDF 不是一種資料格式。它是一種顯示格式。在 PDF 規格中,沒有「表格」、「列」或「欄」的概念。看起來像結構化表格的內容,實際上是放置在畫布上特定 x,y 座標的數十個文字片段。將該結構擷取回試算表是一個逆向工程問題 — 不同的工具處理它的成功程度各不相同。
本指南涵蓋了 5 種從 PDF 擷取表格的方法、每種方法最適用於何時,以及出現問題時該怎麼辦。
為何從 PDF 擷取表格很困難

PDF 格式沒有表格
PDF 規格 (ISO 32000-2:2020) 定義了內容串流 — 一系列在精確座標上放置個別字元的運算子。像「日期 | 說明 | 金額」這樣的簡單表格列可能儲存為:
BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (辦公用品) Tj 180 0 Td (125.00) Tj ET沒有 <table>、<tr> 或 <td> 標籤。沒有列識別碼。沒有欄界線。您看到的儲存格周圍的視覺線條是獨立的繪圖操作,與文字完全斷開。擷取工具必須從空間關係中推斷出整個結構。
三種表格框線類型
有框線(格線)表格在每個儲存格周圍都有可見的線條。這些最容易擷取,因為線條明確定義了儲存格邊界。常見於正式的財務報表、政府表格和標準化報告。
無框線(串流)表格完全沒有線條。結構完全由空格對齊定義 — 跨列共享一致 x 座標的文字項目形成隱含的欄。常見於研究論文、發票和產品目錄。
半框線表格只有部分框線 — 通常是區段之間的水平線,但沒有垂直分隔線。在銀行對帳單、經紀報告和水電費帳單中極為常見。這些最難擷取,因為部分框線會誤導格線模式解析器,而缺少框線會降低串流模式的信心。
已標記與未標記的 PDF
已標記的 PDF 包含識別標題、段落和表格儲存格的結構中繼資料。未標記的 PDF 沒有這些 — 擷取工具只會取得原始座標。絕大多數 PDF 都是未標記的,包括幾乎所有的銀行對帳單、發票和財務報告。
方法 1:PDFSub 擷取表格 (免費 + AI 備援)
PDFSub 的 擷取表格工具 使用三層方法,可在盡量減少成本的同時最大化準確性:
第一層:基於座標的偵測 (瀏覽器,免費)
該工具首先在您的瀏覽器中嘗試完全擷取:
- 解析 PDF 內容串流,以擷取每個文字項目及其 x,y 座標
- 根據 y 座標的接近程度將文字項目分組為行
- 分析行之間的 x 座標對齊模式以偵測欄界線
- 最少需要 3 列、2 欄和 70% 以上的信心度
如果找到好的表格,您將立即獲得結構化資料 — 無需伺服器上傳、無需消耗 AI 點數,且您的檔案絕不會離開您的裝置。
第二層:伺服器端擷取 (pdfplumber,免費)
如果基於座標的偵測找不到表格,該工具將在伺服器上使用 pdfplumber (MIT 授權)。這會偵測顯式線條(繪製的框線)和隱式線條(單字對齊模式),尋找交點,識別矩形,並將文字對應到儲存格。
第三層:AI 擷取 (消耗點數)
對於掃描的 PDF、複雜的版面配置或規則型方法無法解析的表格,該工具會備援至 AI 驅動的視覺擷取。您也可以切換「強制 AI 擷取」選項,直接跳至此層,當您知道表格很複雜時。
輸出格式: Excel (.xlsx)、CSV、JSON。
最適合: 無需安裝軟體即可快速擷取。數位 PDF 完全在您的瀏覽器中處理,以實現最大的隱私性。
方法 2:Excel 中的 Power Query (僅限 Windows)
在 Excel 2019+ 和 Microsoft 365 的 Windows 版本中可用:資料 → 取得資料 → 從檔案 → 從 PDF。
如何運作
- 按一下 資料 → 取得資料 → 從檔案 → 從 PDF
- 選取您的 PDF 檔案
- Power Query 會顯示一個導覽器面板,列出每頁偵測到的表格
- 選取您想要的表格,按一下 轉換資料 進行清理,然後按一下 載入
優點
- 內建於 Excel — Microsoft 365 訂閱者無需額外付費
- Power Query 的轉換引擎能很好地處理後續處理(向下填滿、樞紐分析、合併欄)
- 如果來源 PDF 更新,可以重新整理資料
- 支援從同一 PDF 連接多個表格
限制
- 僅限 Windows — Excel for Mac、Excel Online 或行動裝置無法使用
- 難以處理無框線表格 — 對於有清晰框線的表格效果最好
- 無 OCR — 無法從掃描/影像 PDF 擷取
- 多頁表格有問題 — 每頁通常會匯入為獨立表格,需要手動合併
- 多行內容 — 儲存格內的換行文字經常會分割成多行,需要清理
最適合: 擁有 Microsoft 365 的 Windows 使用者,處理簡單的有框線表格。
方法 3:Adobe Acrobat (付費)
檔案 → 匯出 PDF → 試算表 → Microsoft Excel 工作簿
定價 (2026)
- Acrobat Standard:每月 12.99 美元 (年繳方案)
- Acrobat Pro:每月 19.99 美元 (年繳方案)
- 匯出 PDF (獨立版):較低階的僅轉換方案
優點
- 內建 OCR 功能,適用於掃描文件
- 對簡單的有框線表格通常能保留格式
- Pro 版本提供批次處理功能
限制
- 僅用於表格擷取而言價格昂貴 — 每年 156–240 美元
- 具有合併儲存格和跨越多頁的複雜表格仍會產生錯位的輸出
- 檔案可能會上傳到 Adobe 的雲端進行處理 — 對敏感的財務資料有疑慮
- 需要桌面安裝
最適合: 已經付費購買 Acrobat Pro 並需要偶爾進行 OCR 表格匯出的使用者。
方法 4:複製貼上 (手動)
最直觀的方法 — 也是最常在表格上失敗的方法。
常見問題
- 所有資料都在一個欄中 — 整個表格貼上後沒有欄分隔
- 數字變成文字 — 貨幣符號、括號和分隔符會破壞數字格式
- 儲存格內容多行會產生虛擬列 — 在儲存格中換行的說明會變成兩行獨立的列
- 標題與資料分離 — 標題列斷開
- 欄位對齊錯誤 — 資料移動,因為字元間距無法轉換為定位字元
部分解決方法
貼上到 Excel,然後使用 資料 → 分欄,以空格或固定寬度分隔符。啟用「將連續分隔符視為一個」。這適用於非常簡單、間距良好的表格,但對於包含多詞儲存格內容的表格則無效。
最適合: 作為最後手段,擷取單一小型、簡單的表格。
方法 5:Python 程式庫 (適用於開發人員)
三個 MIT 授權的程式庫可透過程式設計處理 PDF 表格擷取:
Tabula-py
Tabula (Java) 的 Python 包裝器。需要 Java 執行環境。
- 格線模式,適用於有框線表格 (尋找線條和交點)
- 串流模式,適用於無框線表格 (使用文字對齊)
- 適用於指令碼中的批次處理
- 無 OCR 支援
Camelot
也提供格線和串流模式。
- 在有框線表格方面,效能通常優於 Tabula
- 串流模式有更多參數可供微調
- 每次擷取都提供準確度報告
- 需要 Ghostscript 依賴。無 OCR 支援
pdfplumber
基於座標的方法:擷取每個字元及其精確位置,然後推斷結構。
- 可處理最廣泛的表格類型
- 提供最大的控制權,但需要更多設定
- 這是 PDFSub 在伺服器端使用的程式庫
- 無 OCR 支援
最適合: 開發人員自動化重複的表格擷取工作流程,處理大量相似文件。
常見問題與解決方法
合併儲存格
當儲存格跨越多列或多欄時,大多數工具會將內容放在左上角的儲存格並將其他儲存格留空,或導致後續所有欄位錯位。沒有通用解決方案 — CSV 格式沒有合併的概念,因此合併資訊總是會遺失。
修復: 擷取表格後,在 Excel 中手動修復合併產生的錯誤。對於具有相同合併模式的重複表格,請考慮使用後續處理指令碼。
儲存格內的換行內容
在儲存格內換行的長說明會變成輸出中的多行,導致所有後續資料錯位。這是金融文件中最常見的擷取錯誤。
修復: 擷取後,尋找缺少日期和金額的列 — 這些很可能是屬於上一列的延續行。在 Excel 中,手動合併它們或使用輔助公式。
表格跨越多頁
工具必須確定表格的延續位置、是否要移除重複的標題,以及如何篩選頁腳。許多工具會獨立處理每一頁。
修復: 如果您的工具提供每頁的結果,請合併工作表並移除重複的標題列。檢查第 N 頁的最後一列是否與第 N+1 頁的第一列正確連接。
貨幣格式問題
括號中的負數 ((1,234.56)) 會以文字而非數字貼上。貨幣符號和千位分隔符也會破壞數字格式。
修復: 擷取後,選取金額欄,然後使用尋找與取代移除 $、(、) 字元。然後將欄格式化為數字。對於括號中的負數,將 ( 替換為 - 並移除 ),然後轉換為數字格式。
日期歧義
01/02/2026 — 這是一月二日還是二月一日?擷取工具會保留字串原樣,但 Excel 可能會根據您的地區設定重新解釋它。
修復: 檢查來源 PDF 中的日期格式線索 (尋找日期值大於 12 的日期)。匯入前,將 Excel 的日期格式設定為符合來源。
準確度比較
| 方法 | 簡單有框線 | 無框線 | 半框線 | 掃描 PDF |
|---|---|---|---|---|
| PDFSub (座標 + AI) | 90–99% | 75–95% | 70–95% | 85–95% (AI) |
| Power Query | 85–95% | 40–60% | 50–70% | 不支援 |
| Adobe Acrobat | 90–95% | 70–80% | 70–85% | 80–90% |
| Tabula | ~68% | 55–70% | 50–65% | 不支援 |
| Camelot | ~73% | 65–75% | 60–70% | 不支援 |
| 複製貼上 | 30–50% | 10–30% | 10–30% | 不可能 |
範圍反映了文件複雜度的變化。基準數據來自 Procycons 2025 PDF 擷取基準和 Camelot 比較研究。
您應該使用哪種方法?
| 情境 | 最佳方法 | 原因 |
|---|---|---|
| 快速一次性擷取 | PDFSub | 無需安裝,瀏覽器基礎,免費座標擷取 |
| 簡單有框線表格,Windows | Power Query | 內建於 Excel,無額外費用 |
| 掃描 PDF | PDFSub (AI) 或 Adobe Acrobat | 需要 OCR 功能 |
| 敏感財務資料 | PDFSub | 瀏覽器基礎處理,檔案永不上傳 |
| 重複批次處理 | Python (pdfplumber) | 可指令碼化,可自動化 |
| 已有 Acrobat Pro | Adobe Acrobat | 已付費,簡單表格效果良好 |
| 單一小型表格,無工具 | 複製貼上 | 最後手段,仔細驗證所有內容 |
獲得最佳結果的提示
使用原生 PDF。 從來源下載文件,而不是掃描紙本。原生 PDF 具有完美的文字,可大幅提高擷取準確性。
先識別表格類型。 有框線表格幾乎適用於任何工具。無框線表格需要串流模式或 AI 擷取。了解類型有助於您預先選擇正確的方法。
從免費的規則型方法開始。 先嘗試基於座標的擷取。僅在規則型方法產生不良結果時才升級到 AI — 這可以節省時間和點數。
務必驗證輸出。 檢查列數、欄對齊、數值和總計。切勿盲目信任擷取輸出。
注意數字格式。 擷取後,請驗證數字在 Excel 中是否確實是數字 (右對齊),而不是文字字串 (左對齊)。貨幣符號和括號中的負數是常見的罪魁禍首。
對於敏感資料,偏好瀏覽器基礎工具。 財務報告、銀行對帳單和稅務文件包含敏感資訊。在瀏覽器中處理 PDF 的工具永遠不會上傳您的檔案,消除了資料暴露的風險。
免費試用
準備好從您的 PDF 擷取表格了嗎?立即上傳檔案 — PDFSub 會先嘗試免費的座標基礎擷取,並為複雜表格提供 AI 備援。數位 PDF 完全在您的瀏覽器中處理。開始 7 天免費試用。