PDFSub
價格APIMergeCompressEditE-Sign銀行對帳單部落格
返回部落格
教學Excel表格PDF 工具

如何將 PDF 表格擷取至 Excel:5 種方法比較

2026年2月28日
T
Todd Lahman
Founder, PDFSub

PDF 會將表格儲存為 x,y 座標上的分散文字片段 — 沒有列、沒有欄、沒有儲存格。以下說明如何將該資料實際匯入試算表,從免費的瀏覽器工具到 Python 指令碼。


How to Extract Tables from PDF to Excel: 5 Methods Compared

您有一個包含您需要在 Excel 中使用的表格的 PDF。它可能是一份財務報告、銀行對帳單、發票或研究論文。資料就在那裡 — 在畫面上整齊地組織在列和欄中。但當您嘗試將其匯出時,一切都分崩離析。

這是因為 PDF 不是一種資料格式。它是一種顯示格式。在 PDF 規格中,沒有「表格」、「列」或「欄」的概念。看起來像結構化表格的內容,實際上是放置在畫布上特定 x,y 座標的數十個文字片段。將該結構擷取回試算表是一個逆向工程問題 — 不同的工具處理它的成功程度各不相同。

本指南涵蓋了 5 種從 PDF 擷取表格的方法、每種方法最適用於何時,以及出現問題時該怎麼辦。

為何從 PDF 擷取表格很困難

5 Methods for Extracting PDF Tables to Excel - Accuracy Comparison

PDF 格式沒有表格

PDF 規格 (ISO 32000-2:2020) 定義了內容串流 — 一系列在精確座標上放置個別字元的運算子。像「日期 | 說明 | 金額」這樣的簡單表格列可能儲存為:

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (辦公用品) Tj 180 0 Td (125.00) Tj ET

沒有 <table>、<tr> 或 <td> 標籤。沒有列識別碼。沒有欄界線。您看到的儲存格周圍的視覺線條是獨立的繪圖操作,與文字完全斷開。擷取工具必須從空間關係中推斷出整個結構。

三種表格框線類型

有框線(格線)表格在每個儲存格周圍都有可見的線條。這些最容易擷取,因為線條明確定義了儲存格邊界。常見於正式的財務報表、政府表格和標準化報告。

無框線(串流)表格完全沒有線條。結構完全由空格對齊定義 — 跨列共享一致 x 座標的文字項目形成隱含的欄。常見於研究論文、發票和產品目錄。

半框線表格只有部分框線 — 通常是區段之間的水平線,但沒有垂直分隔線。在銀行對帳單、經紀報告和水電費帳單中極為常見。這些最難擷取,因為部分框線會誤導格線模式解析器,而缺少框線會降低串流模式的信心。

已標記與未標記的 PDF

已標記的 PDF 包含識別標題、段落和表格儲存格的結構中繼資料。未標記的 PDF 沒有這些 — 擷取工具只會取得原始座標。絕大多數 PDF 都是未標記的,包括幾乎所有的銀行對帳單、發票和財務報告。


方法 1:PDFSub 擷取表格 (免費 + AI 備援)

PDFSub 的 擷取表格工具 使用三層方法,可在盡量減少成本的同時最大化準確性:

第一層:基於座標的偵測 (瀏覽器,免費)

該工具首先在您的瀏覽器中嘗試完全擷取:

  • 解析 PDF 內容串流,以擷取每個文字項目及其 x,y 座標
  • 根據 y 座標的接近程度將文字項目分組為行
  • 分析行之間的 x 座標對齊模式以偵測欄界線
  • 最少需要 3 列、2 欄和 70% 以上的信心度

如果找到好的表格,您將立即獲得結構化資料 — 無需伺服器上傳、無需消耗 AI 點數,且您的檔案絕不會離開您的裝置。

第二層:伺服器端擷取 (pdfplumber,免費)

如果基於座標的偵測找不到表格,該工具將在伺服器上使用 pdfplumber (MIT 授權)。這會偵測顯式線條(繪製的框線)和隱式線條(單字對齊模式),尋找交點,識別矩形,並將文字對應到儲存格。

第三層:AI 擷取 (消耗點數)

對於掃描的 PDF、複雜的版面配置或規則型方法無法解析的表格,該工具會備援至 AI 驅動的視覺擷取。您也可以切換「強制 AI 擷取」選項,直接跳至此層,當您知道表格很複雜時。

輸出格式: Excel (.xlsx)、CSV、JSON。

最適合: 無需安裝軟體即可快速擷取。數位 PDF 完全在您的瀏覽器中處理,以實現最大的隱私性。


方法 2:Excel 中的 Power Query (僅限 Windows)

在 Excel 2019+ 和 Microsoft 365 的 Windows 版本中可用:資料 → 取得資料 → 從檔案 → 從 PDF。

如何運作

  1. 按一下 資料 → 取得資料 → 從檔案 → 從 PDF
  2. 選取您的 PDF 檔案
  3. Power Query 會顯示一個導覽器面板,列出每頁偵測到的表格
  4. 選取您想要的表格,按一下 轉換資料 進行清理,然後按一下 載入

優點

  • 內建於 Excel — Microsoft 365 訂閱者無需額外付費
  • Power Query 的轉換引擎能很好地處理後續處理(向下填滿、樞紐分析、合併欄)
  • 如果來源 PDF 更新,可以重新整理資料
  • 支援從同一 PDF 連接多個表格

限制

  • 僅限 Windows — Excel for Mac、Excel Online 或行動裝置無法使用
  • 難以處理無框線表格 — 對於有清晰框線的表格效果最好
  • 無 OCR — 無法從掃描/影像 PDF 擷取
  • 多頁表格有問題 — 每頁通常會匯入為獨立表格,需要手動合併
  • 多行內容 — 儲存格內的換行文字經常會分割成多行,需要清理

最適合: 擁有 Microsoft 365 的 Windows 使用者,處理簡單的有框線表格。


方法 3:Adobe Acrobat (付費)

檔案 → 匯出 PDF → 試算表 → Microsoft Excel 工作簿

定價 (2026)

  • Acrobat Standard:每月 12.99 美元 (年繳方案)
  • Acrobat Pro:每月 19.99 美元 (年繳方案)
  • 匯出 PDF (獨立版):較低階的僅轉換方案

優點

  • 內建 OCR 功能,適用於掃描文件
  • 對簡單的有框線表格通常能保留格式
  • Pro 版本提供批次處理功能

限制

  • 僅用於表格擷取而言價格昂貴 — 每年 156–240 美元
  • 具有合併儲存格和跨越多頁的複雜表格仍會產生錯位的輸出
  • 檔案可能會上傳到 Adobe 的雲端進行處理 — 對敏感的財務資料有疑慮
  • 需要桌面安裝

最適合: 已經付費購買 Acrobat Pro 並需要偶爾進行 OCR 表格匯出的使用者。


方法 4:複製貼上 (手動)

最直觀的方法 — 也是最常在表格上失敗的方法。

常見問題

  • 所有資料都在一個欄中 — 整個表格貼上後沒有欄分隔
  • 數字變成文字 — 貨幣符號、括號和分隔符會破壞數字格式
  • 儲存格內容多行會產生虛擬列 — 在儲存格中換行的說明會變成兩行獨立的列
  • 標題與資料分離 — 標題列斷開
  • 欄位對齊錯誤 — 資料移動,因為字元間距無法轉換為定位字元

部分解決方法

貼上到 Excel,然後使用 資料 → 分欄,以空格或固定寬度分隔符。啟用「將連續分隔符視為一個」。這適用於非常簡單、間距良好的表格,但對於包含多詞儲存格內容的表格則無效。

最適合: 作為最後手段,擷取單一小型、簡單的表格。


方法 5:Python 程式庫 (適用於開發人員)

三個 MIT 授權的程式庫可透過程式設計處理 PDF 表格擷取:

Tabula-py

Tabula (Java) 的 Python 包裝器。需要 Java 執行環境。

  • 格線模式,適用於有框線表格 (尋找線條和交點)
  • 串流模式,適用於無框線表格 (使用文字對齊)
  • 適用於指令碼中的批次處理
  • 無 OCR 支援

Camelot

也提供格線和串流模式。

  • 在有框線表格方面,效能通常優於 Tabula
  • 串流模式有更多參數可供微調
  • 每次擷取都提供準確度報告
  • 需要 Ghostscript 依賴。無 OCR 支援

pdfplumber

基於座標的方法:擷取每個字元及其精確位置,然後推斷結構。

  • 可處理最廣泛的表格類型
  • 提供最大的控制權,但需要更多設定
  • 這是 PDFSub 在伺服器端使用的程式庫
  • 無 OCR 支援

最適合: 開發人員自動化重複的表格擷取工作流程,處理大量相似文件。


常見問題與解決方法

合併儲存格

當儲存格跨越多列或多欄時,大多數工具會將內容放在左上角的儲存格並將其他儲存格留空,或導致後續所有欄位錯位。沒有通用解決方案 — CSV 格式沒有合併的概念,因此合併資訊總是會遺失。

修復: 擷取表格後,在 Excel 中手動修復合併產生的錯誤。對於具有相同合併模式的重複表格,請考慮使用後續處理指令碼。

儲存格內的換行內容

在儲存格內換行的長說明會變成輸出中的多行,導致所有後續資料錯位。這是金融文件中最常見的擷取錯誤。

修復: 擷取後,尋找缺少日期和金額的列 — 這些很可能是屬於上一列的延續行。在 Excel 中,手動合併它們或使用輔助公式。

表格跨越多頁

工具必須確定表格的延續位置、是否要移除重複的標題,以及如何篩選頁腳。許多工具會獨立處理每一頁。

修復: 如果您的工具提供每頁的結果,請合併工作表並移除重複的標題列。檢查第 N 頁的最後一列是否與第 N+1 頁的第一列正確連接。

貨幣格式問題

括號中的負數 ((1,234.56)) 會以文字而非數字貼上。貨幣符號和千位分隔符也會破壞數字格式。

修復: 擷取後,選取金額欄,然後使用尋找與取代移除 $、(、) 字元。然後將欄格式化為數字。對於括號中的負數,將 ( 替換為 - 並移除 ),然後轉換為數字格式。

日期歧義

01/02/2026 — 這是一月二日還是二月一日?擷取工具會保留字串原樣,但 Excel 可能會根據您的地區設定重新解釋它。

修復: 檢查來源 PDF 中的日期格式線索 (尋找日期值大於 12 的日期)。匯入前,將 Excel 的日期格式設定為符合來源。


準確度比較

方法 簡單有框線 無框線 半框線 掃描 PDF
PDFSub (座標 + AI) 90–99% 75–95% 70–95% 85–95% (AI)
Power Query 85–95% 40–60% 50–70% 不支援
Adobe Acrobat 90–95% 70–80% 70–85% 80–90%
Tabula ~68% 55–70% 50–65% 不支援
Camelot ~73% 65–75% 60–70% 不支援
複製貼上 30–50% 10–30% 10–30% 不可能

範圍反映了文件複雜度的變化。基準數據來自 Procycons 2025 PDF 擷取基準和 Camelot 比較研究。


您應該使用哪種方法?

情境 最佳方法 原因
快速一次性擷取 PDFSub 無需安裝,瀏覽器基礎,免費座標擷取
簡單有框線表格,Windows Power Query 內建於 Excel,無額外費用
掃描 PDF PDFSub (AI) 或 Adobe Acrobat 需要 OCR 功能
敏感財務資料 PDFSub 瀏覽器基礎處理,檔案永不上傳
重複批次處理 Python (pdfplumber) 可指令碼化,可自動化
已有 Acrobat Pro Adobe Acrobat 已付費,簡單表格效果良好
單一小型表格,無工具 複製貼上 最後手段,仔細驗證所有內容

獲得最佳結果的提示

使用原生 PDF。 從來源下載文件,而不是掃描紙本。原生 PDF 具有完美的文字,可大幅提高擷取準確性。

先識別表格類型。 有框線表格幾乎適用於任何工具。無框線表格需要串流模式或 AI 擷取。了解類型有助於您預先選擇正確的方法。

從免費的規則型方法開始。 先嘗試基於座標的擷取。僅在規則型方法產生不良結果時才升級到 AI — 這可以節省時間和點數。

務必驗證輸出。 檢查列數、欄對齊、數值和總計。切勿盲目信任擷取輸出。

注意數字格式。 擷取後,請驗證數字在 Excel 中是否確實是數字 (右對齊),而不是文字字串 (左對齊)。貨幣符號和括號中的負數是常見的罪魁禍首。

對於敏感資料,偏好瀏覽器基礎工具。 財務報告、銀行對帳單和稅務文件包含敏感資訊。在瀏覽器中處理 PDF 的工具永遠不會上傳您的檔案,消除了資料暴露的風險。


免費試用

準備好從您的 PDF 擷取表格了嗎?立即上傳檔案 — PDFSub 會先嘗試免費的座標基礎擷取,並為複雜表格提供 AI 備援。數位 PDF 完全在您的瀏覽器中處理。開始 7 天免費試用。

返回部落格

有問題嗎? 聯絡我們

PDFSub

您所需的所有 PDF 和文件工具,一應俱全。快速、安全、隱私。

符合 GDPR符合 CCPA準備好 SOC 2
由 PDFSub Engine 提供支援

產品

  • 所有工具
  • 功能
  • 銀行對帳單
  • API
  • 價格
  • 常見問題
  • 部落格

支援

  • 關於
  • 說明中心
  • 聯絡
  • 常見問題

法律

  • 隱私權政策
  • 服務條款
  • Cookie 政策

© 2026 PDFSub. 保留所有權利。

在美國製造,以 為全球使用者服務