PDFSub
料金MergeSplitCompressEditE-Sign銀行取引明細書
ブログに戻る
チュートリアルExcelテーブルPDFツール

PDFからExcelへテーブルを抽出する方法:5つの手法を比較

2026年2月28日
PDFSub Team

PDFはテーブルをx,y座標上の散らばったテキスト断片として保存します。行も列もセルもありません。無料のブラウザベースツールからPythonスクリプティングまで、そのデータを実際にスプレッドシートに取り込む方法を解説します。


PDF日付説明金額01/15Payment Recv$1,250.0001/16Office Supply-$85.0001/18Wire Transfer$3,400.0001/20Utility Bill-$142.5001/22Client Inv$2,100.00抽出ExcelABCD1234567日付説明金額Balance01/15/2026Payment Recv$1,250.00$5,25001/16/2026Office Supply-$85.00$5,16501/18/2026Wire Transfer$3,400.00$8,56501/20/2026Utility Bill-$142.50$8,42301/22/2026Client Inv$2,100.00$10,523PDFからExcelへテーブルを抽出構造化されたテーブルデータを自動検出・抽出

Excelに取り込みたいテーブルが含まれるPDFがあります。それは財務報告書、銀行取引明細書、請求書、あるいは研究論文かもしれません。データは画面上の行と列にきれいに整理されて表示されています。しかし、それを抽出させようとすると、すべてがバラバラになってしまいます。

これは、PDFがデータ形式ではなく、表示形式であるためです。PDFの仕様には、「テーブル」、「行」、「列」という概念がありません。構造化されたテーブルのように見えるものは、実際にはキャンバス上の特定のx,y座標に配置された多数のテキスト断片です。その構造をスプレッドシートに逆エンジニアリングして取り出すことは、さまざまな程度の成功を収める逆問題です。

このガイドでは、PDFからテーブルを抽出する5つの方法、それぞれの最適な使用場面、そして問題が発生した場合の対処法について説明します。

PDFからのテーブル抽出が難しい理由

5 Methods for Extracting PDF Tables to ExcelAccuracy comparison across table types — choose the right tool for your PDFMethodBordered TablesBorderless TablesScanned PDFsCostPDFSub (Free+AI)★90–99%75–95%85–95%FreePower Query85–95%40–60%N/A$0 (built-in)Adobe Acrobat90–95%70–80%80–90%$240/yrTabula/Camelot68–73%55–75%N/AFreeCopy-Paste30–50%10–30%0%FreeHigh (80%+)Medium (50–79%)Low (<50%)Not supported★ Recommended for sensitive financial data

PDF形式にはテーブルが存在しない

PDF仕様(ISO 32000-2:2020)では、個々の文字を正確な座標に配置するオペレーターのシーケンスであるコンテンツストリームを定義しています。たとえば、「日付 | 説明 | 金額」のような単純なテーブル行は、次のように保存される場合があります。

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Office Supplies) Tj 180 0 Td (125.00) Tj ET

<table>、<tr>、<td>タグはありません。行の識別子も、列の境界もありません。セルを囲むように見える視覚的な線は、テキストとは完全に切り離された個別の描画操作です。抽出ツールは、空間的な関係から全体の構造を推測する必要があります。

3種類のテーブル境界線

罫線付き(格子)テーブルは、各セルを囲む線が表示されています。線がセルの境界を明確に定義しているため、これらは最も抽出しやすいテーブルです。正式な財務諸表、政府のフォーム、標準化されたレポートでよく見られます。

罫線なし(ストリーム)テーブルは、線がまったくありません。構造は空白の配置によってのみ定義されます。行間で一貫したx座標を共有するテキスト項目が、暗黙の列を形成します。研究論文、請求書、製品カタログでよく見られます。

半罫線付きテーブルは、部分的な罫線のみを持ちます。通常はセクション間に水平線がありますが、垂直の区切り線はありません。銀行取引明細書、証券レポート、公共料金の請求書で非常に一般的です。これらのテーブルは、部分的な罫線が格子モードパーサーを誤解させ、罫線の欠如がストリームモードの信頼性を低下させるため、抽出が最も困難です。

タグ付きPDFとタグなしPDF

タグ付きPDFには、見出し、段落、テーブルセルを識別する構造メタデータが含まれています。タグなしPDFにはこれらが一切なく、抽出ツールは生の座標のみを取得します。ほとんどのPDFはタグなしであり、銀行取引明細書、請求書、財務報告書は事実上すべてタグなしです。


手法1:PDFSubテーブル抽出(無料+AIフォールバック)

PDFSubのテーブル抽出ツールは、コストを最小限に抑えながら精度を最大化する3段階のアプローチを使用しています。

ステージ1:座標ベース検出(ブラウザ、無料)

まず、ツールはブラウザ内で完全に抽出を試みます。

  • PDFコンテンツストリームを解析して、x,y座標を持つすべてのテキスト項目を抽出します。
  • y座標の近接性に基づいてテキスト項目を行にグループ化します。
  • 行間のx座標の配置パターンを分析して、列の境界を検出します。
  • 最低3行、2列、70%以上の信頼性が必要です。

良好なテーブルが見つかった場合、構造化されたデータをすぐに取得できます。サーバーへのアップロード不要、AIクレジット消費なし、ファイルはデバイスから離れません。

ステージ2:サーバーサイド抽出(pdfplumber、無料)

座標ベース検出でテーブルが見つからなかった場合、ツールはサーバー上でpdfplumber(MITライセンス)を使用します。これは、明示的な線(描画された罫線)と暗黙の線(単語の配置パターン)の両方を検出し、交差を見つけ、長方形を識別し、テキストをセルにマッピングします。

ステージ3:AI抽出(クレジット使用)

スキャンされたPDF、複雑なレイアウト、またはルールベースの方法では解析できないテーブルの場合、ツールはAI搭載のビジョン抽出にフォールバックします。テーブルが複雑であることがわかっている場合は、「AI抽出を強制」を切り替えて、このステージに直接スキップすることもできます。

出力形式: Excel(.xlsx)、CSV、JSON。

最適: ソフトウェアをインストールせずに迅速に抽出したい場合。デジタルPDFは、プライバシーを最大限に保護するために、完全にブラウザ内で処理されます。


手法2:ExcelのPower Query(Windowsのみ)

Excel 2019以降およびMicrosoft 365(Windows版)で利用可能:データ → データの取得 → ファイルから → PDFから。

仕組み

  1. データ → データの取得 → ファイルから → PDFからをクリックします。
  2. PDFファイルを選択します。
  3. Power Queryは、ページごとの検出済みテーブルを一覧表示するナビゲーターパネルを表示します。
  4. 必要なテーブルを選択し、データの変換をクリックしてクリーンアップし、読み込むをクリックします。

強み

  • Excelに組み込まれている — Microsoft 365サブスクライバーに追加料金なし。
  • Power Queryの変換エンジンは、後処理(下の値のコピー、ピボット、列のマージ)をうまく処理します。
  • ソースPDFが更新された場合、データを更新できます。
  • 同じPDFから複数のテーブルに接続できます。

制限事項

  • Windowsのみ — Excel for Mac、Excel Online、モバイルでは利用できません。
  • 罫線なしテーブルに苦労する — 明確な罫線付きテーブルで最も効果を発揮します。
  • OCRなし — スキャンされたPDF/画像PDFから抽出できません。
  • 複数ページのテーブルは問題が多い — 各ページが個別のテーブルとしてインポートされることが多く、手動での結合が必要です。
  • 複数行の行 — セル内の折り返しテキストが複数の行に分割されることが多く、クリーンアップが必要です。

最適: シンプルな罫線付きテーブルを持つ、Microsoft 365を利用しているWindowsユーザー。


手法3:Adobe Acrobat(有料)

ファイル → PDFを書き出し → スプレッドシート → Microsoft Excelブック

価格(2026年)

  • Acrobat Standard:月額12.99ドル(年間プラン)
  • Acrobat Pro:月額19.99ドル(年間プラン)
  • Export PDF(スタンドアロン):より低価格の変換専用プラン

強み

  • スキャンされたドキュメント用のOCRが組み込まれています。
  • 通常、シンプルな罫線付きテーブルの書式設定を保持します。
  • Pro版ではバッチ処理が可能です。

制限事項

  • テーブル抽出のみでは高価 — 年間156〜240ドル。
  • セルの結合や複数ページにまたがる複雑なテーブルでは、依然として不整合な出力が発生します。
  • ファイルは処理のためにAdobeのクラウドにアップロードされる場合があります — 機密性の高い財務データには問題があります。
  • デスクトップへのインストールが必要です。

最適: すでにAcrobat Proを契約しており、OCRを使用して一時的にテーブルをエクスポートする必要があるユーザー。


手法4:コピー&ペースト(手動)

最も直感的なアプローチですが、テーブルでは最も失敗しやすい方法です。

一般的な問題

  • すべてのデータが1列に — テーブル全体が列の区切りなしで貼り付けられます。
  • 数値がテキストになる — 通貨記号、括弧、区切り文字が数値書式を壊します。
  • セル内の複数行コンテンツがファントム行を作成する — セル内で2行に折り返された説明が、2つの別々の行になります。
  • ヘッダーがデータから分離される — ヘッダー行が切り離されます。
  • 列のずれ — 文字間隔がタブに変換されないため、データがずれます。

部分的な回避策

Excelに貼り付け、次にデータ → 区切り位置指定ウィザードをスペースまたは固定長区切り文字で実行します。「連続した区切り記号は1つとして扱う」を有効にします。これは非常にシンプルで、スペースが十分にあるテーブルでは機能しますが、複数単語のセルコンテンツがある場合は失敗します。

最適: 単一の小さくシンプルなテーブルを最後の手段として抽出する場合。


手法5:Pythonライブラリ(開発者向け)

3つのMITライセンスライブラリが、PDFテーブル抽出をプログラムで処理します。

Tabula-py

Tabula(Java)のPythonラッパー。Javaランタイムが必要です。

  • 罫線付きテーブル用の格子モード(線と交差を検出)
  • 罫線なしテーブル用のストリームモード(テキスト配置を使用)
  • スクリプトでのバッチ処理に便利
  • OCRサポートなし

Camelot

格子モードとストリームモードも提供します。

  • 罫線付きテーブルでは、Tabulaよりも一般的に優れたパフォーマンスを発揮します。
  • ストリームモードには、微調整のためのより多くの設定パラメータがあります。
  • 各抽出で精度レポートを提供します。
  • Ghostscriptの依存関係が必要です。OCRサポートなし。

pdfplumber

座標ベースのアプローチ:すべての文字とその正確な位置を抽出し、構造を推測します。

  • 最も幅広い種類のテーブルに対応します。
  • 最も多くの制御を提供しますが、より多くの設定が必要です。
  • これはPDFSubがサーバーサイドで使用するライブラリです。
  • OCRサポートなし。

最適: 繰り返し発生するテーブル抽出ワークフローを自動化し、大量の類似ドキュメントを処理する開発者。


一般的な問題とその解決策

セルの結合

セルが複数の行または列にまたがる場合、ほとんどのツールはコンテンツを左上のセルに配置して他のセルを空にするか、後続のすべての列をずらします。普遍的な解決策はありません。CSV形式には結合の概念がないため、結合情報は常に失われます。

修正: テーブルを抽出し、Excelで手動で結合のアーティファクトを修正します。同じ結合パターンを持つ繰り返しテーブルの場合は、後処理スクリプトを検討してください。

セル内の複数行コンテンツ

セル内で折り返された長い説明は、出力で複数の行になり、後続のすべてのデータをずらします。これは、財務文書で最も一般的な抽出エラーです。

修正: 抽出後、日付と金額が欠落している行を探します。これらは、上の行に属する継続行である可能性が高いです。Excelで、手動で結合するか、ヘルパー数式を使用します。

複数ページにまたがるテーブル

ツールは、テーブルがどこで継続するか、繰り返されるヘッダーを削除するかどうか、ページフッターをフィルタリングする方法を判断する必要があります。多くのツールは各ページを個別に扱います。

修正: ツールがページごとの結果を返す場合、シートを結合し、繰り返されるヘッダー行を削除します。ページNの最後の行がページN+1の最初の行に正しく接続されていることを確認します。

通貨書式設定の問題

括弧付きの負の数((1,234.56))は、数値ではなくテキストとして貼り付けられます。通貨記号や千単位の区切り文字も数値書式を壊します。

修正: 抽出後、金額列を選択し、「検索と置換」を使用して$、(、)文字を削除します。次に、列を数値として書式設定します。括弧付きの負の数については、(を-に置き換え、)を削除してから、数値書式に変換します。

日付の曖昧さ

01/02/2026 — これは1月2日ですか、それとも2月1日ですか?抽出ツールは文字列をそのまま保持しますが、Excelはロケールに基づいて再解釈する場合があります。

修正: ソースPDFで日付形式の手がかりを探します(12を超える日の値を持つ日付を探します)。インポート前にExcelの日付形式をソースと一致するように設定します。


精度比較

手法 シンプルな罫線付き 罫線なし 半罫線付き スキャンされたPDF
PDFSub(座標+AI) 90–99% 75–95% 70–95% 85–95% (AI)
Power Query 85–95% 40–60% 50–70% サポートなし
Adobe Acrobat 90–95% 70–80% 70–85% 80–90%
Tabula ~68% 55–70% 50–65% サポートなし
Camelot ~73% 65–75% 60–70% サポートなし
コピー&ペースト 30–50% 10–30% 10–30% 不可

範囲は、ドキュメントの複雑さによる変動を示します。ベンチマークデータは、Procyons 2025 PDF抽出ベンチマークおよびCamelot比較研究に基づいています。


どの手法を使用すべきか?

シナリオ 最適な手法 理由
迅速な単発抽出 PDFSub インストール不要、ブラウザベース、無料の座標抽出
シンプルな罫線付きテーブル、Windows Power Query Excelに組み込まれており、追加費用なし
スキャンされたPDF PDFSub (AI) または Adobe Acrobat OCR機能が必要
機密性の高い財務データ PDFSub ブラウザベースの処理、ファイルはアップロードされない
繰り返し発生するバッチ処理 Python (pdfplumber) スクリプト可能、自動化可能
すでにAcrobat Proを持っている Adobe Acrobat すでに契約済み、シンプルなテーブルはうまく機能する
単一の小さなテーブル、ツールなし コピー&ペースト 最後の手段、すべてを確認すること

最良の結果を得るためのヒント

ネイティブPDFを使用する。 紙をスキャンするのではなく、ソースから直接ドキュメントをダウンロードします。ネイティブPDFは完璧なテキストを持っているため、抽出の精度が劇的に向上します。

まずテーブルの種類を特定する。 罫線付きテーブルはほとんどのツールで機能します。罫線なしテーブルにはストリームモードまたはAI抽出が必要です。種類を知ることで、最初から適切な手法を選択できます。

無料のルールベースの手法から始める。 まず座標ベースの抽出を試します。ルールベースの手法で悪い結果が出た場合にのみAIに移行します。これにより、時間とクレジットを節約できます。

常に結果を確認する。 行数、列の配置、数値、合計を確認します。抽出結果を盲目的に信頼しないでください。

数値の書式設定に注意する。 抽出後、Excelで数値が実際に数値(右揃え)であり、テキスト文字列(左揃え)ではないことを確認します。通貨記号と括弧付きの負の数はよくある原因です。

機密データの場合は、ブラウザベースのツールを優先する。 財務報告書、銀行取引明細書、税務書類には機密情報が含まれています。ブラウザでPDFを処理するツールはファイルをアップロードしないため、データ漏洩のリスクを排除できます。


無料で試す

PDFからテーブルを抽出する準備はできましたか?今すぐファイルをアップロード — PDFSubはまず無料の座標ベース抽出を試行し、複雑なテーブルにはAIフォールバックを提供します。デジタルPDFは完全にブラウザ内で処理されます。7日間の無料トライアルを開始してください。

ブログに戻る

ご不明な点がありますか? お問い合わせ

PDFSub

PDFやドキュメントに必要なすべてのツールを1か所に。高速、安全、そしてプライベート。

GDPR準拠CCPA準拠SOC 2 Ready
Powered by PDFSub Engine

PDFツール

  • PDF結合
  • PDF分割
  • ページ並べ替え
  • PDF回転
  • ページ削除
  • ページ抽出
  • 透かし追加
  • PDF編集
  • PDFスタンプ
  • PDFフォーム入力
  • ページ切り抜き
  • ページサイズ変更
  • ページ番号追加
  • ヘッダーとフッター
  • PDF圧縮
  • 検索可能にする
  • Clean Scanned PDF
  • Photo to Document
  • Auto-Crop PDF
  • PDF修復
  • メタデータ編集
  • メタデータ削除
  • PDFをWordに変換
  • WordをPDFに変換
  • ExcelをPDFに変換
  • PDFをPowerPointに変換
  • PDFを画像に変換
  • 画像をPDFに変換
  • HTMLをPDFに変換
  • HEICを画像に変換
  • WEBPをJPGに変換
  • WEBPをPNGに変換
  • PowerPointをPDFに変換
  • PDFをHTMLに変換
  • EPUBをPDFに変換
  • TIFFをPDFに変換
  • PNGをPDFに変換
  • PDFをPNGに変換
  • テキストをPDFに変換
  • SVGをPDFに変換
  • WEBPをPDFに変換
  • PDFをEPUBに変換
  • RTFをPDFに変換
  • ODTをPDFに変換
  • ODSをPDFに変換
  • PDFをODTに変換
  • PDFをODSに変換
  • PDFをSVGに変換
  • PDFをRTFに変換
  • PDFをテキストに変換
  • ODPをPDFに変換
  • PDFをODPに変換
  • ODGをPDFに変換
  • PDFビューア
  • PDF/A変換
  • PDF作成
  • 一括変換
  • 複数ページを1枚に
  • パスワード保護
  • PDF保護解除
  • PDF墨消し
  • PDF電子署名
  • PDF比較
  • 表抽出
  • PDF to Excel
  • 銀行明細変換ツール
  • 請求書データ抽出
  • 領収書スキャナー
  • 財務レポート分析
  • OCR - テキスト抽出
  • 手書き文字変換
  • PDF要約
  • PDF翻訳
  • PDFとチャット
  • データ抽出
  • デザインスタジオ

製品

  • Privacy & Security
  • すべてのツール
  • 機能
  • 銀行取引明細書
  • 料金
  • よくある質問
  • ブログ

サポート

  • ヘルプセンター
  • お問い合わせ
  • よくある質問

法務

  • プライバシーポリシー
  • 利用規約
  • クッキーポリシー

© 2026 PDFSub. All rights reserved.

世界中の人々のために、アメリカで を込めて制作されました