年次報告書から主要指標を自動抽出
年次報告書には、100〜300ページにわたるPDFの中に重要な財務データが埋もれています。ここでは、手作業で数値を表からスプレッドシートにコピーすることなく、収益、純利益、EPS、キャッシュフロー、その他の主要指標を抽出する方法を説明します。
247ページの年次報告書をダウンロードしたばかりです。その中には、実際に必要な12個の数値(収益、純利益、1株当たり利益、総資産、総負債、営業キャッシュフロー、EBITDA、およびいくつかの利益率)がどこかに記載されています。残りは定型文、法的開示、そして笑顔の従業員の stock photography です。
これらの数値を見つけることが難しいわけではありません。財務諸表セクションにあり、通常は80ページあたりから始まります。難しいのは、それをPDFから、実際に作業できる形式でモデルに取り込むことです。そして、カバレッジ対象の次の20社についても同様に行い、さらに各社の過去5年分について時系列データを作成するために繰り返すことです。
これが年次報告書抽出問題であり、エクイティリサーチチーム、クレジットアナリスト、ポートフォリオマネージャーは毎年数千時間を費やしています。世界のデータ抽出ソフトウェア市場は、PDFの表からExcelに数値をコピーすることにうんざりしている金融専門家によって、年間15.9%で成長し、2029年までに36億4000万ドルに達すると予測されています。
このガイドでは、年次報告書抽出がなぜ特に難しいのか、どの指標をターゲットにするのか、そしてプロセスを自動化して分析に時間を費やせるようにする方法を説明します。

年次報告書抽出の課題
年次報告書は他のPDFドキュメントとは異なります。銀行の明細書は予測可能な構造を持っています:日付、説明、金額、残高、各取引ごとに繰り返されます。請求書にはヘッダー、明細項目、合計があります。これらのドキュメントは、抽出ツールが素早く学習できるパターンに従っています。
年次報告書は異なります。それらは長く、複雑で、構造的に一貫性のないドキュメントであり、以下を組み合わせています。
- CEOレター、経営成績分析(MD&A)、リスク要因セクションの流れるような物語テキスト
- 損益計算書、貸借対照表、キャッシュフロー計算書の密な財務表
- 表の数値を修飾、調整、または再表示する注記と注釈
- トレンドを視覚化するが、機械可読データを含まないグラフ
- 地理、事業部門、または製品ラインごとの内訳を示すセグメント報告表
- 並べて2〜3年分のデータを示す複数年比較
典型的な10-K(米国年次企業報告書)は100〜300ページに及びます。財務諸表自体は30〜40ページを占めるかもしれませんが、真の詳細が記載されている財務諸表注記は、さらに50〜60ページに及ぶことがあります。残りは法的言語、リスク要因、役員報酬表、ガバナンス開示です。
標準的なコピー&ペーストが失敗する理由
PDFの年次報告書で表を選択してExcelに貼り付けようとしたことがあるなら、その結果を知っているでしょう:列が結合され、数値が間違った行に折り返され、注記マーカーがデータに埋め込まれます。
PDFには表は含まれていません。それらは、正確なx,y座標に配置された個々の文字の集まりです。きれいに見える表は、実際には行区切り、列境界、セル参照を持たない数百の個別のテキスト配置コマンドです。コピー&ペーストはこれらの空間的関係を完全に無視します。
年次報告書では、複数行のヘッダー(例:「普通株主に帰属する純利益」)が単一行である必要があるため、この問題が悪化します。括弧内の負数(例:$(1,234))は、3つの別々の配置要素であり、別々のセルに分割されます。注記の肩付き数字は数値を破損させます。比較列は頻繁に結合されます。
手作業による抽出の悪夢
従来のやり方は力任せです。アナリストは年次報告書を開き、損益計算書に移動し、各数値をスプレッドシートに手入力します。次に貸借対照表、キャッシュフロー計算書、セグメントデータ、注記も同様です。
1社あたりでは、これに30〜60分かかります。しかし、財務分析で1社だけを扱うことは稀です。エクイティリサーチアナリストは通常10〜25社を担当します。クレジットアナリストは50以上の借り手からのデータが必要になる場合があります。1社あたり45分として20社では、報告期間ごとに15時間のデータ入力、つまりPDFから数値をコピーするだけで年間60時間かかります。
エラー率がさらに問題を悪化させます。手作業によるデータ入力には、1〜4%の文書化されたエラー率があります。45億2100万ドルの収益を45億1200万ドルと入力すると、成長率、利益率計算、EV/収益倍率、およびそれに依存するすべての下流予測が狂います。
アナリストが実際に抽出するもの
年次報告書のすべての数値が同じように重要ではありません。金融専門家は通常、ユースケースに応じて特定の指標セットをターゲットにします。ここでは、ほとんどの抽出ワークフローが焦点を当てているものを紹介します。
損益計算書指標
| 指標 | 重要性 | 記載場所 |
|---|---|---|
| 収益 / 純売上高 | トップラインの成長、ほとんどの評価モデルの出発点 | 損益計算書、最初の行 |
| 売上原価 (COGS) | 売上総利益の計算、サプライチェーン効率 | 損益計算書、収益の下 |
| 売上総利益 | 収益から売上原価を差し引いたもの、生産収益性を測定 | 損益計算書、計算値 |
| 営業利益 (EBIT) | 利息と税金前のコア事業の収益性 | 損益計算書、中間部 |
| EBITDA | キャッシュベースの収益性、EV/EBITDA倍率で使用 | 通常MD&Aまたは損益計算書+キャッシュフローの減価償却費から計算 |
| 純利益 | すべての費用、税金、利息を差し引いた後の最終利益 | 損益計算書、下部近く |
| 1株当たり利益 (単体および希薄化) | 株当たりの収益性、PERの原動力 | 損益計算書、最後の行 |
貸借対照表指標
| 指標 | 重要性 | 記載場所 |
|---|---|---|
| 総資産 | 企業の規模、レバレッジ計算 | 貸借対照表、資産セクション合計 |
| 総負債 | 負債負担、ソルベンシー評価 | 貸借対照表、負債セクション合計 |
| 株主資本合計 | 純資産、簿価計算 | 貸借対照表、資本セクション合計 |
| 総有利子負債(短期+長期) | レバレッジ比率、インタレストカバレッジ | 貸借対照表+注記 |
| 現金および現金同等物 | 流動性、純負債計算 | 貸借対照表、最初の流動資産 |
| 流動資産 / 流動負債 | Working capital、流動比率 | 貸借対照表セクション合計 |
キャッシュフロー計算書指標
| 指標 | 重要性 | 記載場所 |
|---|---|---|
| 営業キャッシュフロー | コア事業から生成されたキャッシュ | キャッシュフロー計算書、最初のセクション |
| 設備投資 | 成長への投資、フリーキャッシュフロー計算 | 投資活動によるキャッシュフロー |
| フリーキャッシュフロー | 運営維持後の利用可能キャッシュ | 営業キャッシュフローから設備投資を差し引いたもの |
| 配当金支払額 | 株主還元、配当性向 | 財務活動によるキャッシュフロー |
派生比率と利益率
生データを抽出した後、アナリストは以下を計算します。
- 売上総利益率: 売上総利益 / 収益
- 営業利益率: 営業利益 / 収益
- 純利益率: 純利益 / 収益
- 自己資本利益率 (ROE): 純利益 / 株主資本
- 総資産利益率 (ROA): 純利益 / 総資産
- 負債資本倍率: 総有利子負債 / 株主資本
- 流動比率: 流動資産 / 流動負債
- インタレストカバレッジ: EBIT / 利息費用
これらの比率には、基になるコンポーネントのクリーンで正確な抽出が必要です。1つの誤った数値が比率全体を損ないます。
非構造化ドキュメントに埋もれた構造化データ
中心的な技術的課題は、構造化データ(正確な意味と関係を持つ数値)が非構造化ドキュメントに埋め込まれていることです。財務諸表は表ですが、物語の段落、法的免責事項、画像、ページヘッダーも含むPDF内にあります。
これにより、単純な表認識を超えたいくつかの抽出問題が発生します。
- 文脈依存の数値。 「12,345」という数値は、どこに表示されるかによって意味が異なります。収益行では、$12,345百万(または、財務諸表の冒頭に記載されている報告単位による千ドル)を意味します。役員報酬では、$12,345ドルを意味する場合があります。効果的な抽出には、数値がどのセクションに属するか、列ヘッダーと単位表記が何であるかを理解する必要があります。
- ネストされたおよびまたがる表。 年次報告書の表では、セクションヘッダーにセル結合が使用され、親カテゴリの下にインデントされたサブ項目、明細項目に混在する小計、複数年の比較列、および空白の区切り行が使用されます。単純な抽出ツールは、すべての視覚要素をデータポイントとして扱い、誤って配置されたスプレッドシートにファントム行や結合された値が満載されます。
- 注記参照。 「12,345^(1)」という収益は、意味論的な理解なしに抽出されると「12345 1」になります。肩付き数字はPDF内の別個の配置文字です。抽出ツールは、それを削除する(参照を失う)か、含める(数値を破損させる)かのどちらかです。
AI抽出が年次報告書を処理する方法
AIを活用した抽出は、根本的に異なるアプローチを取ります。空間分析(文字位置に基づく行と列の検出)のみに依存するのではなく、空間認識と意味論的理解を組み合わせています。
レイアウト認識型テーブル検出は、グリッド線を探す以上のことを行います(多くの財務表には可視的な境界線がありません)。システムは、文字間隔パターン、小数点位置合わせ、フォーマットの繰り返し、ヘッダー行を分析してテーブルの境界を検出します。数値を含む物語の段落と、列が揃った財務データのテーブルを区別できます。
意味フィールド認識は、各列と行が何を表すかを識別します。「収益」、「純売上高」、「総収益」、「純収益」がすべて同じ概念を参照していることを認識します。財務の文脈で「(1,234)」がマイナス1,234を意味し、注記参照ではないことを理解しています。これは、企業間の命名規則が大きく異なるため重要です。一方は「株主資本」を報告し、他方は「株主資本」または「総資本」を使用します。
複数ページにわたるテーブルの継続は、ページ区切りをまたいで繰り返されるヘッダーパターンと一貫した列配置を認識することによって処理されます。損益計算書はページ84から始まりページ85に続くことがありますが、AI抽出はデータを単一の整合性のあるテーブルに結合します。
年次報告書でターゲットにする主要セクション
年次報告書のすべてのセクションに抽出可能な財務データが含まれているわけではありません。どこに焦点を当てるかを知ることは、時間と精度を向上させます。
財務諸表は主要な抽出ターゲットです:連結損益計算書、貸借対照表、キャッシュフロー計算書、株主資本等計算書。これら4つのステートメントには、財務モデルを駆動する生データが含まれています。
**経営成績分析(MD&A)**は、経営陣が数値を説明する場所です。多くの場合、調整後EBITDAやフリーキャッシュフローのような非GAAP指標、セグメントレベルの内訳、将来の見通しなどが含まれていますが、これらはテーブルではなく物語の段落に埋め込まれています。AI抽出はこれらの数値を識別して引き出すことができますが、テーブルデータよりも文脈の理解が必要です。
セグメント報告は、事業部門、地理、または製品ラインごとの結果を内訳します。このデータは、部分合計評価に不可欠です。セグメントテーブルは、セグメント名を列ヘッダーとし、セグメント間消去が行を追加する非標準的な構造を持つことがよくあります。
財務諸表注記には、最も詳細なデータが含まれています:満期日の負債スケジュール、製品または地理ごとの収益内訳、リース債務、年金詳細、税率調整表、セグメントごとののれんの内訳。これらは、物語テキストと小さな埋め込みテーブルが混在しているため、抽出が最も困難です。
リスク要因は主に定性的ですが、定量的な開示が含まれることもあります:集中リスクの割合、訴訟引当金、または段落の法的言語に埋め込まれた規制資本要件。
PDFSubでの年次報告書データ抽出

PDFSub は、年次報告書抽出に特に適した2つのツールを提供しています:表抽出ツールと財務報告書アナライザーです。
表抽出:財務諸表をスプレッドシートにプル
表抽出ツールは、PDFドキュメントから表形式のデータを検出し抽出します。年次報告書の場合、これは次のようになります。
- 年次報告書のPDFをアップロード - ファイルをドラッグ&ドロップします。SEC EDGARまたは企業のIRページからダウンロードしたデジタルPDFの場合、ブラウザで初期処理が行われます。サーバーサイドAI処理が必要な場合を除き、ファイルはデバイスを離れません。
- 自動表検出 - ツールはドキュメント内のすべての表領域を識別します。ページ区切りをまたぐ複数ページにわたる表も含まれます。
- 抽出された表を確認 - 検出された各表は、抽出されたデータとともに表示されます。列が正しく配置され、値が正確であることを確認できます。
- ExcelまたはCSVにエクスポート - 抽出された表を財務モデリング用の形式でダウンロードします。
このアプローチは、データが明確な表形式で提示されているコア財務諸表(損益計算書、貸借対照表、キャッシュフロー)に効果的です。
財務報告書アナライザー:AIによる指標抽出
財務報告書アナライザーは、表抽出を超えています。AIを使用してドキュメント全体を読み取り、その構造を理解し、物語テキストや注記に埋め込まれたものを含む特定の財務指標を抽出します。
年次報告書の場合、アナライザーは次のことができます。
- ドキュメントのすべてのセクションにわたる主要な財務指標を識別して抽出する
- MD&Aセクションから非GAAP指標をプルする
- 報告テーブルからセグメントレベルのデータを抽出する
- 同じ指標の異なる命名規則を認識して処理する
- 報告期間や測定単位を含む、抽出された数値のコンテキストを提供する
両ツールの組み合わせ
年次報告書に対する最も効果的なワークフローは、両方のアプローチを組み合わせたものです。
- 表抽出を使用して、構造化された財務諸表(損益計算書、貸借対照表、キャッシュフロー)を完全な表忠実度でExcelにプルします。
- 財務報告書アナライザーを使用して、物語セクション、注記、および非標準テーブルから特定の指標を抽出します。
- 結果を相互参照して精度を確認します。
両方のツールはPDFSubの7日間無料トライアルで利用できるため、コミットする前に実際の年次報告書でテストできます。
財務モデリングのためのExcelおよびCSVへのエクスポート
抽出は、出力がワークフローに適合する場合にのみ役立ちます。抽出された表は、適切に型付けされた数値セル、保持された列配置、各表の別個のシート、およびクリーンなヘッダーを備えた .xlsxファイルとしてエクスポートされます。 CSV(データベースやスクリプトツールで一般的)を好むアナリスト向けには、UTF-8エンコーディングのカンマ区切り出力と、抽出された表ごとに1つのファイルが得られます。
典型的な抽出後のワークフロー:損益計算書、貸借対照表、キャッシュフロー計算書を抽出します。3つの表をモデルテンプレートにインポートします。フィールド名を標準化された行ラベルにマッピングします。合計が一致することを確認します。派生比率を計算します。過去のレポートについて繰り返して時系列データを作成します。これは手入力に取って代わり、企業あたりのエンドツーエンドの時間を45分から5分未満に短縮します。
ユースケース:年次報告書データを抽出する人
エクイティリサーチ。 アナリストは、5〜10年間の過去データと3〜5年間の予測を含む財務モデルを構築します。15社のカバレッジユニバースは、年間15社の年次報告書と60社の四半期報告書からのデータ抽出を意味します。自動抽出は、これを数日かかるデータ入力作業から同日タスクに変えます。
クレジット分析。 クレジットアナリストは、負債/EBITDA(レバレッジ)、EBITDA/利息費用(カバレッジ)、流動比率(流動性)、負債/総資本(資本構造)を使用して、借り手の信用力を評価します。商業銀行のローンポートフォリオには数百の借り手が含まれている可能性があり、それぞれが抽出が必要なこれらの指標を含む年次財務諸表を提出しています。
ベンチマーキングおよび競合分析。 企業を競合他社と比較するには、5〜15社の年次報告書から同じ指標を抽出し、異なる会計年度末、報告単位、会計基準(米国GAAPまたはIFRS)を正規化する必要があります。
ポートフォリオモニタリング。 30〜100の保有銘柄を追跡する投資マネージャーは、四半期ごとに一連の監視指標を抽出します:収益成長率、EBITDAマージントレンド、純負債/EBITDA、フリーキャッシュフロー利回り、投下資本利益率。自動抽出により、これを大規模に実行可能になります。
複数年抽出:時系列データの構築
財務分析は基本的にトレンドに関するものです:収益は加速していますか?利益率は拡大していますか?企業は負債を削減していますか?これらの質問に答えるには、少なくとも3〜5年間の時系列データが必要です。
アプローチ1:各年次報告書から抽出
年次報告書には通常、2年間の損益計算書データ(当期と前期)と2年間の貸借対照表データが含まれています。一部には3年間の比較損益計算書が含まれています。
5年間の時系列を構築するには、3つの年次報告書から抽出する必要があります。
- 2025年次報告書:2025年と2024年のデータを含む
- 2023年次報告書:2023年と2022年のデータを含む
- 2021年次報告書:2021年と2020年のデータを含む
これにより、重複する年(2024年は2025年と2024年の両方の報告書に表示される)が得られ、クロスチェックとして機能します。
アプローチ2:「財務データ抜粋」セクションの使用
一部の企業は、5〜10年間の主要指標を単一の表にまとめた「財務データ抜粋」表を含んでいます。利用可能な場合、これは複数年の時系列データへの最も速い道です。しかし、SECは2021年にこの表の要件を廃止し、多くの企業はそれ以来削除しています。
アプローチ3:SEC EDGARのXBRLデータからの抽出
米国公開企業の場合、SECの提出書類にはXBRLタグ付きデータが含まれており、PDF抽出なしで機械可読です。SECのEDGARシステムは、標準化された項目に対するJSON形式のデータを提供するRESTful APIを提供します。ただし、XBRLには制限があります:カスタム項目は一貫してタグ付けされない可能性があり、非GAAP指標はほとんど利用できず、セグメントデータが欠落している可能性があり、表示順序が元の提出書類と一致しない場合があります。PDF抽出は、完全で表示に一貫性のある財務データにとって最も信頼性の高いソースであり続けます。
時系列スプレッドシートの構築
複数の年の抽出データが得られたら、年を列、指標を行とするマスター スプレッドシートを作成します。各年のデータをインポートし、重複する年がレポート間で一致することを確認し、成長率と比率の計算行を追加し、比較を中断する再表示があればフラグを立てます。
品質チェック:抽出データの検証
自動抽出は高速ですが、常に結果を検証する必要があります。年次報告書には、検証を容易にする組み込みのクロスチェックが含まれています。
貸借対照表の等式
最も基本的なチェック:総資産 = 総負債 + 株主資本合計。
この等式が抽出データで成り立たない場合、何かが間違っています。数値が誤って読み取られたか、行がスキップされたか、列が誤って配置されたかのいずれかです。この単一のチェックで、抽出エラーの大部分が検出されます。
損益計算書の流れ
収益からすべての費用を差し引いたものが純利益になるはずです。算術を確認します。
収益
- 売上原価
= 売上総利益
- 営業費用
= 営業利益
- 利息費用
+ 受取利息
- 税金費用
= 純利益小計が合わない場合は、どの項目が欠落または誤って抽出されたかを確認します。
キャッシュフローの照合
キャッシュフロー計算書は純利益から始まり、現金の変化で終わります。その期末の変動は、貸借対照表の期首と期末の現金の差額と一致するはずです。
期首現金残高(貸借対照表より)
+ 現金純増減額(キャッシュフロー計算書より)
= 期末現金残高(貸借対照表より)妥当性とスポットチェック
抽出されたデータにありえない値がないかスキャンします:前年比50%以上変動する収益、負の総資産、発行済株式数で割った純利益に対応しないEPS、または業界標準から外れた利益率(製造業で90%の純利益率は小数点の誤りを示唆します)。次に、3〜5個の数値をランダムに選び、元のPDFに戻って一致することを確認します。これは30秒かかり、誤った列からデータを抽出するなどの体系的なエラーを検出します。
より良い抽出結果のためのヒント
スキャンされたコピーではなく、デジタル年次報告書を使用してください。 デジタルPDFは、スキャンされたドキュメントよりもはるかに正確に抽出されます。米国公開企業の場合、常にSEC EDGAR(提出書類は定義上デジタル)または企業のIRページからダウンロードしてください。PDFに再度スキャンされた印刷されたレポートや、マーケティング用に設計された画像が多い「光沢のある」年次報告書は避けてください。
年次報告書ではなく、10-Kを使用してください。 公開企業は、標準化された財務諸表である10-K提出書類と、マーケティング文書である株主向け年次報告書の両方をしばしば作成します。10-Kは標準化されたGAAP表示、一貫した表フォーマット、完全な注記を備えており、EDGARから常にデジタルPDFとして入手できます。
抽出前に報告単位を特定してください。 各財務諸表の冒頭には、「百万単位、1株当たり金額を除く」または「千単位」のような注記があります。これを逃すと、「45,231」という収益額は452億ドルまたは4520万ドルになる可能性があります。常に確認し、正しい乗数を適用してください。
会計年度の違いに対処してください。 すべての企業が暦年の会計年度を使用しているわけではありません。Appleは9月に終了し、Walmartは1月に終了し、Microsoftは6月に終了します。会計年度末日は、各財務諸表の冒頭に記載されています。
再表示に注意してください。 企業が前期の財務諸表を再表示する場合、再表示された数値が当期の年次報告書に表示されます。2025年報告書の2024年のデータは、2024年報告書の2024年のデータとは異なる場合があります。時系列を構築する際は、常に最新の再表示された数値を優先してください。
開始方法
年次報告書の抽出は、手作業でエラーが発生しやすいプロセスである必要はありません。実用的なワークフロー:SEC EDGARから10-Kをダウンロードし、PDFSubの表抽出ツールまたは財務報告書アナライザーにアップロードし、出力を確認し、ExcelまたはCSVにエクスポートし、上記の説明に従って品質チェックを実行し、検証されたデータを財務モデルにインポートします。
PDFSub は7日間無料トライアルを提供しており、実際の年次報告書で抽出ツールをテストできます。以前手作業で抽出した10-Kで試して、結果を比較してください。精度と時間の節約の両方です。
年次報告書を定期的に処理する金融専門家にとって、自動抽出は競争上の優位性です。データを抽出するのに5分、分析するのに55分費やすアナリストは、抽出に55分、分析に5分費やすアナリストよりも一貫して優れた成果を上げるでしょう。