自動化提取年度報告中的關鍵指標
年度報告將關鍵財務數據隱藏在 100-300 頁的 PDF 中。本文將介紹如何提取收入、淨利潤、每股收益、現金流量和其他關鍵指標,而無需手動將表格中的數字複製到試算表中。
您剛下載了一份 247 頁的年度報告。其中隱藏著您真正需要的十二個數字:收入、淨利潤、每股收益、總資產、總負債、營運現金流量、EBITDA,以及一些利潤率。其餘的則是樣板文字、法律披露和微笑員工的股票照片。
尋找這些數字並非難事。它們位於財務報表部分,通常從第 80 頁開始。難點在於將它們從 PDF 中提取出來,並以您可以實際使用的格式放入您的模型中。然後為您負責的下二十家公司重複此過程,再為每家公司的過去五年重複此過程以建立時間序列。
這就是年度報告提取問題,它每年耗費證券研究團隊、信用分析師和投資組合經理數千小時。全球數據提取軟體市場預計到 2029 年將達到 36.4 億美元,年增長率為 15.9%,這主要歸因於厭倦了將 PDF 表格中的數字複製到 Excel 中的財務專業人士。
本指南涵蓋了年度報告提取的獨特難點、要關注的指標以及如何自動化該過程,以便您可以將時間用於分析而不是數據輸入。

年度報告提取的挑戰
年度報告與其他 PDF 文件不同。銀行對帳單具有可預測的結構:日期、描述、金額、餘額,每筆交易重複一次。發票有標頭、明細項目和總計。這些文件遵循提取工具可以快速學習的模式。
年度報告則不同。它們是冗長、複雜且結構不一致的文件,結合了:
- 流暢的敘述性文字,例如 CEO 信函、管理層討論與分析 (MD&A) 和風險因素部分
- 密集的財務表格,例如損益表、資產負債表和現金流量表
- 註釋和說明,用於限定、調整或重述表格中的數字
- 圖表,用於可視化趨勢,但不包含機器可讀數據
- 分部報告表格,按地理區域、業務部門或產品線細分
- 多年比較數據,並列呈現兩到三年的數據
典型的 10-K 文件長度為 100 至 300 頁。財務報表本身可能佔 30 至 40 頁,但財務報表附註——其中包含真實細節——可能長達 50 或 60 頁。其餘的是法律術語、風險因素、高管薪酬表格和公司治理披露。
為何標準複製貼上會失敗
如果您曾嘗試在 PDF 年度報告中選取表格並貼到 Excel 中,您就會知道結果:欄位合併、數字換行到錯誤的行、註腳標記嵌入到您的數據中。
PDF 不包含表格。它們包含位於畫布上精確 x,y 座標的單獨字符。看起來乾淨的表格實際上是數百個單獨的文本定位命令,沒有行分隔符、列邊界或單元格引用。複製貼上完全忽略了這些空間關係。
年度報告使情況更加複雜,因為多行標題,如「歸屬於普通股股東的淨利潤」,需要成為單一行。括號內的負數,如 $(1,234),是三個單獨的定位元素,會被拆分成單獨的單元格。註腳的右上標記會損壞數字。比較欄位經常合併。
手動提取的噩夢
傳統方法是硬碰硬。分析師打開年度報告,導航到損益表,然後手動將每個數字鍵入試算表。然後是資產負債表。然後是現金流量表。然後是分部數據。然後是註腳。
對於單一公司,這需要 30 到 60 分鐘。但財務分析很少只涉及一家公司。證券研究分析師通常負責 10 到 25 家公司。信用分析師可能需要處理 50 家或更多借款人的數據。二十家公司,每家 45 分鐘,意味著每個報告期有 15 小時的數據輸入——每年僅從 PDF 複製數字就需要 60 小時。
錯誤率使其更加糟糕。手動數據輸入的記錄錯誤率為 1% 到 4%。將 45.21 億美元的收入數字鍵入為 45.12 億美元,會影響您的增長率、利潤率計算、企業價值/收入倍數,以及任何依賴它的下游預測。
分析師實際提取的內容
並非年度報告中的每個數字都具有同等的重要性。財務專業人士通常會根據其用例,針對一組特定的指標。以下是大多數提取工作流程關注的內容。
損益表指標
| 指標 | 重要性 | 查找位置 |
|---|---|---|
| 收入 / 淨銷售額 | 頂線增長,大多數估值模型起點 | 損益表,第一行 |
| 銷貨成本 (COGS) | 毛利率計算,供應鏈效率 | 損益表,收入下方 |
| 毛利 | 收入減去銷貨成本,衡量生產盈利能力 | 損益表,計算得出 |
| 營運收入 (EBIT) | 核心業務盈利能力(稅息前) | 損益表,中間部分 |
| EBITDA | 以現金為導向的盈利能力,用於企業價值/EBITDA 倍數 | 通常在 MD&A 中,或從損益表 + 現金流量表中的折舊攤銷計算得出 |
| 淨利潤 | 所有費用、稅金和利息後的底線利潤 | 損益表,接近底部 |
| 每股收益(基本和稀釋) | 每股盈利能力,驅動本益比 | 損益表,最後幾行 |
資產負債表指標
| 指標 | 重要性 | 查找位置 |
|---|---|---|
| 總資產 | 公司規模,槓桿率計算 | 資產負債表,資產部分總計 |
| 總負債 | 債務負擔,償付能力評估 | 資產負債表,負債部分總計 |
| 總權益 / 股東權益 | 淨資產,賬面價值計算 | 資產負債表,權益部分總計 |
| 總債務(短期 + 長期) | 槓桿率,利息覆蓋率 | 資產負債表 + 附註 |
| 現金及約當現金 | 流動性,淨債務計算 | 資產負債表,第一項流動資產 |
| 流動資產 / 流動負債 | 營運資金,流動比率 | 資產負債表部分總計 |
現金流量表指標
| 指標 | 重要性 | 查找位置 |
|---|---|---|
| 營運現金流量 | 核心業務產生的現金 | 現金流量表,第一部分 |
| 資本支出 | 增長投資,自由現金流量計算 | 投資活動現金流量 |
| 自由現金流量 | 維持營運後可用的現金 | 營運現金流量減去資本支出 |
| 已付股息 | 股東回報,股息支付率 | 融資活動現金流量 |
計算比率和利潤率
提取原始指標後,分析師會計算:
- 毛利率: 毛利 / 收入
- 營運利潤率: 營運收入 / 收入
- 淨利率: 淨利潤 / 收入
- 股東權益報酬率 (ROE): 淨利潤 / 股東權益
- 資產報酬率 (ROA): 淨利潤 / 總資產
- 負債權益比: 總債務 / 總權益
- 流動比率: 流動資產 / 流動負債
- 利息保障倍數: EBIT / 利息費用
這些比率需要對底層組件進行乾淨、準確的提取。一個錯誤的數字會損壞整個比率。
嵌入在非結構化文件中的結構化數據
核心技術挑戰在於,結構化數據——具有精確含義和關係的數字——嵌入在非結構化文件中。財務報表是一個表格,但它位於一個 PDF 中,該 PDF 還包含敘述段落、法律免責聲明、圖像和頁眉。
這會產生幾個超出簡單表格識別的提取問題:
- 依賴上下文的數字。 "12,345" 這個數字的含義取決於它出現的位置。在收入行中,它表示 123.45 億美元(或數百萬美元,取決於財務報表頂部聲明的報告單位)。在高管薪酬中,它可能表示實際的 12,345 美元。有效的提取需要理解數字屬於哪個部分,以及欄標題和單位表示什麼。
- 嵌套和跨表格。 年度報告表格使用合併單元格作為部分標題,將縮進的子項目放在父類別下,將小計與明細項目穿插,並列顯示多年比較欄位,以及空白分隔行。一個簡單的提取工具將每個視覺元素視為數據點,產生錯位的試算表,其中包含虛假行和合併的值。
- 註腳引用。 收入 "12,345^(1)" 在未經語義理解提取時會變成 "12345 1"。右上標記是 PDF 中的一個單獨定位字符。提取工具會將其刪除(丟失引用)或包含它(損壞數字)。
AI 提取如何處理年度報告
AI 驅動的提取採用根本不同的方法。它不單純依賴空間分析——根據字符位置檢測行和列——而是將空間感知與語義理解相結合。
佈局感知表格檢測超越了尋找網格線(許多財務表格沒有可見邊框)。該系統分析字符間距模式、小數點對齊、格式重複和標題行來檢測表格邊界。它可以區分恰好包含數字的敘述段落和具有對齊列的財務數據表。
語義字段識別確定每個列和行代表什麼。它認識到 "Revenue"、"Net sales"、"Total revenue" 和 "Net revenues" 都指代同一概念。它理解在財務背景下 "(1,234)" 表示負 1,234,而不是註腳引用。這很重要,因為公司之間的命名約定差異很大——一家報告 "Stockholders' equity",而另一家使用 "Shareholders' equity" 或 "Total equity"。
多頁表格延續通過識別跨頁面的重複標題模式和一致的列對齊來處理。損益表可能從第 84 頁開始並在第 85 頁繼續,AI 提取將數據合併為一個連貫的表格。
年度報告中的關鍵目標部分
並非年度報告的每個部分都包含可提取的財務數據。知道在哪裡集中精力可以節省時間並提高準確性。
財務報表是主要的提取目標:綜合損益表、資產負債表、現金流量表和股東權益變動表。這四份報表包含驅動財務模型的原始數字。
管理層討論與分析 (MD&A) 是管理層解釋數字的部分。它通常包含非 GAAP 指標,如調整後 EBITDA 和自由現金流量、分部級別細分以及前瞻性指導——所有這些都嵌入在敘述段落中,而不是表格中。AI 提取可以識別並提取這些數字,但它們比表格數據需要更多的上下文理解。
分部報告按業務部門、地理區域或產品線細分結果。這些數據對於分部加總估值至關重要。分部表格通常具有非標準結構,以分部名稱作為列標題,並包含消除分部間交易的負數行。
財務報表附註包含最詳細的數據:具有到期日的債務計劃、按產品或地理區域劃分的收入細分、租賃義務、養老金詳細信息、稅率調節表以及按分部劃分的商譽細分。這些是最難提取的,因為它們混合了敘述文本和小型嵌入式表格。
風險因素主要是定性的,但有時包含定量的披露:集中風險百分比、訴訟準備金或埋藏在法律術語段落中的監管資本要求。
使用 PDFSub 提取年度報告數據

PDFSub 提供兩款專門用於年度報告提取的工具:提取表格 工具和財務報告分析器。
提取表格:將財務報表拉入試算表
提取表格工具可從 PDF 文件中檢測和提取表格數據。對於年度報告,這意味著:
- 上傳年度報告 PDF - 拖放文件。對於從 SEC EDGAR 或公司投資者關係頁面下載的數字 PDF,初始處理在您的瀏覽器中進行。除非需要服務器端 AI 處理,否則文件不會離開您的設備。
- 自動表格檢測 - 該工具識別文檔中的所有表格區域,包括跨頁面的多頁表格。
- 審查提取的表格 - 每個檢測到的表格都會顯示其提取的數據。您可以驗證列是否正確對齊以及數字是否準確。
- 導出到 Excel 或 CSV - 以適用於財務建模的格式下載提取的表格。
這種方法適用於核心財務報表(損益表、資產負債表、現金流量表),因為這些報表中的數據以清晰的表格格式呈現。
財務報告分析器:AI 驅動的指標提取
財務報告分析器不僅限於表格提取。它使用 AI 閱讀整個文檔,理解其結構,並提取特定的財務指標——包括嵌入在敘述文本或附註中的指標。
對於年度報告,分析器可以:
- 識別並提取文檔所有部分的關鍵財務指標
- 從 MD&A 部分提取非 GAAP 指標
- 從報告表格中提取分部級別數據
- 識別並處理相同指標的不同命名約定
- 提供提取數字的上下文,包括報告期和計量單位
結合兩種工具
年度報告最有效的工作流程結合了兩種方法:
- 使用 提取表格 將結構化的財務報表(損益表、資產負債表、現金流量表)以完整的表格保真度導入 Excel。
- 使用 財務報告分析器 從敘述部分、附註和非標準表格中提取特定指標。
- 交叉驗證結果以確認準確性。
這兩種工具都包含在 PDFSub 的 7 天免費試用 中,因此您可以在購買前針對您的實際年度報告測試它們。
導出到 Excel 和 CSV 以進行財務建模
提取僅在輸出適合您的工作流程時才有用。提取的表格導出為 .xlsx 文件,具有正確類型的數字單元格、保留的列對齊、每個表格的單獨工作表以及乾淨的標題。對於偏好 CSV(常用於數據庫和腳本工具)的分析師,您可以獲得 UTF-8 編碼的逗號分隔輸出,每個提取的表格一個文件。
典型的提取後工作流程:提取損益表、資產負債表和現金流量表;將這三個表格導入您的模型模板;將字段名稱映射到您的標準化行標籤;驗證總計是否匹配;計算派生比率;並通過對先前年份的報告重複來構建時間序列。這取代了手動鍵入,並將每家公司的端到端時間從 45 分鐘縮短到 5 分鐘以內。
用例:誰提取年度報告數據
證券研究。 分析師構建包含 5 到 10 年歷史數據和 3 到 5 年預測的財務模型。15 家公司的覆蓋範圍意味著每年需要從 15 份年度報告和 60 份季度報告中提取數據。自動提取將此類數據輸入練習轉變為當天即可完成的任務。
信用分析。 信用分析師使用債務/EBITDA(槓桿率)、EBITDA/利息費用(覆蓋率)、流動比率(流動性)和債務/總資本結構(資本結構)來評估借款人的信用質量。一家商業銀行的貸款組合可能包含數百名借款人,每個人都提交需要提取這些指標的年度財務報表。
基準測試和競爭分析。 將一家公司與同行進行比較需要從 5 到 15 份年度報告中提取相同的指標,並對不同的財政年度結束日期、報告單位和會計準則(美國 GAAP 與 IFRS)進行標準化。
投資組合監控。 投資經理每季度跟踪 30 到 100 筆持股,提取一套標準的監控指標:收入增長、EBITDA 利潤率趨勢、淨債務/EBITDA、自由現金流量收益率和已投資資本回報率。自動提取使其能夠大規模實現這一目標。
多年提取:構建時間序列數據
財務分析本質上是關於趨勢:收入是否在加速?利潤率是否在擴大?公司是否在去槓桿化?回答這些問題需要至少三到五年的時間序列數據。
方法 1:從每份年度報告中提取
年度報告通常呈現兩年的損益表數據(當年和上一年)和兩年的資產負債表數據。有些包含三年比較損益表。
要構建五年的時間序列,您需要從三份年度報告中提取:
- 2025 年年度報告:包含 2025 年和 2024 年的數據
- 2023 年年度報告:包含 2023 年和 2022 年的數據
- 2021 年年度報告:包含 2021 年和 2020 年的數據
這將為您提供重疊的年份(2024 年出現在 2025 年和 2024 年的報告中),可用於交叉檢查。
方法 2:使用 10-K 選定財務數據
一些公司包含一個 "選定財務數據" 表格,該表格以單一表格呈現五到十年的關鍵指標。如果可用,這是獲得多年時間序列的最快途徑。然而,SEC 在 2021 年取消了對此表格的要求,此後許多公司已將其刪除。
方法 3:從 SEC EDGAR XBRL 數據中提取
對於美國上市公司,SEC 文件包含 XBRL 標記的數據,無需 PDF 提取即可機器讀取。SEC 的 EDGAR 系統提供 RESTful API,用於標準化行項目的 JSON 格式數據。然而,XBRL 有其局限性:自定義行項目可能未被一致標記,很少提供非 GAAP 指標,可能缺少分部數據,並且呈現順序可能與原始文件不符。PDF 提取仍然是獲取完整、呈現一致的財務數據的最可靠來源。
構建時間序列試算表
獲得多年的提取數據後,創建一個主試算表,其中年份作為列,指標作為行。導入每年的數據,驗證重疊年份在不同報告之間是否匹配,添加增長率和比率的計算行,並標記任何會破壞可比性的重述。
質量檢查:驗證提取的數據
自動提取速度很快,但您應始終驗證輸出。年度報告包含內置的交叉檢查,可簡化驗證過程。
資產負債表方程
最基本的檢查:總資產 = 總負債 + 總股東權益。
如果此方程在您的提取數據中不成立,則說明出現了問題。數字可能被誤讀,行被跳過,或者列錯位。這個單一檢查可以捕獲很大一部分提取錯誤。
損益表流程
收入減去所有費用應等於淨利潤。驗證計算:
收入
- 銷貨成本
= 毛利
- 營運費用
= 營運收入
- 利息費用
+ 利息收入
- 稅損
= 淨利潤如果小計不正確,請檢查哪些行項目被遺漏或提取錯誤。
現金流量對賬
現金流量表以淨利潤開始,以現金變動結束。該期末變動應與資產負債表上的期初和期末現金餘額之間的差異對賬。
期初現金餘額(來自資產負債表)
+ 現金淨變動(來自現金流量表)
= 期末現金餘額(來自資產負債表)合理性檢查和抽查
掃描提取的數據,查找不合理的數值:收入同比變化超過 50%、總資產為負、每股收益與每股普通股淨收益不成比例,或利潤率超出行業規範(製造業 90% 的淨利率表明小數點錯誤)。然後隨機選擇三到五個數字,返回原始 PDF,驗證它們是否匹配。這需要 30 秒,並且可以捕獲系統性錯誤,例如從錯誤的列中提取數據。
獲得更好提取結果的技巧
使用數字版年度報告,而非掃描副本。 數字 PDF 的提取準確性遠高於掃描文件。對於美國上市公司,務必從 SEC EDGAR(文件本質上是數字的)或公司投資者關係頁面下載。避免打印報告掃描成 PDF 以及設計用於營銷的、圖像密集的 "光鮮" 年度報告。
使用 10-K,而非股東年度報告。 上市公司通常會同時發布 10-K 文件(標準化的財務報表)和股東年度報告(帶有精美圖片的營銷文件)。10-K 具有標準化的 GAAP 呈現、一致的表格格式、完整的附註,並且始終可以從 EDGAR 作為數字 PDF 獲取。
提取前確定報告單位。 每個財務報表的頂部都有一個說明,例如「百萬美元,每股金額除外」或「千美元」。如果您錯過了這一點,收入數字 "45,231" 可能代表 452.3 億美元或 4523.1 萬美元。務必檢查並應用正確的乘數。
處理財政年度差異。 並非所有公司都使用日曆財政年度。蘋果公司在九月結束,沃爾瑪在正月結束,微軟在六月結束。財政年度結束日期在每個財務報表的頂部說明。
注意重述。 當公司重述先前年份的財務報表時,重述後的數字會出現在當年的年度報告中。2025 年報告中的 2024 年數據可能與 2024 年報告中的 2024 年數據不同。構建時間序列時,務必使用最近重述後的數據。
開始使用
年度報告提取不必是一個手動且容易出錯的過程。實用的工作流程是:從 SEC EDGAR 下載 10-K,將其上傳到 PDFSub 的提取表格工具或財務報告分析器,審查輸出,導出到 Excel 或 CSV,運行上述質量檢查,然後將驗證後的數據導入您的財務模型。
PDFSub 提供7 天免費試用,以便您針對實際年度報告測試提取工具。嘗試使用您以前手動提取過的 10-K 文件進行測試,並比較結果——包括準確性和節省的時間。
對於經常處理年度報告的財務專業人士來說,自動提取是一種競爭優勢。花費 5 分鐘提取數據和 55 分鐘分析數據的分析師,將始終優於花費 55 分鐘提取和 5 分鐘分析的分析師。