自動從年報中提取關鍵指標
年報往往將關鍵財務數據埋藏在 100-300 頁的 PDF 中。本文將介紹如何自動提取營收、淨利、EPS、現金流量等關鍵指標,而無需手動將表格數字複製到試算表中。
您剛剛下載了一份 247 頁的年報。在其中的某個角落,隱藏著您真正需要的十二個數字:營收、淨利、每股盈餘 (EPS)、總資產、總負債、營業現金流量、EBITDA 以及一些利潤率指標。其餘內容多為模板化的法律披露和員工微笑的宣傳照片。
找到這些數字並不難。它們通常位於財務報表部分,大約從第 80 頁開始。難點在於如何將它們從 PDF 中提取出來,並以您可以實際處理的格式放入模型中。然後,您還需要為研究範圍內的另外二十家公司重複此操作,並針對每家公司過去五年的數據進行提取以建立時間序列。
這就是年報數據提取的難題,它每年耗費股票研究團隊、信用分析師和投資組合經理數千小時的時間。全球數據提取軟體市場預計到 2029 年將達到 36.4 億美元,年增長率為 15.9%,這在很大程度上是由於財務專業人士厭倦了將數字從 PDF 表格手動複製到 Excel 中。
本指南涵蓋了年報提取之所以特別困難的原因、應鎖定哪些指標,以及如何自動化此過程,以便您可以將時間花在分析而非數據輸入上。
年報提取的挑戰
年報與其他 PDF 文件不同。銀行對帳單具有可預測的結構:日期、說明、金額、餘額,每筆交易不斷重複。發票有頁首、品項和總計。這些文件遵循提取工具可以快速學習的模式。
年報則不同。它們是長篇、複雜且結構不一致的文件,結合了:
- 流動的敘述性文本:出現在執行長致股東信、管理層討論與分析 (MD&A) 以及風險因素章節中。
- 密集的財務表格:出現在損益表、資產負債表和現金流量表中。
- 腳註和註釋:用於限定、調整或重述這些表格中的數字。
- 圖表和圖形:將趨勢視覺化,但不包含機器可讀的數據。
- 分部報告表格:按地理區域、業務單位或產品線進行細分。
- 多年比較數據:並排呈現兩年或三年的數據。
一份典型的 10-K 申報文件長達 100 到 300 頁。財務報表本身可能佔 30 到 40 頁,但財務報表附註(真正細節所在之處)可能延伸至另外 50 或 60 頁。其餘則是法律用語、風險因素、高管薪酬表和治理披露。
為什麼標準的複製貼上會失敗
如果您曾嘗試在 PDF 年報中選取表格並將其貼到 Excel 中,您就會知道結果:欄位合併、數字換行到錯誤的列中,且腳註標記會嵌入到您的數據中。
PDF 本身並不包含「表格」。它們包含的是定位在畫布上精確 x,y 座標的單個字符。看起來整齊的表格實際上是數百個獨立的文本定位命令,沒有列定界符、欄邊界或單元格引用。複製貼上完全忽略了這些空間關係。
年報使情況變得更糟,因為像「歸屬於普通股股東的淨利」這樣的多行標題需要成為單一列。括號內的負數如 $(1,234) 是三個獨立的定位元素,會拆分成不同的單元格。腳註上標會損壞數字,且比較欄位經常合併。
手動提取的噩夢
傳統的方法是強行作業。分析師打開年報,導航到損益表,然後手動將每個數字輸入到試算表中。接著是資產負債表、現金流量表、分部數據,最後是腳註。
對於單一公司,這需要 30 到 60 分鐘。但財務分析很少只涉及一家公司。股票研究分析師通常覆蓋 10 到 25 家公司。信用分析師可能需要 50 個或更多借款人的數據。二十家公司,每家 45 分鐘,每個報告期就是 15 小時的數據輸入——每年僅從 PDF 複製數字就要花費 60 小時。
錯誤率使情況更糟。手動數據輸入的記錄錯誤率為 1% 到 4%。將 4,521 百萬美元的營收數字輸入為 4,512 百萬美元,會影響您的增長率、利潤率計算、EV/Revenue 倍數以及依賴於此的每個下游預測。
分析師實際提取的內容
並非年報中的每個數字都同樣重要。財務專業人士通常根據其使用案例鎖定一組特定的指標。以下是大多數提取工作流程關注的重點。
損益表指標
| 指標 | 重要性 | 查找位置 |
|---|---|---|
| 營收 / 淨銷售額 | 頂線增長,大多數估值模型的起點 | 損益表,第一行 |
| 銷貨成本 (COGS) | 毛利率計算,供應鏈效率 | 損益表,營收下方 |
| 毛利 | 營收減去銷貨成本,衡量生產盈利能力 | 損益表,計算得出 |
| 營業利益 (EBIT) | 扣除利息和稅收前的核心業務盈利能力 | 損益表,中段 |
| EBITDA | 現金導向的盈利能力,用於 EV/EBITDA 倍數 | 通常在 MD&A 中或從損益表 + 現金流量表的 D&A 計算得出 |
| 淨利 | 扣除所有費用、稅收和利息後的底線利潤 | 損益表,底部附近 |
| 每股盈餘 (基本與稀釋) | 每股盈利能力,驅動本益比 (P/E) | 損益表,最後幾行 |
資產負債表指標
| 指標 | 重要性 | 查找位置 |
|---|---|---|
| 總資產 | 公司規模,槓桿計算 | 資產負債表,資產部分總計 |
| 總負債 | 債務負擔,償債能力評估 | 資產負債表,負債部分總計 |
| 總權益 / 股東權益 | 淨值,帳面價值計算 | 資產負債表,權益部分總計 |
| 總債務 (短期 + 長期) | 槓桿比率,利息保障倍數 | 資產負債表 + 附註 |
| 現金及約當現金 | 流動性,淨債務計算 | 資產負債表,第一項流動資產 |
| 流動資產 / 流動負債 | 營運資金,流動比率 | 資產負債表部分總計 |
現金流量表指標
| 指標 | 重要性 | 查找位置 |
|---|---|---|
| 營業現金流量 | 核心業務產生的現金 | 現金流量表,第一部分 |
| 資本支出 (Capex) | 增長投資,自由現金流計算 | 投資活動產生的現金流量 |
| 自由現金流 (FCF) | 維持營運後可用的現金 | 營業現金流量減去資本支出 |
| 已付股利 | 股東回報,派息率 | 籌資活動產生的現金流量 |
衍生比率與利潤率
提取原始指標後,分析師會計算:
- 毛利率: 毛利 / 營收
- 營業利益率: 營業利益 / 營收
- 淨利率: 淨利 / 營收
- 股東權益報酬率 (ROE): 淨利 / 股東權益
- 資產報酬率 (ROA): 淨利 / 總資產
- 負債權益比: 總債務 / 總權益
- 流動比率: 流動資產 / 流動負債
- 利息保障倍數: EBIT / 利息支出
這些比率需要對底層組件進行乾淨、準確的提取。一個錯誤的數字就會破壞整個比率。
埋藏在非結構化文件中的結構化數據
核心技術挑戰在於結構化數據(具有精確含義和關係的數字)被嵌入在非結構化文件中。財務報表是一個表格,但它位於一個同時包含敘述段落、法律免責聲明、圖像和頁首的 PDF 中。
這除了簡單的表格識別外,還產生了幾個提取問題:
- 依賴上下文的數字:數字「12,345」根據出現的位置具有不同的含義。在營收行中,它表示 12,345 百萬美元(或千美元,取決於財務報表頂部說明的報告單位)。在高管薪酬中,它可能表示實際的 12,345 美元。有效的提取需要理解數字屬於哪個部分,以及欄位標題和單位說明是什麼。
- 嵌套和跨頁表格:年報表格使用合併單元格作為章節標題、父類別下的縮排子項、穿插在行項目中的小計、多年比較欄位以及空白分隔行。天真的提取工具會將每個視覺元素視為一個數據點,產生充滿幻影行和合併值的錯位試算表。
- 腳註引用:在沒有語義理解的情況下提取時,營收「12,345^(1)」會變成「12345 1」。上標是 PDF 中一個獨立定位的字符。提取工具要麼將其刪除(丟失引用),要麼將其包含在內(損壞數字)。
AI 提取如何處理年報
AI 驅動的提取採用了根本不同的方法。它不純粹依賴空間分析(根據字符位置檢測行和欄),而是將空間意識與語義理解相結合。
佈局感知表格檢測不僅僅是尋找網格線(許多財務表格沒有可見邊界)。系統分析字符間距模式、小數點對齊、格式重複和標題行來檢測表格邊界。它可以區分恰好包含數字的敘述段落與具有對齊欄位的財務數據表格。
語義欄位識別識別每欄和每列代表什麼。它能識別出「Revenue」、「Net sales」、「Total revenue」和「Net revenues」都指向同一個概念。它理解財務上下文中的「(1,234)」表示負 1,234,而不是腳註引用。這很重要,因為不同公司之間的命名慣例差異很大——一家公司報告「Stockholders' equity」,而另一家則使用「Shareholders' equity」或「Total equity」。
多頁表格續接通過識別重複的標題模式和跨頁面中斷的一致欄位對齊來處理。損益表可能從第 84 頁開始並在第 85 頁繼續,AI 提取會將數據縫合成一個連貫的表格。
年報中應鎖定的關鍵章節
並非年報的每個部分都包含可提取的財務數據。了解重點所在可以節省時間並提高準確性。
財務報表是主要的提取目標:合併損益表、資產負債表、現金流量表和股東權益表。這四份報表包含了驅動財務模型的原始數字。
管理層討論與分析 (MD&A) 是管理層解釋數字的地方。它通常包含非 GAAP 指標(如調整後 EBITDA 和自由現金流)、分部級別的細分以及前瞻性指引——所有這些都嵌入在敘述段落而非表格中。AI 提取可以識別並提取這些數字,但它們比表格數據需要更多的上下文理解。
分部報告按業務單位、地理區域或產品線細分結果。這些數據對於分部估值 (SOTP) 至關重要。分部表格通常具有非標準結構,分部名稱作為欄位標題,且分部間抵銷會增加負數行。
財務報表附註包含最詳細的數據:帶有到期日的債務表、按產品或地理區域劃分的營收分解、租賃義務、養老金細節、稅率調節以及按分部劃分的商譽細分。這些是最難提取的,因為它們將敘述文本與小型嵌入式表格混合在一起。
風險因素大多是定性的,但有時包含定量的披露:集中風險百分比、訴訟準備金或埋藏在法律用語段落中的監管資本要求。
使用 PDFSub 提取年報數據
PDFSub 提供了兩個特別適合年報提取的工具:提取表格 工具和 財務報告分析器。
提取表格:將財務報表拉入試算表
提取表格工具可檢測並從 PDF 文件中提取表格數據。對於年報,這意味著:
- 上傳年報 PDF — 拖放文件。對於從 SEC EDGAR 或公司投資者關係頁面下載的數位 PDF,初始處理發生在您的瀏覽器中。除非需要伺服器端 AI 處理,否則文件不會離開您的設備。
- 自動表格檢測 — 該工具識別文件中的所有表格區域,包括跨越分頁的多頁表格。
- 查看提取的表格 — 每個檢測到的表格都會顯示其提取的數據。您可以驗證欄位是否正確對齊以及數值是否準確。
- 匯出至 Excel 或 CSV — 以準備好進行財務建模的格式下載提取的表格。
這種方法非常適合數據以清晰表格格式呈現的核心財務報表(損益表、資產負債表、現金流量表)。
財務報告分析器:AI 驅動的指標提取
財務報告分析器超越了表格提取。它使用 AI 閱讀整個文件,理解其結構,並提取特定的財務指標——包括嵌入在敘述文本或腳註中的指標。
對於年報,分析器可以:
- 識別並提取文件所有章節中的關鍵財務指標
- 從 MD&A 章節中提取非 GAAP 指標
- 從報告表格中提取分部級別的數據
- 識別並處理同一指標的不同命名慣例
- 為提取的數字提供上下文,包括報告期和計量單位
結合使用這兩個工具
處理年報最有效的工作流程是結合這兩種方法:
- 使用 提取表格 將結構化的財務報表(損益表、資產負債表、現金流量表)以完整的表格保真度拉入 Excel。
- 使用 財務報告分析器 從敘述章節、附註和非標準表格中提取特定指標。
- 交叉引用結果以驗證準確性。
這兩個工具都可以通過 PDFSub 的 7 天免費試用 獲得,因此您可以在決定訂閱前針對您的實際年報進行測試。
匯出至 Excel 和 CSV 進行財務建模
只有當輸出符合您的工作流程時,提取才有用。提取的表格可匯出為 .xlsx 文件,具有正確類型的數值單元格、保留的欄位對齊、每個表格的獨立工作表以及乾淨的標題。對於偏好 CSV 的分析師(常用於數據庫和腳本工具),您可以獲得 UTF-8 編碼的逗號分隔輸出,且每個提取的表格一個文件。
典型的提取後工作流程:提取損益表、資產負債表和現金流量表;將這三個表格導入您的模型模板;將欄位名稱映射到您的標準化行標籤;驗證總計是否匹配;計算衍生比率;並通過重複前幾年的報告來建立時間序列。這取代了手動輸入,並將每家公司的端到端時間從 45 分鐘減少到 5 分鐘以內。
使用案例:誰在提取年報數據
股票研究:分析師建立具有 5 到 10 年歷史數據和 3 到 5 年預測的財務模型。覆蓋 15 家公司意味著每年要從 15 份年報和 60 份季報中提取數據。自動化提取將這項工作從耗時數天的數據輸入練習轉變為當天即可完成的任務。
信用分析:信用分析師使用債務/EBITDA(槓桿)、EBITDA/利息支出(保障倍數)、流動比率(流動性)和債務/總資本(資本結構)來評估借款人的信用狀況。商業銀行的貸款組合可能包含數百個借款人,每個借款人提交的年度財務報表都需要提取這些指標。
基準測試與競爭分析:將一家公司與其同行進行比較,需要從 5 到 15 份年報中提取相同的指標,並針對不同的財政年度結束日、報告單位和會計準則(US GAAP 與 IFRS)進行標準化。
投資組合監控:追蹤 30 到 100 個持股的投資經理每季度提取一組標準的監控指標:營收增長、EBITDA 利潤率趨勢、淨債務/EBITDA、自由現金流收益率和投資資本回報率。自動化提取使大規模執行成為可能。
多年提取:建立時間序列數據
財務分析的核心在於趨勢:營收是否在加速?利潤率是否在擴大?公司是否在去槓桿?回答這些問題需要跨越至少三到五年的時間序列數據。
方法 1:從每份年報中提取
年報通常呈現兩年的損益表數據(當年和前一年)和兩年的資產負債表數據。有些包含三年的比較損益表。
要建立五年的時間序列,您需要從三份年報中提取:
- 2025 年報:包含 2025 和 2024 的數據
- 2023 年報:包含 2023 和 2022 的數據
- 2021 年報:包含 2021 和 2020 的數據
這會給您重疊的年份(2024 同時出現在 2025 和 2024 的報告中),可作為交叉檢查。
方法 2:使用 10-K 精選財務數據
某些公司會包含一個「精選財務數據」表格,在單一表格中呈現五到十年的關鍵指標。如果有的話,這是建立多年時間序列最快的方法。然而,SEC 在 2021 年取消了對此表格的強制要求,許多公司隨後停止提供。
方法 3:使用 SEC EDGAR XBRL 數據
對於美國上市公司,SEC 申報文件包含 XBRL 標記數據,無需 PDF 提取即可由機器讀取。SEC 的 EDGAR 系統提供 RESTful API,為標準化行項目提供 JSON 格式數據。然而,XBRL 有其局限性:自定義行項目可能標記不一致,非 GAAP 指標很少提供,分部數據可能缺失,且呈現順序可能與原始申報文件不符。PDF 提取仍然是獲取完整、呈現一致的財務數據最可靠的來源。
建立時間序列試算表
一旦您擁有多年的提取數據,請創建一個以年份為欄、指標為列的主試算表。導入每年的數據,驗證重疊年份在不同報告中是否匹配,添加增長率和比率的計算行,並標記任何破壞可比性的重述。
品質檢查:驗證提取的數據
自動化提取雖然快速,但您應始終驗證輸出。年報包含內置的交叉檢查,使驗證變得簡單明瞭。
資產負債表等式
最基本的檢查:總資產 = 總負債 + 總股東權益。
如果這個等式在您的提取數據中不成立,則說明出了問題。可能是數字被誤讀、漏掉了一列,或是欄位錯位。這項單一檢查可以捕捉到很大比例的提取錯誤。
損益表流程
營收減去所有費用應等於淨利。驗證算式:
營收
- 銷貨成本
= 毛利
- 營業費用
= 營業利益
- 利息支出
+ 利息收入
- 所得稅費用
= 淨利
如果小計不符,請檢查哪些行項目被遺漏或提取錯誤。
現金流量調節
現金流量表以淨利開始,以現金變動結束。該期末變動應與資產負債表上期初和期末現金之間的差額一致。
期初現金餘額 (來自資產負債表)
+ 現金淨變動 (來自現金流量表)
= 期末現金餘額 (來自資產負債表)
合理性與抽查
掃描提取的數據中是否存在不合理的數值:營收同比變化超過 50%、總資產為負、EPS 與淨利除以流通股數不符,或利潤率超出行業常態(製造業 90% 的淨利率可能暗示小數點錯誤)。然後隨機挑選三到五個數字,回到原始 PDF 驗證它們是否匹配。這只需 30 秒,卻能捕捉到從錯誤欄位提取數據等系統性錯誤。
獲得更好提取結果的技巧
使用數位年報,而非掃描副本。數位 PDF 的提取準確度遠高於掃描文件。對於美國上市公司,請始終從 SEC EDGAR(申報文件定義上是數位的)或公司投資者關係頁面下載。避免使用掃描回 PDF 的列印報告,以及為行銷設計、包含大量圖像的「精美」年報。
使用 10-K,而非致股東年報。上市公司通常同時製作 10-K 申報文件(標準化財務報表)和致股東年報(帶有精美照片的行銷文件)。10-K 具有標準化的 GAAP 呈現、一致的表格格式、完整的腳註,且始終可以從 EDGAR 獲得數位 PDF。
在提取前識別報告單位。在每份財務報表的頂部都有類似「單位:百萬,除每股金額外」或「單位:千」的說明。如果您忽略了這一點,營收數字「45,231」可能是 452 億美元,也可能是 4520 萬美元。請務必檢查並應用正確的乘數。
注意財政年度差異。並非所有公司都使用日曆年作為財政年度。Apple 在 9 月結束,Walmart 在 1 月,Microsoft 在 6 月。財政年度結束日期標註在每份財務報表的頂部。
留意重述。當公司重述前幾年的財務數據時,重述後的數字會出現在當年的年報中。2025 年報告中的 2024 數據可能與 2024 年報告中的 2024 數據不同。在建立時間序列時,請始終使用最近重述的數據。
開始使用
年報提取不需要是一個手動且容易出錯的過程。實務工作流程:從 SEC EDGAR 下載 10-K,將其上傳到 PDFSub 的 提取表格 工具或 財務報告分析器,查看輸出,匯出至 Excel 或 CSV,執行上述品質檢查,並將驗證後的數據導入您的財務模型。
PDFSub 提供 7 天免費試用,因此您可以針對實際年報測試提取工具。嘗試處理一份您之前手動提取過的 10-K,並比較結果——無論是準確性還是節省的時間。
對於定期處理年報的財務專業人士來說,自動化提取是一項競爭優勢。花 5 分鐘提取數據並花 55 分鐘進行分析的分析師,其表現將始終優於花 55 分鐘提取並僅花 5 分鐘分析的分析師。