Wichtige Kennzahlen aus Geschäftsberichten automatisch extrahieren
Geschäftsberichte vergraben kritische Finanzdaten in PDFs mit 100-300 Seiten. Hier erfahren Sie, wie Sie Umsatz, Nettogewinn, EPS, Cashflow und andere wichtige Kennzahlen extrahieren, ohne Zahlen manuell aus Tabellen in Tabellenkalkulationen zu kopieren.
Sie haben gerade einen Geschäftsbericht mit 247 Seiten heruntergeladen. Irgendwo darin befinden sich die zwölf Zahlen, die Sie tatsächlich benötigen: Umsatz, Nettogewinn, Gewinn pro Aktie, Gesamtvermögen, Gesamtverbindlichkeiten, operativer Cashflow, EBITDA und eine Handvoll Margen. Der Rest ist Standardtext, rechtliche Offenlegungen und Stockfotos von lächelnden Mitarbeitern.
Das Finden dieser Zahlen ist nicht das Schwierigste. Sie befinden sich im Abschnitt Finanzberichte, normalerweise ab Seite 80. Das Schwierige ist, sie aus dem PDF zu extrahieren und in einem Format in Ihr Modell zu bekommen, mit dem Sie tatsächlich arbeiten können. Und dann das Gleiche für die nächsten zwanzig Unternehmen in Ihrem Abdeckungsbereich zu tun. Und dann das Gleiche für die letzten fünf Jahre jedes Unternehmens zu tun, um eine Zeitreihe zu erstellen.
Dies ist das Problem der Extraktion von Geschäftsberichten, und es kostet Analysten im Bereich Aktienresearch, Kreditanalysten und Portfoliomanagern jedes Jahr Tausende von Stunden. Der globale Markt für Datenextraktionssoftware wird voraussichtlich bis 2029 3,64 Milliarden US-Dollar erreichen und mit 15,9 % jährlich wachsen, hauptsächlich angetrieben von Finanzprofis, die es leid sind, Zahlen aus PDF-Tabellen in Excel zu kopieren.
Diese Anleitung behandelt, was die Extraktion von Geschäftsberichten besonders schwierig macht, welche Kennzahlen Ziel sind und wie der Prozess automatisiert werden kann, damit Sie Ihre Zeit mit der Analyse statt mit der Dateneingabe verbringen können.
Die Herausforderung der Extraktion von Geschäftsberichten
Geschäftsberichte sind keine gewöhnlichen PDF-Dokumente. Ein Kontoauszug hat eine vorhersehbare Struktur: Datum, Beschreibung, Betrag, Saldo, wiederholt für jede Transaktion. Eine Rechnung hat einen Kopfzeile, Posten und eine Gesamtsumme. Diese Dokumente folgen Mustern, die Extraktionswerkzeuge schnell lernen können.
Geschäftsberichte sind anders. Es sind lange, komplexe und strukturell inkonsistente Dokumente, die Folgendes kombinieren:
- Fließender Erzähltext im Brief des CEO, im Management Discussion and Analysis (MD&A) und in den Risikofaktor-Abschnitten
- Dichte Finanztabellen in der Gewinn- und Verlustrechnung, der Bilanz und der Kapitalflussrechnung
- Fußnoten und Anmerkungen, die die Zahlen in diesen Tabellen qualifizieren, anpassen oder neu darstellen
- Diagramme und Grafiken, die Trends visualisieren, aber keine maschinenlesbaren Daten enthalten
- Segmentberichterstattungstabellen mit Aufschlüsselungen nach Geografie, Geschäftsbereich oder Produktlinie
- Mehrjährige Vergleiche, die Daten von zwei oder drei Jahren nebeneinander darstellen
Eine typische 10-K-Einreichung umfasst 100 bis 300 Seiten. Die Finanzberichte selbst können 30 bis 40 Seiten umfassen, aber die Anmerkungen zu den Finanzberichten – wo die wirklichen Details stecken – können weitere 50 oder 60 Seiten umfassen. Der Rest ist juristische Sprache, Risikofaktoren, Tabellen zur Vergütung von Führungskräften und Offenlegungen zur Unternehmensführung.
Warum Standard-Kopieren-Einfügen fehlschlägt
Wenn Sie jemals versucht haben, eine Tabelle in einem PDF-Geschäftsbericht auszuwählen und in Excel einzufügen, kennen Sie das Ergebnis: Spalten verschmelzen, Zahlen werden in die falschen Zeilen umgebrochen und Fußnotenmarkierungen werden in Ihre Daten eingebettet.
PDFs enthalten keine Tabellen. Sie enthalten einzelne Zeichen, die an präzisen x,y-Koordinaten auf einer Zeichenfläche positioniert sind. Was wie eine saubere Tabelle aussieht, sind tatsächlich Hunderte von separaten Textpositionierungsbefehlen ohne Zeilentrennzeichen, Spaltengrenzen oder Zellreferenzen. Kopieren-Einfügen ignoriert diese räumlichen Beziehungen vollständig.
Geschäftsberichte verschlimmern dies, da mehrzeilige Zeilenüberschriften wie „Nettogewinn, der den Stammaktionären zurechenbar ist“ eine einzelne Zeile bilden müssen. Negative Angaben in Klammern wie (1.234) sind drei separate positionierte Elemente, die sich in separate Zellen aufteilen. Fußnoten-Hochzahlen verderben Zahlen. Und Vergleichsspalten verschmelzen häufig.
Der Albtraum der manuellen Extraktion
Der traditionelle Ansatz ist rohe Gewalt. Ein Analyst öffnet den Geschäftsbericht, navigiert zur Gewinn- und Verlustrechnung und tippt jede Zahl manuell in eine Tabellenkalkulation. Dann die Bilanz. Dann die Kapitalflussrechnung. Dann die Segmentdaten. Dann die Fußnoten.
Für ein einzelnes Unternehmen dauert dies 30 bis 60 Minuten. Aber Finanzanalysen umfassen selten nur ein Unternehmen. Aktienanalysten decken typischerweise 10 bis 25 Unternehmen ab. Kreditanalysten benötigen möglicherweise Daten von 50 oder mehr Kreditnehmern. Zwanzig Unternehmen à 45 Minuten sind 15 Stunden Dateneingabe pro Berichtszeitraum – 60 Stunden pro Jahr nur für das Kopieren von Zahlen aus PDFs.
Die Fehlerrate verschlimmert es. Manuelle Dateneingabe hat eine dokumentierte Fehlerrate von 1 bis 4 Prozent. Eine Umsatzangabe von 4.521 Millionen US-Dollar, eingegeben als 4.512 Millionen US-Dollar, verfälscht Ihre Wachstumsrate, Margenberechnungen, das EV/Umsatz-Multiple und jede nachgelagerte Prognose, die davon abhängt.
Was Analysten tatsächlich extrahieren
Nicht jede Zahl in einem Geschäftsbericht ist gleich wichtig. Finanzprofis zielen typischerweise auf eine bestimmte Reihe von Kennzahlen ab, je nach Anwendungsfall. Hier ist, worauf sich die meisten Extraktions-Workflows konzentrieren.
Kennzahlen der Gewinn- und Verlustrechnung
| Kennzahl | Warum sie wichtig ist | Wo sie zu finden ist |
|---|---|---|
| Umsatz / Nettoumsatz | Umsatzwachstum, der Ausgangspunkt für die meisten Bewertungsmodelle | Gewinn- und Verlustrechnung, erste Zeile |
| Herstellungskosten der verkauften Produkte (COGS) | Berechnung der Bruttogewinnmarge, Effizienz der Lieferkette | Gewinn- und Verlustrechnung, unter Umsatz |
| Bruttogewinn | Umsatz abzüglich COGS, misst die Rentabilität der Produktion | Gewinn- und Verlustrechnung, berechnet |
| Betriebsergebnis (EBIT) | Rentabilität des Kerngeschäfts vor Zinsen und Steuern | Gewinn- und Verlustrechnung, mittlerer Abschnitt |
| EBITDA | Cash-orientierte Rentabilität, verwendet in EV/EBITDA-Multiplikatoren | Oft im MD&A oder berechnet aus der Gewinn- und Verlustrechnung + D&A aus dem Cashflow |
| Nettogewinn | Bottom-Line-Gewinn nach allen Ausgaben, Steuern und Zinsen | Gewinn- und Verlustrechnung, nahe unten |
| Gewinn pro Aktie (Stammaktien, verwässert) | Rentabilität pro Aktie, treibt KGV-Verhältnisse an | Gewinn- und Verlustrechnung, letzte Zeilen |
Kennzahlen der Bilanz
| Kennzahl | Warum sie wichtig ist | Wo sie zu finden ist |
|---|---|---|
| Gesamtvermögen | Unternehmensgröße, Verschuldungsberechnungen | Bilanz, Gesamtvermögen |
| Gesamtverbindlichkeiten | Schuldenlast, Solvenzbewertung | Bilanz, Gesamtverbindlichkeiten |
| Gesamteigenkapital / Eigenkapital der Aktionäre | Nettovermögen, Buchwertberechnungen | Bilanz, Gesamteigenkapital |
| Gesamtschulden (kurzfristig + langfristig) | Verschuldungsgrade, Zinsdeckungsgrad | Bilanz + Fußnoten |
| Zahlungsmittel und Zahlungsmitteläquivalente | Liquidität, Nettoverschuldungsberechnungen | Bilanz, erstes Umlaufvermögen |
| Umlaufvermögen / kurzfristige Verbindlichkeiten | Betriebskapital, Current Ratio | Bilanz-Gesamtposten |
Kennzahlen der Kapitalflussrechnung
| Kennzahl | Warum sie wichtig ist | Wo sie zu finden ist |
|---|---|---|
| Operativer Cashflow | Vom Kerngeschäft generiertes Geld | Kapitalflussrechnung, erster Abschnitt |
| Investitionsausgaben | Investition in Wachstum, Berechnung des freien Cashflows | Cashflow aus Investitionstätigkeit |
| Freier Cashflow | Verfügbares Geld nach Aufrechterhaltung des Betriebs | Operativer Cashflow minus Capex |
| Gezahlte Dividenden | Aktionärsrenditen, Ausschüttungsquote | Cashflow aus Finanzierungstätigkeit |
Abgeleitete Verhältnisse und Margen
Sobald Rohdaten extrahiert sind, berechnen Analysten:
- Bruttogewinnmarge: Bruttogewinn / Umsatz
- Betriebsgewinnmarge: Betriebsergebnis / Umsatz
- Nettogewinnmarge: Nettogewinn / Umsatz
- Eigenkapitalrendite (ROE): Nettogewinn / Eigenkapital der Aktionäre
- Gesamtkapitalrendite (ROA): Nettogewinn / Gesamtvermögen
- Schulden zu Eigenkapital: Gesamtschulden / Gesamteigenkapital
- Current Ratio: Umlaufvermögen / kurzfristige Verbindlichkeiten
- Zinsdeckungsgrad: EBIT / Zinsaufwand
Diese Verhältnisse erfordern eine saubere, genaue Extraktion der zugrunde liegenden Komponenten. Eine falsche Zahl verdirbt das gesamte Verhältnis.
Strukturierte Daten, vergraben in unstrukturierten Dokumenten
Die zentrale technische Herausforderung besteht darin, dass strukturierte Daten – Zahlen mit präzisen Bedeutungen und Beziehungen – in unstrukturierten Dokumenten eingebettet sind. Ein Finanzbericht ist eine Tabelle, aber er befindet sich in einem PDF, das auch Erzählabsätze, rechtliche Haftungsausschlüsse, Bilder und Kopfzeilen enthält.
Dies führt zu mehreren Extraktionsproblemen, die über die einfache Tabellenerkennung hinausgehen:
- Kontextabhängige Zahlen. Die Zahl „12.345“ bedeutet je nach ihrem Auftreten etwas anderes. In der Umsatzzeile bedeutet sie 12.345 Millionen (oder Tausend, je nach angegebener Berichtseinheit am Anfang der Finanzberichte). Bei der Vergütung von Führungskräften kann es sich um 12.345 US-Dollar handeln. Eine effektive Extraktion erfordert das Verständnis, zu welchem Abschnitt eine Zahl gehört und was die Spaltenüberschriften und die Einheitenangabe besagen.
- Verschachtelte und übergreifende Tabellen. Tabellen in Geschäftsberichten verwenden zusammengeführte Zellen für Abschnittsüberschriften, eingerückte Unterpunkte unter übergeordneten Kategorien, Zwischensummen, die zwischen den einzelnen Posten stehen, mehrjährige Vergleichsspalten und leere Trennzeilen. Ein einfaches Extraktionswerkzeug behandelt jedes visuelle Element als Datenpunkt und erzeugt falsch ausgerichtete Tabellenkalkulationen voller Phantomzeilen und zusammengeführter Werte.
- Fußnotenverweise. Umsatz von „12.345^(1)“ wird zu „12345 1“, wenn er ohne semantisches Verständnis extrahiert wird. Der Hochstellindex ist ein separates positioniertes Zeichen im PDF. Extraktionswerkzeuge entfernen ihn entweder (wodurch der Verweis verloren geht) oder schließen ihn ein (wodurch die Zahl verfälscht wird).
Wie KI-Extraktion Geschäftsberichte verarbeitet
Die KI-gestützte Extraktion verfolgt einen grundlegend anderen Ansatz. Anstatt sich ausschließlich auf räumliche Analysen zu verlassen – Erkennung von Zeilen und Spalten basierend auf Zeichenpositionen –, kombiniert sie räumliches Bewusstsein mit semantischem Verständnis.
Layout-bewusste Tabellenerkennung geht über die Suche nach Gitterlinien hinaus (viele Finanztabellen haben keine sichtbaren Rahmen). Das System analysiert Zeichenabstandsmuster, Dezimalpunktausrichtung, Formatierungswiederholungen und Kopfzeilen, um Tabellengrenzen zu erkennen. Es kann einen Erzähltext, der zufällig Zahlen enthält, von einer Tabelle mit Finanzdaten mit ausgerichteten Spalten unterscheiden.
Semantische Felderkennung identifiziert, was jede Spalte und Zeile darstellt. Sie erkennt, dass „Umsatz“, „Nettoumsatz“, „Gesamtumsatz“ und „Nettoerlöse“ alle dasselbe Konzept bezeichnen. Sie versteht, dass „(1.234)“ in einem Finanzkontext negativ 1.234 bedeutet und kein Fußnotenverweis ist. Dies ist wichtig, da die Namenskonventionen zwischen Unternehmen stark variieren – eines berichtet „Eigenkapital der Aktionäre“, während ein anderes „Aktionärsvermögen“ oder „Gesamteigenkapital“ verwendet.
Mehrseitige Tabellenfortsetzungen werden durch Erkennung wiederholter Kopfzeilenmuster und konsistenter Spaltenausrichtung über Seitenumbrüche hinweg behandelt. Die Gewinn- und Verlustrechnung kann auf Seite 84 beginnen und auf Seite 85 fortgesetzt werden, und die KI-Extraktion fügt die Daten zu einer einzigen kohärenten Tabelle zusammen.
Wichtige Abschnitte, die in Geschäftsberichten zu berücksichtigen sind
Nicht jeder Abschnitt eines Geschäftsberichts enthält extrahierbare Finanzdaten. Zu wissen, worauf man sich konzentrieren muss, spart Zeit und verbessert die Genauigkeit.
Finanzberichte sind das primäre Extraktionsziel: die konsolidierten Gewinn- und Verlustrechnungen, Bilanzen, Kapitalflussrechnungen und Eigenkapitalveränderungsrechnungen. Diese vier Berichte enthalten die Rohdaten, die Finanzmodelle antreiben.
Management Discussion and Analysis (MD&A) ist, wo das Management die Zahlen erklärt. Sie enthält oft Non-GAAP-Kennzahlen wie bereinigtes EBITDA und freien Cashflow, segmentbezogene Aufschlüsselungen und zukunftsgerichtete Prognosen – alles eingebettet in Erzähltext statt in Tabellen. KI-Extraktion kann diese Zahlen identifizieren und abrufen, aber sie erfordern mehr kontextuelles Verständnis als Tabellendaten.
Segmentberichterstattung gliedert die Ergebnisse nach Geschäftsbereich, Geografie oder Produktlinie auf. Diese Daten sind für die Sum-of-the-Parts-Bewertung unerlässlich. Segmenttabellen haben oft nicht standardmäßige Strukturen mit Segmentnamen als Spaltenüberschriften und konzerninternen Eliminierungen, die negative Zeilen hinzufügen.
Anmerkungen zu den Finanzberichten enthalten die detailliertesten Daten: Schuldenpläne mit Fälligkeitsterminen, Umsatzaufschlüsselungen nach Produkten oder Geografien, Leasingverpflichtungen, Pensionsdetails, Steuerquellenbereinigungen und Goodwill-Aufschlüsselungen nach Segmenten. Diese sind am schwierigsten zu extrahieren, da sie Erzähltext mit kleinen eingebetteten Tabellen mischen.
Risikofaktoren sind meist qualitativ, enthalten aber manchmal quantitative Angaben: Konzentrationsrisikoprozentsätze, Rechtsstreitigkeitenrückstellungen oder regulatorische Kapitalanforderungen, die in Absätzen juristischer Sprache vergraben sind.
Extrahieren von Geschäftsberichtsdaten mit PDFSub
PDFSub bietet zwei Werkzeuge, die speziell für die Extraktion von Geschäftsberichten geeignet sind: das Tabellen extrahieren-Werkzeug und den Finanzbericht-Analysator.
Tabellen extrahieren: Finanzberichte in Tabellenkalkulationen ziehen
Das Werkzeug „Tabellen extrahieren“ erkennt und extrahiert tabellarische Daten aus PDF-Dokumenten. Für Geschäftsberichte bedeutet dies:
- Laden Sie die PDF-Datei des Geschäftsberichts hoch – Ziehen Sie die Datei per Drag & Drop. Bei digitalen PDFs, die von SEC EDGAR oder den Investor-Relations-Seiten von Unternehmen heruntergeladen wurden, erfolgt die anfängliche Verarbeitung in Ihrem Browser. Die Datei verlässt Ihr Gerät nicht, es sei denn, eine serverseitige KI-Verarbeitung ist erforderlich.
- Automatische Tabellenerkennung – Das Werkzeug identifiziert alle Tabellenbereiche im Dokument, einschließlich mehrseitiger Tabellen, die sich über Seitenumbrüche erstrecken.
- Extrahierte Tabellen überprüfen – Jede erkannte Tabelle wird mit ihren extrahierten Daten angezeigt. Sie können überprüfen, ob die Spalten korrekt ausgerichtet sind und die Werte korrekt sind.
- Export nach Excel oder CSV – Laden Sie die extrahierten Tabellen in Formaten herunter, die für die Finanzmodellierung bereit sind.
Dieser Ansatz funktioniert gut für die Kernfinanzberichte (Gewinn- und Verlustrechnung, Bilanz, Kapitalflussrechnung), bei denen die Daten in klarem Tabellenformat dargestellt werden.
Finanzbericht-Analysator: KI-gestützte Kennzahlenextraktion
Der Finanzbericht-Analysator geht über die Tabellenextraktion hinaus. Er verwendet KI, um das gesamte Dokument zu lesen, seine Struktur zu verstehen und spezifische Finanzkennzahlen zu extrahieren – einschließlich derjenigen, die in Erzähltexten oder Fußnoten eingebettet sind.
Für Geschäftsberichte kann der Analysator:
- Wichtige Finanzkennzahlen in allen Abschnitten des Dokuments identifizieren und extrahieren
- Non-GAAP-Kennzahlen aus dem MD&A-Abschnitt abrufen
- Segmentdaten aus Berichtstabellen extrahieren
- Unterschiedliche Benennungskonventionen für dieselbe Kennzahl erkennen und verarbeiten
- Kontext für extrahierte Zahlen liefern, einschließlich des Berichtszeitraums und der Maßeinheit
Kombination beider Werkzeuge
Der effektivste Workflow für Geschäftsberichte kombiniert beide Ansätze:
- Verwenden Sie Tabellen extrahieren, um die strukturierten Finanzberichte (Gewinn- und Verlustrechnung, Bilanz, Kapitalflussrechnung) mit voller tabellarischer Genauigkeit in Excel zu ziehen.
- Verwenden Sie den Finanzbericht-Analysator, um spezifische Kennzahlen aus Erzähltexten, Fußnoten und nicht standardmäßigen Tabellen zu extrahieren.
- Kreuzreferenzieren Sie die Ergebnisse, um die Genauigkeit zu überprüfen.
Beide Werkzeuge sind mit der 7-tägigen kostenlosen Testversion von PDFSub verfügbar, sodass Sie sie gegen Ihre tatsächlichen Geschäftsberichte testen können, bevor Sie sich festlegen.
Export nach Excel und CSV für die Finanzmodellierung
Die Extraktion ist nur nützlich, wenn die Ausgabe in Ihren Workflow passt. Extrahierte Tabellen werden als .xlsx-Dateien mit korrekt typisierten numerischen Zellen, beibehaltener Spaltenausrichtung, separaten Blättern für jede Tabelle und sauberen Kopfzeilen exportiert. Für Analysten, die CSV bevorzugen (üblich für Datenbanken und Skripting-Tools), erhalten Sie eine durch Kommas getrennte Ausgabe mit UTF-8-Kodierung und einer Datei pro extrahierter Tabelle.
Ein typischer Workflow nach der Extraktion: Extrahieren Sie die Gewinn- und Verlustrechnung, die Bilanz und die Kapitalflussrechnung; importieren Sie die drei Tabellen in Ihre Modellvorlage; ordnen Sie Feldnamen Ihren standardisierten Zeilenbeschriftungen zu; überprüfen Sie, ob die Summen übereinstimmen; berechnen Sie abgeleitete Verhältnisse; und erstellen Sie Zeitreihen, indem Sie den Vorgang für Berichte aus früheren Jahren wiederholen. Dies ersetzt manuelle Eingaben und reduziert die End-to-End-Zeit von 45 Minuten auf unter 5 Minuten pro Unternehmen.
Anwendungsfälle: Wer extrahiert Geschäftsberichtsdaten
Aktienresearch. Analysten erstellen Finanzmodelle mit 5 bis 10 Jahren historischen Daten und 3 bis 5 Jahren Prognosen. Ein Abdeckungsbereich von 15 Unternehmen bedeutet die Extraktion von Daten aus 15 Geschäftsberichten und 60 Quartalsberichten pro Jahr. Automatisierte Extraktion verwandelt dies von einer mehrtägigen Dateneingabeübung in eine Aufgabe, die am selben Tag erledigt werden kann.
Kreditanalyse. Kreditanalysten bewerten die Kreditwürdigkeit von Kreditnehmern anhand von Kennzahlen wie Schulden/EBITDA (Verschuldung), EBITDA/Zinsaufwand (Deckung), Current Ratio (Liquidität) und Schulden/Gesamtkapitalisierung (Kapitalstruktur). Das Kreditportfolio einer Geschäftsbank kann Hunderte von Kreditnehmern umfassen, von denen jeder jährliche Finanzberichte einreicht, aus denen diese Kennzahlen extrahiert werden müssen.
Benchmarking und Wettbewerbsanalyse. Der Vergleich eines Unternehmens mit seinen Wettbewerbern erfordert die Extraktion derselben Kennzahlen aus 5 bis 15 Geschäftsberichten, normalisiert für unterschiedliche Geschäftsjahresenden, Berichtseinheiten und Rechnungslegungsstandards (US GAAP vs. IFRS).
Portfolio-Überwachung. Investmentmanager, die 30 bis 100 Beteiligungen verfolgen, extrahieren vierteljährlich eine Standardreihe von Überwachungskennzahlen: Umsatzwachstum, EBITDA-Margenentwicklung, Nettoverschuldung/EBITDA, Free Cashflow-Rendite und Return on Invested Capital. Automatisierte Extraktion macht dies in großem Maßstab möglich.
Mehrjährige Extraktion: Erstellung von Zeitreihendaten
Finanzanalyse befasst sich grundlegend mit Trends: Beschleunigt sich der Umsatz? Expandieren die Margen? Dekonsolidiert sich das Unternehmen? Um diese Fragen zu beantworten, sind Zeitreihendaten über mindestens drei bis fünf Jahre erforderlich.
Ansatz 1: Extraktion aus jedem Geschäftsbericht
Geschäftsberichte präsentieren typischerweise zwei Jahre an Gewinn- und Verlustrechnungsdaten (aktuelles Jahr und Vorjahr) und zwei Jahre an Bilanzdaten. Einige enthalten dreijährige Vergleichsgewinn- und -verlustrechnungen.
Um eine fünfjährige Zeitreihe zu erstellen, müssen Sie aus drei Geschäftsberichten extrahieren:
- Geschäftsbericht 2025: Enthält Daten von 2025 und 2024
- Geschäftsbericht 2023: Enthält Daten von 2023 und 2022
- Geschäftsbericht 2021: Enthält Daten von 2021 und 2020
Dies liefert Ihnen überlappende Jahre (2024 erscheint sowohl im Bericht von 2025 als auch im Bericht von 2024), die als Querverweis dienen.
Ansatz 2: Verwendung der ausgewählten Finanzdaten im 10-K
Einige Unternehmen enthalten eine Tabelle „Ausgewählte Finanzdaten“, die fünf bis zehn Jahre wichtiger Kennzahlen in einer einzigen Tabelle darstellt. Wenn verfügbar, ist dies der schnellste Weg zu einer mehrjährigen Zeitreihe. Die SEC hat jedoch 2021 die Anforderung für diese Tabelle abgeschafft, und viele Unternehmen haben sie seitdem gestrichen.
Ansatz 3: Extraktion aus SEC EDGAR XBRL-Daten
Für börsennotierte US-Unternehmen enthalten SEC-Einreichungen XBRL-getaggte Daten, die maschinenlesbar sind, ohne dass eine PDF-Extraktion erforderlich ist. Das EDGAR-System der SEC bietet RESTful APIs, die JSON-formatierte Daten für standardisierte Zeilen liefern. XBRL hat jedoch Einschränkungen: benutzerdefinierte Zeilen sind möglicherweise nicht konsistent getaggt, Non-GAAP-Kennzahlen sind selten verfügbar, Segmentdaten fehlen möglicherweise und die Darstellungsreihenfolge entspricht möglicherweise nicht der ursprünglichen Einreichung. Die PDF-Extraktion bleibt die zuverlässigste Quelle für vollständige, präsentationskonsistente Finanzdaten.
Erstellung der Zeitreihen-Tabellenkalkulation
Sobald Sie mehrere Jahre extrahierter Daten haben, erstellen Sie eine Master-Tabellenkalkulation mit Jahren als Spalten und Kennzahlen als Zeilen. Importieren Sie die Daten jedes Jahres, überprüfen Sie, ob überlappende Jahre zwischen den Berichten übereinstimmen, fügen Sie berechnete Zeilen für Wachstumsraten und Verhältnisse hinzu und kennzeichnen Sie alle Neuberechnungen, die die Vergleichbarkeit beeinträchtigen.
Qualitätsprüfungen: Überprüfung extrahierter Daten
Automatisierte Extraktion ist schnell, aber Sie sollten die Ergebnisse immer überprüfen. Geschäftsberichte enthalten integrierte Querverweise, die die Überprüfung vereinfachen.
Die Bilanzgleichung
Die grundlegendste Prüfung: Gesamtvermögen = Gesamtverbindlichkeiten + Eigenkapital der Aktionäre.
Wenn diese Gleichung in Ihren extrahierten Daten nicht gilt, ist etwas schiefgelaufen. Entweder wurde eine Zahl falsch gelesen, eine Zeile übersprungen oder Spalten falsch ausgerichtet. Diese einzelne Prüfung fängt einen großen Prozentsatz der Extraktionsfehler ab.
Gewinn- und Verlustrechnungsfluss
Der Umsatz abzüglich aller Ausgaben sollte dem Nettogewinn entsprechen. Überprüfen Sie die Arithmetik:
Umsatz
- Herstellungskosten der verkauften Produkte
= Bruttogewinn
- Betriebskosten
= Betriebsergebnis
- Zinsaufwand
+ Zinsertrag
- Steueraufwand
= Nettogewinn
Wenn die Zwischensummen nicht aufgehen, prüfen Sie, welche Posten fehlten oder falsch extrahiert wurden.
Abgleich der Kapitalflüsse
Die Kapitalflussrechnung beginnt mit dem Nettogewinn und endet mit der Veränderung des Zahlungsmittelbestands. Diese Endveränderung sollte mit der Differenz zwischen dem Anfangs- und Endbestand an Zahlungsmitteln in der Bilanz übereinstimmen.
Anfangssaldo Zahlungsmittel (aus Bilanz)
+ Nettoveränderung Zahlungsmittel (aus Kapitalflussrechnung)
= Endsaldo Zahlungsmittel (aus Bilanz)
Plausibilitäts- und Stichprobenprüfungen
Scannen Sie extrahierte Daten auf unglaubwürdige Werte: Umsatzänderungen von mehr als 50 % im Jahresvergleich, negatives Gesamtvermögen, EPS, das nicht dem Nettogewinn geteilt durch die ausgegebenen Aktien entspricht, oder Margen außerhalb der Branchennormen (eine Nettomarge von 90 % im verarbeitenden Gewerbe deutet auf einen Dezimalfehler hin). Wählen Sie dann drei bis fünf Zahlen zufällig aus, gehen Sie zurück zum Original-PDF und überprüfen Sie, ob sie übereinstimmen. Dies dauert 30 Sekunden und fängt systematische Fehler wie die Extraktion von Daten aus der falschen Spalte ab.
Tipps für bessere Extraktionsergebnisse
Verwenden Sie digitale Geschäftsberichte, keine gescannten Kopien. Digitale PDFs lassen sich weitaus genauer extrahieren als gescannte Dokumente. Laden Sie für börsennotierte US-Unternehmen immer von SEC EDGAR (Einreichungen sind per Definition digital) oder von den Investor-Relations-Seiten des Unternehmens herunter. Vermeiden Sie gedruckte Berichte, die wieder in PDF gescannt wurden, und bildlastige „Hochglanz“-Geschäftsberichte, die für Marketingzwecke konzipiert sind.
Verwenden Sie das 10-K, nicht den Geschäftsbericht für Aktionäre. Börsennotierte Unternehmen erstellen oft sowohl eine 10-K-Einreichung (standardisierte Finanzberichte) als auch einen Geschäftsbericht für Aktionäre (Marketingdokument mit Hochglanzfotos). Das 10-K hat eine standardisierte GAAP-Darstellung, eine konsistente Tabellenformatierung, vollständige Fußnoten und ist immer als digitale PDF von EDGAR verfügbar.
Identifizieren Sie die Berichtseinheit vor der Extraktion. Am Anfang jedes Finanzberichts steht eine Notiz wie „in Millionen, außer Beträge pro Aktie“ oder „in Tausend“. Wenn Sie dies übersehen, kann eine Umsatzangabe von „45.231“ 45,2 Milliarden US-Dollar oder 45,2 Millionen US-Dollar bedeuten. Prüfen Sie immer und wenden Sie den richtigen Multiplikator an.
Berücksichtigen Sie Unterschiede im Geschäftsjahr. Nicht alle Unternehmen verwenden ein Kalendergeschäftsjahr. Apple endet im September, Walmart im Januar, Microsoft im Juni. Das Enddatum des Geschäftsjahres wird am Anfang jedes Finanzberichts angegeben.
Achten Sie auf Neuberechnungen. Wenn ein Unternehmen Vorjahresfinanzzahlen neu berechnet, erscheinen die neu berechneten Zahlen im Geschäftsbericht des aktuellen Jahres. Die Daten von 2024 im Bericht von 2025 können von den Daten von 2024 im Bericht von 2024 abweichen. Verwenden Sie immer die zuletzt neu berechneten Zahlen, wenn Sie Zeitreihen erstellen.
Erste Schritte
Die Extraktion von Geschäftsberichten muss kein manueller, fehleranfälliger Prozess sein. Der praktische Workflow: Laden Sie das 10-K von SEC EDGAR herunter, laden Sie es in das Tabellen extrahieren-Werkzeug oder den Finanzbericht-Analysator von PDFSub hoch, überprüfen Sie die Ausgabe, exportieren Sie nach Excel oder CSV, führen Sie die oben beschriebenen Qualitätsprüfungen durch und importieren Sie die verifizierten Daten in Ihr Finanzmodell.
PDFSub bietet eine 7-tägige kostenlose Testversion, damit Sie die Extraktionswerkzeuge gegen Ihre tatsächlichen Geschäftsberichte testen können. Probieren Sie es mit einem 10-K aus, das Sie zuvor manuell extrahiert haben, und vergleichen Sie die Ergebnisse – sowohl die Genauigkeit als auch die Zeitersparnis.
Für Finanzprofis, die regelmäßig Geschäftsberichte verarbeiten, ist die automatisierte Extraktion ein Wettbewerbsvorteil. Der Analyst, der 5 Minuten mit der Datenextraktion und 55 Minuten mit der Analyse verbringt, wird den Analysten, der 55 Minuten mit der Extraktion und 5 Minuten mit der Analyse verbringt, durchweg übertreffen.