PDFSub
PrijzenAPIMergeCompressEditE-SignBankafschriftenBlog
Terug naar Blog
GidsAIJaarverslagenData-extractieFinanciële Analyse

Extraheer Belangrijke Cijfers Automatisch uit Jaarverslagen

2 maart 2026
T
Todd Lahman
Founder, PDFSub

Jaarverslagen begraven kritieke financiële gegevens in PDF's van 100-300 pagina's. Hier leest u hoe u omzet, nettowinst, winst per aandeel, kasstroom en andere belangrijke cijfers extraheert zonder handmatig getallen uit tabellen naar spreadsheets te kopiëren.


U heeft zojuist een jaarverslag van 247 pagina's gedownload. Ergens daarin staan de twaalf getallen die u echt nodig heeft: omzet, nettowinst, winst per aandeel, totale activa, totale passiva, operationele kasstroom, EBITDA, en een paar marges. De rest is standaardtekst, juridische openbaarmakingen en stockfoto's van lachende werknemers.

Het vinden van die getallen is niet het moeilijkste deel. Ze staan in het gedeelte met financiële overzichten, meestal vanaf pagina 80. Het moeilijke deel is ze uit de PDF halen en in een bruikbaar formaat in uw model krijgen. En dat vervolgens opnieuw doen voor de volgende twintig bedrijven in uw coverage universe. En dat dan nog eens doen voor de laatste vijf jaar van elk bedrijf om een tijdreeks op te bouwen.

Dit is het probleem van de extractie uit jaarverslagen, en het kost analisten van aandelenonderzoek, kredietanalisten en portfoliomanagers duizenden uren per jaar. De wereldwijde markt voor data-extractiesoftware zal naar verwachting $3,64 miljard bereiken tegen 2029, met een jaarlijkse groei van 15,9%, grotendeels gedreven door financiële professionals die het zat zijn om getallen uit PDF-tabellen naar Excel te kopiëren.

Deze gids behandelt wat de extractie uit jaarverslagen uniek moeilijk maakt, welke cijfers u moet targeten, en hoe u het proces kunt automatiseren, zodat u uw tijd kunt besteden aan analyse in plaats van aan gegevensinvoer.

Extract key metrics from annual reports automatically - revenue, net income, EPS, cash flow, and more

De Uitdaging van de Extractie uit Jaarverslagen

Jaarverslagen zijn geen gewone PDF-documenten. Een bankafschrift heeft een voorspelbare structuur: datum, beschrijving, bedrag, saldo, herhaald voor elke transactie. Een factuur heeft een kop, regelitems en een totaal. Deze documenten volgen patronen die extractietools snel kunnen leren.

Jaarverslagen zijn anders. Het zijn lange, complexe en structureel inconsistente documenten die combineren:

  • Doorlopende verhalende tekst in de brief van de CEO, Management Discussion and Analysis (MD&A), en secties met risicofactoren
  • Dichte financiële tabellen in de resultatenrekening, balans en kasstroomoverzicht
  • Voetnoten en annotaties die de getallen in die tabellen kwalificeren, aanpassen of herzien
  • Grafieken en diagrammen die trends visualiseren maar geen machine-leesbare gegevens bevatten
  • Segmentrapportagetabellen met uitsplitsingen per geografie, bedrijfseenheid of productlijn
  • Vergelijkende meerjarige gegevens die twee of drie jaar aan gegevens naast elkaar presenteren

Een typische 10-K-aangifte is 100 tot 300 pagina's lang. De financiële overzichten zelf kunnen 30 tot 40 pagina's beslaan, maar de toelichtingen op de financiële overzichten - waar de echte details staan - kunnen nog eens 50 of 60 pagina's beslaan. De rest is juridische taal, risicofactoren, tabellen met beloning van leidinggevenden en openbaarmakingen over bestuur.

Waarom Standaard Kopiëren en Plakken Faalt

Als u ooit hebt geprobeerd een tabel in een PDF-jaarverslag te selecteren en naar Excel te plakken, kent u het resultaat: kolommen versmelten, getallen worden naar de verkeerde rijen afgebroken, en voetnootmarkers worden in uw gegevens ingebed.

PDF's bevatten geen tabellen. Ze bevatten individuele tekens op precieze x,y-coördinaten op een canvas. Wat eruitziet als een nette tabel, bestaat feitelijk uit honderden afzonderlijke tekstpositioneringscommando's zonder rijafbakeningen, kolomgrenzen of celverwijzingen. Kopiëren en plakken negeert deze ruimtelijke relaties volledig.

Jaarverslagen maken dit erger omdat meerregelige rijkoppen zoals "Nettowinst toerekenbaar aan gewone aandeelhouders" één enkele rij moeten zijn. Negatieven tussen haakjes zoals $(1.234) zijn drie afzonderlijke gepositioneerde elementen die in aparte cellen worden opgesplitst. Voetnootsuperscripts corrumperen getallen. En vergelijkende kolommen versmelten vaak.

De Nachtmerrie van Handmatige Extractie

De traditionele aanpak is brute kracht. Een analist opent het jaarverslag, navigeert naar de resultatenrekening en typt handmatig elk getal in een spreadsheet. Dan de balans. Dan het kasstroomoverzicht. Dan de segmentgegevens. Dan de voetnoten.

Voor één bedrijf duurt dit 30 tot 60 minuten. Maar financiële analyse omvat zelden één bedrijf. Analisten van aandelenonderzoek dekken doorgaans 10 tot 25 bedrijven. Kredietanalisten hebben mogelijk gegevens nodig van 50 of meer leners. Twintig bedrijven à 45 minuten per stuk is 15 uur aan gegevensinvoer per rapportageperiode - 60 uur per jaar alleen al voor het kopiëren van getallen uit PDF's.

De foutmarge maakt het erger. Handmatige gegevensinvoer heeft een gedocumenteerde foutmarge van 1 tot 4 procent. Een omzetcijfer van $4.521 miljoen getypt als $4.512 miljoen verstoort uw groeipercentage, margeberekeningen, EV/Omzet-multiple en elke daaropvolgende prognose die ervan afhankelijk is.

Wat Analisten Werkelijk Extraheren

Niet elk getal in een jaarverslag is even belangrijk. Financiële professionals richten zich doorgaans op een specifieke set van cijfers, afhankelijk van hun gebruikssituatie. Hier is waar de meeste extractieworkflows zich op richten.

Cijfers uit de Resultatenrekening

Cijfer Waarom het Belangrijk is Waar te Vinden
Omzet / Netto-omzet Groei aan de top, het startpunt voor de meeste waarderingsmodellen Resultatenrekening, eerste regel
Kostprijs van de Omzet (COGS) Berekening van de brutowinstmarge, efficiëntie van de toeleveringsketen Resultatenrekening, onder omzet
Brutowinst Omzet minus COGS, meet de winstgevendheid van de productie Resultatenrekening, berekend
Bedrijfsresultaat (EBIT) Winstgevendheid van de kernactiviteiten vóór rente en belastingen Resultatenrekening, middenstuk
EBITDA Cash-georiënteerde winstgevendheid, gebruikt in EV/EBITDA-multiples Vaak in MD&A of berekend uit resultatenrekening + D&A uit kasstroom
Nettowinst Winst aan de onderkant na alle kosten, belastingen en rente Resultatenrekening, onderaan
Winst per Aandeel (Basis & Verwaterd) Winstgevendheid per aandeel, drijft P/E-ratio's Resultatenrekening, laatste regels

Cijfers uit de Balans

Cijfer Waarom het Belangrijk is Waar te Vinden
Totale Activa Bedrijfsgrootte, berekeningen van de hefboomwerking Balans, totaal activa-sectie
Totale Passiva Schuldenlast, solvabiliteitsbeoordeling Balans, totaal passiva-sectie
Totaal Eigen Vermogen / Aandeelhouderskapitaal Netto waarde, berekeningen van de boekwaarde Balans, totaal eigen vermogen-sectie
Totale Schuld (Kortlopend + Langlopend) Hefboomratio's, rente-dekking Balans + voetnoten
Liquide Middelen Liquiditeit, berekeningen van de netto schuld Balans, eerste kortlopende activa
Kortlopende Activa / Kortlopende Passiva Werkkapitaal, current ratio Balans sectietotalen

Cijfers uit het Kasstroomoverzicht

Cijfer Waarom het Belangrijk is Waar te Vinden
Operationele Kasstroom Kas gegenereerd door kernactiviteiten Kasstroomoverzicht, eerste sectie
Kapitaaluitgaven (Capex) Investering in groei, berekening van vrije kasstroom Kasstroom uit investeringsactiviteiten
Vrije Kasstroom Beschikbare kas na onderhoud van operaties Operationele kasstroom minus capex
Uitbetaalde Dividenden Rendementen aan aandeelhouders, uitkeringsratio Kasstroom uit financieringsactiviteiten

Afgeleide Ratio's en Marges

Nadat de ruwe cijfers zijn geëxtraheerd, berekenen analisten:

  • Brutomarge: Brutowinst / Omzet
  • Operationele Marge: Bedrijfsresultaat / Omzet
  • Nettomarge: Nettowinst / Omzet
  • Return on Equity (ROE): Nettowinst / Eigen Vermogen
  • Return on Assets (ROA): Nettowinst / Totale Activa
  • Schuld/Eigen Vermogen: Totale Schuld / Totaal Eigen Vermogen
  • Current Ratio: Kortlopende Activa / Kortlopende Passiva
  • Rentabiliteit: EBIT / Rentelasten

Deze ratio's vereisen een schone, nauwkeurige extractie van de onderliggende componenten. Eén verkeerd getal corrumpeert de hele ratio.

Gestructureerde Gegevens Begraven in Ongestructureerde Documenten

De kern van de technische uitdaging is dat gestructureerde gegevens - getallen met precieze betekenissen en relaties - zijn ingebed in ongestructureerde documenten. Een financieel overzicht is een tabel, maar deze staat in een PDF die ook verhalende paragrafen, juridische disclaimers, afbeeldingen en paginakopteksten bevat.

Dit creëert verschillende extractieproblemen naast eenvoudige tabelherkenning:

  • Contextafhankelijke getallen. Het getal "12.345" betekent verschillende dingen, afhankelijk van waar het verschijnt. In de omzetregel betekent het $12.345 miljoen (of duizenden, afhankelijk van de rapportage-eenheid bovenaan de financiële overzichten). In de beloning van leidinggevenden kan het $12.345 in werkelijke dollars betekenen. Effectieve extractie vereist begrip van tot welke sectie een getal behoort en wat de kolomkoppen en de eenheid van meting zeggen.
  • Geneste en overlappende tabellen. Tabellen in jaarverslagen gebruiken samengevoegde cellen voor sectiekoppen, ingesprongen sub-items onder hoofdcategorieën, subtotaalregels afgewisseld met detailregels, vergelijkende kolommen over meerdere jaren, en lege scheidingsrijen. Een naïeve extractietool behandelt elk visueel element als een datapunt, wat resulteert in verkeerd uitgelijnde spreadsheets vol met phantom-rijen en samengevoegde waarden.
  • Verwijzingen in voetnoten. Omzet van "12.345^(1)" wordt "12345 1" wanneer het wordt geëxtraheerd zonder semantisch begrip. Het superscript is een apart gepositioneerd teken in de PDF. Extractietools verwijderen het (waardoor de verwijzing verloren gaat) of nemen het op (waardoor het getal wordt gecorrumpeerd).

Hoe AI-Extractie Jaarverslagen Verwerkt

AI-gestuurde extractie hanteert een fundamenteel andere aanpak. In plaats van puur te vertrouwen op ruimtelijke analyse - het detecteren van rijen en kolommen op basis van tekenposities - combineert het ruimtelijk bewustzijn met semantisch begrip.

Layout-bewuste tabeldetectie gaat verder dan het zoeken naar rasterlijnen (veel financiële tabellen hebben geen zichtbare randen). Het systeem analyseert patronen in tekenafstand, uitlijning van decimale punten, herhaling van opmaak en koprijen om tabelgrenzen te detecteren. Het kan een verhalende paragraaf die toevallig getallen bevat onderscheiden van een tabel met financiële gegevens met uitgelijnde kolommen.

Semantische veldherkenning identificeert wat elke kolom en rij vertegenwoordigt. Het herkent dat "Omzet", "Netto-omzet", "Totale omzet" en "Netto-omzet" allemaal naar hetzelfde concept verwijzen. Het begrijpt dat "(1.234)" in een financiële context negatief 1.234 betekent, geen voetnootverwijzing. Dit is belangrijk omdat naamgevingsconventies sterk variëren tussen bedrijven - het ene rapporteert "Aandeelhouderskapitaal" terwijl het andere "Eigen vermogen" of "Totaal eigen vermogen" gebruikt.

Meerpagina-tabellen die doorlopen worden afgehandeld door herhaalde koptekstpatronen en consistente kolomuitlijning over paginastops heen te herkennen. De resultatenrekening kan beginnen op pagina 84 en doorlopen op pagina 85, en AI-extractie voegt de gegevens samen tot één coherente tabel.

Belangrijke Secties om te Targeten in Jaarverslagen

Niet elke sectie van een jaarverslag bevat extraheerbare financiële gegevens. Weten waar u zich op moet concentreren bespaart tijd en verbetert de nauwkeurigheid.

Financiële Overzichten zijn het primaire extractiedoel: de Geconsolideerde Resultatenrekeningen, Balansen, Kasstromen en Aandeelhouderskapitaal. Deze vier overzichten bevatten de ruwe getallen die financiële modellen aansturen.

Management Discussion and Analysis (MD&A) is waar het management de cijfers uitlegt. Het bevat vaak niet-GAAP-cijfers zoals aangepaste EBITDA en vrije kasstroom, segmentgegevens en vooruitzichten - allemaal ingebed in verhalende paragrafen in plaats van tabellen. AI-extractie kan deze cijfers identificeren en ophalen, maar ze vereisen meer contextueel begrip dan tabelgegevens.

Segmentrapportage splitst resultaten uit per bedrijfseenheid, geografie of productlijn. Deze gegevens zijn essentieel voor waardering van de som-van-de-delen. Segmenttabellen hebben vaak niet-standaard structuren met segmentnamen als kolomkoppen en intersegmenteliminaties die negatieve rijen toevoegen.

Toelichtingen op de Financiële Overzichten bevatten de meest gedetailleerde gegevens: schuldschema's met vervaldatums, omzetsplitsing per product of geografie, leaseverplichtingen, pensioengegevens, reconciliaties van belastingtarieven en goodwill-uitsplitsingen per segment. Deze zijn het moeilijkst te extraheren omdat ze verhalende tekst combineren met kleine ingebedde tabellen.

Risicofactoren zijn grotendeels kwalitatief, maar bevatten soms kwantitatieve openbaarmakingen: concentratierisico-percentages, reserveringen voor rechtszaken, of wettelijke kapitaalvereisten die begraven zijn in paragrafen met juridische taal.

Jaarverslaggegevens Extraheren met PDFSub

Annual report data extraction process: Upload → AI Extract → Review → Export, with key metrics and time savings

PDFSub biedt twee tools die specifiek geschikt zijn voor de extractie uit jaarverslagen: de Tabellen Extraheren tool en de Financiële Rapport Analyzer.

Tabellen Extraheren: Financiële Overzichten naar Spreadsheets Halen

De tool Tabellen Extraheren detecteert en extraheert tabelgegevens uit PDF-documenten. Voor jaarverslagen betekent dit:

  1. Upload de PDF van het jaarverslag - Sleep het bestand hierheen. Voor digitale PDF's gedownload van SEC EDGAR of de investeerderspagina's van bedrijven, gebeurt de initiële verwerking in uw browser. Het bestand verlaat uw apparaat niet, tenzij server-side AI-verwerking nodig is.
  2. Automatische tabeldetectie - De tool identificeert alle tabelregio's in het document, inclusief meerpagina-tabellen die paginastops overschrijden.
  3. Geëxtraheerde tabellen beoordelen - Elke gedetecteerde tabel wordt weergegeven met de geëxtraheerde gegevens. U kunt verifiëren of kolommen correct zijn uitgelijnd en waarden nauwkeurig zijn.
  4. Exporteren naar Excel of CSV - Download de geëxtraheerde tabellen in formaten die klaar zijn voor financiële modellering.

Deze aanpak werkt goed voor de kernfinanciële overzichten (resultatenrekening, balans, kasstroom) waar de gegevens in een duidelijk tabelformaat worden gepresenteerd.

Financiële Rapport Analyzer: AI-Gedreven Cijfer-Extractie

De Financiële Rapport Analyzer gaat verder dan tabel-extractie. Het gebruikt AI om het hele document te lezen, de structuur ervan te begrijpen en specifieke financiële cijfers te extraheren - inclusief die ingebed in verhalende tekst of voetnoten.

Voor jaarverslagen kan de analyzer:

  • Belangrijke financiële cijfers identificeren en extraheren uit alle secties van het document
  • Niet-GAAP-cijfers uit de MD&A-sectie halen
  • Segmentgegevens uit rapportagetabellen extraheren
  • Verschillende naamgevingsconventies voor hetzelfde cijfer herkennen en verwerken
  • Context bieden voor geëxtraheerde getallen, inclusief de rapportageperiode en de meeteenheid

Beide Tools Combineren

De meest effectieve workflow voor jaarverslagen combineert beide benaderingen:

  1. Gebruik Tabellen Extraheren om de gestructureerde financiële overzichten (resultatenrekening, balans, kasstroom) met volledige tabelgetrouwheid naar Excel te halen.
  2. Gebruik Financiële Rapport Analyzer om specifieke cijfers uit verhalende secties, voetnoten en niet-standaard tabellen te extraheren.
  3. Kruiscontroleer de resultaten om de nauwkeurigheid te verifiëren.

Beide tools zijn beschikbaar met PDFSub's 7-daagse gratis proefperiode, zodat u ze kunt testen met uw eigen jaarverslagen voordat u zich vastlegt.

Exporteren naar Excel en CSV voor Financiële Modellering

Extractie is alleen nuttig als de uitvoer in uw workflow past. Geëxtraheerde tabellen worden geëxporteerd als .xlsx-bestanden met correct getypeerde numerieke cellen, behouden kolomuitlijning, aparte werkbladen voor elke tabel en schone kopteksten. Voor analisten die de voorkeur geven aan CSV (gebruikelijk voor databases en scripttools), krijgt u komma-gescheiden uitvoer met UTF-8-codering en één bestand per geëxtraheerde tabel.

Een typische workflow na extractie: extraheer de resultatenrekening, balans en kasstroomoverzicht; importeer de drie tabellen in uw modeltemplate; map veldnamen aan uw gestandaardiseerde rijlabels; verifieer dat totalen overeenkomen; bereken afgeleide ratio's; en bouw tijdreeksen op door dit te herhalen voor eerdere jaarverslagen. Dit vervangt handmatig typen en vermindert de totale doorlooptijd van 45 minuten naar minder dan 5 minuten per bedrijf.

Gebruikssituaties: Wie Extraheert Gegevens uit Jaarverslagen

Aandelenonderzoek. Analisten bouwen financiële modellen met 5 tot 10 jaar historische gegevens en 3 tot 5 jaar prognoses. Een coverage universe van 15 bedrijven betekent het extraheren van gegevens uit 15 jaarverslagen en 60 kwartaalverslagen per jaar. Geautomatiseerde extractie transformeert dit van een meerdaagse gegevensinvoeroefening naar een taak van dezelfde dag.

Kredietanalyse. Kredietanalisten evalueren de kredietwaardigheid van leners met behulp van Schuld/EBITDA (hefboomwerking), EBITDA/Rentelasten (dekking), Current Ratio (liquiditeit) en Schuld/Totaal Kapitaal (kapitaalstructuur). Het leningenportfolio van een commerciële bank kan honderden leners bevatten, die elk jaarlijkse financiële overzichten indienen waaruit deze cijfers moeten worden geëxtraheerd.

Benchmarking en concurrentieanalyse. Het vergelijken van een bedrijf met zijn concurrenten vereist het extraheren van dezelfde cijfers uit 5 tot 15 jaarverslagen, genormaliseerd voor verschillende gebroken boekjaren, rapportage-eenheden en boekhoudkundige standaarden (US GAAP versus IFRS).

Portfoliomonitoring. Portfoliomanagers die 30 tot 100 posities volgen, extraheren per kwartaal een standaardset monitoringcijfers: omzetgroei, EBITDA-margedynamiek, netto schuld/EBITDA, vrije kasstroomrendement en rendement op geïnvesteerd kapitaal. Geautomatiseerde extractie maakt dit op schaal haalbaar.

Meerjarige Extractie: Tijdreeksgegevens Opbouwen

Financiële analyse gaat fundamenteel over trends: versnelt de omzet? Breiden de marges uit? Vermindert het bedrijf zijn schulden? Het beantwoorden van deze vragen vereist tijdreeksgegevens over ten minste drie tot vijf jaar.

Aanpak 1: Extraheren uit Elk Jaarverslag

Jaarverslagen presenteren doorgaans twee jaar aan resultatenrekeninggegevens (huidig jaar en vorig jaar) en twee jaar aan balan sgegevens. Sommige bevatten vergelijkende resultatenrekeningen over drie jaar.

Om een tijdreeks van vijf jaar op te bouwen, moet u uit drie jaarverslagen extraheren:

  • Jaarverslag 2025: Bevat gegevens van 2025 en 2024
  • Jaarverslag 2023: Bevat gegevens van 2023 en 2022
  • Jaarverslag 2021: Bevat gegevens van 2021 en 2020

Dit geeft u overlappende jaren (2024 verschijnt in zowel het verslag van 2025 als 2024) die als kruiscontrole dienen.

Aanpak 2: Gebruik de "Selected Financial Data" van de 10-K

Sommige bedrijven nemen een "Selected Financial Data"-tabel op die vijf tot tien jaar aan belangrijke cijfers in één tabel presenteert. Indien beschikbaar, is dit de snelste weg naar een meerjarige tijdreeks. De SEC heeft de vereiste voor deze tabel echter in 2021 afgeschaft, en veel bedrijven hebben deze sindsdien laten vallen.

Aanpak 3: Extraheren uit SEC EDGAR XBRL-gegevens

Voor Amerikaanse beursgenoteerde bedrijven bevatten SEC-aangiften XBRL-getagde gegevens die machine-leesbaar zijn zonder PDF-extractie. Het EDGAR-systeem van de SEC biedt RESTful API's die JSON-geformatteerde gegevens leveren voor gestandaardiseerde regelitems. XBRL heeft echter beperkingen: aangepaste regelitems worden mogelijk niet consistent getagd, niet-GAAP-cijfers zijn zelden beschikbaar, segmentgegevens kunnen ontbreken, en de presentatievolgorde komt mogelijk niet overeen met de oorspronkelijke indiening. PDF-extractie blijft de meest betrouwbare bron voor volledige, presentatie-consistente financiële gegevens.

De Tijdreeks-Spreadsheet Opbouwen

Zodra u meerdere jaren aan geëxtraheerde gegevens heeft, maakt u een master-spreadsheet met jaren als kolommen en cijfers als rijen. Importeer de gegevens van elk jaar, verifieer dat overlappende jaren overeenkomen tussen de verslagen, voeg berekende rijen toe voor groeipercentages en ratio's, en markeer eventuele herzieningen die de vergelijkbaarheid doorbreken.

Kwaliteitscontroles: Verifiëren van Geëxtraheerde Gegevens

Geautomatiseerde extractie is snel, maar u moet de uitvoer altijd verifiëren. Jaarverslagen bevatten ingebouwde kruiscontroles die verificatie eenvoudig maken.

De Balansvergelijking

De meest fundamentele controle: Totale Activa = Totale Passiva + Totaal Aandeelhouderskapitaal.

Als deze vergelijking niet klopt in uw geëxtraheerde gegevens, is er iets misgegaan. Ofwel een getal is verkeerd gelezen, een rij is overgeslagen, of kolommen waren verkeerd uitgelijnd. Deze enkele controle vangt een groot percentage van de extractiefouten op.

Resultatenrekening Stroom

Omzet minus alle kosten moet gelijk zijn aan nettowinst. Verifieer de rekenkunde:

Omzet
- Kostprijs van de Omzet
= Brutowinst
- Operationele Kosten
= Bedrijfsresultaat
- Rentelasten
+ Rente-inkomsten
- Belastingvoorziening
= Nettowinst

Als de subtotaalregels niet kloppen, onderzoek dan welke posten zijn gemist of verkeerd zijn geëxtraheerd.

Kasstroom Verrekening

Het kasstroomoverzicht begint met de nettowinst en eindigt met de verandering in kas. Die eindverandering moet overeenkomen met het verschil tussen de begin- en eindkas op de balans.

Begin Kasaldo (van balans)
+ Netto Verandering in Kas (uit kasstroomoverzicht)
= Eind Kasaldo (van balans)

Redelijkheid en Steekproeven

Scan geëxtraheerde gegevens op onwaarschijnlijke waarden: omzet die meer dan 50% jaar-op-jaar verandert, negatieve totale activa, winst per aandeel die niet overeenkomt met nettowinst gedeeld door het aantal uitstaande aandelen, of marges buiten de sectornormen (een nettowinstmarge van 90% in de maakindustrie suggereert een decimale fout). Kies vervolgens drie tot vijf getallen willekeurig, ga terug naar de originele PDF en verifieer dat ze overeenkomen. Dit duurt 30 seconden en vangt systematische fouten op, zoals het extraheren van gegevens uit de verkeerde kolom.

Tips voor Betere Extractieresultaten

Gebruik digitale jaarverslagen, geen gescande kopieën. Digitale PDF's extraheren veel nauwkeuriger dan gescande documenten. Download voor Amerikaanse beursgenoteerde bedrijven altijd van SEC EDGAR (aangiften zijn per definitie digitaal) of van de investeerderspagina's van bedrijven. Vermijd gedrukte verslagen die opnieuw naar PDF zijn gescand en met afbeeldingen volgepakte "glanzende" jaarverslagen die voor marketing zijn ontworpen.

Gebruik de 10-K, niet het Jaarverslag voor Aandeelhouders. Beursgenoteerde bedrijven produceren vaak zowel een 10-K-aangifte (gestandaardiseerde financiële overzichten) als een Jaarverslag voor Aandeelhouders (marketingdocument met glanzende foto's). De 10-K heeft een gestandaardiseerde GAAP-presentatie, consistente tabelopmaak, volledige voetnoten, en is altijd beschikbaar als digitale PDF van EDGAR.

Identificeer de rapportage-eenheid vóór extractie. Bovenaan elk financieel overzicht staat een opmerking zoals "in miljoenen, exclusief bedragen per aandeel" of "in duizenden". Als u dit mist, kan een omzetcijfer van "45.231" $45,2 miljard of $45,2 miljoen zijn. Controleer altijd en pas de juiste vermenigvuldiger toe.

Let op verschillende boekjaren. Niet alle bedrijven gebruiken een kalenderjaar als boekjaar. Apple sluit in september, Walmart in januari, Microsoft in juni. De einddatum van het boekjaar staat bovenaan elk financieel overzicht.

Let op herzieningen. Wanneer een bedrijf financiële gegevens van voorgaande jaren herzien, verschijnen de herziene cijfers in het jaarverslag van het huidige jaar. De gegevens van 2024 in het verslag van 2025 kunnen afwijken van de gegevens van 2024 in het verslag van 2024. Gebruik altijd de meest recent herziene cijfers bij het opbouwen van tijdreeksen.

Aan de Slag

Extractie uit jaarverslagen hoeft geen handmatig, foutgevoelig proces te zijn. De praktische workflow: download de 10-K van SEC EDGAR, upload deze naar PDFSub's Tabellen Extraheren tool of Financiële Rapport Analyzer, beoordeel de uitvoer, exporteer naar Excel of CSV, voer de kwaliteitscontroles uit zoals hierboven beschreven, en importeer de geverifieerde gegevens in uw financiële model.

PDFSub biedt een 7-daagse gratis proefperiode zodat u de extractietools kunt testen met uw eigen jaarverslagen. Probeer het met een 10-K die u eerder handmatig hebt geëxtraheerd en vergelijk de resultaten - zowel de nauwkeurigheid als de tijdsbesparing.

Voor financiële professionals die regelmatig jaarverslagen verwerken, is geautomatiseerde extractie een concurrentievoordeel. De analist die 5 minuten besteedt aan het extraheren van gegevens en 55 minuten aan analyse, zal consistent beter presteren dan de analist die 55 minuten besteedt aan extractie en 5 minuten aan analyse.

Terug naar Blog

Vragen? Neem Contact Op

PDFSub

Alle PDF- en documenttools die u nodig heeft op één plek. Snel, veilig en privé.

AVG-conformCCPA-conformSOC 2 Klaar
Aangedreven door PDFSub Engine

Product

  • Alle Tools
  • Functies
  • Bankafschriften
  • API
  • Prijzen
  • Veelgestelde Vragen
  • Blog

Ondersteuning

  • Over Ons
  • Helpcentrum
  • Contact
  • Veelgestelde Vragen

Juridisch

  • Privacybeleid
  • Servicevoorwaarden
  • Cookiebeleid

© 2026 PDFSub. Alle rechten voorbehouden.

Gemaakt in Amerika met voor mensen overal ter wereld