PDFSub
PrijzenMergeSplitCompressEditE-SignBankafschriften
Terug naar blog
HandleidingExcelTabellenPDF Tools

Tabellen uit PDF extraheren naar Excel: 5 methoden vergeleken

28 februari 2026
PDFSub Team

PDF's slaan tabellen op als verspreide tekstfragmenten op x,y coördinaten — geen rijen, geen kolommen, geen cellen. Hier leest u hoe u die gegevens daadwerkelijk in een spreadsheet krijgt, van gratis browsergebaseerde tools tot Python scripting.


PDFDatumBeschrijvingBedrag01/15Payment Recv$1,250.0001/16Office Supply-$85.0001/18Wire Transfer$3,400.0001/20Utility Bill-$142.5001/22Client Inv$2,100.00ExtraherenExcelABCD1234567DatumBeschrijvingBedragBalance01/15/2026Payment Recv$1,250.00$5,25001/16/2026Office Supply-$85.00$5,16501/18/2026Wire Transfer$3,400.00$8,56501/20/2026Utility Bill-$142.50$8,42301/22/2026Client Inv$2,100.00$10,523Tabellen uit PDF extraheren naar ExcelAutomatisch gestructureerde tabelgegevens detecteren en extraheren

U heeft een PDF met een tabel die u in Excel nodig heeft. Misschien is het een financieel rapport, een bankafschrift, een factuur of een onderzoeksdocument. De gegevens staan erin — netjes georganiseerd in rijen en kolommen op het scherm. Maar als u het probeert te extraheren, valt alles uit elkaar.

Dit gebeurt omdat PDF geen gegevensformaat is. Het is een weergaveformaat. Er bestaat geen concept van een "tabel", "rij" of "kolom" in de PDF-specificatie. Wat eruitziet als een gestructureerde tabel, bestaat eigenlijk uit tientallen tekstfragmenten die op specifieke x,y coördinaten op een canvas zijn geplaatst. Het extraheren van die structuur terug naar een spreadsheet is een reverse-engineering probleem — en verschillende tools pakken dit met wisselend succes aan.

Deze handleiding behandelt 5 methoden voor het extraheren van tabellen uit PDF's, wanneer elk van deze het beste werkt en wat u moet doen als dingen misgaan.

Waarom tabel-extractie uit PDF's moeilijk is

5 Methods for Extracting PDF Tables to ExcelAccuracy comparison across table types — choose the right tool for your PDFMethodBordered TablesBorderless TablesScanned PDFsCostPDFSub (Free+AI)★90–99%75–95%85–95%FreePower Query85–95%40–60%N/A$0 (built-in)Adobe Acrobat90–95%70–80%80–90%$240/yrTabula/Camelot68–73%55–75%N/AFreeCopy-Paste30–50%10–30%0%FreeHigh (80%+)Medium (50–79%)Low (<50%)Not supported★ Recommended for sensitive financial data

Het PDF-formaat heeft geen tabellen

De PDF-specificatie (ISO 32000-2:2020) definieert een content stream — een reeks operatoren die individuele tekens positioneren op precieze coördinaten. Een eenvoudige tabelrij zoals "Datum | Beschrijving | Bedrag" kan worden opgeslagen als:

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Kantoorbenodigdheden) Tj 180 0 Td (125.00) Tj ET

Er zijn geen <table>, <tr> of <td> tags. Geen rij-identificatoren. Geen kolomgrenzen. De visuele lijnen die u rond cellen ziet, zijn aparte tekenoperaties die volledig losstaan van de tekst. Een extractietool moet de volledige structuur afleiden uit ruimtelijke relaties.

Drie soorten tabelranden

Tabellen met randen (rooster) hebben zichtbare lijnen rond elke cel. Dit zijn de makkelijkste om te extraheren omdat de lijnen expliciet celgrenzen definiëren. Gebruikelijk in formele financiële overzichten, overheidsformulieren en gestandaardiseerde rapporten.

Tabellen zonder randen (stream) hebben helemaal geen lijnen. De structuur wordt volledig bepaald door witruimte-uitlijning — tekstitems die consistente x-coördinaten delen over rijen heen, vormen impliciete kolommen. Gebruikelijk in onderzoeksdocumenten, facturen en productcatalogi.

Semi-gerande tabellen hebben slechts gedeeltelijke randen — meestal horizontale lijnen tussen secties, maar geen verticale scheidingslijnen. Extreem gebruikelijk in bankafschriften, makelaarsrapporten en energierekeningen. Dit zijn de moeilijkste om te extraheren omdat gedeeltelijke randen rooster-modus parsers misleiden, terwijl ontbrekende randen het vertrouwen van de stream-modus verminderen.

Getagde versus niet-getagde PDF's

Getagde PDF's bevatten structurele metadata die koppen, paragrafen en tabelcellen identificeren. Niet-getagde PDF's hebben dit allemaal niet — de extractietool krijgt alleen ruwe coördinaten. De overgrote meerderheid van de PDF's is niet-getagd, inclusief vrijwel alle bankafschriften, facturen en financiële rapporten.


Methode 1: PDFSub Tabel Extraheren (Gratis + AI-fallback)

De Tabel Extraheren tool van PDFSub gebruikt een drieledige aanpak die de nauwkeurigheid maximaliseert en de kosten minimaliseert:

Niveau 1: Coördinaatgebaseerde detectie (Browser, Gratis)

De tool probeert eerst de extractie volledig in uw browser uit te voeren:

  • Parseert de PDF-content stream om elk tekstitem met zijn x,y coördinaten te extraheren
  • Groepeert tekstitems in regels op basis van nabijheid van y-coördinaten
  • Analyseert x-coördinaatuitlijningspatronen over regels heen om kolomgrenzen te detecteren
  • Vereist minimaal 3 rijen, 2 kolommen en 70%+ betrouwbaarheid

Als er goede tabellen worden gevonden, krijgt u direct gestructureerde gegevens — geen server-upload, geen verbruikte AI-credits en uw bestand verlaat nooit uw apparaat.

Niveau 2: Server-side extractie (pdfplumber, Gratis)

Als de coördinaatgebaseerde detectie geen tabellen vindt, gebruikt de tool pdfplumber (MIT-licentie) op de server. Deze detecteert zowel expliciete lijnen (getekende randen) als impliciete lijnen (woorduitlijningspatronen), vindt snijpunten, identificeert rechthoeken en koppelt tekst aan cellen.

Niveau 3: AI-extractie (Gebruikt credits)

Voor gescande PDF's, complexe lay-outs of tabellen die regelgebaseerde methoden niet kunnen parsen, valt de tool terug op AI-gebaseerde visuele extractie. U kunt ook "Forceer AI-extractie" inschakelen om direct naar dit niveau te gaan wanneer u weet dat de tabel complex is.

Outputformaten: Excel (.xlsx), CSV, JSON.

Het beste voor: Snelle extractie zonder software-installatie. Digitale PDF's worden volledig in uw browser verwerkt voor maximale privacy.


Methode 2: Power Query in Excel (Alleen Windows)

Beschikbaar in Excel 2019+ en Microsoft 365 op Windows: Gegevens → Gegevens ophalen → Van bestand → Van PDF.

Hoe het werkt

  1. Klik op Gegevens → Gegevens ophalen → Van bestand → Van PDF
  2. Selecteer uw PDF-bestand
  3. Power Query toont een Navigator-paneel met gedetecteerde tabellen per pagina
  4. Selecteer de gewenste tabellen, klik op Gegevens transformeren om op te schonen, en vervolgens op Laden

Sterke punten

  • Ingebouwd in Excel — geen extra kosten voor Microsoft 365-abonnees
  • De transformatiemotor van Power Query verwerkt nabewerking goed (omlaag vullen, draaitabel, kolommen samenvoegen)
  • Kan gegevens vernieuwen als de bron-PDF wordt bijgewerkt
  • Ondersteunt het verbinden van meerdere tabellen uit dezelfde PDF

Beperkingen

  • Alleen Windows — niet beschikbaar in Excel voor Mac, Excel Online of mobiel
  • Heeft moeite met tabellen zonder randen — werkt het beste met duidelijk afgebakende tabellen
  • Geen OCR — kan niet extraheren uit gescande/afbeeldings-PDF's
  • Meerbladige tabellen zijn problematisch — elke pagina wordt vaak als een aparte tabel geïmporteerd, wat handmatige samenvoeging vereist
  • Meerregelige rijen — tekst die binnen cellen omloopt, wordt vaak opgesplitst in meerdere rijen, wat opschoning vereist

Het beste voor: Windows-gebruikers met Microsoft 365 die eenvoudige, afgebakende tabellen hebben.


Methode 3: Adobe Acrobat (Betaald)

Bestand → PDF exporteren → Spreadsheet → Microsoft Excel-werkmap

Prijzen (2026)

  • Acrobat Standard: € 12,99/maand (jaarlijks plan)
  • Acrobat Pro: € 19,99/maand (jaarlijks plan)
  • Export PDF (standalone): lager geprijsd plan alleen voor conversie

Sterke punten

  • Ingebouwde OCR voor gescande documenten
  • Behoudt over het algemeen de opmaak voor eenvoudige afgebakende tabellen
  • Batchverwerking beschikbaar in Pro

Beperkingen

  • Duur voor alleen tabel-extractie — € 156–€ 240/jaar
  • Complexe tabellen met samengevoegde cellen en meerbladige overspanningen produceren nog steeds verkeerd uitgelijnde uitvoer
  • Bestanden kunnen naar Adobe's cloud worden geüpload voor verwerking — problematisch voor gevoelige financiële gegevens
  • Vereist desktopinstallatie

Het beste voor: Gebruikers die al betalen voor Acrobat Pro en af en toe tabel-exports met OCR nodig hebben.


Methode 4: Kopiëren-Plakken (Handmatig)

De meest intuïtieve aanpak — en degene die het vaakst faalt voor tabellen.

Veelvoorkomende problemen

  • Alle gegevens in één kolom — de hele tabel wordt geplakt zonder kolomafbrekingen
  • Getallen worden tekst — valutasymbolen, haakjes en scheidingstekens verbreken numerieke opmaak
  • Meerregelige celinhoud creëert spookrijen — een beschrijving die over twee regels in de cel loopt, wordt twee afzonderlijke rijen
  • Koppen gescheiden van gegevens — de koprij wordt losgekoppeld
  • Kolommen verkeerd uitgelijnd — gegevens verschuiven omdat tekenafstand niet wordt vertaald naar tabulaties

Gedeeltelijke oplossing

Plak in Excel en gebruik vervolgens Gegevens → Tekst naar kolommen met spatie of vaste breedte scheidingstekens. Schakel "Achtereenvolgende scheidingstekens als één behandelen" in. Dit werkt voor zeer eenvoudige, goed uitgelijnde tabellen, maar faalt voor alles met celinhoud van meerdere woorden.

Het beste voor: Het extraheren van een enkele kleine, eenvoudige tabel als laatste redmiddel.


Methode 5: Python-bibliotheken (Voor ontwikkelaars)

Drie MIT-gelicentieerde bibliotheken verwerken PDF-tabel-extractie programmatisch:

Tabula-py

Python wrapper rond Tabula (Java). Vereist Java runtime.

  • Lattice-modus voor tabellen met randen (vindt lijnen en snijpunten)
  • Stream-modus voor tabellen zonder randen (gebruikt tekstuitlijning)
  • Goed voor batchverwerking in scripts
  • Geen OCR-ondersteuning

Camelot

Biedt ook lattice- en stream-modi.

  • Presteert over het algemeen beter dan Tabula voor tabellen met randen
  • Stream-modus heeft meer configuratieparameters voor fijnafstemming
  • Levert nauwkeurigheidsrapporten bij elke extractie
  • Vereist Ghostscript-afhankelijkheid. Geen OCR-ondersteuning

pdfplumber

Coördinaatgebaseerde aanpak: extraheert elk teken met zijn exacte positie, en leidt vervolgens de structuur af.

  • Verwerkt het breedste scala aan tabeltypen
  • Biedt de meeste controle, maar vereist meer configuratie
  • Dit is de bibliotheek die PDFSub server-side gebruikt
  • Geen OCR-ondersteuning

Het beste voor: Ontwikkelaars die terugkerende workflows voor tabel-extractie automatiseren, grote batches van vergelijkbare documenten verwerken.


Veelvoorkomende problemen en hoe ze op te lossen

Samengevoegde cellen

Wanneer cellen meerdere rijen of kolommen beslaan, plaatsen de meeste tools de inhoud in de linkerbovenhoek en laten de andere leeg, of lijnen alle volgende kolommen verkeerd uit. Er is geen universele oplossing — CSV-formaat heeft geen concept van samenvoeging, dus informatie over samenvoeging gaat altijd verloren.

Oplossing: Extraheer de tabel en corrigeer vervolgens handmatig de samenvoegingsartefacten in Excel. Overweeg een nabewerkingsscript voor terugkerende tabellen met hetzelfde samenvoegingspatroon.

Meerregelige inhoud binnen cellen

Lange beschrijvingen die binnen een cel omloopt, worden meerdere rijen in de uitvoer, waardoor alle volgende gegevens uit de pas lopen. Dit is de meest voorkomende extractiefout voor financiële documenten.

Oplossing: Zoek na extractie naar rijen die datums en bedragen missen — dit zijn waarschijnlijk vervolgregels die bij de bovenliggende rij horen. Voeg ze in Excel handmatig samen of gebruik een hulpformule.

Tabellen die meerdere pagina's beslaan

Tools moeten bepalen waar de tabel doorloopt, of herhaalde koppen moeten worden verwijderd en hoe paginavoeters moeten worden gefilterd. Veel tools behandelen elke pagina afzonderlijk.

Oplossing: Als uw tool resultaten per pagina geeft, voegt u de bladen samen en verwijdert u herhaalde koprijen. Controleer of de laatste rij op pagina N correct aansluit op de eerste rij op pagina N+1.

Problemen met valuta-opmaak

Negatieve getallen tussen haakjes ((1.234,56)) worden als tekst geplakt, niet als getallen. Valutasymbolen en duizendtalscheidingstekens verbreken ook de numerieke opmaak.

Oplossing: Selecteer na extractie de kolom met bedragen en gebruik Zoeken en Vervangen om €, (, ) tekens te verwijderen. Formatteer vervolgens de kolom als Getal. Voor negatieve getallen tussen haakjes, vervangt u ( door - en verwijdert u ), converteer dan naar getalformaat.

Datumambiguïteit

01/02/2026 — is dat 2 januari of 1 februari? De extractietool behoudt de tekenreeks zoals deze is, maar Excel kan deze opnieuw interpreteren op basis van uw landinstellingen.

Oplossing: Controleer de bron-PDF op aanwijzingen voor het datumformaat (zoek naar datums met dagwaarden > 12). Stel het datumformaat van Excel in om overeen te komen met de bron voordat u importeert.


Nauwkeurigheidsvergelijking

Methode Eenvoudige met randen Zonder randen Semi-gerand Gescande PDF's
PDFSub (coördinaat + AI) 90–99% 75–95% 70–95% 85–95% (AI)
Power Query 85–95% 40–60% 50–70% Niet ondersteund
Adobe Acrobat 90–95% 70–80% 70–85% 80–90%
Tabula ~68% 55–70% 50–65% Niet ondersteund
Camelot ~73% 65–75% 60–70% Niet ondersteund
Kopiëren-plakken 30–50% 10–30% 10–30% Niet mogelijk

Bereiken weerspiegelen variaties in documentcomplexiteit. Benchmarkgegevens uit Procycons 2025 PDF Extraction Benchmark en Camelot-vergelijkingsstudies.


Welke methode moet u gebruiken?

Scenario Beste methode Waarom
Snelle eenmalige extractie PDFSub Geen installatie, browsergebaseerd, gratis coördinaat-extractie
Eenvoudige tabel met randen, Windows Power Query Ingebouwd in Excel, geen extra kosten
Gescande PDF PDFSub (AI) of Adobe Acrobat Vereist OCR-functionaliteit
Gevoelige financiële gegevens PDFSub Browsergebaseerde verwerking, bestand wordt nooit geüpload
Terugkerende batchverwerking Python (pdfplumber) Scriptbaar, automatiseerbaar
Heeft al Acrobat Pro Adobe Acrobat Betaalt er al voor, eenvoudige tabellen werken goed
Enkele kleine tabel, geen tools Kopiëren-plakken Laatste redmiddel, controleer alles

Tips voor de beste resultaten

Gebruik native PDF's. Download documenten van hun bron in plaats van papier te scannen. Native PDF's hebben perfecte tekst, waardoor extractie aanzienlijk nauwkeuriger wordt.

Identificeer eerst het tabeltype. Tabellen met randen werken met bijna elke tool. Tabellen zonder randen vereisen stream-modus of AI-extractie. Het kennen van het type helpt u de juiste methode vooraf te kiezen.

Begin met gratis, regelgebaseerde methoden. Probeer eerst coördinaatgebaseerde extractie. Ga pas over op AI als regelgebaseerde methoden slechte resultaten opleveren — dit bespaart tijd en credits.

Verifieer altijd de uitvoer. Controleer het aantal rijen, kolomuitlijning, numerieke waarden en totalen. Vertrouw nooit blindelings op extractie-uitvoer.

Let op getalopmaak. Controleer na extractie of getallen daadwerkelijk getallen zijn in Excel (rechts uitgelijnd), geen tekstreeksen (links uitgelijnd). Valutasymbolen en negatieve getallen tussen haakjes zijn veelvoorkomende boosdoeners.

Voor gevoelige gegevens, geef de voorkeur aan browsergebaseerde tools. Financiële rapporten, bankafschriften en belastingdocumenten bevatten gevoelige informatie. Tools die PDF's in uw browser verwerken, uploaden uw bestand nooit, waardoor het risico op gegevensblootstelling wordt geëlimineerd.


Probeer het gratis

Klaar om tabellen uit uw PDF te extraheren? Upload nu een bestand — PDFSub probeert eerst gratis coördinaatgebaseerde extractie, met AI-fallback voor complexe tabellen. Digitale PDF's worden volledig in uw browser verwerkt. Start een gratis proefperiode van 7 dagen.

Terug naar blog

Vragen? Neem contact op

PDFSub

Alle PDF- en documenttools die u nodig heeft op één plek. Snel, veilig en privé.

GDPR-conformCCPA-conformSOC 2 Ready
Powered by PDFSub Engine

PDF Tools

  • PDF's samenvoegen
  • PDF splitsen
  • Pagina's herschikken
  • PDF draaien
  • Pagina's verwijderen
  • Pagina's extraheren
  • Watermerk toevoegen
  • PDF bewerken
  • PDF stempelen
  • PDF-formulier invullen
  • Pagina's bijsnijden
  • Paginaformaat wijzigen
  • Paginanummers toevoegen
  • Kop- en voetteksten
  • PDF comprimeren
  • Doorzoekbaar maken
  • Clean Scanned PDF
  • Photo to Document
  • Auto-Crop PDF
  • PDF repareren
  • Metadata bewerken
  • Metadata verwijderen
  • PDF naar Word
  • Word naar PDF
  • Excel naar PDF
  • PDF naar PowerPoint
  • PDF naar afbeelding
  • Afbeelding naar PDF
  • HTML naar PDF
  • HEIC naar afbeelding
  • WEBP naar JPG
  • WEBP naar PNG
  • PowerPoint naar PDF
  • PDF naar HTML
  • EPUB naar PDF
  • TIFF naar PDF
  • PNG naar PDF
  • PDF naar PNG
  • Tekst naar PDF
  • SVG naar PDF
  • WEBP naar PDF
  • PDF naar EPUB
  • RTF naar PDF
  • ODT naar PDF
  • ODS naar PDF
  • PDF naar ODT
  • PDF naar ODS
  • PDF naar SVG
  • PDF naar RTF
  • PDF naar tekst
  • ODP naar PDF
  • PDF naar ODP
  • ODG naar PDF
  • PDF-viewer
  • PDF/A-conversie
  • PDF maken
  • Batch-conversie
  • Pagina's per vel
  • Beveiligen met wachtwoord
  • PDF ontgrendelen
  • PDF redigeren
  • PDF elektronisch ondertekenen
  • PDF's vergelijken
  • Tabellen extraheren
  • PDF to Excel
  • Bankafschrift-converter
  • Factuur-extractor
  • Bonnetjes-scanner
  • Financieel rapport
  • OCR - Tekst extraheren
  • Handgeschreven tekst converteren
  • PDF samenvatten
  • PDF vertalen
  • Chatten met PDF
  • Gegevens extraheren
  • Design Studio

Product

  • Privacy & Security
  • Alle tools
  • Functies
  • Bankafschriften
  • Prijzen
  • FAQ
  • Blog

Support

  • Helpcentrum
  • Contact
  • FAQ

Juridisch

  • Privacybeleid
  • Algemene voorwaarden
  • Cookiebeleid

© 2026 PDFSub. Alle rechten voorbehouden.

Gemaakt in Amerika met voor mensen over de hele wereld