Tabellen aus PDF in Excel extrahieren: 5 Methoden im Vergleich
PDFs speichern Tabellen als verstreute Textfragmente an x,y-Koordinaten – ohne Zeilen, Spalten oder Zellen. Hier erfahren Sie, wie Sie diese Daten tatsächlich in eine Tabellenkalkulation übertragen, von kostenlosen browserbasierten Tools bis hin zu Python-Skripten.

Sie haben ein PDF mit einer Tabelle, die Sie in Excel benötigen. Vielleicht ist es ein Finanzbericht, ein Kontoauszug, eine Rechnung oder eine wissenschaftliche Arbeit. Die Daten sind direkt da – ordentlich in Zeilen und Spalten auf dem Bildschirm organisiert. Aber wenn Sie versuchen, sie herauszubekommen, zerfällt alles.
Dies geschieht, weil PDF kein Datenformat ist. Es ist ein Anzeigeformat. In der PDF-Spezifikation gibt es kein Konzept von "Tabelle", "Zeile" oder "Spalte". Was wie eine strukturierte Tabelle aussieht, besteht tatsächlich aus Dutzenden von Textfragmenten, die an bestimmten x,y-Koordinaten auf einer Zeichenfläche platziert sind. Diese Struktur zurück in eine Tabellenkalkulation zu extrahieren, ist ein Reverse-Engineering-Problem – und verschiedene Tools gehen es mit unterschiedlichem Erfolg an.
Diese Anleitung behandelt 5 Methoden zur Extraktion von Tabellen aus PDFs, wann jede am besten funktioniert und was zu tun ist, wenn etwas schiefgeht.
Warum die Tabellenextraktion aus PDFs schwierig ist

Das PDF-Format hat keine Tabellen
Die PDF-Spezifikation (ISO 32000-2:2020) definiert einen Content Stream – eine Abfolge von Operatoren, die einzelne Zeichen an präzisen Koordinaten positionieren. Eine einfache Tabellenzeile wie „Datum | Beschreibung | Betrag“ könnte gespeichert werden als:
BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Büromaterial) Tj 180 0 Td (125.00) Tj ETEs gibt keine <table>, <tr> oder <td> Tags. Keine Zeilenkennungen. Keine Spaltenbegrenzungen. Die sichtbaren Linien um Zellen sind separate Zeichenoperationen, die vollständig vom Text getrennt sind. Ein Extraktionswerkzeug muss die gesamte Struktur aus räumlichen Beziehungen ableiten.
Drei Arten von Tabellenrahmen
Gerahmte (Gitter-) Tabellen haben sichtbare Linien um jede Zelle. Diese sind am einfachsten zu extrahieren, da die Linien explizit Zellgrenzen definieren. Üblich in formellen Finanzberichten, Regierungsformularen und standardisierten Berichten.
Rahmenlose (Stream-) Tabellen haben überhaupt keine Linien. Die Struktur wird ausschließlich durch Leerraum-Ausrichtung definiert – Textteile, die über Zeilen hinweg konsistente x-Koordinaten teilen, bilden implizite Spalten. Üblich in wissenschaftlichen Arbeiten, Rechnungen und Produktkatalogen.
Teilweise gerahmte Tabellen haben nur teilweise Rahmen – typischerweise horizontale Linien zwischen Abschnitten, aber keine vertikalen Trennlinien. Äußerst häufig in Kontoauszügen, Maklerberichten und Stromrechnungen. Diese sind am schwierigsten zu extrahieren, da teilweise Rahmen Gittermodus-Parser irreführen, während fehlende Rahmen die Zuverlässigkeit des Stream-Modus verringern.
Getaggte vs. Nicht-getaggte PDFs
Getaggte PDFs enthalten strukturelle Metadaten, die Überschriften, Absätze und Tabellenzellen identifizieren. Nicht-getaggte PDFs haben nichts davon – das Extraktionswerkzeug erhält nur Rohkoordinaten. Die überwiegende Mehrheit der PDFs ist nicht getaggt, einschließlich praktisch aller Kontoauszüge, Rechnungen und Finanzberichte.
Methode 1: PDFSub Tabellen extrahieren (Kostenlos + KI-Fallback)
Das Tabellenextraktionstool von PDFSub verwendet einen dreistufigen Ansatz, der die Genauigkeit maximiert und gleichzeitig die Kosten minimiert:
Stufe 1: Koordinatenbasierte Erkennung (Browser, Kostenlos)
Das Tool versucht zunächst die Extraktion vollständig in Ihrem Browser:
- Analysiert den PDF-Content-Stream, um jedes Textelement mit seinen x,y-Koordinaten zu extrahieren
- Gruppiert Textelemente basierend auf der Nähe der y-Koordinaten zu Zeilen
- Analysiert x-Koordinaten-Ausrichtungsmuster über Zeilen hinweg, um Spaltengrenzen zu erkennen
Erfordert mindestens 3 Zeilen, 2 Spalten und eine Zuverlässigkeit von über 70 %.
Wenn gute Tabellen gefunden werden, erhalten Sie sofort strukturierte Daten – kein Server-Upload, keine verbrauchten KI-Credits und Ihre Datei verlässt niemals Ihr Gerät.
Stufe 2: Serverseitige Extraktion (pdfplumber, Kostenlos)
Wenn die koordinatenbasierte Erkennung keine Tabellen findet, verwendet das Tool pdfplumber (MIT-Lizenz) auf dem Server. Dieses erkennt sowohl explizite Linien (gezeichnete Rahmen) als auch implizite Linien (Wortausrichtungsmuster), findet Schnittpunkte, identifiziert Rechtecke und ordnet Text Zellen zu.
Stufe 3: KI-Extraktion (Verbraucht Credits)
Für gescannte PDFs, komplexe Layouts oder Tabellen, die regelbasierte Methoden nicht parsen können, greift das Tool auf KI-gestützte visuelle Extraktion zurück. Sie können auch "KI-Extraktion erzwingen" aktivieren, um direkt zu dieser Stufe zu springen, wenn Sie wissen, dass die Tabelle komplex ist.
Ausgabeformate: Excel (.xlsx), CSV, JSON.
Am besten geeignet für: Schnelle Extraktion ohne Installation von Software. Digitale PDFs werden zur maximalen Privatsphäre vollständig in Ihrem Browser verarbeitet.
Methode 2: Power Query in Excel (Nur Windows)
Verfügbar in Excel 2019+ und Microsoft 365 unter Windows: Daten → Daten abrufen → Aus Datei → Aus PDF.
Funktionsweise
- Klicken Sie auf Daten → Daten abrufen → Aus Datei → Aus PDF
- Wählen Sie Ihre PDF-Datei aus
- Power Query zeigt ein Navigationsfenster mit erkannten Tabellen pro Seite an
- Wählen Sie die gewünschten Tabellen aus, klicken Sie auf Daten transformieren, um sie zu bereinigen, und dann auf Laden
Stärken
- In Excel integriert – keine zusätzlichen Kosten für Microsoft 365-Abonnenten
- Die Transformations-Engine von Power Query verarbeitet die Nachbearbeitung gut (Runterfüllen, Pivotieren, Spalten zusammenführen)
- Daten können aktualisiert werden, wenn das Quell-PDF aktualisiert wird
- Unterstützt das Verbinden mehrerer Tabellen aus demselben PDF
Einschränkungen
- Nur Windows – nicht verfügbar in Excel für Mac, Excel Online oder mobil
- Schwierigkeiten mit rahmenlosen Tabellen – funktioniert am besten mit klar gerahmten Tabellen
- Kein OCR – kann nicht aus gescannten/Bild-PDFs extrahieren
- Mehrseitige Tabellen sind problematisch – jede Seite wird oft als separate Tabelle importiert, was manuelles Zusammenfügen erfordert
- Mehrzeilige Zeilen – umgebrochener Text in Zellen wird oft in mehrere Zeilen aufgeteilt, was eine Bereinigung erfordert
Am besten geeignet für: Windows-Benutzer mit Microsoft 365, die einfache, gerahmte Tabellen haben.
Methode 3: Adobe Acrobat (Kostenpflichtig)
Datei → PDF exportieren → Tabellenkalkulation → Microsoft Excel-Arbeitsmappe
Preise (2026)
- Acrobat Standard: 12,99 $/Monat (Jahresplan)
- Acrobat Pro: 19,99 $/Monat (Jahresplan)
- PDF exportieren (Standalone): günstigerer Plan nur für Konvertierung
Stärken
- Integriertes OCR für gescannte Dokumente
- Behält im Allgemeinen die Formatierung für einfache, gerahmte Tabellen bei
- Stapelverarbeitung in Pro verfügbar
Einschränkungen
- Teuer für reine Tabellenextraktion – 156–240 $/Jahr
- Komplexe Tabellen mit zusammengeführten Zellen und mehrseitigen Spannen erzeugen immer noch fehlerhafte Ausgaben
- Dateien können zur Verarbeitung in die Cloud von Adobe hochgeladen werden – problematisch für sensible Finanzdaten
- Erfordert Desktop-Installation
Am besten geeignet für: Benutzer, die bereits für Acrobat Pro bezahlen und gelegentlich Tabellenexporte mit OCR benötigen.
Methode 4: Kopieren und Einfügen (Manuell)
Der intuitivste Ansatz – und derjenige, der bei Tabellen am häufigsten fehlschlägt.
Häufige Probleme
- Alle Daten in einer Spalte – die gesamte Tabelle wird ohne Spaltentrennung eingefügt
- Zahlen werden zu Text – Währungssymbole, Klammern und Trennzeichen unterbrechen die numerische Formatierung
- Mehrzeiliger Zellinhalt erzeugt Phantomzeilen – eine Beschreibung, die sich über zwei Zeilen in der Zelle erstreckt, wird zu zwei separaten Zeilen
- Kopfzeilen von Daten getrennt – die Kopfzeile wird getrennt
- Spalten falsch ausgerichtet – Daten verschieben sich, da die Zeichenabstände nicht in Tabs übersetzt werden
Teilweise Problemumgehung
In Excel einfügen, dann Daten → Text in Spalten mit Leerzeichen oder fester Breite als Trennzeichen verwenden. "Aufeinanderfolgende Trennzeichen als eins behandeln" aktivieren. Dies funktioniert für sehr einfache, gut ausgerichtete Tabellen, schlägt jedoch bei Inhalten mit mehreren Wörtern in Zellen fehl.
Am besten geeignet für: Extraktion einer einzelnen kleinen, einfachen Tabelle als letzte Option.
Methode 5: Python-Bibliotheken (Für Entwickler)
Drei MIT-lizenzierte Bibliotheken verarbeiten die PDF-Tabellenextraktion programmatisch:
Tabula-py
Python-Wrapper um Tabula (Java). Benötigt Java Runtime.
- Lattice-Modus für gerahmte Tabellen (findet Linien und Schnittpunkte)
- Stream-Modus für rahmenlose Tabellen (verwendet Textausrichtung)
- Gut für die Stapelverarbeitung in Skripten
- Keine OCR-Unterstützung
Camelot
Bietet ebenfalls Lattice- und Stream-Modi.
- Übertrifft Tabula im Allgemeinen bei gerahmten Tabellen
- Der Stream-Modus verfügt über mehr Konfigurationsparameter zur Feinabstimmung
- Liefert bei jeder Extraktion Genauigkeitsberichte
- Benötigt Ghostscript-Abhängigkeit. Keine OCR-Unterstützung
pdfplumber
Koordinatenbasierter Ansatz: extrahiert jedes Zeichen mit seiner exakten Position und leitet dann die Struktur ab.
- Verarbeitet die größte Bandbreite an Tabellentypen
- Bietet die meiste Kontrolle, erfordert aber mehr Konfiguration
- Dies ist die Bibliothek, die PDFSub serverseitig verwendet
- Keine OCR-Unterstützung
Am besten geeignet für: Entwickler, die wiederkehrende Tabellenextraktions-Workflows automatisieren und große Stapel ähnlicher Dokumente verarbeiten.
Häufige Probleme und deren Lösung
Zusammengeführte Zellen
Wenn Zellen sich über mehrere Zeilen oder Spalten erstrecken, platzieren die meisten Tools den Inhalt entweder in der oberen linken Zelle und lassen die anderen leer oder richten alle nachfolgenden Spalten falsch aus. Es gibt keine universelle Lösung – das CSV-Format hat kein Konzept für Zusammenführungen, daher gehen Informationen über Zusammenführungen immer verloren.
Korrektur: Extrahieren Sie die Tabelle und beheben Sie dann manuell die Artefakte von Zusammenführungen in Excel. Für wiederkehrende Tabellen mit demselben Zusammenführungsmuster sollten Sie ein Nachbearbeitungsskript in Betracht ziehen.
Mehrzeiliger Inhalt innerhalb von Zellen
Lange Beschreibungen, die sich innerhalb einer Zelle umbrechen, werden zu mehreren Zeilen in der Ausgabe, wodurch alle nachfolgenden Daten aus der Ausrichtung geraten. Dies ist der häufigste Extraktionsfehler bei Finanzdokumenten.
Korrektur: Suchen Sie nach der Extraktion nach Zeilen, denen Daten und Beträge fehlen – dies sind wahrscheinlich Fortsetzungszeilen, die zur vorherigen Zeile gehören. Führen Sie sie in Excel manuell zusammen oder verwenden Sie eine Hilfsformel.
Tabellen, die sich über mehrere Seiten erstrecken
Tools müssen ermitteln, wo die Tabelle fortgesetzt wird, ob wiederholte Kopfzeilen entfernt werden sollen und wie Seitenfußzeilen gefiltert werden sollen. Viele Tools behandeln jede Seite unabhängig.
Korrektur: Wenn Ihr Tool seitenweise Ergebnisse liefert, kombinieren Sie die Blätter und entfernen Sie wiederholte Kopfzeilen. Überprüfen Sie, ob die letzte Zeile auf Seite N korrekt mit der ersten Zeile auf Seite N+1 verbunden ist.
Probleme mit Währungsformatierung
Negative Zahlen in Klammern ((1.234,56)) werden als Text und nicht als Zahlen eingefügt. Währungssymbole und Tausendertrennzeichen unterbrechen ebenfalls die numerische Formatierung.
Korrektur: Wählen Sie nach der Extraktion die Betragsspalte aus und verwenden Sie Suchen und Ersetzen, um Zeichen wie $, (, ) zu entfernen. Formatieren Sie dann die Spalte als Zahl. Bei negativen Zahlen in Klammern ersetzen Sie ( durch - und entfernen Sie ), dann konvertieren Sie in das Zahlenformat.
Datumsambiguität
01.02.2026 – ist das der 2. Januar oder der 1. Februar? Das Extraktionswerkzeug behält den String bei, aber Excel kann ihn basierend auf Ihrer Region neu interpretieren.
Korrektur: Überprüfen Sie das Quell-PDF auf Hinweise zum Datumsformat (suchen Sie nach Daten mit Tageswerten > 12). Stellen Sie das Datumsformat von Excel so ein, dass es mit der Quelle übereinstimmt, bevor Sie importieren.
Genauigkeitsvergleich
| Methode | Einfache Gerahmte | Rahmenlos | Teilweise Gerahmt | Gescannte PDFs |
|---|---|---|---|---|
| PDFSub (Koordinaten + KI) | 90–99 % | 75–95 % | 70–95 % | 85–95 % (KI) |
| Power Query | 85–95 % | 40–60 % | 50–70 % | Nicht unterstützt |
| Adobe Acrobat | 90–95 % | 70–80 % | 70–85 % | 80–90 % |
| Tabula | ~68 % | 55–70 % | 50–65 % | Nicht unterstützt |
| Camelot | ~73 % | 65–75 % | 60–70 % | Nicht unterstützt |
| Kopieren und Einfügen | 30–50 % | 10–30 % | 10–30 % | Nicht möglich |
Die Bereiche spiegeln Variationen über verschiedene Dokumentenkomplexitäten wider. Benchmark-Daten aus den Procycons 2025 PDF Extraction Benchmark und Camelot-Vergleichsstudien.
Welche Methode sollten Sie verwenden?
| Szenario | Beste Methode | Warum |
|---|---|---|
| Schnelle einmalige Extraktion | PDFSub | Keine Installation, browserbasiert, kostenlose Koordinatenextraktion |
| Einfache gerahmte Tabelle, Windows | Power Query | In Excel integriert, keine zusätzlichen Kosten |
| Gescannte PDF | PDFSub (KI) oder Adobe Acrobat | Benötigt OCR-Fähigkeit |
| Sensible Finanzdaten | PDFSub | Browserbasierte Verarbeitung, Datei wird nie hochgeladen |
| Wiederkehrende Stapelverarbeitung | Python (pdfplumber) | Skriptfähig, automatisierbar |
| Haben Sie bereits Acrobat Pro | Adobe Acrobat | Zahlen Sie bereits, einfache Tabellen funktionieren gut |
| Einzelne kleine Tabelle, keine Tools | Kopieren und Einfügen | Letzte Option, alles überprüfen |
Tipps für beste Ergebnisse
Verwenden Sie native PDFs. Laden Sie Dokumente von ihrer Quelle herunter, anstatt Papier zu scannen. Native PDFs haben perfekten Text, was die Extraktion dramatisch genauer macht.
Identifizieren Sie zuerst den Tabellentyp. Gerahmte Tabellen funktionieren mit fast jedem Tool. Rahmenlose Tabellen benötigen Stream-Modus oder KI-Extraktion. Die Kenntnis des Typs hilft Ihnen, die richtige Methode im Voraus zu wählen.
Beginnen Sie mit kostenlosen, regelbasierten Methoden. Versuchen Sie zuerst die koordinatenbasierte Extraktion. Eskalieren Sie nur zu KI, wenn regelbasierte Methoden schlechte Ergebnisse liefern – dies spart Zeit und Credits.
Überprüfen Sie immer die Ausgabe. Überprüfen Sie die Zeilenanzahl, Spaltenausrichtung, numerischen Werte und Summen. Vertrauen Sie niemals blind den Extraktionsergebnissen.
Achten Sie auf die Zahlenformatierung. Überprüfen Sie nach der Extraktion, ob Zahlen in Excel tatsächlich Zahlen sind (rechtsbündig) und keine Textzeichenfolgen (linksbündig). Währungssymbole und Klammern für negative Zahlen sind häufige Ursachen.
Für sensible Daten bevorzugen Sie browserbasierte Tools. Finanzberichte, Kontoauszüge und Steuerdokumente enthalten sensible Informationen. Tools, die PDFs in Ihrem Browser verarbeiten, laden Ihre Datei niemals hoch und eliminieren so das Risiko der Datenexposition.
Kostenlos ausprobieren
Bereit, Tabellen aus Ihrem PDF zu extrahieren? Datei jetzt hochladen – PDFSub versucht zuerst die kostenlose koordinatenbasierte Extraktion, mit KI-Fallback für komplexe Tabellen. Digitale PDFs werden vollständig in Ihrem Browser verarbeitet. Starten Sie eine 7-tägige kostenlose Testversion.