Jak wyodrębnić tabele z PDF do Excel: porównanie 5 metod
Pliki PDF przechowują tabele jako rozproszone fragmenty tekstu na współrzędnych x,y — bez wierszy, kolumn ani komórek. Oto jak faktycznie przenieść te dane do arkusza kalkulacyjnego, od darmowych narzędzi przeglądarkowych po skrypty Pythona.

Masz plik PDF z tabelą, której potrzebujesz w Excelu. Może to być raport finansowy, wyciąg bankowy, faktura lub artykuł naukowy. Dane są na wyciągnięcie ręki — schludnie ułożone w wierszach i kolumnach na ekranie. Ale gdy próbujesz je wyciągnąć, wszystko się rozpada.
Dzieje się tak, ponieważ PDF nie jest formatem danych. Jest to format wyświetlania. W specyfikacji PDF nie ma pojęcia „tabeli”, „wiersza” ani „kolumny”. To, co wygląda jak ustrukturyzowana tabela, w rzeczywistości składa się z kilkudziesięciu fragmentów tekstu umieszczonych na konkretnych współrzędnych x,y na płótnie. Odzyskanie tej struktury do arkusza kalkulacyjnego jest problemem inżynierii wstecznej — a różne narzędzia radzą sobie z tym z różnym stopniem sukcesu.
Ten przewodnik omawia 5 metod ekstrakcji tabel z plików PDF, kiedy każda z nich działa najlepiej i co robić, gdy coś pójdzie nie tak.
Dlaczego ekstrakcja tabel z PDF jest trudna

Format PDF nie zawiera tabel
Specyfikacja PDF (ISO 32000-2:2020) definiuje strumień zawartości — sekwencję operatorów, które pozycjonują poszczególne znaki na precyzyjnych współrzędnych. Prosty wiersz tabeli, taki jak „Data | Opis | Kwota”, może być przechowywany jako:
BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Office Supplies) Tj 180 0 Td (125.00) Tj ETNie ma tagów <table>, <tr> ani <td>. Brak identyfikatorów wierszy. Brak granic kolumn. Widoczne linie wokół komórek to oddzielne operacje rysowania, całkowicie odłączone od tekstu. Narzędzie do ekstrakcji musi wywnioskować całą strukturę na podstawie relacji przestrzennych.
Trzy typy obramowań tabel
Tabele z obramowaniem (siatkowe) mają widoczne linie wokół każdej komórki. Są najłatwiejsze do wyodrębnienia, ponieważ linie wyraźnie definiują granice komórek. Powszechne w formalnych sprawozdaniach finansowych, formularzach rządowych i standardowych raportach.
Tabele bez obramowania (strumieniowe) nie mają żadnych linii. Struktura jest definiowana wyłącznie przez wyrównanie białych znaków — elementy tekstowe o spójnych współrzędnych x w różnych wierszach tworzą domniemane kolumny. Powszechne w artykułach naukowych, fakturach i katalogach produktów.
Tabele częściowo obramowane mają tylko częściowe obramowania — zazwyczaj poziome linie między sekcjami, ale bez pionowych podziałów. Niezwykle powszechne w wyciągach bankowych, raportach maklerskich i rachunkach za media. Są najtrudniejsze do wyodrębnienia, ponieważ częściowe obramowania wprowadzają w błąd parsery trybu siatkowego, a brakujące obramowania zmniejszają pewność trybu strumieniowego.
PDF-y oznaczone tagami vs. bez tagów
PDF-y oznaczone tagami zawierają metadane strukturalne identyfikujące nagłówki, akapity i komórki tabeli. PDF-y bez tagów nie mają nic z tego — narzędzie do ekstrakcji otrzymuje tylko surowe współrzędne. Zdecydowana większość plików PDF nie ma tagów, w tym praktycznie wszystkie wyciągi bankowe, faktury i raporty finansowe.
Metoda 1: PDFSub Extract Tables (Darmowe + Awaryjne AI)
Narzędzie Extract Tables PDFSub wykorzystuje trójpoziomowe podejście, które maksymalizuje dokładność przy minimalnych kosztach:
Poziom 1: Wykrywanie oparte na współrzędnych (Przeglądarka, Darmowe)
Narzędzie najpierw próbuje ekstrakcji całkowicie w Twojej przeglądarce:
- Analizuje strumień zawartości PDF, aby wyodrębnić każdy element tekstowy wraz z jego współrzędnymi x,y
- Grupuje elementy tekstowe w linie na podstawie bliskości współrzędnych y
- Analizuje wzorce wyrównania współrzędnych x w różnych liniach, aby wykryć granice kolumn
- Wymaga minimum 3 wierszy, 2 kolumn i 70%+ pewności
Jeśli znajdą się dobre tabele, otrzymasz ustrukturyzowane dane natychmiast — bez przesyłania na serwer, bez zużycia kredytów AI, a Twój plik nigdy nie opuści Twojego urządzenia.
Poziom 2: Ekstrakcja po stronie serwera (pdfplumber, Darmowe)
Jeśli wykrywanie oparte na współrzędnych nie znajdzie żadnych tabel, narzędzie używa pdfplumber (licencja MIT) na serwerze. Wykrywa ono zarówno jawne linie (rysowane obramowania), jak i domniemane linie (wzorce wyrównania słów), znajduje przecięcia, identyfikuje prostokąty i mapuje tekst na komórki.
Poziom 3: Ekstrakcja AI (Zużywa kredyty)
W przypadku zeskanowanych plików PDF, złożonych układów lub tabel, których nie można przeanalizować za pomocą metod opartych na regułach, narzędzie przechodzi do ekstrakcji wizualnej opartej na sztucznej inteligencji. Możesz również włączyć opcję „Wymuś ekstrakcję AI”, aby przejść bezpośrednio do tego poziomu, gdy wiesz, że tabela jest złożona.
Formaty wyjściowe: Excel (.xlsx), CSV, JSON.
Najlepsze dla: Szybka ekstrakcja bez instalowania oprogramowania. Cyfrowe pliki PDF są przetwarzane całkowicie w Twojej przeglądarce, co zapewnia maksymalną prywatność.
Metoda 2: Power Query w Excelu (Tylko Windows)
Dostępne w Excelu 2019+ i Microsoft 365 w systemie Windows: Dane → Pobierz dane → Z pliku → Z PDF.
Jak to działa
- Kliknij Dane → Pobierz dane → Z pliku → Z PDF
- Wybierz plik PDF
- Power Query wyświetli panel Nawigator z listą wykrytych tabel na każdej stronie
- Wybierz tabele, które chcesz, kliknij Przekształć dane, aby je oczyścić, a następnie Załaduj
Mocne strony
- Wbudowane w Excel — brak dodatkowych kosztów dla subskrybentów Microsoft 365
- Silnik transformacji Power Query dobrze radzi sobie z post-processingiem (wypełnianie w dół, przestawianie, scalanie kolumn)
- Możliwość odświeżenia danych, jeśli źródłowy plik PDF zostanie zaktualizowany
- Obsługuje łączenie wielu tabel z tego samego pliku PDF
Ograniczenia
- Tylko Windows — niedostępne w Excelu dla komputerów Mac, Excel Online ani na urządzenia mobilne
- Problemy z tabelami bez obramowania — działa najlepiej z wyraźnie obramowanymi tabelami
- Brak OCR — nie można wyodrębnić danych z zeskanowanych plików PDF/plików obrazów
- Tabele wielostronicowe są problematyczne — każda strona często jest importowana jako oddzielna tabela, co wymaga ręcznego scalania
- Wiersze wieloliniowe — zawinięty tekst w komórkach często jest dzielony na wiele wierszy, co wymaga czyszczenia
Najlepsze dla: Użytkowników systemu Windows z Microsoft 365, którzy mają proste, obramowane tabele.
Metoda 3: Adobe Acrobat (Płatne)
Plik → Eksportuj PDF → Arkusz kalkulacyjny → Skoroszyt Microsoft Excel
Ceny (2026)
- Acrobat Standard: 12,99 USD/miesiąc (plan roczny)
- Acrobat Pro: 19,99 USD/miesiąc (plan roczny)
- Export PDF (samodzielny): plan niższej klasy, tylko konwersja
Mocne strony
- Wbudowany OCR dla dokumentów zeskanowanych
- Zazwyczaj zachowuje formatowanie dla prostych, obramowanych tabel
- Dostępne przetwarzanie wsadowe w wersji Pro
Ograniczenia
- Drogi do samej ekstrakcji tabel — 156–240 USD/rok
- Złożone tabele z połączonymi komórkami i wielostronicowymi zakresami nadal generują niedopasowane wyniki
- Pliki mogą być przesyłane do chmury Adobe w celu przetworzenia — problematyczne w przypadku poufnych danych finansowych
- Wymaga instalacji na komputerze stacjonarnym
Najlepsze dla: Użytkowników, którzy już płacą za Acrobat Pro i potrzebują okazjonalnych eksportów tabel z OCR.
Metoda 4: Kopiuj-Wklej (Ręczne)
Najbardziej intuicyjne podejście — i to, które najczęściej zawodzi w przypadku tabel.
Typowe problemy
- Wszystkie dane w jednej kolumnie — cała tabela jest wklejana bez podziału na kolumny
- Liczby stają się tekstem — symbole walut, nawiasy i separatory przerywają formatowanie numeryczne
- Wieloliniowa zawartość komórki tworzy fałszywe wiersze — opis, który zawija się w dwóch liniach w komórce, staje się dwoma oddzielnymi wierszami
- Nagłówki oddzielone od danych — wiersz nagłówka zostaje odłączony
- Kolumny niedopasowane — dane przesuwają się, ponieważ odstępy między znakami nie przekładają się na tabulatory
Częściowe obejście
Wklej do Excela, a następnie użyj Dane → Tekst jako kolumny z separatorem spacji lub o stałej szerokości. Włącz opcję „Traktuj kolejne separatory jako jeden”. Działa to dla bardzo prostych, dobrze rozmieszczonych tabel, ale zawodzi w przypadku czegokolwiek z zawartością komórki składającą się z wielu słów.
Najlepsze dla: Ekstrakcji pojedynczej, małej, prostej tabeli jako ostateczność.
Metoda 5: Biblioteki Pythona (Dla programistów)
Trzy biblioteki na licencji MIT obsługują ekstrakcję tabel PDF programowo:
Tabula-py
Pythonowy wrapper wokół Tabula (Java). Wymaga środowiska Java.
- Tryb siatkowy dla tabel z obramowaniem (znajduje linie i przecięcia)
- Tryb strumieniowy dla tabel bez obramowania (wykorzystuje wyrównanie tekstu)
- Dobry do przetwarzania wsadowego w skryptach
- Brak obsługi OCR
Camelot
Oferuje również tryby siatkowy i strumieniowy.
- Ogólnie przewyższa Tabula w przypadku tabel z obramowaniem
- Tryb strumieniowy ma więcej parametrów konfiguracyjnych do precyzyjnego dostrajania
- Dostarcza raporty dokładności z każdą ekstrakcją
- Wymaga zależności Ghostscript. Brak obsługi OCR
pdfplumber
Podejście oparte na współrzędnych: wyodrębnia każdy znak z jego dokładną pozycją, a następnie wnioskuje strukturę.
- Obsługuje najszerszy zakres typów tabel
- Daje najwięcej kontroli, ale wymaga więcej konfiguracji
- Jest to biblioteka, której PDFSub używa po stronie serwera
- Brak obsługi OCR
Najlepsze dla: Programistów automatyzujących powtarzalne przepływy pracy ekstrakcji tabel, przetwarzających duże partie podobnych dokumentów.
Typowe problemy i jak je rozwiązać
Połączone komórki
Gdy komórki obejmują wiele wierszy lub kolumn, większość narzędzi umieszcza zawartość w komórce lewej górnej, pozostawiając inne puste, lub niedopasowuje wszystkie kolejne kolumny. Nie ma uniwersalnego rozwiązania — format CSV nie ma koncepcji łączenia, więc informacje o łączeniu są zawsze tracone.
Naprawa: Wyodrębnij tabelę, a następnie ręcznie popraw artefakty łączenia w Excelu. W przypadku powtarzających się tabel z tym samym wzorcem łączenia rozważ skrypt post-processingowy.
Wieloliniowa zawartość w komórkach
Długie opisy, które zawijają się w komórce, stają się wieloma wierszami w wyniku, wypychając wszystkie kolejne dane z wyrównania. Jest to najczęstszy błąd ekstrakcji w dokumentach finansowych.
Naprawa: Po ekstrakcji poszukaj wierszy, w których brakuje dat i kwot — są to prawdopodobnie linie kontynuacji należące do powyższego wiersza. W Excelu połącz je ręcznie lub użyj formuły pomocniczej.
Tabele obejmujące wiele stron
Narzędzia muszą określić, gdzie tabela się kontynuuje, czy usuwać powtarzające się nagłówki i jak filtrować stopki stron. Wiele narzędzi traktuje każdą stronę niezależnie.
Naprawa: Jeśli Twoje narzędzie zwraca wyniki dla każdej strony, połącz arkusze i usuń powtarzające się wiersze nagłówków. Sprawdź, czy ostatni wiersz na stronie N prawidłowo łączy się z pierwszym wierszem na stronie N+1.
Problemy z formatowaniem waluty
Liczby ujemne w nawiasach ((1,234.56)) są wklejane jako tekst, a nie liczby. Symbole walut i separatory tysięcy również przerywają formatowanie numeryczne.
Naprawa: Po ekstrakcji zaznacz kolumnę kwot i użyj Znajdź i zamień, aby usunąć znaki $, (, ). Następnie sformatuj kolumnę jako Liczba. W przypadku liczb ujemnych w nawiasach zamień ( na - i usuń ), a następnie przekonwertuj na format Liczba.
Niejednoznaczność daty
01/02/2026 — czy to 2 stycznia, czy 1 lutego? Narzędzie do ekstrakcji zachowuje ciąg znaków w niezmienionej postaci, ale Excel może go zinterpretować ponownie na podstawie Twojej lokalizacji.
Naprawa: Sprawdź w pliku PDF wskazówki dotyczące formatu daty (szukaj dat z dniami > 12). Ustaw format daty Excela tak, aby pasował do źródła przed importem.
Porównanie dokładności
| Metoda | Proste z obramowaniem | Bez obramowania | Częściowo obramowane | Zeskanowane PDF |
|---|---|---|---|---|
| PDFSub (współrzędne + AI) | 90–99% | 75–95% | 70–95% | 85–95% (AI) |
| Power Query | 85–95% | 40–60% | 50–70% | Nieobsługiwane |
| Adobe Acrobat | 90–95% | 70–80% | 70–85% | 80–90% |
| Tabula | ~68% | 55–70% | 50–65% | Nieobsługiwane |
| Camelot | ~73% | 65–75% | 60–70% | Nieobsługiwane |
| Kopiuj-wklej | 30–50% | 10–30% | 10–30% | Niemożliwe |
Zakresy odzwierciedlają zmienność w zależności od złożoności dokumentu. Dane z benchmarków pochodzą z Procycons 2025 PDF Extraction Benchmark i badań porównawczych Camelot.
Którą metodę wybrać?
| Scenariusz | Najlepsza metoda | Dlaczego |
|---|---|---|
| Szybka jednorazowa ekstrakcja | PDFSub | Bez instalacji, w przeglądarce, darmowa ekstrakcja oparta na współrzędnych |
| Prosta tabela z obramowaniem, Windows | Power Query | Wbudowane w Excel, bez dodatkowych kosztów |
| Zeskanowany PDF | PDFSub (AI) lub Adobe Acrobat | Potrzebna funkcja OCR |
| Poufne dane finansowe | PDFSub | Przetwarzanie w przeglądarce, plik nigdy nie jest przesyłany |
| Powtarzalne przetwarzanie wsadowe | Python (pdfplumber) | Możliwość skryptowania, automatyzacja |
| Już posiadasz Acrobat Pro | Adobe Acrobat | Już płacisz, proste tabele działają dobrze |
| Pojedyncza mała tabela, brak narzędzi | Kopiuj-wklej | Ostateczność, wszystko zweryfikuj |
Wskazówki dotyczące najlepszych wyników
Używaj natywnych plików PDF. Pobieraj dokumenty ze źródła, zamiast skanować papier. Natywne pliki PDF mają doskonały tekst, co znacznie zwiększa dokładność ekstrakcji.
Najpierw zidentyfikuj typ tabeli. Tabele z obramowaniem działają z prawie każdym narzędziem. Tabele bez obramowania wymagają trybu strumieniowego lub ekstrakcji AI. Znajomość typu pomaga wybrać właściwą metodę z góry.
Zacznij od darmowych metod opartych na regułach. Najpierw wypróbuj ekstrakcję opartą na współrzędnych. Przejdź do AI dopiero wtedy, gdy metody oparte na regułach dadzą słabe wyniki — oszczędza to czas i kredyty.
Zawsze weryfikuj wyniki. Sprawdź liczbę wierszy, wyrównanie kolumn, wartości numeryczne i sumy. Nigdy nie ufaj wynikom ekstrakcji ślepo.
Uważaj na formatowanie liczb. Po ekstrakcji sprawdź, czy liczby są faktycznie liczbami w Excelu (wyrównane do prawej), a nie ciągami tekstowymi (wyrównane do lewej). Symbole walut i liczby ujemne w nawiasach są częstymi winowajcami.
W przypadku poufnych danych preferuj narzędzia przeglądarkowe. Raporty finansowe, wyciągi bankowe i dokumenty podatkowe zawierają poufne informacje. Narzędzia, które przetwarzają pliki PDF w Twojej przeglądarce, nigdy nie przesyłają Twojego pliku, eliminując ryzyko ujawnienia danych.
Wypróbuj za darmo
Gotowy do ekstrakcji tabel z pliku PDF? Prześlij plik teraz — PDFSub najpierw próbuje ekstrakcji opartej na współrzędnych, z awaryjnym trybem AI dla złożonych tabel. Cyfrowe pliki PDF są przetwarzane całkowicie w Twojej przeglądarce. Rozpocznij 7-dniowy bezpłatny okres próbny.