PDFSub
CennikMergeSplitCompressEditE-SignWyciągi bankowe
Powrót do bloga
PoradnikExcelTabeleNarzędzia PDF

Jak wyodrębnić tabele z PDF do Excel: Porównanie 5 metod

28 lutego 2026
PDFSub Team

Pliki PDF przechowują tabele jako rozproszone fragmenty tekstu o współrzędnych x,y — bez wierszy, kolumn czy komórek. Oto jak faktycznie przenieść te dane do arkusza kalkulacyjnego, od darmowych narzędzi przeglądarkowych po skrypty Pythona.


PDFDataOpisKwota01/15Payment Recv$1,250.0001/16Office Supply-$85.0001/18Wire Transfer$3,400.0001/20Utility Bill-$142.5001/22Client Inv$2,100.00WyodrębnijExcelABCD1234567DataOpisKwotaBalance01/15/2026Payment Recv$1,250.00$5,25001/16/2026Office Supply-$85.00$5,16501/18/2026Wire Transfer$3,400.00$8,56501/20/2026Utility Bill-$142.50$8,42301/22/2026Client Inv$2,100.00$10,523Wyodrębnij tabele z PDF do ExcelAutomatycznie wykrywaj i ekstrahuj ustrukturyzowane dane tabelaryczne

Masz plik PDF z tabelą, której potrzebujesz w Excelu. Może to być raport finansowy, wyciąg bankowy, faktura lub artykuł naukowy. Dane są na wyciągnięcie ręki — schludnie ułożone w wierszach i kolumnach na ekranie. Ale gdy próbujesz je przenieść, wszystko się rozpada.

Dzieje się tak, ponieważ PDF nie jest formatem danych. Jest to format wyświetlania. W specyfikacji PDF nie ma pojęcia "tabeli", "wiersza" ani "kolumny". To, co wygląda jak ustrukturyzowana tabela, w rzeczywistości składa się z kilkudziesięciu fragmentów tekstu umieszczonych w określonych współrzędnych x,y na płótnie. Odzyskanie tej struktury do arkusza kalkulacyjnego jest problemem inżynierii wstecznej — a różne narzędzia radzą sobie z tym z różnym powodzeniem.

Ten przewodnik omawia 5 metod ekstrakcji tabel z plików PDF, kiedy każda z nich działa najlepiej i co robić, gdy coś pójdzie nie tak.

Dlaczego ekstrakcja tabel z PDF jest trudna

5 Methods for Extracting PDF Tables to ExcelAccuracy comparison across table types — choose the right tool for your PDFMethodBordered TablesBorderless TablesScanned PDFsCostPDFSub (Free+AI)★90–99%75–95%85–95%FreePower Query85–95%40–60%N/A$0 (built-in)Adobe Acrobat90–95%70–80%80–90%$240/yrTabula/Camelot68–73%55–75%N/AFreeCopy-Paste30–50%10–30%0%FreeHigh (80%+)Medium (50–79%)Low (<50%)Not supported★ Recommended for sensitive financial data

Format PDF nie zawiera tabel

Specyfikacja PDF (ISO 32000-2:2020) definiuje strumień zawartości — sekwencję operatorów, które pozycjonują poszczególne znaki w precyzyjnych współrzędnych. Prosty wiersz tabeli, taki jak "Data | Opis | Kwota", może być zapisany jako:

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Artykuły biurowe) Tj 180 0 Td (125.00) Tj ET

Nie ma tagów <table>, <tr> ani <td>. Brak identyfikatorów wierszy. Brak granic kolumn. Widoczne linie wokół komórek to oddzielne operacje rysowania, całkowicie odłączone od tekstu. Narzędzie do ekstrakcji musi wywnioskować całą strukturę na podstawie relacji przestrzennych.

Trzy typy obramowań tabel

Tabele z obramowaniem (siatkowe) mają widoczne linie wokół każdej komórki. Są one najłatwiejsze do wyodrębnienia, ponieważ linie wyraźnie definiują granice komórek. Często występują w formalnych raportach finansowych, formularzach rządowych i standaryzowanych raportach.

Tabele bez obramowania (strumieniowe) nie mają żadnych linii. Struktura jest definiowana wyłącznie przez wyrównanie białych znaków — elementy tekstowe o spójnych współrzędnych x w różnych wierszach tworzą domniemane kolumny. Często występują w artykułach naukowych, fakturach i katalogach produktów.

Tabele częściowo obramowane mają tylko częściowe obramowania — zazwyczaj poziome linie między sekcjami, ale bez pionowych podziałów. Są one niezwykle powszechne w wyciągach bankowych, raportach maklerskich i rachunkach za media. Są one najtrudniejsze do wyodrębnienia, ponieważ częściowe obramowania wprowadzają w błąd parsery trybu siatkowego, a brakujące obramowania zmniejszają pewność trybu strumieniowego.

PDF-y oznaczone tagami vs. bez tagów

PDF-y oznaczone tagami zawierają metadane strukturalne identyfikujące nagłówki, akapity i komórki tabeli. PDF-y bez tagów nie mają nic z tych rzeczy — narzędzie do ekstrakcji otrzymuje tylko surowe współrzędne. Zdecydowana większość plików PDF nie jest oznaczona tagami, w tym praktycznie wszystkie wyciągi bankowe, faktury i raporty finansowe.


Metoda 1: PDFSub Extract Tables (Darmowe + Awaryjne AI)

Narzędzie Extract Tables PDFSub wykorzystuje trójpoziomowe podejście, które maksymalizuje dokładność przy minimalnych kosztach:

Poziom 1: Detekcja oparta na współrzędnych (Przeglądarka, Darmowe)

Narzędzie najpierw próbuje ekstrakcji całkowicie w Twojej przeglądarce:

  • Analizuje strumień zawartości PDF, aby wyodrębnić każdy element tekstowy wraz z jego współrzędnymi x,y
  • Grupuje elementy tekstowe w linie na podstawie bliskości współrzędnych y
  • Analizuje wzorce wyrównania współrzędnych x w różnych liniach, aby wykryć granice kolumn
  • Wymaga minimum 3 wierszy, 2 kolumn i 70%+ pewności

Jeśli znalezione zostaną dobre tabele, otrzymasz ustrukturyzowane dane natychmiast — bez przesyłania na serwer, bez zużycia kredytów AI, a Twój plik nigdy nie opuści Twojego urządzenia.

Poziom 2: Ekstrakcja po stronie serwera (pdfplumber, Darmowe)

Jeśli detekcja oparta na współrzędnych nie znajdzie żadnych tabel, narzędzie używa pdfplumber (licencja MIT) na serwerze. Wykrywa ono zarówno linie jawne (obramowania rysowane), jak i linie domniemane (wzorce wyrównania słów), znajduje przecięcia, identyfikuje prostokąty i mapuje tekst do komórek.

Poziom 3: Ekstrakcja AI (Zużywa kredyty)

Dla zeskanowanych plików PDF, złożonych układów lub tabel, których metody oparte na regułach nie potrafią przetworzyć, narzędzie przechodzi na ekstrakcję wizyjną opartą na sztucznej inteligencji. Możesz również włączyć opcję "Wymuś ekstrakcję AI", aby przejść bezpośrednio do tego poziomu, gdy wiesz, że tabela jest złożona.

Formaty wyjściowe: Excel (.xlsx), CSV, JSON.

Najlepsze dla: Szybka ekstrakcja bez instalacji oprogramowania. Cyfrowe pliki PDF są przetwarzane całkowicie w przeglądarce, co zapewnia maksymalną prywatność.


Metoda 2: Power Query w Excelu (Tylko Windows)

Dostępne w Excelu 2019+ i Microsoft 365 w systemie Windows: Dane → Pobierz dane → Z pliku → Z PDF.

Jak to działa

  1. Kliknij Dane → Pobierz dane → Z pliku → Z PDF
  2. Wybierz plik PDF
  3. Power Query wyświetli panel Nawigatora z listą wykrytych tabel na każdej stronie
  4. Wybierz tabele, które chcesz, kliknij Przekształć dane, aby je oczyścić, a następnie Załaduj

Zalety

  • Wbudowane w Excel — brak dodatkowych kosztów dla subskrybentów Microsoft 365
  • Silnik transformacji Power Query dobrze radzi sobie z post-processingiem (wypełnianie w dół, przestawianie, scalanie kolumn)
  • Możliwość odświeżenia danych, jeśli źródłowy plik PDF zostanie zaktualizowany
  • Obsługa łączenia wielu tabel z tego samego pliku PDF

Ograniczenia

  • Tylko Windows — niedostępne w Excelu dla Mac, Excel Online ani na urządzenia mobilne
  • Problemy z tabelami bez obramowania — działa najlepiej z wyraźnie obramowanymi tabelami
  • Brak OCR — nie można wyodrębnić danych z zeskanowanych plików PDF/PDF-ów obrazkowych
  • Tabele wielostronicowe są problematyczne — każda strona często jest importowana jako oddzielna tabela, co wymaga ręcznego łączenia
  • Wiersze wieloliniowe — tekst zawinięty w komórkach często dzieli się na wiele wierszy, co wymaga czyszczenia

Najlepsze dla: Użytkowników systemu Windows z Microsoft 365, którzy mają proste, obramowane tabele.


Metoda 3: Adobe Acrobat (Płatne)

Plik → Eksportuj PDF → Arkusz kalkulacyjny → Skoroszyt Microsoft Excel

Ceny (2026)

  • Acrobat Standard: 12,99 USD/miesiąc (plan roczny)
  • Acrobat Pro: 19,99 USD/miesiąc (plan roczny)
  • Export PDF (samodzielny): plan niższej klasy, tylko konwersja

Zalety

  • Wbudowany OCR dla dokumentów skanowanych
  • Zazwyczaj zachowuje formatowanie dla prostych tabel z obramowaniem
  • Przetwarzanie wsadowe dostępne w wersji Pro

Ograniczenia

  • Drogi do samej ekstrakcji tabel — 156–240 USD/rok
  • Złożone tabele z połączonymi komórkami i wielostronicowymi zakresami nadal generują niedokładne wyniki
  • Pliki mogą być przesyłane do chmury Adobe w celu przetworzenia — problematyczne w przypadku poufnych danych finansowych
  • Wymaga instalacji na komputerze stacjonarnym

Najlepsze dla: Użytkowników, którzy już płacą za Acrobat Pro i potrzebują okazjonalnych eksportów tabel z OCR.


Metoda 4: Kopiuj-Wklej (Ręcznie)

Najbardziej intuicyjne podejście — i to, które najczęściej zawodzi w przypadku tabel.

Typowe problemy

  • Wszystkie dane w jednej kolumnie — cała tabela jest wklejana bez podziału na kolumny
  • Liczby stają się tekstem — symbole walut, nawiasy i separatory przerywają formatowanie numeryczne
  • Treść komórki wieloliniowej tworzy fikcyjne wiersze — opis, który zawija się na dwóch liniach w komórce, staje się dwoma oddzielnymi wierszami
  • Nagłówki oddzielone od danych — wiersz nagłówka zostaje odłączony
  • Kolumny niedopasowane — dane przesuwają się, ponieważ odstępy między znakami nie przekładają się na tabulatory

Częściowe obejście

Wklej do Excela, a następnie użyj Dane → Tekst jako kolumny z ogranicznikami spacji lub o stałej szerokości. Włącz opcję "Traktuj kolejne ograniczniki jako jeden". Działa to dla bardzo prostych, dobrze rozmieszczonych tabel, ale zawodzi w przypadku czegokolwiek z zawartością komórek składającą się z wielu słów.

Najlepsze dla: Wyodrębniania pojedynczej, małej, prostej tabeli jako ostateczność.


Metoda 5: Biblioteki Pythona (Dla programistów)

Trzy biblioteki na licencji MIT obsługują programistyczną ekstrakcję tabel z PDF:

Tabula-py

Pythonowy wrapper wokół Tabula (Java). Wymaga środowiska Java.

  • Tryb siatkowy dla tabel z obramowaniem (znajduje linie i przecięcia)
  • Tryb strumieniowy dla tabel bez obramowania (wykorzystuje wyrównanie tekstu)
  • Dobry do przetwarzania wsadowego w skryptach
  • Brak obsługi OCR

Camelot

Oferuje również tryby siatkowy i strumieniowy.

  • Ogólnie przewyższa Tabula w przypadku tabel z obramowaniem
  • Tryb strumieniowy ma więcej parametrów konfiguracyjnych do precyzyjnego dostrajania
  • Dostarcza raporty dokładności z każdą ekstrakcją
  • Wymaga zależności Ghostscript. Brak obsługi OCR

pdfplumber

Podejście oparte na współrzędnych: wyodrębnia każdy znak z jego dokładną pozycją, a następnie wnioskuje strukturę.

  • Obsługuje najszerszy zakres typów tabel
  • Daje najwięcej kontroli, ale wymaga więcej konfiguracji
  • Jest to biblioteka używana przez PDFSub po stronie serwera
  • Brak obsługi OCR

Najlepsze dla: Programistów automatyzujących powtarzalne przepływy pracy ekstrakcji tabel, przetwarzających duże partie podobnych dokumentów.


Typowe problemy i jak je rozwiązać

Połączone komórki

Gdy komórki obejmują wiele wierszy lub kolumn, większość narzędzi albo umieszcza zawartość w lewej górnej komórce, pozostawiając inne puste, albo niedopasowuje wszystkie kolejne kolumny. Nie ma uniwersalnego rozwiązania — format CSV nie ma koncepcji łączenia, więc informacje o łączeniu są zawsze tracone.

Naprawa: Wyodrębnij tabelę, a następnie ręcznie popraw artefakty łączenia w Excelu. W przypadku powtarzających się tabel z tym samym wzorcem łączenia rozważ skrypt post-processingowy.

Treść wieloliniowa w komórkach

Długie opisy, które zawijają się w komórce, stają się wieloma wierszami w wyniku, wypychając wszystkie kolejne dane z wyrównania. Jest to najczęstszy błąd ekstrakcji w dokumentach finansowych.

Naprawa: Po ekstrakcji poszukaj wierszy, w których brakuje dat i kwot — są to prawdopodobnie linie kontynuacji należące do powyższego wiersza. W Excelu połącz je ręcznie lub użyj formuły pomocniczej.

Tabele obejmujące wiele stron

Narzędzia muszą określić, gdzie tabela się kontynuuje, czy usunąć powtarzające się nagłówki i jak filtrować stopki stron. Wiele narzędzi traktuje każdą stronę niezależnie.

Naprawa: Jeśli Twoje narzędzie zwraca wyniki per strona, połącz arkusze i usuń powtarzające się wiersze nagłówków. Sprawdź, czy ostatni wiersz na stronie N łączy się poprawnie z pierwszym wierszem na stronie N+1.

Problemy z formatowaniem waluty

Liczby ujemne w nawiasach ((1 234,56)) są wklejane jako tekst, a nie liczby. Symbole walut i separatory tysięcy również przerywają formatowanie numeryczne.

Naprawa: Po ekstrakcji zaznacz kolumnę kwoty i użyj Znajdź i zamień, aby usunąć znaki $, (, ). Następnie sformatuj kolumnę jako Liczba. W przypadku liczb ujemnych w nawiasach zamień ( na - i usuń ), a następnie przekonwertuj na format Liczba.

Niejednoznaczność dat

01/02/2026 — czy to 2 stycznia, czy 1 lutego? Narzędzie do ekstrakcji zachowuje ciąg znaków w niezmienionej postaci, ale Excel może go ponownie zinterpretować na podstawie Twojej lokalizacji.

Naprawa: Sprawdź plik PDF pod kątem wskazówek dotyczących formatu daty (szukaj dat z dniami > 12). Ustaw format daty Excela tak, aby pasował do źródła przed importem.


Porównanie dokładności

Metoda Proste z obramowaniem Bez obramowania Częściowo obramowane Skanowane PDF
PDFSub (współrzędne + AI) 90–99% 75–95% 70–95% 85–95% (AI)
Power Query 85–95% 40–60% 50–70% Nieobsługiwane
Adobe Acrobat 90–95% 70–80% 70–85% 80–90%
Tabula ~68% 55–70% 50–65% Nieobsługiwane
Camelot ~73% 65–75% 60–70% Nieobsługiwane
Kopiuj-wklej 30–50% 10–30% 10–30% Niemożliwe

Zakresy odzwierciedlają zmienność w zależności od złożoności dokumentu. Dane porównawcze pochodzą z benchmarku ekstrakcji PDF Procycons 2025 i badań porównawczych Camelot.


Którą metodę wybrać?

Scenariusz Najlepsza metoda Dlaczego
Szybka jednorazowa ekstrakcja PDFSub Brak instalacji, przeglądarkowa, darmowa ekstrakcja oparta na współrzędnych
Prosta tabela z obramowaniem, Windows Power Query Wbudowane w Excel, bez dodatkowych kosztów
Skanowany PDF PDFSub (AI) lub Adobe Acrobat Potrzebna funkcja OCR
Poufne dane finansowe PDFSub Przetwarzanie przeglądarkowe, plik nigdy nie jest przesyłany
Powtarzalne przetwarzanie wsadowe Python (pdfplumber) Możliwość skryptowania, automatyzacja
Masz już Acrobat Pro Adobe Acrobat Już płacisz, proste tabele działają dobrze
Pojedyncza mała tabela, brak narzędzi Kopiuj-wklej Ostateczność, wszystko zweryfikuj

Wskazówki dotyczące najlepszych wyników

Używaj natywnych plików PDF. Pobieraj dokumenty z ich źródła, zamiast skanować papier. Natywne pliki PDF mają doskonały tekst, co znacznie zwiększa dokładność ekstrakcji.

Najpierw zidentyfikuj typ tabeli. Tabele z obramowaniem działają z prawie każdym narzędziem. Tabele bez obramowania wymagają trybu strumieniowego lub ekstrakcji AI. Znajomość typu pomaga wybrać odpowiednią metodę z góry.

Zacznij od darmowych metod opartych na regułach. Najpierw wypróbuj ekstrakcję opartą na współrzędnych. Przejdź do AI dopiero wtedy, gdy metody oparte na regułach dadzą słabe wyniki — oszczędza to czas i kredyty.

Zawsze weryfikuj wyniki. Sprawdź liczbę wierszy, wyrównanie kolumn, wartości liczbowe i sumy. Nigdy nie ufaj wynikom ekstrakcji bezkrytycznie.

Uważaj na formatowanie liczb. Po ekstrakcji sprawdź, czy liczby są faktycznie liczbami w Excelu (wyrównane do prawej), a nie ciągami tekstowymi (wyrównane do lewej). Symbole walut i liczby ujemne w nawiasach są częstymi przyczynami problemów.

W przypadku wrażliwych danych preferuj narzędzia przeglądarkowe. Raporty finansowe, wyciągi bankowe i dokumenty podatkowe zawierają poufne informacje. Narzędzia, które przetwarzają pliki PDF w Twojej przeglądarce, nigdy nie przesyłają Twojego pliku, eliminując ryzyko ujawnienia danych.


Wypróbuj za darmo

Gotowy do ekstrakcji tabel z pliku PDF? Prześlij plik teraz — PDFSub najpierw próbuje ekstrakcji opartej na współrzędnych, z awaryjnym trybem AI dla złożonych tabel. Cyfrowe pliki PDF są przetwarzane całkowicie w Twojej przeglądarce. Rozpocznij 7-dniowy bezpłatny okres próbny.

Powrót do bloga

Masz pytania? Skontaktuj się z nami

PDFSub

Wszystkie narzędzia do PDF i dokumentów w jednym miejscu. Szybko, bezpiecznie i prywatnie.

Zgodność z GDPRZgodność z CCPASOC 2 Ready
Powered by PDFSub Engine

Narzędzia PDF

  • Połącz PDF
  • Podziel PDF
  • Zmień kolejność stron
  • Obróć PDF
  • Usuń strony
  • Wyodrębnij strony
  • Dodaj znak wodny
  • Edytuj PDF
  • Pieczątka w PDF
  • Wypełnianie formularzy PDF
  • Przytnij strony
  • Zmień rozmiar strony
  • Dodaj numery stron
  • Nagłówki i stopki
  • Kompresuj PDF
  • Utwórz PDF z możliwością wyszukiwania
  • Clean Scanned PDF
  • Photo to Document
  • Auto-Crop PDF
  • Napraw PDF
  • Edytuj metadane
  • Usuń metadane
  • PDF do Word
  • Word do PDF
  • Excel do PDF
  • PDF do PowerPoint
  • PDF do obrazu
  • Obraz do PDF
  • HTML do PDF
  • HEIC do obrazu
  • WEBP do JPG
  • WEBP do PNG
  • PowerPoint do PDF
  • PDF do HTML
  • EPUB do PDF
  • TIFF do PDF
  • PNG do PDF
  • PDF do PNG
  • Tekst do PDF
  • SVG do PDF
  • WEBP do PDF
  • PDF do EPUB
  • RTF do PDF
  • ODT do PDF
  • ODS do PDF
  • PDF do ODT
  • PDF do ODS
  • PDF do SVG
  • PDF do RTF
  • PDF do tekstu
  • ODP do PDF
  • PDF do ODP
  • ODG do PDF
  • Przeglądarka PDF
  • Konwersja na PDF/A
  • Utwórz PDF
  • Konwersja wsadowa
  • Strony na arkusz
  • Chroń hasłem
  • Odblokuj PDF
  • Anonimizuj PDF
  • Podpisz PDF (E-Sign)
  • Porównaj PDF-y
  • Wyodrębnij tabele
  • PDF to Excel
  • Konwerter wyciągów bankowych
  • Ekstraktor faktur
  • Skaner paragonów
  • Raport finansowy
  • OCR - Wyodrębnij tekst
  • Konwersja pisma ręcznego
  • Podsumuj PDF
  • Przetłumacz PDF
  • Czatuj z PDF
  • Wyodrębnij dane
  • Studio projektowe

Produkt

  • Privacy & Security
  • Wszystkie narzędzia
  • Funkcje
  • Wyciągi bankowe
  • Cennik
  • FAQ
  • Blog

Wsparcie

  • Centrum pomocy
  • Kontakt
  • FAQ

Informacje prawne

  • Polityka prywatności
  • Regulamin
  • Polityka cookies

© 2026 PDFSub. Wszelkie prawa zastrzeżone.

Stworzono w Ameryce z dla ludzi na całym świecie