Kako izdvojiti tabele iz PDF-a u Excel: 5 upoređenih metoda,
Zašto je ekstrakcija tabela iz PDF-ova teška
PDF format nema tabele
Specifikacija PDF-a (ISO 32000-2:2020) definiše tok sadržaja — niz operatora koji pozicioniraju pojedinačne karaktere na preciznim koordinatama. Jednostavan red tabele poput "Datum | Opis | Iznos" može biti sačuvan kao:
BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Kancelarijski materijal) Tj 180 0 Td (125.00) Tj ET
Ne postoje <table>, <tr>, ili <td> tagovi. Nema identifikatora redova. Nema granica kolona. Vizuelne linije koje vidite oko ćelija su zasebne operacije crtanja potpuno nepovezane sa tekstom. Alat za ekstrakciju mora da izvede celu strukturu iz prostornih odnosa.
Tri vrste ivica tabela
Tabele sa ivicama (rešetke) imaju vidljive linije oko svake ćelije. Ovo su najlakše za ekstrakciju jer linije eksplicitno definišu granice ćelija. Česte u formalnim finansijskim izveštajima, vladinim formularima i standardizovanim izveštajima.
Tabele bez ivica (tok) nemaju nikakve linije. Struktura je definisana isključivo poravnanjem razmaka — tekstualni elementi koji dele konzistentne x-koordinate kroz redove formiraju implicitne kolone. Česte u naučnim radovima, fakturama i katalozima proizvoda.
Polu-sa-ivicama tabele imaju samo delimične ivice — obično horizontalne linije između sekcija, ali bez vertikalnih razdelnika. Izuzetno česte u bankarskim izvodima, izveštajima brokera i računima za komunalije. Ovo su najteže za ekstrakciju jer parcijalne ivice dovode u zabludu parsere u režimu rešetke, dok odsustvo ivica smanjuje pouzdanost režima toka.
Označeni vs. Neoznačeni PDF-ovi
Označeni PDF-ovi uključuju meta-podatke o strukturi koji identifikuju zaglavlja, paragrafe i ćelije tabele. Neoznačeni PDF-ovi nemaju ništa od ovoga — alat za ekstrakciju dobija samo sirove koordinate. Ogromna većina PDF-ova je neoznačena, uključujući praktično sve bankarske izvode, fakture i finansijske izveštaje.
Metod 1: PDFSub Ekstraktuj Tabele (Besplatno + AI Rezerva)
PDFSub-ov alat za ekstrakciju tabela koristi trostepeni pristup koji maksimizira tačnost uz minimiziranje troškova:
Korak 1: Detekcija zasnovana na koordinatama (Pregledač, Besplatno)
Alat prvo pokušava ekstrakciju potpuno u vašem pregledaču:
- Parsira tok sadržaja PDF-a da bi ekstrahovao svaki tekstualni element sa njegovim x,y koordinatama
- Grupiše tekstualne elemente u redove na osnovu blizine y-koordinata
- Analizira obrasce poravnanja x-koordinata kroz redove da bi detektovao granice kolona
- Zahteva minimum 3 reda, 2 kolone i 70%+ pouzdanosti
Ako se pronađu dobre tabele, odmah dobijate strukturirane podatke — bez otpremanja na server, bez potrošenih AI kredita, i vaša datoteka nikada ne napušta vaš uređaj.
Korak 2: Ekstrakcija na strani servera (pdfplumber, Besplatno)
Ako detekcija zasnovana na koordinatama ne pronađe tabele, alat koristi pdfplumber (MIT licenca) na serveru. Ovo detektuje kako eksplicitne linije (nacrtane ivice), tako i implicitne linije (obrasci poravnanja reči), pronalazi preseke, identifikuje pravougaonike i mapira tekst u ćelije.
Korak 3: AI Ekstrakcija (Koristi Kredite)
Za skenirane PDF-ove, složene rasporede ili tabele koje metode zasnovane na pravilima ne mogu da parsiraju, alat se oslanja na ekstrakciju vizuelnih podataka zasnovanu na veštačkoj inteligenciji. Takođe možete uključiti opciju "Nateraj AI ekstrakciju" da biste preskočili direktno na ovaj korak kada znate da je tabela složena.
Formati izlaza: Excel (.xlsx), CSV, JSON.
Najbolje za: Brzu ekstrakciju bez instaliranja softvera. Digitalni PDF-ovi se obrađuju potpuno u vašem pregledaču radi maksimalne privatnosti.
Metod 2: Power Query u Excelu (Samo za Windows)
Dostupno u Excelu 2019+ i Microsoft 365 na Windows-u: Podaci → Preuzmi podatke → Iz datoteke → Iz PDF-a.
Kako funkcioniše
- Kliknite Podaci → Preuzmi podatke → Iz datoteke → Iz PDF-a
- Odaberite vašu PDF datoteku
- Power Query prikazuje panel Navigator koji navodi detektovane tabele po stranici
- Odaberite tabele koje želite, kliknite Transformiši podatke da biste ih očistili, a zatim Učitaj
Prednosti
- Ugrađeno u Excel — nema dodatnih troškova za pretplatnike Microsoft 365
- Power Query-jev mehanizam za transformaciju dobro obrađuje post-procesiranje (popuni nadole, pivotiranje, spajanje kolona)
- Može osvežiti podatke ako se izvorna PDF datoteka ažurira
- Podržava povezivanje više tabela iz iste PDF datoteke
Ograničenja
- Samo za Windows — nije dostupno u Excelu za Mac, Excel Online ili mobilnim uređajima
- Teško se nosi sa tabelama bez ivica — najbolje radi sa jasno omeđenim tabelama
- Nema OCR — ne može da ekstrahuje iz skeniranih PDF-ova/PDF-ova sa slikama
- Tabele na više stranica su problematične — svaka stranica se često uvozi kao zasebna tabela, zahtevajući ručno spajanje
- Redovi sa više linija — tekst koji prelazi u nove redove unutar ćelija često se deli u više redova, zahtevajući čišćenje
Najbolje za: Korisnike Windows-a sa Microsoft 365 koji imaju jednostavne, omeđene tabele.
Metod 3: Adobe Acrobat (Platno)
Datoteka → Izvezi PDF → Tabelu → Microsoft Excel radna sveska
Cene (2026)
- Acrobat Standard: 12.99 USD/mesečno (godišnji plan)
- Acrobat Pro: 19.99 USD/mesečno (godišnji plan)
- Export PDF (samostalni): plan niže kategorije samo za konverziju
Prednosti
- Ugrađeni OCR za skenirane dokumente
- Generalno čuva formatiranje za jednostavne, omeđene tabele
- Batch obrada dostupna u Pro verziji
Ograničenja
- Skupo samo za ekstrakciju tabela — 156–240 USD/godina
- Složene tabele sa spojenim ćelijama i višestranim rasponima i dalje proizvode netačne izlaze
- Datoteke se mogu otpremiti na Adobe-ov oblak radi obrade — problematično za osetljive finansijske podatke
- Zahteva instalaciju na desktopu
Najbolje za: Korisnike koji već plaćaju za Acrobat Pro i kojima su povremeno potrebni izvozi tabela sa OCR-om.
Метод 4: Копирај-налепи (Ручно)
Најинтуитивнији приступ — и онај који најчешће пропада код табела.
Уобичајени проблеми
- Сви подаци у једној колони — цела табела се копира без поделе колона
- Бројеви постају текст — симболи валута, заграде и раздвајачи нарушавају нумерички формат
- Садржај ћелија у више редова ствара лажне редове — опис који се прелама у два реда у ћелији постаје два одвојена реда
- Заглавља одвојена од података — ред заглавља се одваја
- Колоне неусклађене — подаци се померају јер размак између знакова не прелази у табулаторе
Делимично решење
Налепите у Excel, а затим користите Подаци → Текст у колоне са раздвајачима по размаку или фиксне ширине. Омогућите „Третирај узастопне раздвајаче као један“. Ово ради за веома једноставне, добро размакнуте табеле, али пропада за било шта са садржајем ћелија у више речи.
Најбоље за: Извлачење једне мале, једноставне табеле као последње средство.
Метод 5: Python библиотеке (За програмере)
Три библиотеке са MIT лиценцом рукују извлачењем табела из PDF-а програмски:
Tabula-py
Python омотач око Tabula (Java). Захтева Java runtime.
- Lattice режим за табеле са ивицама (проналази линије и пресеке)
- Stream режим за табеле без ивица (користи поравнање текста)
- Добро за пакетну обраду у скриптама
- Нема подршку за OCR
Camelot
Такође нуди lattice и stream режиме.
- Генерално надмашује Tabula за табеле са ивицама
- Stream режим има више параметара за фино подешавање
- Пружа извештаје о тачности уз свако извлачење
- Захтева Ghostscript зависност. Нема подршку за OCR
pdfplumber
Приступ заснован на координатама: извлачи сваки знак са својом тачном позицијом, а затим изводи структуру.
- Рукује најширим спектром типова табела
- Даје највише контроле, али захтева више подешавања
- Ово је библиотека коју PDFSub користи на серверској страни
- Нема подршку за OCR
Најбоље за: Програмере који аутоматизују понављајуће токове посла извлачења табела, обрађују велике пакете сличних докумената.
Уобичајени проблеми и како их решити
Спојене ћелије
Када ћелије прелазе преко више редова или колона, већина алата или ставља садржај у горњу леву ћелију и оставља остале празне, или погрешно поравна све наредне колоне. Не постоји универзално решење — CSV формат нема концепт спајања, тако да се информације о спајању увек губе.
Поправка: Извуците табелу, а затим ручно поправите артефакте спајања у Excel-у. За понављајуће табеле са истим обрасцем спајања, размотрите скрипту за пост-обраду.
Садржај у више редова унутар ћелија
Дуги описи који се преламају унутар ћелије постају више редова у излазу, померајући све наредне податке ван поравнања. Ово је најчешћа грешка при извлачењу за финансијске документе.
Поправка: Након извлачења, потражите редове којима недостају датуми и износи — ово су вероватно наставци који припадају реду изнад. У Excel-у их спојите ручно или користите помоћну формулу.
Табеле које се протежу преко више страница
Алати морају да одреде где се табела наставља, да ли да уклоне понављајућа заглавља и како да филтрирају подножја страница. Многи алати третирају сваку страницу независно.
Поправка: Ако ваш алат даје резултате по страници, комбинујте листове и уклоните понављајућа заглавља. Проверите да ли се последњи ред на страници N исправно повезује са првим редом на страници N+1.
Проблеми са форматирањем валута
Негативни бројеви у заградама ((1,234.56)) се копирају као текст, а не бројеви. Симболи валута и раздвајачи хиљада такође нарушавају нумерички формат.
Поправка: Након извлачења, изаберите колону са износима и користите Нађи и замени да бисте уклонили $, ( и ) знакове. Затим форматирајте колону као Број. За негативне бројеве у заградама, замените ( са - и уклоните ), а затим конвертујте у формат Број.
Нејасноћа датума
01/02/2026 — да ли је то 2. јануар или 1. фебруар? Алат за извлачење задржава стринг онакав какав јесте, али Excel га може поново интерпретирати на основу вашег локала.
Поправка: Проверите изворни PDF за назнаке формата датума (потражите датуме са данима већим од 12). Поставите формат датума Excel-а да одговара изворном пре увоза.
Поређење тачности
| Метод | Једноставна са ивицама | Без ивица | Полу-ивице | Сканирани PDF-ови |
|---|---|---|---|---|
| PDFSub (координате + AI) | 90–99% | 75–95% | 70–95% | 85–95% (AI) |
| Power Query | 85–95% | 40–60% | 50–70% | Није подржано |
| Adobe Acrobat | 90–95% | 70–80% | 70–85% | 80–90% |
| Tabula | ~68% | 55–70% | 50–65% | Није подржано |
| Camelot | ~73% | 65–75% | 60–70% | Није подржано |
| Копирај-налепи | 30–50% | 10–30% | 10–30% | Немогуће |
Опсези одражавају варијације у сложености докумената. Подаци из бенчмарка из Procyons 2025 PDF Extraction Benchmark и студија поређења Camelot-а.
Који метод треба да користите?
| Сценарио | Најбољи метод | Зашто |
|---|---|---|
| Брзо једнократно извлачење | PDFSub | Без инсталације, базиран на прегледачу, бесплатно извлачење координата |
| Једноставна табела са ивицама, Windows | Power Query | Уграђен у Excel, без додатних трошкова |
| Сканирани PDF | PDFSub (AI) или Adobe Acrobat | Потребна OCR могућност |
| Осетљиви финансијски подаци | PDFSub | Обрада базирана на прегледачу, фајл се никада не поставља |
| Понављајућа пакетна обрада | Python (pdfplumber) | Скриптабилно, аутоматизовано |
| Већ имате Acrobat Pro | Adobe Acrobat | Већ плаћате, једноставне табеле добро раде |
| Једна мала табела, без алата | Копирај-налепи | Последње средство, проверите све |