Kako izdvojiti tabele iz PDF-a u Excel: 5 upoređenih metoda,

Zašto je ekstrakcija tabela iz PDF-ova teška

PDF format nema tabele

Specifikacija PDF-a (ISO 32000-2:2020) definiše tok sadržaja — niz operatora koji pozicioniraju pojedinačne karaktere na preciznim koordinatama. Jednostavan red tabele poput "Datum | Opis | Iznos" može biti sačuvan kao:

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Kancelarijski materijal) Tj 180 0 Td (125.00) Tj ET

Ne postoje <table>, <tr>, ili <td> tagovi. Nema identifikatora redova. Nema granica kolona. Vizuelne linije koje vidite oko ćelija su zasebne operacije crtanja potpuno nepovezane sa tekstom. Alat za ekstrakciju mora da izvede celu strukturu iz prostornih odnosa.

Tri vrste ivica tabela

Tabele sa ivicama (rešetke) imaju vidljive linije oko svake ćelije. Ovo su najlakše za ekstrakciju jer linije eksplicitno definišu granice ćelija. Česte u formalnim finansijskim izveštajima, vladinim formularima i standardizovanim izveštajima.

Tabele bez ivica (tok) nemaju nikakve linije. Struktura je definisana isključivo poravnanjem razmaka — tekstualni elementi koji dele konzistentne x-koordinate kroz redove formiraju implicitne kolone. Česte u naučnim radovima, fakturama i katalozima proizvoda.

Polu-sa-ivicama tabele imaju samo delimične ivice — obično horizontalne linije između sekcija, ali bez vertikalnih razdelnika. Izuzetno česte u bankarskim izvodima, izveštajima brokera i računima za komunalije. Ovo su najteže za ekstrakciju jer parcijalne ivice dovode u zabludu parsere u režimu rešetke, dok odsustvo ivica smanjuje pouzdanost režima toka.

Označeni vs. Neoznačeni PDF-ovi

Označeni PDF-ovi uključuju meta-podatke o strukturi koji identifikuju zaglavlja, paragrafe i ćelije tabele. Neoznačeni PDF-ovi nemaju ništa od ovoga — alat za ekstrakciju dobija samo sirove koordinate. Ogromna većina PDF-ova je neoznačena, uključujući praktično sve bankarske izvode, fakture i finansijske izveštaje.

Metod 1: PDFSub Ekstraktuj Tabele (Besplatno + AI Rezerva)

PDFSub-ov alat za ekstrakciju tabela koristi trostepeni pristup koji maksimizira tačnost uz minimiziranje troškova:

Korak 1: Detekcija zasnovana na koordinatama (Pregledač, Besplatno)

Alat prvo pokušava ekstrakciju potpuno u vašem pregledaču:

Parsira tok sadržaja PDF-a da bi ekstrahovao svaki tekstualni element sa njegovim x,y koordinatama
Grupiše tekstualne elemente u redove na osnovu blizine y-koordinata
Analizira obrasce poravnanja x-koordinata kroz redove da bi detektovao granice kolona
Zahteva minimum 3 reda, 2 kolone i 70%+ pouzdanosti

Ako se pronađu dobre tabele, odmah dobijate strukturirane podatke — bez otpremanja na server, bez potrošenih AI kredita, i vaša datoteka nikada ne napušta vaš uređaj.

Korak 2: Ekstrakcija na strani servera (pdfplumber, Besplatno)

Ako detekcija zasnovana na koordinatama ne pronađe tabele, alat koristi pdfplumber (MIT licenca) na serveru. Ovo detektuje kako eksplicitne linije (nacrtane ivice), tako i implicitne linije (obrasci poravnanja reči), pronalazi preseke, identifikuje pravougaonike i mapira tekst u ćelije.

Korak 3: AI Ekstrakcija (Koristi Kredite)

Za skenirane PDF-ove, složene rasporede ili tabele koje metode zasnovane na pravilima ne mogu da parsiraju, alat se oslanja na ekstrakciju vizuelnih podataka zasnovanu na veštačkoj inteligenciji. Takođe možete uključiti opciju "Nateraj AI ekstrakciju" da biste preskočili direktno na ovaj korak kada znate da je tabela složena.

Formati izlaza: Excel (.xlsx), CSV, JSON.

Najbolje za: Brzu ekstrakciju bez instaliranja softvera. Digitalni PDF-ovi se obrađuju potpuno u vašem pregledaču radi maksimalne privatnosti.

Metod 2: Power Query u Excelu (Samo za Windows)

Dostupno u Excelu 2019+ i Microsoft 365 na Windows-u: Podaci → Preuzmi podatke → Iz datoteke → Iz PDF-a.

Kako funkcioniše

Kliknite Podaci → Preuzmi podatke → Iz datoteke → Iz PDF-a
Odaberite vašu PDF datoteku
Power Query prikazuje panel Navigator koji navodi detektovane tabele po stranici
Odaberite tabele koje želite, kliknite Transformiši podatke da biste ih očistili, a zatim Učitaj

Prednosti

Ugrađeno u Excel — nema dodatnih troškova za pretplatnike Microsoft 365
Power Query-jev mehanizam za transformaciju dobro obrađuje post-procesiranje (popuni nadole, pivotiranje, spajanje kolona)
Može osvežiti podatke ako se izvorna PDF datoteka ažurira
Podržava povezivanje više tabela iz iste PDF datoteke

Ograničenja

Samo za Windows — nije dostupno u Excelu za Mac, Excel Online ili mobilnim uređajima
Teško se nosi sa tabelama bez ivica — najbolje radi sa jasno omeđenim tabelama
Nema OCR — ne može da ekstrahuje iz skeniranih PDF-ova/PDF-ova sa slikama
Tabele na više stranica su problematične — svaka stranica se često uvozi kao zasebna tabela, zahtevajući ručno spajanje
Redovi sa više linija — tekst koji prelazi u nove redove unutar ćelija često se deli u više redova, zahtevajući čišćenje

Najbolje za: Korisnike Windows-a sa Microsoft 365 koji imaju jednostavne, omeđene tabele.

Metod 3: Adobe Acrobat (Platno)

Datoteka → Izvezi PDF → Tabelu → Microsoft Excel radna sveska

Cene (2026)

Acrobat Standard: 12.99 USD/mesečno (godišnji plan)
Acrobat Pro: 19.99 USD/mesečno (godišnji plan)
Export PDF (samostalni): plan niže kategorije samo za konverziju

Prednosti

Ugrađeni OCR za skenirane dokumente
Generalno čuva formatiranje za jednostavne, omeđene tabele
Batch obrada dostupna u Pro verziji

Ograničenja

Skupo samo za ekstrakciju tabela — 156–240 USD/godina
Složene tabele sa spojenim ćelijama i višestranim rasponima i dalje proizvode netačne izlaze
Datoteke se mogu otpremiti na Adobe-ov oblak radi obrade — problematično za osetljive finansijske podatke
Zahteva instalaciju na desktopu

Najbolje za: Korisnike koji već plaćaju za Acrobat Pro i kojima su povremeno potrebni izvozi tabela sa OCR-om.

Метод 4: Копирај-налепи (Ручно)

Најинтуитивнији приступ — и онај који најчешће пропада код табела.

Уобичајени проблеми

Сви подаци у једној колони — цела табела се копира без поделе колона
Бројеви постају текст — симболи валута, заграде и раздвајачи нарушавају нумерички формат
Садржај ћелија у више редова ствара лажне редове — опис који се прелама у два реда у ћелији постаје два одвојена реда
Заглавља одвојена од података — ред заглавља се одваја
Колоне неусклађене — подаци се померају јер размак између знакова не прелази у табулаторе

Делимично решење

Налепите у Excel, а затим користите Подаци → Текст у колоне са раздвајачима по размаку или фиксне ширине. Омогућите „Третирај узастопне раздвајаче као један“. Ово ради за веома једноставне, добро размакнуте табеле, али пропада за било шта са садржајем ћелија у више речи.

Најбоље за: Извлачење једне мале, једноставне табеле као последње средство.

Метод 5: Python библиотеке (За програмере)

Три библиотеке са MIT лиценцом рукују извлачењем табела из PDF-а програмски:

Tabula-py

Python омотач око Tabula (Java). Захтева Java runtime.

Lattice режим за табеле са ивицама (проналази линије и пресеке)
Stream режим за табеле без ивица (користи поравнање текста)
Добро за пакетну обраду у скриптама
Нема подршку за OCR

Camelot

Такође нуди lattice и stream режиме.

Генерално надмашује Tabula за табеле са ивицама
Stream режим има више параметара за фино подешавање
Пружа извештаје о тачности уз свако извлачење
Захтева Ghostscript зависност. Нема подршку за OCR

pdfplumber

Приступ заснован на координатама: извлачи сваки знак са својом тачном позицијом, а затим изводи структуру.

Рукује најширим спектром типова табела
Даје највише контроле, али захтева више подешавања
Ово је библиотека коју PDFSub користи на серверској страни
Нема подршку за OCR

Најбоље за: Програмере који аутоматизују понављајуће токове посла извлачења табела, обрађују велике пакете сличних докумената.

Уобичајени проблеми и како их решити

Спојене ћелије

Када ћелије прелазе преко више редова или колона, већина алата или ставља садржај у горњу леву ћелију и оставља остале празне, или погрешно поравна све наредне колоне. Не постоји универзално решење — CSV формат нема концепт спајања, тако да се информације о спајању увек губе.

Поправка: Извуците табелу, а затим ручно поправите артефакте спајања у Excel-у. За понављајуће табеле са истим обрасцем спајања, размотрите скрипту за пост-обраду.

Садржај у више редова унутар ћелија

Дуги описи који се преламају унутар ћелије постају више редова у излазу, померајући све наредне податке ван поравнања. Ово је најчешћа грешка при извлачењу за финансијске документе.

Поправка: Након извлачења, потражите редове којима недостају датуми и износи — ово су вероватно наставци који припадају реду изнад. У Excel-у их спојите ручно или користите помоћну формулу.

Табеле које се протежу преко више страница

Алати морају да одреде где се табела наставља, да ли да уклоне понављајућа заглавља и како да филтрирају подножја страница. Многи алати третирају сваку страницу независно.

Поправка: Ако ваш алат даје резултате по страници, комбинујте листове и уклоните понављајућа заглавља. Проверите да ли се последњи ред на страници N исправно повезује са првим редом на страници N+1.

Проблеми са форматирањем валута

Негативни бројеви у заградама ((1,234.56)) се копирају као текст, а не бројеви. Симболи валута и раздвајачи хиљада такође нарушавају нумерички формат.

Поправка: Након извлачења, изаберите колону са износима и користите Нађи и замени да бисте уклонили $, ( и ) знакове. Затим форматирајте колону као Број. За негативне бројеве у заградама, замените ( са - и уклоните ), а затим конвертујте у формат Број.

Нејасноћа датума

01/02/2026 — да ли је то 2. јануар или 1. фебруар? Алат за извлачење задржава стринг онакав какав јесте, али Excel га може поново интерпретирати на основу вашег локала.

Поправка: Проверите изворни PDF за назнаке формата датума (потражите датуме са данима већим од 12). Поставите формат датума Excel-а да одговара изворном пре увоза.

Поређење тачности

Метод	Једноставна са ивицама	Без ивица	Полу-ивице	Сканирани PDF-ови
PDFSub (координате + AI)	90–99%	75–95%	70–95%	85–95% (AI)
Power Query	85–95%	40–60%	50–70%	Није подржано
Adobe Acrobat	90–95%	70–80%	70–85%	80–90%
Tabula	~68%	55–70%	50–65%	Није подржано
Camelot	~73%	65–75%	60–70%	Није подржано
Копирај-налепи	30–50%	10–30%	10–30%	Немогуће

Опсези одражавају варијације у сложености докумената. Подаци из бенчмарка из Procyons 2025 PDF Extraction Benchmark и студија поређења Camelot-а.

Који метод треба да користите?

Сценарио	Најбољи метод	Зашто
Брзо једнократно извлачење	PDFSub	Без инсталације, базиран на прегледачу, бесплатно извлачење координата
Једноставна табела са ивицама, Windows	Power Query	Уграђен у Excel, без додатних трошкова
Сканирани PDF	PDFSub (AI) или Adobe Acrobat	Потребна OCR могућност
Осетљиви финансијски подаци	PDFSub	Обрада базирана на прегледачу, фајл се никада не поставља
Понављајућа пакетна обрада	Python (pdfplumber)	Скриптабилно, аутоматизовано
Већ имате Acrobat Pro	Adobe Acrobat	Већ плаћате, једноставне табеле добро раде
Једна мала табела, без алата	Копирај-налепи	Последње средство, проверите све

PDF format nema tabele

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Kancelarijski materijal) Tj 180 0 Td (125.00) Tj ET

Tri vrste ivica tabela

Označeni vs. Neoznačeni PDF-ovi

Metod 1: PDFSub Ekstraktuj Tabele (Besplatno + AI Rezerva)

PDFSub-ov alat za ekstrakciju tabela koristi trostepeni pristup koji maksimizira tačnost uz minimiziranje troškova:

Korak 1: Detekcija zasnovana na koordinatama (Pregledač, Besplatno)

Alat prvo pokušava ekstrakciju potpuno u vašem pregledaču:

Parsira tok sadržaja PDF-a da bi ekstrahovao svaki tekstualni element sa njegovim x,y koordinatama
Grupiše tekstualne elemente u redove na osnovu blizine y-koordinata
Analizira obrasce poravnanja x-koordinata kroz redove da bi detektovao granice kolona
Zahteva minimum 3 reda, 2 kolone i 70%+ pouzdanosti

Ako se pronađu dobre tabele, odmah dobijate strukturirane podatke — bez otpremanja na server, bez potrošenih AI kredita, i vaša datoteka nikada ne napušta vaš uređaj.

Korak 2: Ekstrakcija na strani servera (pdfplumber, Besplatno)

Korak 3: AI Ekstrakcija (Koristi Kredite)

Formati izlaza: Excel (.xlsx), CSV, JSON.

Najbolje za: Brzu ekstrakciju bez instaliranja softvera. Digitalni PDF-ovi se obrađuju potpuno u vašem pregledaču radi maksimalne privatnosti.

Metod 2: Power Query u Excelu (Samo za Windows)

Dostupno u Excelu 2019+ i Microsoft 365 na Windows-u: Podaci → Preuzmi podatke → Iz datoteke → Iz PDF-a.

Kako funkcioniše

Kliknite Podaci → Preuzmi podatke → Iz datoteke → Iz PDF-a
Odaberite vašu PDF datoteku
Power Query prikazuje panel Navigator koji navodi detektovane tabele po stranici
Odaberite tabele koje želite, kliknite Transformiši podatke da biste ih očistili, a zatim Učitaj

Prednosti

Ugrađeno u Excel — nema dodatnih troškova za pretplatnike Microsoft 365
Power Query-jev mehanizam za transformaciju dobro obrađuje post-procesiranje (popuni nadole, pivotiranje, spajanje kolona)
Može osvežiti podatke ako se izvorna PDF datoteka ažurira
Podržava povezivanje više tabela iz iste PDF datoteke

Ograničenja

Samo za Windows — nije dostupno u Excelu za Mac, Excel Online ili mobilnim uređajima
Teško se nosi sa tabelama bez ivica — najbolje radi sa jasno omeđenim tabelama
Nema OCR — ne može da ekstrahuje iz skeniranih PDF-ova/PDF-ova sa slikama
Tabele na više stranica su problematične — svaka stranica se često uvozi kao zasebna tabela, zahtevajući ručno spajanje
Redovi sa više linija — tekst koji prelazi u nove redove unutar ćelija često se deli u više redova, zahtevajući čišćenje

Najbolje za: Korisnike Windows-a sa Microsoft 365 koji imaju jednostavne, omeđene tabele.

Metod 3: Adobe Acrobat (Platno)

Datoteka → Izvezi PDF → Tabelu → Microsoft Excel radna sveska

Cene (2026)

Acrobat Standard: 12.99 USD/mesečno (godišnji plan)
Acrobat Pro: 19.99 USD/mesečno (godišnji plan)
Export PDF (samostalni): plan niže kategorije samo za konverziju

Prednosti

Ugrađeni OCR za skenirane dokumente
Generalno čuva formatiranje za jednostavne, omeđene tabele
Batch obrada dostupna u Pro verziji

Ograničenja

Skupo samo za ekstrakciju tabela — 156–240 USD/godina
Složene tabele sa spojenim ćelijama i višestranim rasponima i dalje proizvode netačne izlaze
Datoteke se mogu otpremiti na Adobe-ov oblak radi obrade — problematično za osetljive finansijske podatke
Zahteva instalaciju na desktopu

Najbolje za: Korisnike koji već plaćaju za Acrobat Pro i kojima su povremeno potrebni izvozi tabela sa OCR-om.

Метод 4: Копирај-налепи (Ручно)

Најинтуитивнији приступ — и онај који најчешће пропада код табела.

Уобичајени проблеми

Сви подаци у једној колони — цела табела се копира без поделе колона
Бројеви постају текст — симболи валута, заграде и раздвајачи нарушавају нумерички формат
Садржај ћелија у више редова ствара лажне редове — опис који се прелама у два реда у ћелији постаје два одвојена реда
Заглавља одвојена од података — ред заглавља се одваја
Колоне неусклађене — подаци се померају јер размак између знакова не прелази у табулаторе

Делимично решење

Најбоље за: Извлачење једне мале, једноставне табеле као последње средство.

Метод 5: Python библиотеке (За програмере)

Три библиотеке са MIT лиценцом рукују извлачењем табела из PDF-а програмски:

Tabula-py

Python омотач око Tabula (Java). Захтева Java runtime.

Lattice режим за табеле са ивицама (проналази линије и пресеке)
Stream режим за табеле без ивица (користи поравнање текста)
Добро за пакетну обраду у скриптама
Нема подршку за OCR

Camelot

Такође нуди lattice и stream режиме.

Генерално надмашује Tabula за табеле са ивицама
Stream режим има више параметара за фино подешавање
Пружа извештаје о тачности уз свако извлачење
Захтева Ghostscript зависност. Нема подршку за OCR

pdfplumber

Приступ заснован на координатама: извлачи сваки знак са својом тачном позицијом, а затим изводи структуру.

Рукује најширим спектром типова табела
Даје највише контроле, али захтева више подешавања
Ово је библиотека коју PDFSub користи на серверској страни
Нема подршку за OCR

Уобичајени проблеми и како их решити

Спојене ћелије

Садржај у више редова унутар ћелија

Табеле које се протежу преко више страница

Проблеми са форматирањем валута

Нејасноћа датума

Поређење тачности

Метод	Једноставна са ивицама	Без ивица	Полу-ивице	Сканирани PDF-ови
PDFSub (координате + AI)	90–99%	75–95%	70–95%	85–95% (AI)
Power Query	85–95%	40–60%	50–70%	Није подржано
Adobe Acrobat	90–95%	70–80%	70–85%	80–90%
Tabula	~68%	55–70%	50–65%	Није подржано
Camelot	~73%	65–75%	60–70%	Није подржано
Копирај-налепи	30–50%	10–30%	10–30%	Немогуће

Који метод треба да користите?

Сценарио	Најбољи метод	Зашто
Брзо једнократно извлачење	PDFSub	Без инсталације, базиран на прегледачу, бесплатно извлачење координата
Једноставна табела са ивицама, Windows	Power Query	Уграђен у Excel, без додатних трошкова
Сканирани PDF	PDFSub (AI) или Adobe Acrobat	Потребна OCR могућност
Осетљиви финансијски подаци	PDFSub	Обрада базирана на прегледачу, фајл се никада не поставља
Понављајућа пакетна обрада	Python (pdfplumber)	Скриптабилно, аутоматизовано
Већ имате Acrobat Pro	Adobe Acrobat	Већ плаћате, једноставне табеле добро раде
Једна мала табела, без алата	Копирај-налепи	Последње средство, проверите све