PDFSub
CeneMergeSplitCompressEditE-SignBankovni izvodi
Nazad na blog

Kako izdvojiti tabele iz PDF-a u Excel: 5 upoređenih metoda,

28. фебруар 2026.
PDFSub Team

Zašto je ekstrakcija tabela iz PDF-ova teška

5 Methods for Extracting PDF Tables to ExcelAccuracy comparison across table types — choose the right tool for your PDFMethodBordered TablesBorderless TablesScanned PDFsCostPDFSub (Free+AI)★90–99%75–95%85–95%FreePower Query85–95%40–60%N/A$0 (built-in)Adobe Acrobat90–95%70–80%80–90%$240/yrTabula/Camelot68–73%55–75%N/AFreeCopy-Paste30–50%10–30%0%FreeHigh (80%+)Medium (50–79%)Low (<50%)Not supported★ Recommended for sensitive financial data

PDF format nema tabele

Specifikacija PDF-a (ISO 32000-2:2020) definiše tok sadržaja — niz operatora koji pozicioniraju pojedinačne karaktere na preciznim koordinatama. Jednostavan red tabele poput "Datum | Opis | Iznos" može biti sačuvan kao:

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Kancelarijski materijal) Tj 180 0 Td (125.00) Tj ET

Ne postoje <table>, <tr>, ili <td> tagovi. Nema identifikatora redova. Nema granica kolona. Vizuelne linije koje vidite oko ćelija su zasebne operacije crtanja potpuno nepovezane sa tekstom. Alat za ekstrakciju mora da izvede celu strukturu iz prostornih odnosa.

Tri vrste ivica tabela

Tabele sa ivicama (rešetke) imaju vidljive linije oko svake ćelije. Ovo su najlakše za ekstrakciju jer linije eksplicitno definišu granice ćelija. Česte u formalnim finansijskim izveštajima, vladinim formularima i standardizovanim izveštajima.

Tabele bez ivica (tok) nemaju nikakve linije. Struktura je definisana isključivo poravnanjem razmaka — tekstualni elementi koji dele konzistentne x-koordinate kroz redove formiraju implicitne kolone. Česte u naučnim radovima, fakturama i katalozima proizvoda.

Polu-sa-ivicama tabele imaju samo delimične ivice — obično horizontalne linije između sekcija, ali bez vertikalnih razdelnika. Izuzetno česte u bankarskim izvodima, izveštajima brokera i računima za komunalije. Ovo su najteže za ekstrakciju jer parcijalne ivice dovode u zabludu parsere u režimu rešetke, dok odsustvo ivica smanjuje pouzdanost režima toka.

Označeni vs. Neoznačeni PDF-ovi

Označeni PDF-ovi uključuju meta-podatke o strukturi koji identifikuju zaglavlja, paragrafe i ćelije tabele. Neoznačeni PDF-ovi nemaju ništa od ovoga — alat za ekstrakciju dobija samo sirove koordinate. Ogromna većina PDF-ova je neoznačena, uključujući praktično sve bankarske izvode, fakture i finansijske izveštaje.


Metod 1: PDFSub Ekstraktuj Tabele (Besplatno + AI Rezerva)

PDFSub-ov alat za ekstrakciju tabela koristi trostepeni pristup koji maksimizira tačnost uz minimiziranje troškova:

Korak 1: Detekcija zasnovana na koordinatama (Pregledač, Besplatno)

Alat prvo pokušava ekstrakciju potpuno u vašem pregledaču:

  • Parsira tok sadržaja PDF-a da bi ekstrahovao svaki tekstualni element sa njegovim x,y koordinatama
  • Grupiše tekstualne elemente u redove na osnovu blizine y-koordinata
  • Analizira obrasce poravnanja x-koordinata kroz redove da bi detektovao granice kolona
  • Zahteva minimum 3 reda, 2 kolone i 70%+ pouzdanosti

Ako se pronađu dobre tabele, odmah dobijate strukturirane podatke — bez otpremanja na server, bez potrošenih AI kredita, i vaša datoteka nikada ne napušta vaš uređaj.

Korak 2: Ekstrakcija na strani servera (pdfplumber, Besplatno)

Ako detekcija zasnovana na koordinatama ne pronađe tabele, alat koristi pdfplumber (MIT licenca) na serveru. Ovo detektuje kako eksplicitne linije (nacrtane ivice), tako i implicitne linije (obrasci poravnanja reči), pronalazi preseke, identifikuje pravougaonike i mapira tekst u ćelije.

Korak 3: AI Ekstrakcija (Koristi Kredite)

Za skenirane PDF-ove, složene rasporede ili tabele koje metode zasnovane na pravilima ne mogu da parsiraju, alat se oslanja na ekstrakciju vizuelnih podataka zasnovanu na veštačkoj inteligenciji. Takođe možete uključiti opciju "Nateraj AI ekstrakciju" da biste preskočili direktno na ovaj korak kada znate da je tabela složena.

Formati izlaza: Excel (.xlsx), CSV, JSON.

Najbolje za: Brzu ekstrakciju bez instaliranja softvera. Digitalni PDF-ovi se obrađuju potpuno u vašem pregledaču radi maksimalne privatnosti.


Metod 2: Power Query u Excelu (Samo za Windows)

Dostupno u Excelu 2019+ i Microsoft 365 na Windows-u: Podaci → Preuzmi podatke → Iz datoteke → Iz PDF-a.

Kako funkcioniše

  1. Kliknite Podaci → Preuzmi podatke → Iz datoteke → Iz PDF-a
  2. Odaberite vašu PDF datoteku
  3. Power Query prikazuje panel Navigator koji navodi detektovane tabele po stranici
  4. Odaberite tabele koje želite, kliknite Transformiši podatke da biste ih očistili, a zatim Učitaj

Prednosti

  • Ugrađeno u Excel — nema dodatnih troškova za pretplatnike Microsoft 365
  • Power Query-jev mehanizam za transformaciju dobro obrađuje post-procesiranje (popuni nadole, pivotiranje, spajanje kolona)
  • Može osvežiti podatke ako se izvorna PDF datoteka ažurira
  • Podržava povezivanje više tabela iz iste PDF datoteke

Ograničenja

  • Samo za Windows — nije dostupno u Excelu za Mac, Excel Online ili mobilnim uređajima
  • Teško se nosi sa tabelama bez ivica — najbolje radi sa jasno omeđenim tabelama
  • Nema OCR — ne može da ekstrahuje iz skeniranih PDF-ova/PDF-ova sa slikama
  • Tabele na više stranica su problematične — svaka stranica se često uvozi kao zasebna tabela, zahtevajući ručno spajanje
  • Redovi sa više linija — tekst koji prelazi u nove redove unutar ćelija često se deli u više redova, zahtevajući čišćenje

Najbolje za: Korisnike Windows-a sa Microsoft 365 koji imaju jednostavne, omeđene tabele.


Metod 3: Adobe Acrobat (Platno)

Datoteka → Izvezi PDF → Tabelu → Microsoft Excel radna sveska

Cene (2026)

  • Acrobat Standard: 12.99 USD/mesečno (godišnji plan)
  • Acrobat Pro: 19.99 USD/mesečno (godišnji plan)
  • Export PDF (samostalni): plan niže kategorije samo za konverziju

Prednosti

  • Ugrađeni OCR za skenirane dokumente
  • Generalno čuva formatiranje za jednostavne, omeđene tabele
  • Batch obrada dostupna u Pro verziji

Ograničenja

  • Skupo samo za ekstrakciju tabela — 156–240 USD/godina
  • Složene tabele sa spojenim ćelijama i višestranim rasponima i dalje proizvode netačne izlaze
  • Datoteke se mogu otpremiti na Adobe-ov oblak radi obrade — problematično za osetljive finansijske podatke
  • Zahteva instalaciju na desktopu

Najbolje za: Korisnike koji već plaćaju za Acrobat Pro i kojima su povremeno potrebni izvozi tabela sa OCR-om.


Метод 4: Копирај-налепи (Ручно)

Најинтуитивнији приступ — и онај који најчешће пропада код табела.

Уобичајени проблеми

  • Сви подаци у једној колони — цела табела се копира без поделе колона
  • Бројеви постају текст — симболи валута, заграде и раздвајачи нарушавају нумерички формат
  • Садржај ћелија у више редова ствара лажне редове — опис који се прелама у два реда у ћелији постаје два одвојена реда
  • Заглавља одвојена од података — ред заглавља се одваја
  • Колоне неусклађене — подаци се померају јер размак између знакова не прелази у табулаторе

Делимично решење

Налепите у Excel, а затим користите Подаци → Текст у колоне са раздвајачима по размаку или фиксне ширине. Омогућите „Третирај узастопне раздвајаче као један“. Ово ради за веома једноставне, добро размакнуте табеле, али пропада за било шта са садржајем ћелија у више речи.

Најбоље за: Извлачење једне мале, једноставне табеле као последње средство.


Метод 5: Python библиотеке (За програмере)

Три библиотеке са MIT лиценцом рукују извлачењем табела из PDF-а програмски:

Tabula-py

Python омотач око Tabula (Java). Захтева Java runtime.

  • Lattice режим за табеле са ивицама (проналази линије и пресеке)
  • Stream режим за табеле без ивица (користи поравнање текста)
  • Добро за пакетну обраду у скриптама
  • Нема подршку за OCR

Camelot

Такође нуди lattice и stream режиме.

  • Генерално надмашује Tabula за табеле са ивицама
  • Stream режим има више параметара за фино подешавање
  • Пружа извештаје о тачности уз свако извлачење
  • Захтева Ghostscript зависност. Нема подршку за OCR

pdfplumber

Приступ заснован на координатама: извлачи сваки знак са својом тачном позицијом, а затим изводи структуру.

  • Рукује најширим спектром типова табела
  • Даје највише контроле, али захтева више подешавања
  • Ово је библиотека коју PDFSub користи на серверској страни
  • Нема подршку за OCR

Најбоље за: Програмере који аутоматизују понављајуће токове посла извлачења табела, обрађују велике пакете сличних докумената.


Уобичајени проблеми и како их решити

Спојене ћелије

Када ћелије прелазе преко више редова или колона, већина алата или ставља садржај у горњу леву ћелију и оставља остале празне, или погрешно поравна све наредне колоне. Не постоји универзално решење — CSV формат нема концепт спајања, тако да се информације о спајању увек губе.

Поправка: Извуците табелу, а затим ручно поправите артефакте спајања у Excel-у. За понављајуће табеле са истим обрасцем спајања, размотрите скрипту за пост-обраду.

Садржај у више редова унутар ћелија

Дуги описи који се преламају унутар ћелије постају више редова у излазу, померајући све наредне податке ван поравнања. Ово је најчешћа грешка при извлачењу за финансијске документе.

Поправка: Након извлачења, потражите редове којима недостају датуми и износи — ово су вероватно наставци који припадају реду изнад. У Excel-у их спојите ручно или користите помоћну формулу.

Табеле које се протежу преко више страница

Алати морају да одреде где се табела наставља, да ли да уклоне понављајућа заглавља и како да филтрирају подножја страница. Многи алати третирају сваку страницу независно.

Поправка: Ако ваш алат даје резултате по страници, комбинујте листове и уклоните понављајућа заглавља. Проверите да ли се последњи ред на страници N исправно повезује са првим редом на страници N+1.

Проблеми са форматирањем валута

Негативни бројеви у заградама ((1,234.56)) се копирају као текст, а не бројеви. Симболи валута и раздвајачи хиљада такође нарушавају нумерички формат.

Поправка: Након извлачења, изаберите колону са износима и користите Нађи и замени да бисте уклонили $, ( и ) знакове. Затим форматирајте колону као Број. За негативне бројеве у заградама, замените ( са - и уклоните ), а затим конвертујте у формат Број.

Нејасноћа датума

01/02/2026 — да ли је то 2. јануар или 1. фебруар? Алат за извлачење задржава стринг онакав какав јесте, али Excel га може поново интерпретирати на основу вашег локала.

Поправка: Проверите изворни PDF за назнаке формата датума (потражите датуме са данима већим од 12). Поставите формат датума Excel-а да одговара изворном пре увоза.


Поређење тачности

Метод Једноставна са ивицама Без ивица Полу-ивице Сканирани PDF-ови
PDFSub (координате + AI) 90–99% 75–95% 70–95% 85–95% (AI)
Power Query 85–95% 40–60% 50–70% Није подржано
Adobe Acrobat 90–95% 70–80% 70–85% 80–90%
Tabula ~68% 55–70% 50–65% Није подржано
Camelot ~73% 65–75% 60–70% Није подржано
Копирај-налепи 30–50% 10–30% 10–30% Немогуће

Опсези одражавају варијације у сложености докумената. Подаци из бенчмарка из Procyons 2025 PDF Extraction Benchmark и студија поређења Camelot-а.


Који метод треба да користите?

Сценарио Најбољи метод Зашто
Брзо једнократно извлачење PDFSub Без инсталације, базиран на прегледачу, бесплатно извлачење координата
Једноставна табела са ивицама, Windows Power Query Уграђен у Excel, без додатних трошкова
Сканирани PDF PDFSub (AI) или Adobe Acrobat Потребна OCR могућност
Осетљиви финансијски подаци PDFSub Обрада базирана на прегледачу, фајл се никада не поставља
Понављајућа пакетна обрада Python (pdfplumber) Скриптабилно, аутоматизовано
Већ имате Acrobat Pro Adobe Acrobat Већ плаћате, једноставне табеле добро раде
Једна мала табела, без алата Копирај-налепи Последње средство, проверите све

PDFDateDescriptionAmount01/15Payment Recv$1,250.0001/16Office Supply-$85.0001/18Wire Transfer$3,400.0001/20Utility Bill-$142.5001/22Client Inv$2,100.00ExtractExcelABCD1234567DateDescriptionAmountBalance01/15/2026Payment Recv$1,250.00$5,25001/16/2026Office Supply-$85.00$5,16501/18/2026Wire Transfer$3,400.00$8,56501/20/2026Utility Bill-$142.50$8,42301/22/2026Client Inv$2,100.00$10,523Извуци табеле из PDF-а у ExcelAutomatically detect and extract structured table data

Nazad na blog

Imate pitanja? Kontaktirajte nas

PDFSub

Svi PDF i dokument alati koji su vam potrebni na jednom mestu. Brzo, bezbedno i privatno.

U skladu sa GDPRU skladu sa CCPASOC 2 Ready
Powered by PDFSub Engine

PDF alati

  • Spoji PDF-ove
  • Podeli PDF
  • Promeni redosled stranica
  • Rotiraj PDF
  • Obriši stranice
  • Izdvoji stranice
  • Dodaj vodeni žig
  • Izmeni PDF
  • Pečat na PDF
  • Popunjavanje PDF obrazaca
  • Opseci stranice
  • Promeni veličinu stranice
  • Dodaj brojeve stranica
  • Zaglavlja i podnožja
  • Komprimuj PDF
  • Učini pretraživim
  • Clean Scanned PDF
  • Photo to Document
  • Auto-Crop PDF
  • Popravi PDF
  • Izmeni metapodatke
  • Ukloni metapodatke
  • PDF u Word
  • Word u PDF
  • Excel u PDF
  • PDF u PowerPoint
  • PDF u sliku
  • Slika u PDF
  • HTML u PDF
  • HEIC u sliku
  • WEBP u JPG
  • WEBP u PNG
  • PowerPoint u PDF
  • PDF u HTML
  • EPUB u PDF
  • TIFF u PDF
  • PNG u PDF
  • PDF u PNG
  • Tekst u PDF
  • SVG u PDF
  • WEBP u PDF
  • PDF u EPUB
  • RTF u PDF
  • ODT u PDF
  • ODS u PDF
  • PDF u ODT
  • PDF u ODS
  • PDF u SVG
  • PDF u RTF
  • PDF u tekst
  • ODP u PDF
  • PDF u ODP
  • ODG u PDF
  • PDF pregledač
  • PDF/A konverzija
  • Kreiraj PDF
  • Grupna konverzija
  • Stranica po listu
  • Zaštiti lozinkom
  • Otključaj PDF
  • Rediguj PDF
  • E-potpis PDF-a
  • Uporedi PDF-ove
  • Izdvoji tabele
  • PDF to Excel
  • Konvertor bankovnih izvoda
  • Ekstraktor faktura
  • Skener priznanica
  • Finansijski izveštaj
  • OCR - Izdvajanje teksta
  • Konverzija rukopisa
  • Rezimiraj PDF
  • Prevedi PDF
  • Ćaskaj sa PDF-om
  • Izdvoji podatke
  • Dizajn studio

Proizvod

  • Privacy & Security
  • Svi alati
  • Funkcije
  • Bankovni izvodi
  • Cene
  • Često postavljana pitanja
  • Blog

Podrška

  • Centar za pomoć
  • Kontakt
  • Često postavljana pitanja

Pravne informacije

  • Politika privatnosti
  • Uslovi korišćenja
  • Politika kolačića

© 2026 PDFSub. Sva prava zadržana.

Napravljeno u Americi sa za ljude širom sveta