Како извршити OCR скенираног PDF-а (учините га претраживим) - PDFSub
Često postavljana pitanja
Mogu li OCR-om obraditi više PDF-ova odjednom (serijska obrada)?
Da. PDFSub podržava obradu višestraničnih dokumenata u jednoj operaciji. Za velike serijske poslove — stotine ili hiljade datoteka — obradili biste ih sekvencijalno kroz alat. Adobe Acrobat Pro takođe nudi serijsku OCR obradu kroz svoju funkciju Action Wizard, koja može automatski obraditi cele foldere PDF-ova.
Da li OCR menja izgled mog PDF-a?
Ne. Pravilna OCR obrada dodaje nevidljivi tekstualni sloj iza vidljive slike stranice. Vizuelni izgled vašeg skeniranog PDF-a ostaje nepromenjen — iste stranice, isti raspored, ista rezolucija. Tekstualni sloj je "vidljiv" samo funkcijama pretrage, odabira teksta, kopiranja-lepljenja i čitačima ekrana.
Šta se dešava ako pokrenem OCR na PDF-u koji već ima tekst koji se može pretraživati?
Većina OCR alata detektuje postojeće tekstualne slojeve i ili preskače te stranice ili vam daje opciju da ih ponovo obradite. Pokretanje OCR-a na već pretraživom PDF-u je generalno bezopasno, ali nepotrebno — neće poboljšati postojeći tekstualni sloj i može neznatno povećati veličinu datoteke zbog suvišnih podataka.
Da li će se veličina moje datoteke povećati nakon OCR-a?
Neznatno. Očekujte povećanje od 5-15% za tipičan skenirani dokument. Sam tekstualni sloj je mali (podaci o karakterima i poziciji), a povećanje je zanemarljivo u poređenju sa podacima slike koji čine većinu skeniranog PDF-a.
Može li OCR obraditi PDF-ove koji su mešavina skeniranih i digitalnih stranica?
Da. Dobri OCR alati obrađuju svaku stranicu nezavisno. Stranice koje već imaju tekstualni sloj se detektuju i mogu se preskočiti. Stranice koje su samo slike se obrađuju. Rezultat je potpuno pretraživ PDF bez obzira na to kako je original sastavljen.
Koje jezike podržava OCR?
Podrška za jezike varira u zavisnosti od alata. PDFSub-ov OCR podržava preko 130 jezika, uključujući latinično pismo (engleski, španski, francuski, nemački), CJK (kineski, japanski, korejski), ćirilicu (ruski, ukrajinski), arapsko pismo (arapski, persijski, urdu), devanagari (hindi, marati) i mnoge druge.
Može li OCR pročitati rukopis?
Delimično. Čist štampani tekst dostiže 70-80% preciznosti. Kurzivno pisanje je znatno teže (60-70% ili niže). Za kritične podatke iz rukom pisanih dokumenata, uvek ručno proverite rezultate.
Da li je OCR isto što i ekstrakcija teksta iz PDF-a?
Ne. OCR pretvara slike teksta u stvarne karaktere — potrebno kada nema tekstualnih podataka, samo piksela. Ekstrakcija teksta iz PDF-a čita tekst koji već postoji u sadržaju digitalnog PDF-a — potrebno kada je tekst zarobljen u formatu sa kojim ne možete lako raditi. Ako je vaš PDF digitalno kreiran, potrebna vam je ekstrakcija. Ako je skeniran, prvo vam je potreban OCR.
Da li OCR radi na fotografijama snimljenim kamerom telefona?
Da, ali preciznost zavisi od kvaliteta fotografije. Za najbolje rezultate: držite telefon paralelno sa dokumentom, obezbedite ravnomerno osvetljenje (bez senki), popunite kadar, držite mirno i koristite režim skeniranja dokumenata na telefonu ako je dostupan. Fotografije sa telefona obično daju 85-95% preciznosti za čist štampani tekst — niže nego kod skenera, ali često dovoljno dobro za pretraživost.
Mogu li da uređujem tekst nakon OCR-a?
Tekstualni sloj OCR-a je nevidljiv i postavljen preko slike skena. Možete kopirati tekst i lepiti ga u bilo koji editor, koristiti Adobe Acrobat Pro za direktno uređivanje tekstualnog sloja, ili izvesti u Word ili običan tekst za uređivanje. Da biste promenili vidljivi sadržaj skeniranog dokumenta, morali biste ponovo da skenirate ili koristite PDF editor za dodavanje anotacija preko slike.
Početak rada sa OCR-om
Ako imate skenirane PDF-ove kojima je potrebno pretraživanje, najbrži put je jednostavan:
- Testirajte svoje PDF-ove — Koristite test Ctrl+F da potvrdite da im je potreban OCR
- Isprobajte PDFSub-ov OCR alat — Otpremite skenirani PDF na pdfsub.com/tools/ocr i pogledajte rezultate
- Proverite izlaz — Nasumično proverite nekoliko stranica da biste potvrdili da preciznost zadovoljava vaše potrebe
- Obradite preostale dokumente — Kada budete sigurni u rezultate, radite na zaostatku
PDFSub nudi 7-dnevno besplatno probno korišćenje koje uključuje pristup OCR alatu i svim ostalim PDF alatima na platformi. Otpremite skenirani dokument i uverite se u razliku koju pravi pretraživ tekst. Možete otkazati bilo kada.