Jak przeprowadzić OCR zeskanowanego pliku PDF (aby można było przeszukiwać jego zawartość)
Zeskanowane pliki PDF to tylko obrazy stron – nie można w nich wyszukiwać, kopiować ani edytować tekstu. OCR rozwiązuje ten problem, dodając niewidoczną warstwę tekstową. Oto jak to zrobić za pomocą trzech różnych metod.
Zeskanowałeś stos dokumentów do formatu PDF. Wyglądają dobrze na ekranie – wyraźne, czytelne, profesjonalne. Ale spróbuj wyszukać słowo, skopiować akapit lub zaznaczyć numer telefonu, a nic się nie stanie. Kursor przeciąga niebieski prostokąt po stronie, jakbyś zaznaczał obraz. Bo właśnie to robisz.
Zeskanowane pliki PDF to fotografie. Każda strona to pojedynczy obraz – płaska siatka pikseli bez pojęcia liter, słów czy zdań. Twój komputer widzi w zeskanowanym pliku PDF tyle samo tekstu, co w pliku JPEG z zachodem słońca: nic.
OCR (Optyczne Rozpoznawanie Znaków) rozwiązuje ten problem. Analizuje obraz każdej strony, identyfikuje znaki i dodaje niewidoczną warstwę tekstową na wierzchu oryginalnego skanu. Wygląd wizualny pozostaje identyczny, ale teraz możesz wyszukiwać, kopiować, zaznaczać tekst i umożliwiać dostęp czytnikom ekranu.
Ten przewodnik omawia, czym jest OCR, jak działa, trzy metody OCR zeskanowanych plików PDF oraz jak uzyskać najlepsze rezultaty.
Jak sprawdzić, czy Twój PDF wymaga OCR
Zanim zainwestujesz czas w OCR, sprawdź, czy Twój plik PDF faktycznie go potrzebuje. Wiele plików PDF jest „narodzonych cyfrowo” – utworzonych z dokumentów Word, arkuszy kalkulacyjnych Excel lub stron internetowych – i już zawiera rzeczywistą warstwę tekstową.
Test 5-sekundowy
- Otwórz swój plik PDF w dowolnej przeglądarce (Adobe Reader, Preview, Chrome, Edge)
- Naciśnij Ctrl+F (Windows/Linux) lub Cmd+F (Mac)
- Wpisz słowo, które widzisz na stronie
- Jeśli przeglądarka podświetli słowo: Twój plik PDF już zawiera przeszukiwalny tekst. OCR nie jest potrzebny.
- Jeśli nic nie zostanie znalezione: Twój plik PDF zawiera tylko obrazy. Wymaga OCR.
Test zaznaczania
Spróbuj kliknąć i przeciągnąć, aby zaznaczyć tekst na stronie:
- Jeśli możesz zaznaczyć pojedyncze słowa i są one podświetlone na niebiesko: plik PDF ma warstwę tekstową.
- Jeśli cała strona zaznacza się jako jeden blok (jak zaznaczanie obrazu): plik PDF to skan bez warstwy tekstowej.
- Jeśli możesz zaznaczyć część tekstu, ale nie inną część: plik PDF ma częściowy OCR lub mieszaną zawartość – niektóre strony są cyfrowe, inne zeskanowane.
Typowe typy plików PDF wymagające OCR
| Typ dokumentu | Zazwyczaj wymaga OCR? | Dlaczego |
|---|---|---|
| Zeskanowane dokumenty papierowe | Tak | Czysty obraz, brak danych tekstowych |
| Dokumenty faksowane zapisane jako PDF | Tak | Wyjście faksu to obraz rastrowy |
| Zdjęcia dokumentów (aparat telefonu) | Tak | Zdjęcie z aparatu = obraz |
| Pliki PDF z kopiarki „skanuj do e-mail” | Tak | Większość kopierek generuje pliki PDF obrazowe |
| Pliki PDF wyeksportowane z Word/Excel | Nie | Narzędzia cyfrowe, warstwa tekstowa zawarta |
| Pliki PDF z przeglądarek internetowych (drukuj do PDF) | Nie | Tekst jest zachowany |
| Formularze rządowe pobrane online | Zazwyczaj nie | Większość jest narzędziami cyfrowymi |
| Potwierdzenia wysłane e-mailem jako załączniki PDF | Zazwyczaj nie | Generowane przez systemy POS z tekstem |
Czym jest OCR? Wyjaśnienie prostym językiem
OCR to skrót od Optycznego Rozpoznawania Znaków (Optical Character Recognition). To technologia, która odczytuje tekst z obrazów – analizując wzory pikseli w celu identyfikacji liter, cyfr i symboli, podobnie jak Twoje oczy czytają słowa na stronie.
Kiedy skanujesz dokument, skaner tworzy fotografię. Ta fotografia zawiera piksele – ciemne tam, gdzie był tusz, jasne tam, gdzie był papier – ale żadnych rzeczywistych danych tekstowych. Skaner nie wie, że układ pikseli tworzy słowo „Faktura”. Po prostu rejestruje obraz.
OCR bierze ten obraz, analizuje kształty, dopasowuje je do znanych wzorców znaków i generuje tekst, który te kształty reprezentują. Wynikiem jest plik PDF, który wygląda identycznie jak oryginalny skan, ale zawiera niewidoczną warstwę tekstową. Kiedy naciśniesz Ctrl+F i wyszukasz „Grudzień”, przeglądarka PDF sprawdza warstwę tekstową, znajduje dopasowanie i podświetla obszar na obrazie, gdzie pojawia się to słowo.
Jak daleko zaszedł OCR
OCR sięga lat 50. XX wieku, kiedy wczesne systemy mogły obsługiwać tylko określone czcionki w kontrolowanych warunkach. Technologia ewoluowała poprzez dopasowywanie szablonów (lata 70.-80.), ekstrakcję cech (lata 90.-2000.) i uczenie maszynowe (lata 2010.). Dzisiejszy OCR łączy głębokie sieci neuronowe do rozpoznawania znaków z modelami językowymi wykorzystującymi kontekst do rozwiązywania niejednoznaczności – jeśli system nie jest pewien, czy znak to „l” czy „1”, otaczające słowa pomagają mu zdecydować.
Nowoczesne silniki OCR osiągają ponad 99% dokładności znaków na czystych, dobrze zeskanowanych dokumentach drukowanych.
Jak działa OCR: Proces techniczny
OCR to nie pojedynczy algorytm. To potok kroków, z których każdy opiera się na poprzednim.
Krok 1: Przetwarzanie wstępne obrazu
Zanim nastąpi jakiekolwiek rozpoznawanie znaków, silnik OCR oczyszcza obraz. Obejmuje to binaryzację (konwersję do czerni i bieli dla maksymalnego kontrastu), korekcję pochylenia (naprawianie nawet niewielkiego obrotu strony – 1-2 stopnie nachylenia mogą znacząco obniżyć dokładność), usuwanie szumów (eliminowanie artefaktów skanera i plamek) oraz usuwanie obramowań (usuwanie czarnych krawędzi i cieni od grzbietu).
Krok 2: Analiza układu
Silnik identyfikuje strukturę strony – bloki tekstowe, kolumny, obrazy, nagłówki, stopki, tabele i kolejność czytania. Bez tego kroku dwukolumnowy dokument mógłby wygenerować pomieszany wynik, który czytałby obie kolumny jednocześnie.
Krok 3: Segmentacja znaków
W obrębie każdego bloku tekstowego izolowane są poszczególne znaki. Linie są oddzielane odstępami pionowymi, słowa odstępami poziomymi, a znaki w obrębie słów ich granicami. Jest to trudniejsze niż się wydaje – znaki w wielu czcionkach nachodzą na siebie lub stykają się, a w skryptach takich jak arabski i dewanagari, znaki łączą się w złożony sposób.
Krok 4: Rozpoznawanie znaków
Każdy segmentowany obraz znaku jest klasyfikowany przy użyciu głębokich sieci neuronowych wytrenowanych na milionach oznakowanych obrazów znaków. Sieć zwraca listę kandydatów z przypisanym poziomem pewności, a nie pojedynczą odpowiedź. Czyste „A” może mieć 99,8% pewności. Zdegradowany znak może dać znacznie bardziej płaski rozkład.
Krok 5: Modelowanie językowe
Surowe rozpoznawanie znaków jest podatne na błędy. Kontekst rozwiązuje niejednoznaczności. Czy „Faktura” to słowo? Nie – „F” było faktycznie „1”, tworząc „1aktura”. Statystyczne modele językowe przewidują prawdopodobne sekwencje znaków, a walidacja formatu stosuje zasady do wzorców takich jak daty i liczby.
Krok 6: Generowanie wyjścia
Rozpoznany tekst jest mapowany z powrotem do oryginalnych współrzędnych obrazu i zapisywany w pliku PDF jako niewidoczna warstwa tekstowa. Każde słowo jest precyzyjnie dopasowane do swojego wizualnego odpowiednika, umożliwiając funkcję wyszukiwania i podświetlania.
Metoda 1: Narzędzie OCR PDFSub (Zalecane)
Narzędzie OCR PDFSub przetwarza zeskanowane pliki PDF i dodaje przeszukiwalną warstwę tekstową, zachowując oryginalny wygląd wizualny każdej strony.
Instrukcja krok po kroku
- Przejdź do narzędzia OCR – Wejdź na pdfsub.com/tools/ocr
- Prześlij zeskanowany plik PDF – Przeciągnij i upuść plik lub kliknij, aby przeglądać. Nie ma potrzeby dzielenia dużych dokumentów – wielostronicowe pliki PDF są obsługiwane automatycznie.
- Narzędzie OCR przetwarza Twój dokument – Narzędzie analizuje każdą stronę, rozpoznaje tekst i buduje niewidoczną warstwę tekstową. Czas przetwarzania zależy od liczby stron i złożoności, ale większość dokumentów jest przetwarzana w ciągu sekund.
- Pobierz swój przeszukiwalny plik PDF – Plik wyjściowy wygląda identycznie jak oryginalny skan, ale teraz obsługuje wyszukiwanie tekstu, zaznaczanie tekstu i kopiowanie.
Dlaczego PDFSub
Obsługa ponad 130 języków. OCR działa z dokumentami w języku angielskim, hiszpańskim, francuskim, niemieckim, chińskim, japońskim, koreańskim, arabskim, hindi, rosyjskim, portugalskim i ponad 120 dodatkowych językach. Dokumenty wielojęzyczne są obsługiwane automatycznie – nie musisz określać języka z góry.
Oryginalny wygląd zachowany. Proces OCR dodaje dane tekstowe bez zmiany zawartości wizualnej. Twoje zeskanowane strony wyglądają tak samo. Czcionki, układy, pieczątki, podpisy i odręczne adnotacje pozostają nietknięte.
Brak konieczności instalacji oprogramowania. Wszystko działa w przeglądarce lub na bezpiecznych serwerach. Nie ma nic do pobrania, żadnych wymagań systemowych do sprawdzenia ani problemów z kompatybilnością.
Projekt z myślą o prywatności. Przesłane dokumenty są przetwarzane, a następnie usuwane. PDFSub nie przechowuje Twoich plików ani nie wykorzystuje ich do szkolenia.
Wypróbuj za darmo. PDFSub oferuje 7-dniowy bezpłatny okres próbny, dzięki czemu możesz przetestować OCR na własnych dokumentach przed podjęciem decyzji.
Metoda 2: Adobe Acrobat Pro
Adobe Acrobat Pro zawiera wbudowaną funkcję OCR o nazwie „Rozpoznaj tekst” w ramach zestawu narzędzi Skanowanie i OCR.
Instrukcja krok po kroku
- Otwórz swój zeskanowany plik PDF w Adobe Acrobat Pro
- Przejdź do Narzędzia i wybierz Skanowanie i OCR
- Kliknij Rozpoznaj tekst i wybierz W tym pliku lub W wielu plikach
- W sekcji Ustawienia wybierz Obraz z możliwością wyszukiwania (dodaje niewidoczną warstwę tekstową – zalecane)
- Kliknij Rozpoznaj tekst, aby rozpocząć przetwarzanie
- Zapisz plik
Mocne strony i ograniczenia
Adobe zapewnia wysoką dokładność na czystych skanach w języku angielskim, obsługuje przetwarzanie wsadowe i pozwala na bezpośrednią korektę błędów OCR. Jednak Acrobat Pro kosztuje 19,99 USD/miesiąc w planie rocznym (239,88 USD/rok), wymaga instalacji na komputerze (brak OCR w przeglądarce), obsługuje tylko około 20 języków i może być powolny w przypadku dokumentów powyżej 50 stron.
Metoda 3: Dysk Google (Darmowy, ale z utratą jakości)
Dysk Google zawiera podstawową funkcję OCR, która wyodrębnia tekst z zeskanowanych plików PDF – ale z istotnym kompromisem.
Instrukcja krok po kroku
- Prześlij zeskanowany plik PDF na Dysk Google
- Kliknij prawym przyciskiem myszy plik i wybierz Otwórz za pomocą a następnie Dysk Google
- Google przetwarza plik PDF i tworzy Dokument Google z wyodrębnionym tekstem
- Tekst jest teraz przeszukiwalny, zaznaczalny i edytowalny
Mocne strony i ograniczenia
OCR na Dysku Google jest całkowicie darmowy, zapewnia dobrą dokładność na czystych dokumentach drukowanych i automatycznie wykrywa języki. Istnieje jednak krytyczny kompromis: niszczy formatowanie. Google nie dodaje warstwy tekstowej do Twojego pliku PDF – wyodrębnia tekst do Dokumentu Google. Tabele stają się zwykłym tekstem, kolumny się zapadają, a oryginalny układ jest tracony. Otrzymujesz Dokument Google, a nie przeszukiwalny plik PDF.
Działa również najlepiej na dokumentach poniżej 10 stron. Dłuższe dokumenty mogą zostać obcięte.
Najlepsze dla: Wyodrębniania treści tekstowej, gdy nie potrzebujesz oryginalnego układu. Jeśli potrzebujesz przeszukiwalnego pliku PDF zachowującego wygląd, użyj Metody 1 lub Metody 2.
Dokładność OCR: Czego można się spodziewać w zależności od typu dokumentu
OCR to nie magia. Dokładność drastycznie się różni w zależności od jakości dokumentu, typu zawartości i warunków skanowania. Oto, co pokazują testy w rzeczywistych warunkach.
Dokumenty drukowane (nowoczesne czcionki): 95-99%
Nowoczesne dokumenty drukowane – faktury, umowy, raporty drukowane na drukarkach laserowych – to najlepszy scenariusz. Standardowe czcionki są dobrze reprezentowane w danych treningowych OCR, a czyste wydruki na białym papierze generują obrazy o wysokim kontraście. Przy 99% dokładności na stronie 250 słów (około 1500 znaków) można oczekiwać około 15 błędów znaków – większość nieistotnych, jak kropka błędnie odczytana jako przecinek lub mała litera „l” pomylona z „1”.
Starsze dokumenty maszynowe: 85-95%
Maszyny do pisania stanowią wyzwanie: niespójne wyrównanie liter, zmienna gęstość tuszu z powodu zużycia taśmy i jednolita szerokość znaków powodująca problemy z segmentacją. Mimo to, tekst maszynowy jest indywidualnie uformowany i wyrównany poziomo, więc większość silników OCR radzi sobie z nim wystarczająco dobrze do celów wyszukiwania.
Tekst odręczny: 60-80%
Tekst odręczny pozostaje największym wyzwaniem dla OCR. Zmienność jest ogromna – nie tylko między ludźmi, ale także w obrębie pisma jednej osoby na jednej stronie. Staranny druk blokowy może osiągnąć 80-85%. Pismo pochyłe pisane ołówkiem na papierze w linie może spaść poniżej 60%. Zawsze ręcznie weryfikuj krytyczne dane z dokumentów odręcznych.
Mieszana zawartość (tekst + tabele): 90-97%
Dokumenty łączące tekst z danymi tabelarycznymi dodają wyzwanie analizy układu. Rozpoznawanie znaków w komórkach jest zazwyczaj dokładne, ale błędy strukturalne – błędnie zidentyfikowane granice komórek, nieprawidłowo przypisane kolumny, podział wieloliniowych komórek na wiersze – psują relacje danych i są ważniejsze niż błędy pojedynczych znaków.
Podsumowanie dokładności w tabeli
| Typ dokumentu | Dokładność znaków | Przeszukiwalny? | Niezawodność ekstrakcji danych? |
|---|---|---|---|
| Nowoczesny druk (laser) | 95-99% | Doskonała | Tak |
| Nowoczesny druk (atramentowy) | 93-98% | Doskonała | Zazwyczaj |
| Starszy tekst maszynowy | 85-95% | Dobra | Z weryfikacją |
| Czysty odręczny (blokowy) | 70-80% | Częściowa | Nie – weryfikuj wszystko |
| Pismo pochyłe | 60-70% | Słaba | Nie |
| Mieszany tekst + tabele | 90-97% | Dobra | Z przeglądem strukturalnym |
| Papier zdegradowany/uszkodzony | 70-90% | Zmienna | Z intensywną weryfikacją |
Najlepsze praktyki skanowania przed OCR
Najważniejszym czynnikiem dokładności OCR nie jest oprogramowanie OCR – to jakość skanu. Świetny silnik OCR działający na słabym skanie da gorsze wyniki niż przeciętny silnik działający na świetnym skanie.
Rozdzielczość: Minimum 300 DPI
DPI (dots per inch – punkty na cal) określa, ile szczegółów przechwytuje skaner.
- 300 DPI: Standard dla większości dokumentów. Wystarczająco do niezawodnego rozpoznawania standardowych czcionek w normalnych rozmiarach tekstu (10-12pt).
- 600 DPI: Zalecane dla małego tekstu (przypisy, drobny druk) lub gdy potrzebujesz maksymalnej dokładności.
- 150 DPI lub mniej: Niezalecane. Znaki są zbyt małe do niezawodnego rozpoznania. Dokładność znacznie spada.
- 1200 DPI: Nadmiarowe dla OCR. Brak poprawy dokładności, a rozmiary plików stają się ogromne.
Tryb koloru: Skala szarości jest zazwyczaj najlepsza
- Skala szarości: Najlepsza dla większości dokumentów. Zachowuje wystarczający kontrast dla dobrej binarzyzacji, jednocześnie utrzymując rozsądne rozmiary plików.
- Czarno-biały: Może działać dla czystych dokumentów o wysokim kontraście, ale może niszczyć szczegóły na marginesach.
- Kolor: Konieczny tylko wtedy, gdy dokument zawiera informacje oznaczone kolorami, które musisz zachować. Do celów OCR kolor nie przynosi korzyści w porównaniu do skali szarości.
Wyrównanie i orientacja
- Utrzymuj strony prosto. Nawet 2-3 stopnie pochylenia mogą zmniejszyć dokładność OCR o 5-10%. Użyj prowadnic papieru w skanerze, aby utrzymać strony wyrównane.
- Skanuj jednostronne strony skierowane w dół. Unikaj przenikania z odwrotnej strony, tworząc cienie, które mogą zmylić silnik OCR.
- Użyj skanera płaskiego do dokumentów oprawionych. z podajnikiem skanującym mogą powodować pochylenie stron z książek lub oprawionych raportów. Skanowanie płaskie utrzymuje stronę płasko i prawidłowo wyrównaną.
Konserwacja skanera i przygotowanie dokumentu
- Wyczyść szybę przed skanowaniem partii – smugi tworzą artefakty na każdej stronie
- Sprawdź, czy nie ma smug, skanując pustą stronę – pionowe linie wskazują brudne rolki
- Usuń zszywki i spinacze, aby zapobiec zacięciom i zarysowaniom
- Wygładź pogniecione strony – głębokie zagniecenia tworzą cienie, które silnik OCR może błędnie odczytać
- Napraw łzy taśmą po odwrotnej stronie – taśma z przodu tworzy odbicia
Po OCR: Co dalej?
Uruchomienie OCR to tylko pierwszy krok. Oto jak najlepiej wykorzystać swoje nowo przeszukiwalne dokumenty.
Weryfikacja wyników
Zawsze sprawdzaj wyniki OCR, zwłaszcza w przypadku krytycznych dokumentów:
- Wyszukaj kluczowe terminy, o których wiesz, że pojawiają się w dokumencie. Jeśli Ctrl+F znajduje je konsekwentnie, OCR działa.
- Skopiuj akapit i wklej go do edytora tekstu. Przeczytaj go pod kątem oczywistych błędów – zniekształconych słów, brakujących znaków, nonsensownych zamian.
- Dokładnie sprawdzaj liczby. Kwoty finansowe, daty, numery telefonów i numery kont to dane o wysokiej stawce. „6” pomylone z „8” w kwocie transakcji to prawdziwy problem. Silniki OCR czasami mylą podobne cyfry (0/O, 1/l, 5/S, 6/8).
Poprawianie błędów i organizacja
Jeśli znajdziesz błędy w krytycznych dokumentach, Adobe Acrobat Pro pozwala na bezpośrednią edycję warstwy tekstowej, lub możesz ponownie zeskanować problematyczne strony w rozdzielczości 600 DPI i ponownie uruchomić OCR. W przypadku odręcznych fragmentów ręczne transkrypcje są często szybsze niż poprawianie słabego OCR.
Po przeszukiwalności pliki PDF integrują się z istniejącymi przepływami pracy. Wyszukiwanie na pulpicie (Windows Search, Spotlight na Macu) automatycznie je indeksuje. Systemy zarządzania dokumentami (SharePoint, Dysk Google, Dropbox) umożliwiają wyszukiwanie pełnotekstowe w całej bibliotece. Dobre nazwy plików plus przeszukiwalna zawartość to idealne połączenie.
Przypadki użycia OCR w rzeczywistym świecie
Cyfryzacja archiwów papierowych
Firmy, kancelarie prawne i agencje rządowe często posiadają dziesięciolecia dokumentów papierowych. Samo skanowanie do PDF tworzy pliki obrazów przeszukiwalne tylko według nazwy pliku. Dodanie OCR zamienia pasywne archiwum w bazę danych, którą można przeszukiwać. Typowy przepływ pracy: skanowanie w skali szarości 300 DPI, uruchomienie OCR, zastosowanie konwencji nazewnictwa i przesłanie do systemu zarządzania dokumentami.
Umożliwienie przeszukiwania dokumentów prawnych
Specjaliści prawni zajmują się ogromnymi ilościami dokumentów podczas odkrywania dowodów i due diligence. Strona przeciwna może dostarczyć tysiące stron zeskanowanych dokumentów. Bez OCR, przegląd oznacza ręczne czytanie każdej strony. Dzięki OCR prawnicy mogą wyszukiwać kluczowe terminy, nazwiska, daty i kwoty w całym zbiorze – co sprawia, że przegląd jest wykonalny w realistycznych terminach.
Zgodność z przepisami dotyczącymi dostępności
Zgodnie z ustawą Americans with Disabilities Act (ADA) i sekcją 508, dokumenty cyfrowe od agencji rządowych i organizacji finansowanych przez rząd federalny muszą być dostępne. Czytniki ekranu nie potrafią interpretować plików PDF zawierających tylko obrazy – potrzebują warstwy tekstowej. OCR jest pierwszym krokiem w kierunku zgodności. Dalsza praca (struktura nagłówków, tekst alternatywny, tagi kolejności czytania) może nastąpić, ale bez warstwy tekstowej dostępność jest niemożliwa.
Przetwarzanie ubezpieczeń i finansów
Firmy ubezpieczeniowe i banki otrzymują miliony zeskanowanych formularzy zgłoszeniowych, dokumentacji medycznej, czeków i wniosków o pożyczkę. OCR umożliwia automatyczne wyodrębnianie danych – pobieranie numerów polis, kwot roszczeń, dat usług i szczegółów konta z zeskanowanych dokumentów do systemów przetwarzania.
Archiwa akademickie i badawcze
Uniwersytety, biblioteki i archiwa cyfryzują historyczne dokumenty, gazety i rękopisy. OCR umożliwia przeszukiwanie wieków wiedzy. Projekty takie jak Google Books i Internet Archive OCR-owały miliardy stron, umożliwiając wyszukiwanie pełnotekstowe w kolekcjach, których przeczytanie ręcznie zajęłoby całe życie.
Często zadawane pytania
Czy mogę przetworzyć wiele plików PDF jednocześnie (przetwarzanie wsadowe)?
Tak. PDFSub obsługuje przetwarzanie wielostronicowych dokumentów w jednej operacji. W przypadku dużych zadań wsadowych – setek lub tysięcy plików – przetwarzałbyś je sekwencyjnie za pomocą narzędzia. Adobe Acrobat Pro oferuje również wsadowe OCR za pomocą funkcji Kreatora akcji, który może automatycznie przetwarzać całe foldery plików PDF.
Czy OCR zmienia wygląd mojego pliku PDF?
Nie. Prawidłowy OCR dodaje niewidoczną warstwę tekstową za widocznym obrazem strony. Wygląd wizualny zeskanowanego pliku PDF pozostaje niezmieniony – te same strony, ten sam układ, ta sama rozdzielczość. Warstwa tekstowa jest „widoczna” tylko dla funkcji wyszukiwania, zaznaczania tekstu, kopiowania i wklejania oraz czytników ekranu.
Co się stanie, jeśli uruchomię OCR na pliku PDF, który już ma przeszukiwalny tekst?
Większość narzędzi OCR wykrywa istniejące warstwy tekstowe i albo pomija te strony, albo daje Ci możliwość ich ponownego przetworzenia. Uruchamianie OCR na już przeszukiwalnym pliku PDF jest zazwyczaj nieszkodliwe, ale niepotrzebne – nie poprawi istniejącej warstwy tekstowej i może nieznacznie zwiększyć rozmiar pliku z powodu nadmiarowych danych.
Czy mój rozmiar pliku wzrośnie po OCR?
Nieznacznie. Spodziewaj się wzrostu o 5-15% dla typowego zeskanowanego dokumentu. Sama warstwa tekstowa jest mała (znaki i dane o położeniu), a wzrost jest nieistotny w porównaniu z danymi obrazu, które stanowią większość zeskanowanego pliku PDF.
Czy OCR działa na plikach PDF będących mieszanką stron zeskanowanych i cyfrowych?
Tak. Dobre narzędzia OCR przetwarzają każdą stronę niezależnie. Strony, które już mają warstwę tekstową, są wykrywane i mogą być pomijane. Strony, które zawierają tylko obrazy, są przetwarzane. Wynikiem jest w pełni przeszukiwalny plik PDF, niezależnie od sposobu złożenia oryginału.
Jakie języki obsługuje OCR?
Wsparcie językowe różni się w zależności od narzędzia. OCR PDFSub obsługuje ponad 130 języków, w tym alfabet łaciński (angielski, hiszpański, francuski, niemiecki), CJK (chiński, japoński, koreański), cyrylicę (rosyjski, ukraiński), alfabet arabski (arabski, perski, urdu), dewanagari (hindi, marathi) i wiele innych.
Czy OCR potrafi czytać pismo odręczne?
Częściowo. Staranny druk blokowy osiąga 70-80% dokładności. Pismo pochyłe jest znacznie trudniejsze (60-70% lub mniej). W przypadku krytycznych danych z dokumentów odręcznych zawsze weryfikuj wyniki ręcznie.
Czy OCR to to samo co ekstrakcja tekstu z PDF?
Nie. OCR konwertuje obrazy tekstu na rzeczywiste znaki – potrzebne, gdy nie ma danych tekstowych, tylko piksele. Ekstrakcja tekstu z PDF odczytuje tekst, który już istnieje w strumieniu zawartości cyfrowego pliku PDF – potrzebne, gdy tekst jest uwięziony w formacie, z którym nie można łatwo pracować. Jeśli Twój plik PDF jest narodzony cyfrowo, potrzebujesz ekstrakcji. Jeśli jest zeskanowany, najpierw potrzebujesz OCR.
Czy OCR działa na zdjęciach zrobionych aparatem telefonu?
Tak, ale dokładność zależy od jakości zdjęcia. Aby uzyskać najlepsze wyniki: trzymaj telefon równolegle do dokumentu, zapewnij równomierne oświetlenie (bez cieni), wypełnij kadr, trzymaj stabilnie i użyj trybu skanowania dokumentów w telefonie, jeśli jest dostępny. Zdjęcia z telefonu zazwyczaj zapewniają 70-80% dokładności dla czystego tekstu drukowanego – niższej niż skany płaskie, ale często wystarczającej do przeszukiwania.
Czy mogę edytować tekst po OCR?
Warstwa tekstowa OCR jest niewidoczna i umieszczona nad obrazem skanu. Możesz skopiować tekst i wkleić go do dowolnego edytora, użyć Adobe Acrobat Pro do bezpośredniej edycji warstwy tekstowej lub wyeksportować do Word lub zwykłego tekstu w celu edycji. Aby zmienić widoczną zawartość zeskanowanego dokumentu, musiałbyś go ponownie zeskanować lub użyć edytora PDF do dodania adnotacji na obrazie.
Rozpoczęcie pracy z OCR
Jeśli masz zeskanowane pliki PDF, które wymagają przeszukiwania, najszybsza ścieżka jest prosta:
- Przetestuj swoje pliki PDF – Użyj testu Ctrl+F, aby potwierdzić, że wymagają OCR
- Wypróbuj narzędzie OCR PDFSub – Prześlij zeskanowany plik PDF na pdfsub.com/tools/ocr i zobacz wyniki
- Zweryfikuj wyniki – Sprawdź kilka stron, aby potwierdzić, że dokładność spełnia Twoje potrzeby
- Przetwórz pozostałe dokumenty – Gdy będziesz pewien wyników, pracuj nad swoją zaległością
PDFSub oferuje 7-dniowy bezpłatny okres próbny, który obejmuje dostęp do narzędzia OCR i wszystkich innych narzędzi PDF na platformie. Prześlij zeskanowany dokument i zobacz, jaką różnicę robi przeszukiwalny tekst. Anuluj w dowolnym momencie.