Jak przeprowadzić OCR zeskanowanego pliku PDF (aby można było przeszukiwać jego zawartość)
Zeskanowane pliki PDF to po prostu zdjęcia stron – nie można w nich przeszukiwać, kopiować ani edytować tekstu. OCR rozwiązuje ten problem, dodając niewidoczną warstwę tekstową. Oto jak to zrobić za pomocą trzech różnych metod.
Zeskanowałeś stos dokumentów do formatu PDF. Wyglądają dobrze na ekranie – wyraźne, czytelne, profesjonalne. Ale spróbuj wyszukać słowo, skopiować akapit lub zaznaczyć numer telefonu, a nic się nie stanie. Kursor przeciąga niebieski prostokąt po stronie, jakbyś zaznaczał obraz. Ponieważ właśnie to robisz.
Zeskanowane pliki PDF to fotografie. Każda strona to pojedynczy obraz – płaska siatka pikseli bez pojęcia liter, słów czy zdań. Twój komputer widzi w zeskanowanym pliku PDF dokładnie tyle samo tekstu, co w pliku JPEG zachodu słońca: nic.
OCR (Optyczne Rozpoznawanie Znaków) rozwiązuje ten problem. Analizuje obraz każdej strony, identyfikuje znaki i dodaje niewidoczną warstwę tekstową na wierzchu oryginalnego skanu. Wygląd wizualny pozostaje identyczny, ale teraz możesz przeszukiwać, kopiować, zaznaczać tekst i pozwalać czytnikom ekranu na dostęp do niego.
Ten przewodnik omawia, czym jest OCR, jak działa, trzy metody OCR zeskanowanych plików PDF oraz jak uzyskać najlepsze rezultaty.

Jak sprawdzić, czy Twój PDF wymaga OCR
Zanim zainwestujesz czas w OCR, sprawdź, czy Twój PDF faktycznie go potrzebuje. Wiele plików PDF jest "narodzonych cyfrowo" – utworzonych z dokumentów Word, arkuszy kalkulacyjnych Excel lub stron internetowych – i już zawiera rzeczywistą warstwę tekstową.
Test 5-sekundowy
- Otwórz swój PDF w dowolnej przeglądarce (Adobe Reader, Preview, Chrome, Edge)
- Naciśnij Ctrl+F (Windows/Linux) lub Cmd+F (Mac)
- Wpisz słowo, które widzisz na stronie
- Jeśli przeglądarka podświetli słowo: Twój PDF już zawiera przeszukiwalny tekst. OCR nie jest potrzebny.
- Jeśli nic nie znaleziono: Twój PDF składa się tylko z obrazów. Wymaga OCR.
Test zaznaczania
Spróbuj kliknąć i przeciągnąć, aby zaznaczyć tekst na stronie:
- Jeśli możesz zaznaczyć pojedyncze słowa i podświetlają się na niebiesko: PDF ma warstwę tekstową.
- Jeśli cała strona zaznacza się jako jeden blok (jak zaznaczanie obrazu): PDF jest skanem bez warstwy tekstowej.
- Jeśli możesz zaznaczyć część tekstu, ale nie inny tekst: PDF ma częściowy OCR lub mieszaną zawartość – niektóre strony są cyfrowe, inne zeskanowane.
Typowe typy plików PDF wymagające OCR
| Typ dokumentu | Zazwyczaj wymaga OCR? | Dlaczego |
|---|---|---|
| Zeskanowane dokumenty papierowe | Tak | Czysty obraz, brak danych tekstowych |
| Dokumenty faksowane zapisane jako PDF | Tak | Wynik faksu to obraz rastrowy |
| Zdjęcia dokumentów (aparat telefonu) | Tak | Zdjęcie z aparatu = obraz |
| PDF z funkcji kopiarki "skanuj do e-mail" | Tak | Większość kopierek generuje PDF-y obrazowe |
| PDF wyeksportowane z Word/Excel | Nie | Narodzone cyfrowo, warstwa tekstowa zawarta |
| PDF z przeglądarek internetowych (drukuj do PDF) | Nie | Tekst jest zachowany |
| Formularze rządowe pobrane online | Zazwyczaj nie | Większość jest narodzona cyfrowo |
| Potwierdzenia wysłane e-mailem jako załączniki PDF | Zazwyczaj nie | Generowane przez systemy POS z tekstem |
Czym jest OCR? Wyjaśnienie w prostych słowach
OCR to skrót od Optycznego Rozpoznawania Znaków (Optical Character Recognition). Jest to technologia, która odczytuje tekst z obrazów – analizuje wzory pikseli w celu identyfikacji liter, cyfr i symboli, podobnie jak Twoje oczy czytają słowa na stronie.
Kiedy skanujesz dokument, skaner tworzy fotografię. Ta fotografia zawiera piksele – ciemne tam, gdzie był tusz, jasne tam, gdzie był papier – ale żadnych rzeczywistych danych tekstowych. Skaner nie wie, że układ pikseli oznacza „Faktura”. Po prostu rejestruje obraz.
OCR pobiera ten obraz, analizuje kształty, dopasowuje je do znanych wzorców znaków i generuje tekst, który te kształty reprezentują. Wynikiem jest PDF, który wygląda identycznie jak oryginalny skan, ale zawiera niewidoczną warstwę tekstową. Kiedy naciskasz Ctrl+F i szukasz „Grudzień”, przeglądarka PDF sprawdza warstwę tekstową, znajduje dopasowanie i podświetla obszar na obrazie, gdzie pojawia się to słowo.
Jak daleko zaszedł OCR
OCR sięga lat 50. XX wieku, kiedy wczesne systemy mogły obsługiwać tylko określone czcionki w kontrolowanych warunkach. Technologia ewoluowała poprzez dopasowywanie szablonów (lata 70.-80.), ekstrakcję cech (lata 90.-2000.) i uczenie maszynowe (lata 2010.). Dzisiejszy OCR łączy głębokie sieci neuronowe do rozpoznawania znaków z modelami językowymi wykorzystującymi kontekst do rozwiązywania niejednoznaczności – jeśli system nie jest pewien, czy znak to „l” czy „1”, otaczające słowa pomagają mu zdecydować.
Nowoczesne silniki OCR osiągają ponad 99% dokładności znaków na czystych, dobrze zeskanowanych dokumentach drukowanych.
Jak działa OCR: Proces techniczny
OCR to nie pojedynczy algorytm. To potok kroków, z których każdy opiera się na poprzednim.
Krok 1: Przetwarzanie wstępne obrazu
Zanim nastąpi jakiekolwiek rozpoznawanie znaków, silnik OCR oczyszcza obraz. Obejmuje to binaryzację (konwersję do czerni i bieli dla maksymalnego kontrastu), korekcję nachylenia (korygowanie nawet niewielkiego obrotu strony – 1-2 stopniowe nachylenie może zauważalnie zmniejszyć dokładność), usuwanie szumów (eliminowanie artefaktów skanera i plamek) oraz usuwanie obramowań (usuwanie czarnych krawędzi i cieni oprawy).
Krok 2: Analiza układu
Silnik identyfikuje strukturę strony – bloki tekstowe, kolumny, obrazy, nagłówki, stopki, tabele i kolejność czytania. Bez tego kroku dwukolumnowy dokument mógłby wygenerować pomieszaną treść, która czytałaby obie kolumny jednocześnie.
Krok 3: Segmentacja znaków
W obrębie każdego bloku tekstowego izolowane są poszczególne znaki. Linie są oddzielane odstępami pionowymi, słowa odstępami poziomymi, a znaki w obrębie słów ich granicami. Jest to trudniejsze niż się wydaje – znaki w wielu czcionkach nakładają się lub stykają, a w skryptach takich jak arabski i dewanagari, znaki łączą się w złożony sposób.
Krok 4: Rozpoznawanie znaków
Każdy segmentowany obraz znaku jest klasyfikowany przy użyciu głębokich sieci neuronowych wytrenowanych na milionach oznakowanych obrazów znaków. Sieć generuje listę kandydatów z przypisanym poziomem pewności, a nie pojedynczą odpowiedź. Czyste „A” może mieć 99,8% pewności. Zdegradowany znak może wygenerować znacznie bardziej płaski rozkład.
Krok 5: Modelowanie językowe
Surowe rozpoznawanie znaków jest podatne na błędy. Kontekst rozwiązuje niejednoznaczności. Czy „Faktura” to słowo? Nie – „l” było faktycznie „I”, co daje „Invoice”. Statystyczne modele językowe przewidują prawdopodobne sekwencje znaków, a walidacja formatu stosuje zasady do wzorców takich jak daty i liczby.
Krok 6: Generowanie wyjścia
Rozpoznany tekst jest mapowany z powrotem do oryginalnych współrzędnych obrazu i zapisywany w pliku PDF jako niewidoczna warstwa tekstowa. Każde słowo jest precyzyjnie dopasowane do swojego wizualnego odpowiednika, umożliwiając funkcjonalność wyszukiwania i podświetlania.
Metoda 1: Narzędzie OCR PDFSub (Zalecane)

Narzędzie OCR PDFSub przetwarza zeskanowane pliki PDF i dodaje przeszukiwalną warstwę tekstową, zachowując oryginalny wygląd wizualny każdej strony.
Instrukcje krok po kroku
- Przejdź do narzędzia OCR – Przejdź na stronę pdfsub.com/tools/ocr
- Prześlij zeskanowany plik PDF – Przeciągnij i upuść plik lub kliknij, aby przeglądać. Nie ma potrzeby dzielenia dużych dokumentów – wielostronicowe pliki PDF są obsługiwane automatycznie.
- Przetwarzanie OCR dokumentu – Narzędzie analizuje każdą stronę, rozpoznaje tekst i buduje niewidoczną warstwę tekstową. Czas przetwarzania zależy od liczby stron i złożoności, ale większość dokumentów jest przetwarzana w ciągu kilku sekund.
- Pobierz przeszukiwalny plik PDF – Plik wyjściowy wygląda identycznie jak oryginalny skan, ale teraz obsługuje wyszukiwanie tekstu, zaznaczanie tekstu i kopiowanie.
Dlaczego PDFSub
Obsługa ponad 130 języków. OCR działa z dokumentami w języku angielskim, hiszpańskim, francuskim, niemieckim, chińskim, japońskim, koreańskim, arabskim, hindi, rosyjskim, portugalskim i ponad 120 dodatkowych językach. Dokumenty wielojęzyczne są obsługiwane automatycznie – nie musisz określać języka z góry.
Zachowany oryginalny wygląd. Proces OCR dodaje dane tekstowe bez zmiany zawartości wizualnej. Twoje zeskanowane strony wyglądają dokładnie tak samo. Czcionki, układy, pieczątki, podpisy i odręczne adnotacje pozostają nietknięte.
Brak konieczności instalacji oprogramowania. Wszystko działa w przeglądarce lub na bezpiecznych serwerach. Nie ma nic do pobrania, żadnych wymagań systemowych do sprawdzenia ani problemów z kompatybilnością.
Projekt z myślą o prywatności. Przesłane dokumenty są przetwarzane, a następnie usuwane. PDFSub nie przechowuje Twoich plików ani nie wykorzystuje ich do szkolenia.
Wypróbuj za darmo. PDFSub oferuje 7-dniowy bezpłatny okres próbny, dzięki czemu możesz przetestować OCR na własnych dokumentach przed podjęciem decyzji.
Metoda 2: Adobe Acrobat Pro
Adobe Acrobat Pro zawiera wbudowaną funkcję OCR o nazwie „Rozpoznaj tekst” w ramach zestawu narzędzi Skanowanie i OCR.
Instrukcje krok po kroku
- Otwórz zeskanowany plik PDF w Adobe Acrobat Pro
- Przejdź do Narzędzia i wybierz Skanowanie i OCR
- Kliknij Rozpoznaj tekst i wybierz W tym pliku lub W wielu plikach
- W ustawieniach wybierz Obraz z możliwością wyszukiwania (dodaje niewidoczną warstwę tekstową – zalecane)
- Kliknij Rozpoznaj tekst, aby rozpocząć przetwarzanie
- Zapisz plik
Mocne strony i ograniczenia
Adobe zapewnia wysoką dokładność na czystych skanach w języku angielskim, obsługuje przetwarzanie wsadowe i pozwala na bezpośrednią korektę błędów OCR. Jednak Acrobat Pro kosztuje 19,99 USD/miesiąc w planie rocznym (239,88 USD/rok), wymaga instalacji na komputerze (brak OCR w przeglądarce), obsługuje tylko około 20 języków i może być powolny w przypadku dokumentów powyżej 50 stron.
Metoda 3: Dysk Google (Darmowy, ale z utratą jakości)
Dysk Google zawiera podstawową funkcję OCR, która ekstrahuje tekst z zeskanowanych plików PDF – ale ze znaczącym kompromisem.
Instrukcje krok po kroku
- Prześlij zeskanowany plik PDF do Dysku Google
- Kliknij prawym przyciskiem myszy plik i wybierz Otwórz za pomocą a następnie Dokumenty Google
- Google przetworzy plik PDF i utworzy Dokument Google z wyodrębnionym tekstem
- Tekst jest teraz przeszukiwalny, zaznaczalny i edytowalny
Mocne strony i ograniczenia
OCR Dysku Google jest całkowicie darmowy, zapewnia dobrą dokładność na czystych dokumentach maszynowych i automatycznie wykrywa języki. Jednak istnieje krytyczny kompromis: niszczy formatowanie. Google nie dodaje warstwy tekstowej do pliku PDF – ekstrahuje tekst do Dokumentu Google. Tabele stają się zwykłym tekstem, kolumny się zapadają, a oryginalny układ jest tracony. Otrzymujesz Dokument Google, a nie przeszukiwalny plik PDF.
Działa również najlepiej na dokumentach poniżej 10 stron. Dłuższe dokumenty mogą zostać obcięte.
Najlepsze dla: Ekstrakcji treści tekstowej, gdy nie potrzebujesz oryginalnego układu. Jeśli potrzebujesz przeszukiwalnego pliku PDF zachowującego wygląd, użyj Metody 1 lub Metody 2.
Dokładność OCR: Czego można się spodziewać w zależności od typu dokumentu
OCR to nie magia. Dokładność znacznie się różni w zależności od jakości dokumentu, typu zawartości i warunków skanowania. Oto, co pokazują testy w rzeczywistych warunkach.
Dokumenty drukowane (nowoczesne czcionki): 95-99%
Nowoczesne dokumenty drukowane – faktury, umowy, raporty drukowane na drukarkach laserowych – to najlepszy scenariusz. Standardowe czcionki są dobrze reprezentowane w danych treningowych OCR, a czyste wydruki na białym papierze generują obrazy o wysokim kontraście. Przy 99% dokładności na stronie 250 słów (około 1500 znaków) można spodziewać się około 15 błędów znakowych – większość nieistotnych, jak kropka błędnie odczytana jako przecinek lub mała litera „l” pomylona z „1”.
Starsze dokumenty maszynowe: 85-95%
Maszyny do pisania stanowią wyzwanie: niespójne wyrównanie liter, zmienna gęstość atramentu z powodu zużycia taśmy i jednolita szerokość znaków powodująca problemy z segmentacją. Mimo to, tekst maszynowy jest tworzony indywidualnie i wyrównany poziomo, więc większość silników OCR radzi sobie z nim wystarczająco dobrze do celów wyszukiwania.
Tekst odręczny: 60-80%
Tekst odręczny pozostaje największym wyzwaniem dla OCR. Zmienność jest ogromna – nie tylko między ludźmi, ale także w obrębie pisma jednej osoby na jednej stronie. Staranny druk blokowy może osiągnąć 80-85%. Pismo pochyłe pisanym ołówkiem na papierze w linie może spaść poniżej 60%. Zawsze ręcznie weryfikuj krytyczne dane z dokumentów odręcznych.
Treść mieszana (tekst + tabele): 90-97%
Dokumenty łączące tekst z danymi tabelarycznymi stanowią wyzwanie dla analizy układu. Rozpoznawanie znaków w komórkach jest zazwyczaj dokładne, ale błędy strukturalne – błędnie zidentyfikowane granice komórek, nieprawidłowo przypisane kolumny, podział komórek wieloliniowych na wiersze – psują relacje danych i mają większe znaczenie niż błędy pojedynczych znaków.
Podsumowanie dokładności w tabeli
| Typ dokumentu | Dokładność znaków | Przeszukiwalny? | Niezawodność ekstrakcji danych? |
|---|---|---|---|
| Nowoczesny druk (laser) | 95-99% | Doskonała | Tak |
| Nowoczesny druk (atramentowy) | 93-98% | Doskonała | Zazwyczaj |
| Starszy maszynowy | 85-95% | Dobra | Z weryfikacją |
| Czysty odręczny (blokowy) | 70-80% | Częściowa | Nie – weryfikuj wszystko |
| Odręczny pochyły | 60-70% | Słaba | Nie |
| Mieszany tekst + tabele | 90-97% | Dobra | Z przeglądem strukturalnym |
| Papier zdegradowany/uszkodzony | 70-90% | Zmienna | Z intensywną weryfikacją |
Najlepsze praktyki skanowania przed OCR
Najważniejszym czynnikiem dokładności OCR nie jest oprogramowanie OCR – to jakość skanu. Świetny silnik OCR pracujący na słabym skanie da gorsze wyniki niż przeciętny silnik pracujący na świetnym skanie.
Rozdzielczość: Minimum 300 DPI
DPI (kropki na cal) określa, ile szczegółów przechwytuje skaner.
- 300 DPI: Standard dla większości dokumentów. Wystarczająco do niezawodnego rozpoznawania standardowych czcionek w normalnych rozmiarach tekstu (10-12 pkt).
- 600 DPI: Zalecane dla małego tekstu (przypisy, drobny druk) lub gdy potrzebujesz maksymalnej dokładności.
- 150 DPI lub mniej: Niezalecane. Znaki są zbyt małe do niezawodnego rozpoznawania. Dokładność znacznie spada.
- 1200 DPI: Nadmiarowe dla OCR. Brak poprawy dokładności, a rozmiary plików stają się ogromne.
Tryb koloru: Skala szarości zazwyczaj najlepsza
- Skala szarości: Najlepsza dla większości dokumentów. Zachowuje wystarczający kontrast dla dobrej binarzyzacji, jednocześnie utrzymując rozsądne rozmiary plików.
- Czarno-biały: Może działać dla czystych dokumentów o wysokim kontraście, ale może niszczyć szczegóły na marginesach.
- Kolor: Konieczny tylko wtedy, gdy dokument zawiera informacje oznaczone kolorami, które musisz zachować. Do celów OCR kolor nie przynosi żadnych korzyści w porównaniu do skali szarości.
Wyrównanie i orientacja
- Utrzymuj strony prosto. Nawet 2-3 stopnie nachylenia mogą zmniejszyć dokładność OCR o 5-10%. Użyj prowadnic papieru skanera, aby utrzymać wyrównanie stron.
- Skanuj jednostronne strony skierowane w dół. Unikaj przepuszczania przez strony z tyłu, co tworzy cienie, które mylą silnik OCR.
- Użyj skanera płaskiego do dokumentów oprawionych. Skanery z podajnikiem mogą przekrzywiać strony z książek lub raportów oprawionych. Skanowanie na płasko utrzymuje stronę płasko i prawidłowo wyrównaną.
Konserwacja skanera i przygotowanie dokumentu
- Wyczyść szybę przed skanowaniem partii – smugi tworzą artefakty na każdej stronie
- Sprawdź, czy nie ma smug, skanując pustą stronę – pionowe linie wskazują zabrudzone rolki
- Usuń zszywki i spinacze, aby zapobiec zacięciom i zarysowaniom
- Wygładź pogniecione strony – głębokie zagniecenia tworzą cienie, które silnik OCR może błędnie odczytać
- Napraw łzy taśmą po odwrotnej stronie – taśma z przodu tworzy odbicia
Po OCR: Co dalej?
Przeprowadzenie OCR to tylko pierwszy krok. Oto jak najlepiej wykorzystać swoje nowe, przeszukiwalne dokumenty.
Weryfikacja wyników
Zawsze przeprowadzaj wyrywkowe sprawdzanie wyników OCR, zwłaszcza w przypadku dokumentów krytycznych:
- Wyszukaj kluczowe terminy, o których wiesz, że pojawiają się w dokumencie. Jeśli Ctrl+F znajduje je konsekwentnie, OCR działa.
- Skopiuj akapit i wklej go do edytora tekstu. Przeczytaj go pod kątem oczywistych błędów – zniekształcone słowa, brakujące znaki, nonsensowne zamienniki.
- Dokładnie sprawdź liczby. Kwoty finansowe, daty, numery telefonów i numery kont to dane o wysokiej stawce. „6” pomylone z „8” w kwocie transakcji to prawdziwy problem. Silniki OCR czasami mylą podobne cyfry (0/O, 1/l, 5/S, 6/8).
Poprawianie błędów i organizacja
Jeśli znajdziesz błędy w krytycznych dokumentach, Adobe Acrobat Pro pozwala na bezpośrednią edycję warstwy tekstowej, lub możesz ponownie zeskanować problematyczne strony w rozdzielczości 600 DPI i ponownie uruchomić OCR. W przypadku sekcji odręcznych, ręczne transkrypcje są często szybsze niż poprawianie słabego OCR.
Po przeszukiwalności pliki PDF integrują się z istniejącymi przepływami pracy. Wyszukiwanie na pulpicie (Windows Search, Spotlight na Macu) automatycznie je indeksuje. Systemy zarządzania dokumentami (SharePoint, Google Drive, Dropbox) umożliwiają pełnotekstowe wyszukiwanie w całej bibliotece. Dobre nazwy plików plus przeszukiwalna zawartość to idealne połączenie.
Zastosowania OCR w świecie rzeczywistym
Cyfryzacja archiwów papierowych
Firmy, kancelarie prawne i agencje rządowe często posiadają dziesięciolecia dokumentów papierowych. Samo skanowanie do PDF tworzy pliki obrazów, które można przeszukiwać tylko po nazwie pliku. Dodanie OCR zamienia pasywne archiwum w bazę danych, którą można przeszukiwać. Typowy przepływ pracy: skanowanie w skali szarości 300 DPI, uruchomienie OCR, zastosowanie konwencji nazewnictwa i przesłanie do systemu zarządzania dokumentami.
Umożliwienie przeszukiwania dokumentów prawnych
Specjaliści prawni zajmują się ogromnymi ilościami dokumentów podczas ujawniania dowodów i badania due diligence. Strona przeciwna może dostarczyć tysiące stron zeskanowanych dokumentów. Bez OCR, przegląd oznacza ręczne czytanie każdej strony. Dzięki OCR prawnicy mogą wyszukiwać kluczowe terminy, nazwiska, daty i kwoty w całym zbiorze – co sprawia, że przegląd jest wykonalny w realistycznych terminach.
Zgodność z przepisami dotyczącymi dostępności
Zgodnie z Americans with Disabilities Act (ADA) i Sekcją 508, dokumenty cyfrowe od agencji rządowych i organizacji finansowanych przez rząd federalny muszą być dostępne. Czytniki ekranu nie potrafią interpretować plików PDF składających się wyłącznie z obrazów – potrzebują warstwy tekstowej. OCR jest pierwszym krokiem w kierunku zgodności. Dodatkowa praca (struktura nagłówków, tekst alternatywny, tagi kolejności czytania) może nastąpić później, ale bez warstwy tekstowej dostępność jest niemożliwa.
Przetwarzanie ubezpieczeń i finansów
Firmy ubezpieczeniowe i banki otrzymują miliony zeskanowanych formularzy roszczeń, dokumentacji medycznej, czeków i wniosków o pożyczkę. OCR umożliwia automatyczne wyodrębnianie danych – pobieranie numerów polis, kwot roszczeń, dat usług i szczegółów konta z zeskanowanych dokumentów do systemów przetwarzania.
Archiwa akademickie i badawcze
Uniwersytety, biblioteki i archiwa cyfryzują historyczne dokumenty, gazety i rękopisy. OCR umożliwia przeszukiwanie wieków wiedzy. Projekty takie jak Google Books i Internet Archive przeprowadziły OCR miliardów stron, umożliwiając pełnotekstowe wyszukiwanie w kolekcjach, których przeczytanie ręcznie zajęłoby całe życie.
Często zadawane pytania
Czy mogę przeprowadzić OCR wielu plików PDF jednocześnie (przetwarzanie wsadowe)?
Tak. PDFSub obsługuje przetwarzanie wielostronicowych dokumentów w jednej operacji. W przypadku dużych zadań wsadowych – setek lub tysięcy plików – przetwarzałbyś je sekwencyjnie za pomocą narzędzia. Adobe Acrobat Pro oferuje również wsadowe OCR za pomocą funkcji Kreatora akcji, która może automatycznie przetwarzać całe foldery plików PDF.
Czy OCR zmienia wygląd mojego pliku PDF?
Nie. Prawidłowy OCR dodaje niewidoczną warstwę tekstową za widocznym obrazem strony. Wygląd wizualny zeskanowanego pliku PDF pozostaje niezmieniony – te same strony, ten sam układ, ta sama rozdzielczość. Warstwa tekstowa jest „widoczna” tylko dla funkcji wyszukiwania, zaznaczania tekstu, kopiowania i wklejania oraz czytników ekranu.
Co się stanie, jeśli uruchomię OCR na pliku PDF, który już ma przeszukiwalny tekst?
Większość narzędzi OCR wykrywa istniejące warstwy tekstowe i albo pomija te strony, albo daje opcję ich ponownego przetworzenia. Uruchamianie OCR na już przeszukiwalnym pliku PDF jest zazwyczaj nieszkodliwe, ale niepotrzebne – nie poprawi istniejącej warstwy tekstowej i może nieznacznie zwiększyć rozmiar pliku z powodu nadmiarowych danych.
Czy mój rozmiar pliku wzrośnie po OCR?
Nieznacznie. Spodziewaj się wzrostu o 5-15% dla typowego zeskanowanego dokumentu. Sama warstwa tekstowa jest niewielka (znaki i dane pozycyjne), a wzrost jest nieznaczny w porównaniu do danych obrazu, które stanowią większość zeskanowanego pliku PDF.
Czy OCR działa na plikach PDF będących mieszanką stron zeskanowanych i cyfrowych?
Tak. Dobre narzędzia OCR przetwarzają każdą stronę niezależnie. Strony, które już mają warstwę tekstową, są wykrywane i mogą być pomijane. Strony, które są tylko obrazami, są przetwarzane. Wynikiem jest w pełni przeszukiwalny plik PDF, niezależnie od tego, jak został pierwotnie złożony.
Jakie języki obsługuje OCR?
Wsparcie językowe różni się w zależności od narzędzia. OCR PDFSub obsługuje ponad 130 języków, w tym alfabet łaciński (angielski, hiszpański, francuski, niemiecki), CJK (chiński, japoński, koreański), cyrylicę (rosyjski, ukraiński), alfabet arabski (arabski, perski, urdu), dewanagari (hindi, marathi) i wiele innych.
Czy OCR potrafi czytać pismo odręczne?
Częściowo. Staranny druk blokowy osiąga 70-80% dokładności. Pismo pochyłe jest znacznie trudniejsze (60-70% lub mniej). W przypadku krytycznych danych z dokumentów odręcznych zawsze weryfikuj wyniki ręcznie.
Czy OCR to to samo co ekstrakcja tekstu z PDF?
Nie. OCR konwertuje obrazy tekstu na rzeczywiste znaki – potrzebne, gdy nie ma danych tekstowych, tylko piksele. Ekstrakcja tekstu z PDF odczytuje tekst, który już istnieje w strumieniu zawartości cyfrowego pliku PDF – potrzebne, gdy tekst jest uwięziony w formacie, z którym nie można łatwo pracować. Jeśli Twój plik PDF jest narodzony cyfrowo, potrzebujesz ekstrakcji. Jeśli jest zeskanowany, najpierw potrzebujesz OCR.
Czy OCR działa na zdjęciach zrobionych aparatem telefonu?
Tak, ale dokładność zależy od jakości zdjęcia. Aby uzyskać najlepsze rezultaty: trzymaj telefon równolegle do dokumentu, zapewnij równomierne oświetlenie (bez cieni), wypełnij kadr, trzymaj stabilnie i skorzystaj z trybu skanowania dokumentów w telefonie, jeśli jest dostępny. Zdjęcia z telefonu zazwyczaj zapewniają 95-95% dokładności dla czystego tekstu drukowanego – mniej niż skany płaskie, ale często wystarczająco dobre do przeszukiwania.
Czy mogę edytować tekst po OCR?
Warstwa tekstowa OCR jest niewidoczna i umieszczona nad obrazem skanu. Możesz kopiować tekst i wklejać go do dowolnego edytora, używać Adobe Acrobat Pro do bezpośredniej edycji warstwy tekstowej lub eksportować do Worda lub zwykłego tekstu w celu edycji. Aby zmienić widoczną zawartość zeskanowanego dokumentu, musiałbyś go ponownie zeskanować lub użyć edytora PDF do dodania adnotacji na obrazie.
Rozpoczęcie pracy z OCR
Jeśli masz zeskanowane pliki PDF, które wymagają przeszukiwania, najszybsza ścieżka jest prosta:
- Przetestuj swoje pliki PDF – użyj testu Ctrl+F, aby potwierdzić, że wymagają OCR
- Wypróbuj narzędzie OCR PDFSub – prześlij zeskanowany plik PDF na stronę pdfsub.com/tools/ocr i zobacz wyniki
- Zweryfikuj wynik – sprawdź kilka stron, aby potwierdzić, że dokładność spełnia Twoje potrzeby
- Przetwórz pozostałe dokumenty – gdy będziesz pewien wyników, zajmij się swoją zaległą pracą
PDFSub oferuje 7-dniowy bezpłatny okres próbny, który obejmuje dostęp do narzędzia OCR i wszystkich innych narzędzi PDF na platformie. Prześlij zeskanowany dokument i przekonaj się, jak dużą różnicę robi przeszukiwalny tekst. Anuluj w dowolnym momencie.