Как да направим OCR на сканирано PDF (да го направим търсимо)
Сканираните PDF файлове са просто снимки на страници – не можете да търсите, копирате или редактирате текста. OCR решава този проблем, като добавя невидим текстов слой. Ето как да го направите с три различни метода.
Сканирали сте купчина документи в PDF формат. Изглеждат добре на екрана – ясни, четими, професионални. Но опитайте да потърсите дума, да копирате параграф или да изберете телефонен номер и нищо не се случва. Курсорът ви просто влачи син правоъгълник по страницата, сякаш избирате изображение. Защото точно това правите.
Сканираните PDF файлове са снимки. Всяка страница е едно изображение – плоска мрежа от пиксели без представа за букви, думи или изречения. Вашият компютър вижда точно толкова текст в сканиран PDF, колкото вижда в JPEG на залез слънце: нищо.
OCR (Оптично разпознаване на символи) решава този проблем. Той анализира изображението на всяка страница, идентифицира символите и добавя невидим текстов слой върху оригиналното сканиране. Визуалният вид остава идентичен, но сега можете да търсите, копирате, избирате текст и да позволявате на екранните четци да имат достъп до него.
Това ръководство обхваща какво е OCR, как работи, три метода за OCR на вашите сканирани PDF файлове и как да получите най-добри резултати.

Как да разберете дали вашето PDF се нуждае от OCR
Преди да инвестирате време в OCR, проверете дали вашето PDF наистина се нуждае от него. Много PDF файлове са „родени дигитални“ – създадени от Word документи, Excel таблици или уеб страници – и вече съдържат реален текстов слой.
Тестът за 5 секунди
- Отворете вашето PDF във всеки четец (Adobe Reader, Preview, Chrome, Edge)
- Натиснете Ctrl+F (Windows/Linux) или Cmd+F (Mac)
- Въведете дума, която виждате на страницата
- Ако четецът подчертае думата: вашето PDF вече има търсим текст. Не е необходим OCR.
- Ако нищо не бъде намерено: вашето PDF е само изображение. Нуждае се от OCR.
Тестът за селекция
Опитайте да кликнете и влачите, за да изберете текст на страницата:
- Ако можете да избирате отделни думи и те се подчертават в синьо: PDF файлът има текстов слой.
- Ако цялата страница се избира като един блок (като избиране на изображение): PDF файлът е сканиран без текстов слой.
- Ако можете да избирате част от текста, но не и друга част: PDF файлът има частичен OCR или смесено съдържание – някои страници са дигитални, други са сканирани.
Често срещани типове PDF файлове, които се нуждаят от OCR
| Тип документ | Обикновено се нуждае от OCR? | Защо |
|---|---|---|
| Сканирани хартиени документи | Да | Чисто изображение, без текстови данни |
| Факсимирани документи, запазени като PDF | Да | Факс изходът е растерно изображение |
| Снимки на документи (телефонна камера) | Да | Заснемане от камера = изображение |
| PDF файлове от копирна машина „сканиране към имейл“ | Да | Повечето копирни машини произвеждат PDF файлове с изображения |
| PDF файлове, експортирани от Word/Excel | Не | Родени дигитални, включен текстов слой |
| PDF файлове от уеб браузъри (печат към PDF) | Не | Текстът е запазен |
| Правителствени формуляри, изтеглени онлайн | Обикновено не | Повечето са родени дигитални |
| Разписки, изпратени по имейл като прикачени PDF файлове | Обикновено не | Генерирани от POS системи с текст |
Какво е OCR? Обяснение с прости думи
OCR означава Оптично разпознаване на символи (Optical Character Recognition). Това е технологията, която чете текст от изображения – анализира пикселни модели, за да идентифицира букви, цифри и символи, много подобно на това как очите ви четат думи на страница.
Когато сканирате документ, скенерът създава снимка. Тази снимка съдържа пиксели – тъмни, където е имало мастило, светли, където е имало хартия – но никакви реални текстови данни. Скенерът не знае, че подредба от пиксели означава „Фактура“. Той просто записва изображението.
OCR взема това изображение, анализира формите, сравнява ги с познати модели на символи и извежда текста, който тези форми представляват. Резултатът е PDF, който изглежда идентично на оригиналното сканиране, но съдържа невидим текстов слой. Когато натиснете Ctrl+F и потърсите „Декември“, четецът на PDF файлове проверява текстовия слой, намира съвпадение и подчертава областта на изображението, където се появява тази дума.
Колко напред е стигнал OCR
OCR датира от 50-те години на миналия век, когато ранните системи можеха да обработват само специфични шрифтове в контролирани среди. Технологията се разви през съпоставяне на шаблони (70-80-те години), извличане на характеристики (90-те – 2000-те) и машинно обучение (2010-те). Днешният OCR комбинира дълбоки невронни мрежи за разпознаване на символи с езикови модели, които използват контекст за разрешаване на неясноти – ако системата не е сигурна дали символът е „l“ или „1“, околните думи й помагат да реши.
Съвременните OCR системи постигат над 99% точност на символите при чисти, добре сканирани печатни документи.
Как работи OCR: Техническият процес
OCR не е единствен алгоритъм. Това е поредица от стъпки, всяка от които надгражда предишната.
Стъпка 1: Предварителна обработка на изображението
Преди да се извърши каквото и да е разпознаване на символи, OCR системата почиства изображението. Това включва бинаризация (преобразуване в черно и бяло за максимален контраст), изправяне (коригиране дори на леко завъртане на страницата – наклон от 1-2 градуса може забележимо да намали точността), премахване на шум (елиминиране на артефакти от скенера и петна) и премахване на рамки (премахване на черни ръбове и сенки от подвързия).
Стъпка 2: Анализ на оформлението
Системата идентифицира структурата на страницата – текстови блокове, колони, изображения, заглавки, долни колонтитули, таблици и ред на четене. Без тази стъпка, документ с две колони може да даде объркан резултат, който се чете едновременно през двете колони.
Стъпка 3: Сегментиране на символите
В рамките на всеки текстов блок се изолират отделни символи. Редовете се разделят чрез вертикално разстояние, думите чрез хоризонтални интервали, а символите в думите чрез техните граници. Това е по-трудно, отколкото звучи – символите в много шрифтове се припокриват или докосват, а в писмености като арабската и деванагари, символите се свързват по сложни начини.
Стъпка 4: Разпознаване на символите
Всяко сегментирано изображение на символ се класифицира с помощта на дълбоки невронни мрежи, обучени върху милиони маркирани изображения на символи. Мрежата извежда списък с кандидати, класирани по увереност, а не единствен отговор. Чисто „А“ може да получи 99,8% увереност. Деградирал символ може да даде много по-плоско разпределение.
Стъпка 5: Езиково моделиране
Суровото разпознаване на символи е податливо на грешки. Контекстът разрешава неясноти. Дали „lnvoice“ е дума? Не – „l“ всъщност е било „I“, което го прави „Invoice“. Статистическите езикови модели предсказват вероятни последователности от символи, а валидирането на формата прилага правила към модели като дати и числа.
Стъпка 6: Генериране на изход
Разпознатият текст се съпоставя обратно с оригиналните координати на изображението и се записва в PDF файла като невидим текстов слой. Всяка дума съвпада точно със своя визуален еквивалент, което позволява функционалност за търсене и подчертаване.
Метод 1: Инструмент за OCR на PDFSub (Препоръчително)

Инструментът за OCR на PDFSub обработва сканирани PDF файлове и добавя търсим текстов слой, като същевременно запазва оригиналния визуален вид на всяка страница.
Инструкции стъпка по стъпка
- Отидете на инструмента за OCR – Навигирайте до pdfsub.com/tools/ocr
- Качете вашия сканиран PDF – Плъзнете и пуснете файла си или кликнете, за да изберете. Няма нужда да разделяте големи документи – многостраничните PDF файлове се обработват автоматично.
- OCR обработва вашия документ – Инструментът анализира всяка страница, разпознава текст и изгражда невидимия текстов слой. Времето за обработка зависи от броя страници и сложността, но повечето документи завършват за секунди.
- Изтеглете вашия търсим PDF – Изходният файл изглежда идентично на оригиналното ви сканиране, но вече поддържа търсене на текст, избор на текст и копиране-поставяне.
Защо PDFSub
Поддръжка на 130+ езика. OCR работи с документи на английски, испански, френски, немски, китайски, японски, корейски, арабски, хинди, руски, португалски и над 120 допълнителни езика. Многоезичните документи се обработват автоматично – не е нужно да посочвате езика предварително.
Оригиналният вид е запазен. Процесът на OCR добавя текстови данни, без да променя визуалното съдържание. Вашите сканирани страници изглеждат точно по същия начин. Шрифтове, оформления, печати, подписи и ръкописни анотации остават недокоснати.
Не е необходим софтуер за инсталиране. Всичко работи във вашия браузър или на сигурни сървъри. Няма нищо за изтегляне, няма системни изисквания за проверка и няма проблеми със съвместимостта.
Дизайн, съобразен с поверителността. Качените документи се обработват и след това се изтриват. PDFSub не съхранява вашите файлове и не ги използва за обучение.
Опитайте безплатно. PDFSub предлага 7-дневен безплатен пробен период, така че можете да тествате OCR върху собствените си документи, преди да се ангажирате.
Метод 2: Adobe Acrobat Pro
Adobe Acrobat Pro включва вградена функция за OCR, наречена „Разпознаване на текст“ (Recognize Text) в рамките на набора от инструменти Scan & OCR.
Инструкции стъпка по стъпка
- Отворете вашия сканиран PDF във Adobe Acrobat Pro
- Отидете на Инструменти (Tools) и изберете Сканиране и OCR (Scan & OCR)
- Кликнете върху Разпознаване на текст (Recognize Text) и изберете В този файл (In This File) или В няколко файла (In Multiple Files)
- Под Настройки (Settings), изберете Търсим изображение (Searchable Image) (добавя невидим текстов слой – препоръчително)
- Кликнете върху Разпознаване на текст (Recognize Text), за да започнете обработката
- Запазете файла
Силни страни и ограничения
Adobe осигурява висока точност при чисти английски сканирания, поддържа пакетна обработка и ви позволява директно да коригирате OCR грешки. Въпреки това, Acrobat Pro струва $19.99/месец при годишен план ($239.88/година), изисква инсталация на компютър (няма OCR базиран на браузър), поддържа само около 20 езика и може да бъде бавен при документи над 50 страници.
Метод 3: Google Drive (Безплатно, но с загуба на качество)
Google Drive включва основна функция за OCR, която извлича текст от сканирани PDF файлове – но със значителен компромис.
Инструкции стъпка по стъпка
- Качете вашия сканиран PDF в Google Drive
- Кликнете с десен бутон върху файла и изберете Отваряне с (Open with), след това Google Документи (Google Docs)
- Google обработва PDF файла и създава Google Документ с извлечения текст
- Текстът вече е търсим, избираем и редактируем
Силни страни и ограничения
OCR на Google Drive е напълно безплатен, осигурява добра точност при чисти печатни документи и автоматично разпознава езици. Въпреки това, има критичен компромис: той унищожава форматирането. Google не добавя текстов слой към вашия PDF – той извлича текст в Google Документ. Таблиците стават обикновен текст, колоните се срутват и оригиналното оформление се губи. В крайна сметка получавате Google Документ, а не търсим PDF.
Работи най-добре и при документи под 10 страници. По-дългите документи може да бъдат съкратени.
Най-добър за: Извличане на текстово съдържание, когато не се нуждаете от оригиналното оформление. Ако се нуждаете от търсим PDF, който запазва вида си, използвайте Метод 1 или Метод 2.
Точност на OCR: Какво да очаквате според типа документ
OCR не е магия. Точността варира драматично в зависимост от качеството на документа, типа съдържание и условията на сканиране. Ето какво показват реалните тестове.
Печатни документи (съвременни шрифтове): 95-99%
Съвременните печатни документи – фактури, договори, доклади, отпечатани на лазерни принтери – са най-добрият сценарий. Стандартните шрифтове са добре представени в данните за обучение на OCR, а чистите отпечатъци на бяла хартия произвеждат изображения с висок контраст. При 99% точност на страница от 250 думи (около 1500 символа), бихте очаквали около 15 грешки в символите – повечето незначителни, като точка, погрешно прочетена като запетая, или малко „l“, объркано с „1“.
По-стари пишещи машини: 85-95%
Механичните пишещи машини представляват предизвикателства: непоследователно подравняване на буквите, променлива плътност на мастилото от износване на лентата и еднаква ширина на символите, причиняваща объркване при сегментирането. Въпреки това, текстът от пишеща машина е индивидуално оформен и хоризонтално подравнен, така че повечето OCR системи се справят с него достатъчно добре за целите на търсенето.
Ръкописен текст: 60-80%
Ръкописният текст остава най-голямото предизвикателство за OCR. Вариабилността е огромна – не само между хората, но и в рамките на почерка на един човек на една страница. Чистото печатно писане може да достигне 80-85%. Курсив, написан с молив на редове хартия, може да падне под 60%. Винаги проверявайте критични данни от ръкописни документи ръчно.
Смесено съдържание (текст + таблици): 90-97%
Документи, комбиниращи текст с таблични данни, добавят предизвикателство при анализа на оформлението. Разпознаването на символи в клетките обикновено е точно, но структурни грешки – неправилно идентифицирани граници на клетки, грешно присвоени колони, разделяне на многоредови клетки на редове – нарушават връзките на данните и са по-важни от грешките в отделните символи.
Обобщена таблица за точност
| Тип документ | Точност на символите | Търсим? | Надеждно извличане на данни? |
|---|---|---|---|
| Съвременен печат (лазерен) | 95-99% | Отлично | Да |
| Съвременен печат (мастиленоструен) | 93-98% | Отлично | Обикновено |
| По-стари пишещи машини | 85-95% | Добро | С проверка |
| Чист ръкопис (печатни букви) | 70-80% | Частично | Не – проверете всичко |
| Курсивен ръкопис | 60-70% | Слабо | Не |
| Смесен текст + таблици | 90-97% | Добро | С преглед на структурата |
| Деградирала/повредена хартия | 70-90% | Варира | С интензивна проверка |
Най-добри практики за сканиране преди OCR
Най-големият фактор за точността на OCR не е OCR софтуерът – а качеството на сканирането. Страхотна OCR система, работеща върху лошо сканиране, ще даде по-лоши резултати от посредствена система, работеща върху страхотно сканиране.
Резолюция: Минимум 300 DPI
DPI (точки на инч) определя колко детайли улавя скенерът.
- 300 DPI: Стандартът за повечето документи. Достатъчно за надеждно разпознаване на стандартни шрифтове при нормални размери на текста (10-12pt).
- 600 DPI: Препоръчително за малък текст (бележки под линия, дребен шрифт) или когато се нуждаете от максимална точност.
- 150 DPI или по-ниско: Не се препоръчва. Символите са твърде малки за надеждно разпознаване. Точността намалява значително.
- 1200 DPI: Излишно за OCR. Няма подобрение на точността, а размерите на файловете стават огромни.
Цветен режим: Сивата скала обикновено е най-добра
- Сива скала: Най-добър за повечето документи. Запазва достатъчно контраст за добра бинаризация, като същевременно поддържа управляеми размери на файловете.
- Черно и бяло: Може да работи за чисти документи с висок контраст, но може да унищожи детайли в периферните области.
- Цвят: Необходимо е само ако документът съдържа цветно кодирана информация, която трябва да запазите. За OCR цели, цветът не добавя полза пред сивата скала.
Подравняване и ориентация
- Дръжте страниците изправени. Дори наклон от 2-3 градуса може да намали точността на OCR с 5-10%. Използвайте водачите за хартия на скенера, за да подравните страниците.
- Сканирайте едностранни страници с лицето надолу. Избягвайте просветването от обратната страна да създава сенчест текст, който обърква OCR системата.
- Използвайте плосък скенер за подвързани документи. Скенерите с автоматично подаване на документи могат да изкривят страници от книги или подвързани доклади. Плоското сканиране държи страницата равна и правилно подравнена.
Поддръжка на скенера и подготовка на документа
- Почистете стъклото преди сканиране на партиди – петната създават артефакти на всяка страница
- Проверете за ивици, като сканирате празна страница – вертикалните линии показват замърсени ролки
- Премахнете телчета и кламери, за да предотвратите засядане и надраскване
- Изправете намачкани страници – дълбоките гънки създават сенки, които OCR системата може да прочете погрешно
- Поправете скъсвания със залепваща лента от обратната страна – лента отпред създава отражения
След OCR: Какво следва
Изпълнението на OCR е само първата стъпка. Ето как да извлечете максимума от вашите новотърсими документи.
Проверете резултатите
Винаги проверявайте резултатите от OCR, особено за критични документи:
- Търсете ключови термини, които знаете, че се появяват в документа. Ако Ctrl+F ги намира последователно, OCR работи.
- Копирайте параграф и го поставете в текстов редактор. Прочетете за очевидни грешки – развалени думи, липсващи символи, безсмислени замествания.
- Проверявайте числата внимателно. Финансови суми, дати, телефонни номера и номера на сметки са данни с висок залог. „6“, погрешно прочетена като „8“ в сума на трансакция, е реален проблем. OCR системите понякога бъркат подобни цифри (0/O, 1/l, 5/S, 6/8).
Коригирайте грешки и организирайте
Ако откриете грешки в критични документи, Adobe Acrobat Pro ви позволява директно да редактирате текстовия слой, или можете да сканирате проблемните страници отново при 600 DPI и да изпълните OCR отново. За ръкописни секции, ръчното въвеждане често е по-бързо от коригирането на лош OCR.
След като станат търсими, вашите PDF файлове се интегрират в съществуващи работни процеси. Десктоп търсенето (Windows Search, Spotlight на Mac) ги индексира автоматично. Системите за управление на документи (SharePoint, Google Drive, Dropbox) позволяват търсене в пълен текст в цялата ви библиотека. Добрите имена на файлове плюс търсимо съдържание е идеалната комбинация.
Реални случаи на употреба на OCR
Дигитализиране на хартиени архиви
Бизнеси, адвокатски кантори и държавни агенции често имат десетилетия хартиени документи. Простото сканиране в PDF създава файлове с изображения, търсими само по име на файл. Добавянето на OCR превръща пасивен архив в база данни, която може да се запитва. Типичният работен процес: сканиране при 300 DPI в сива скала, изпълнение на OCR, прилагане на конвенции за именуване и качване в система за управление на документи.
Правене на правни документи търсими
Правни специалисти се занимават с огромни обеми документи по време на разкриване на доказателства и надлежна проверка. Противоположната страна може да представи хиляди страници сканирани документи. Без OCR, прегледът означава ръчно четене на всяка страница. С OCR, адвокатите могат да търсят ключови термини, имена, дати и суми в целия набор – което прави прегледа осъществим в реалистични срокове.
Съответствие с изискванията за достъпност
Съгласно Закона за американците с увреждания (ADA) и Раздел 508, дигиталните документи от правителствени агенции и финансирани от федералното правителство организации трябва да бъдат достъпни. Екранните четци не могат да интерпретират PDF файлове само с изображения – те се нуждаят от текстов слой. OCR е първата стъпка към съответствие. Може да последва допълнителна работа (структура на заглавията, алтернативен текст, тагове за ред на четене), но без текстовия слой, достъпността е невъзможна.
Обработка на застраховки и финанси
Застрахователни компании и банки получават милиони сканирани формуляри за искове, медицински досиета, чекове и заявления за заем. OCR позволява автоматизирано извличане на данни – извличане на номера на полици, суми на искове, дати на услуги и данни за сметки от сканирани документи в системи за обработка.
Академични и изследователски архиви
Университети, библиотеки и архиви дигитализират исторически документи, вестници и ръкописи. OCR прави векове знание търсими. Проекти като Google Books и Internet Archive са направили OCR на милиарди страници, позволявайки търсене в пълен текст в колекции, които биха отнели цял живот за ръчно четене.
Често задавани въпроси
Мога ли да направя OCR на няколко PDF файла едновременно (пакетна обработка)?
Да. PDFSub поддържа обработка на многостранични документи в една операция. За големи пакетни задачи – стотици или хиляди файлове – бихте ги обработвали последователно чрез инструмента. Adobe Acrobat Pro също предлага пакетен OCR чрез функцията си Action Wizard, която може автоматично да обработва цели папки с PDF файлове.
Променя ли OCR външния вид на моя PDF?
Не. Правилният OCR добавя невидим текстов слой зад видимия образ на страницата. Визуалният вид на вашия сканиран PDF остава непроменен – същите страници, същото оформление, същата резолюция. Текстовият слой е „видим“ само за функции за търсене, избор на текст, копиране-поставяне и екранни четци.
Какво се случва, ако пусна OCR на PDF, който вече има търсим текст?
Повечето OCR инструменти разпознават съществуващи текстови слоеве и или пропускат тези страници, или ви дават възможност да ги обработите отново. Пускането на OCR на вече търсим PDF файл обикновено е безопасно, но ненужно – няма да подобри съществуващия текстов слой и може леко да увеличи размера на файла поради излишните данни.
Ще се увеличи ли размерът на файла ми след OCR?
Леко. Очаквайте увеличение с 5-15% за типичен сканиран документ. Самият текстов слой е малък (символи и данни за позиция), а увеличението е незначително в сравнение с данните от изображението, които съставляват по-голямата част от сканиран PDF.
Може ли OCR да обработва PDF файлове, които са смес от сканирани и дигитални страници?
Да. Добрите OCR инструменти обработват всяка страница независимо. Страниците, които вече имат текстов слой, се разпознават и могат да бъдат пропуснати. Страниците, които са само изображения, се обработват. Резултатът е напълно търсим PDF, независимо как е бил сглобен оригиналът.
Какви езици поддържа OCR?
Поддръжката на езици варира според инструмента. OCR на PDFSub поддържа над 130 езика, включително латиница (английски, испански, френски, немски), CJK (китайски, японски, корейски), кирилица (руски, украински), арабско писмо (арабски, персийски, урду), деванагари (хинди, марати) и много други.
Може ли OCR да чете ръкопис?
Частично. Чистото печатно писане достига 70-80% точност. Курсивът е значително по-труден (60-70% или по-нисък). За критични данни от ръкописни документи, винаги проверявайте резултатите ръчно.
OCR едно и също ли е с извличане на текст от PDF?
Не. OCR преобразува изображения на текст в реални символи – необходимо е, когато няма текстови данни, само пиксели. Извличането на текст от PDF чете текст, който вече съществува в потока от съдържание на дигитален PDF – необходимо е, когато текстът е „заключен“ във формат, с който не можете лесно да работите. Ако вашият PDF е роден дигитален, се нуждаете от извличане. Ако е сканиран, първо се нуждаете от OCR.
Работи ли OCR върху снимки, направени с телефонна камера?
Да, но точността зависи от качеството на снимката. За най-добри резултати: дръжте телефона успоредно на документа, осигурете равномерно осветление (без сенки), запълнете кадъра, дръжте стабилно и използвайте режима за сканиране на документи на телефона си, ако е наличен. Телефонните снимки обикновено дават 85-95% точност за чист печатен текст – по-ниска от плоските сканирания, но често достатъчно добра за търсимост.
Мога ли да редактирам текста след OCR?
OCR текстовият слой е невидим и позициониран върху образа от сканирането. Можете да копирате текст и да го поставите във всеки редактор, да използвате Adobe Acrobat Pro, за да редактирате текстовия слой директно, или да експортирате в Word или обикновен текст за редактиране. За да промените видимия вид на сканиран документ, ще трябва да го сканирате отново или да използвате PDF редактор, за да добавите анотации върху изображението.
Първи стъпки с OCR
Ако имате сканирани PDF файлове, които трябва да бъдат търсими, най-бързият път е прост:
- Тествайте вашите PDF файлове – Използвайте теста Ctrl+F, за да потвърдите, че се нуждаят от OCR
- Опитайте инструмента за OCR на PDFSub – Качете сканиран PDF файл на pdfsub.com/tools/ocr и вижте резултатите
- Проверете изхода – Направете случайна проверка на няколко страници, за да потвърдите, че точността отговаря на вашите нужди
- Обработете останалите си документи – След като сте уверени в резултатите, работете по изостаналите си задачи
PDFSub предлага 7-дневен безплатен пробен период, който включва достъп до инструмента за OCR и всички други PDF инструменти на платформата. Качете сканиран документ и вижте разликата, която прави търсимият текст. Можете да се откажете по всяко време.