Ви відсканували стос документів у формат PDF. На екрані вони виглядають добре — чіткі, читабельні, професійні. Але спробуйте знайти слово, скопіювати абзац або виділити номер телефону, і нічого не станеться. Ваш курсор просто перетягує синій прямокутник по сторінці, ніби ви виділяєте зображення. Тому що саме це ви і робите.

Відскановані PDF-файли — це фотографії. Кожна сторінка — це одне зображення, плоска сітка пікселів без поняття літер, слів чи речень. Ваш комп'ютер бачить у відсканованому PDF-файлі стільки ж тексту, скільки й у JPEG-файлі заходу сонця: жодного.

OCR (оптичне розпізнавання символів) вирішує цю проблему. Він аналізує зображення кожної сторінки, ідентифікує символи та додає невидимий текстовий шар поверх оригінального скану. Візуальний вигляд залишається ідентичним, але тепер ви можете шукати, копіювати, виділяти текст і дозволяти екранним дикторам отримувати до нього доступ.

Цей посібник охоплює, що таке OCR, як він працює, три методи OCR для ваших відсканованих PDF-файлів та як отримати найкращі результати.

How to OCR a scanned PDF - converting image-only pages into searchable, selectable text

Як визначити, чи потрібен вашому PDF OCR

Перш ніж витрачати час на OCR, перевірте, чи дійсно ваш PDF його потребує. Багато PDF-файлів є "цифровими за народженням" — створені з документів Word, електронних таблиць Excel або веб-сторінок — і вже містять справжній текстовий шар.

Тест за 5 секунд

Відкрийте свій PDF у будь-якому переглядачі (Adobe Reader, Preview, Chrome, Edge)
Натисніть Ctrl+F (Windows/Linux) або Cmd+F (Mac)
Введіть слово, яке ви бачите на сторінці
Якщо переглядач виділяє слово: ваш PDF вже має текст для пошуку. OCR не потрібен.
Якщо нічого не знайдено: ваш PDF містить лише зображення. Він потребує OCR.

Тест виділення

Спробуйте клацнути та перетягнути, щоб виділити текст на сторінці:

Якщо ви можете виділити окремі слова і вони виділяються синім кольором: PDF має текстовий шар.
Якщо вся сторінка виділяється як один блок (як виділення зображення): PDF є сканом без текстового шару.
Якщо ви можете виділити частину тексту, але не іншу: PDF має частковий OCR або змішаний вміст — деякі сторінки цифрові, інші відскановані.

Поширені типи PDF, які потребують OCR

Тип документа	Зазвичай потребує OCR?	Чому
Відскановані паперові документи	Так	Чисте зображення, без текстових даних
Факсимільні документи, збережені як PDF	Так	Вихідний факс — растрове зображення
Фотографії документів (камера телефону)	Так	Знімок камери = зображення
PDF з копіювального апарату "сканувати в електронну пошту"	Так	Більшість копіювальних апаратів створюють PDF-зображення
PDF, експортовані з Word/Excel	Ні	Цифрові за народженням, текстовий шар включено
PDF з веб-браузерів (друк у PDF)	Ні	Текст збережено
Урядові форми, завантажені онлайн	Зазвичай ні	Більшість цифрових за народженням
Квитанції, надіслані електронною поштою як вкладення PDF	Зазвичай ні	Згенеровано POS-системами з текстом

Що таке OCR? Пояснення простою мовою

OCR розшифровується як Optical Character Recognition (оптичне розпізнавання символів). Це технологія, яка читає текст із зображень — аналізуючи патерни пікселів для ідентифікації літер, цифр і символів, подібно до того, як ваші очі читають слова на сторінці.

Коли ви скануєте документ, сканер створює фотографію. Ця фотографія містить пікселі — темні там, де був чорнило, світлі там, де був папір — але жодних фактичних текстових даних. Сканер не знає, що розташування пікселів означає "Рахунок". Він просто записує зображення.

OCR бере це зображення, аналізує форми, зіставляє їх із відомими шаблонами символів і виводить текст, який ці форми представляють. Результатом є PDF-файл, який виглядає ідентично до оригінального скану, але містить невидимий текстовий шар. Коли ви натискаєте Ctrl+F і шукаєте "Грудень", переглядач PDF перевіряє текстовий шар, знаходить збіг і виділяє область на зображенні, де з'являється це слово.

Наскільки далеко зайшов OCR

OCR датується 1950-ми роками, коли ранні системи могли обробляти лише певні шрифти в контрольованих умовах. Технологія розвивалася через зіставлення шаблонів (1970-80-ті), вилучення ознак (1990-2000-ті) та машинне навчання (2010-ті). Сучасний OCR поєднує глибокі нейронні мережі для розпізнавання символів з мовними моделями, які використовують контекст для вирішення неоднозначностей — якщо система не впевнена, чи є символ "l" чи "1", навколишні слова допомагають їй визначитися.

Сучасні OCR-системи досягають понад 99% точності розпізнавання символів на чистих, добре відсканованих друкованих документах.

Як працює OCR: Технічний процес

OCR — це не один алгоритм. Це конвеєр кроків, кожен з яких спирається на попередній.

Крок 1: Попередня обробка зображення

Перш ніж відбудеться розпізнавання символів, OCR-система очищає зображення. Це включає бінаризацію (перетворення на чорно-біле для максимального контрасту), вирівнювання (виправлення навіть незначного нахилу сторінки — нахил у 1-2 градуси може помітно знизити точність), видалення шуму (усунення артефактів сканера та плям) та видалення меж (усунення чорних країв та тіней від зшивання).

Крок 2: Аналіз макета

Система ідентифікує структуру сторінки — текстові блоки, колонки, зображення, заголовки, нижні колонтитули, таблиці та порядок читання. Без цього кроку двоколонний документ може дати плутаний вивід, який читається одночасно через обидві колонки.

Крок 3: Сегментація символів

У межах кожного текстового блоку ізолюються окремі символи. Рядки розділяються вертикальним пробілом, слова — горизонтальними пробілами, а символи в словах — їхніми межами. Це складніше, ніж здається — символи в багатьох шрифтах перекриваються або торкаються, а в таких скриптах, як арабська та деванагарі, символи з'єднуються складними способами.

Крок 4: Розпізнавання символів

Кожне сегментоване зображення символу класифікується за допомогою глибоких нейронних мереж, навчених на мільйонах маркованих зображень символів. Мережа видає список кандидатів з ранжуванням за впевненістю, а не одну відповідь. Чистий "A" може отримати 99,8% впевненості. Деградований символ може дати набагато більш рівномірний розподіл.

Крок 5: Моделювання мови

Сире розпізнавання символів схильне до помилок. Контекст вирішує неоднозначності. "lnvoice" — це слово? Ні — "l" насправді було "I", що робить його "Invoice". Статистичні мовні моделі прогнозують ймовірні послідовності символів, а валідація формату застосовує правила до таких шаблонів, як дати та числа.

Крок 6: Генерація виводу

Розпізнаний текст зіставляється з оригінальними координатами зображення та записується в PDF як невидимий текстовий шар. Кожне слово точно вирівнюється зі своїм візуальним аналогом, забезпечуючи функціональність пошуку та виділення.

Метод 1: Інструмент OCR PDFSub (Рекомендовано)

How OCR converts a scanned PDF to searchable text - Upload Scan, OCR Analysis, Extract Text, Searchable PDF

Інструмент OCR від PDFSub обробляє відскановані PDF-файли та додає текстовий шар для пошуку, зберігаючи при цьому оригінальний візуальний вигляд кожної сторінки.

Покрокова інструкція

Перейдіть до інструменту OCR — перейдіть на pdfsub.com/tools/ocr
Завантажте свій відсканований PDF — перетягніть файл або натисніть, щоб вибрати. Немає потреби розділяти великі документи — багатосторінкові PDF-файли обробляються автоматично.
OCR обробляє ваш документ — інструмент аналізує кожну сторінку, розпізнає текст і створює невидимий текстовий шар. Час обробки залежить від кількості сторінок та складності, але більшість документів завершуються за секунди.
Завантажте свій PDF для пошуку — вихідний файл виглядає ідентично до вашого оригінального скану, але тепер підтримує пошук тексту, виділення тексту та копіювання-вставку.

Чому PDFSub

Підтримка 130+ мов. OCR працює з документами англійською, іспанською, французькою, німецькою, китайською, японською, корейською, арабською, хінді, російською, португальською та понад 120 іншими мовами. Багатомовні документи обробляються автоматично — вам не потрібно вказувати мову заздалегідь.

Збереження оригінального вигляду. Процес OCR додає текстові дані, не змінюючи візуальний вміст. Ваші відскановані сторінки виглядають так само. Шрифти, макети, штампи, підписи та рукописні анотації залишаються недоторканими.

Немає програмного забезпечення для встановлення. Все працює у вашому браузері або на захищених серверах. Немає нічого для завантаження, жодних системних вимог для перевірки та жодних проблем із сумісністю.

Дизайн, орієнтований на конфіденційність. Завантажені документи обробляються, а потім видаляються. PDFSub не зберігає ваші файли та не використовує їх для навчання.

Спробуйте безкоштовно. PDFSub пропонує 7-денну безкоштовну пробну версію, щоб ви могли протестувати OCR на власних документах перед покупкою.

Метод 2: Adobe Acrobat Pro

Adobe Acrobat Pro включає вбудовану функцію OCR під назвою "Розпізнати текст" у наборі інструментів Scan & OCR.

Покрокова інструкція

Відкрийте свій відсканований PDF в Adobe Acrobat Pro
Перейдіть до Інструменти та виберіть Сканувати та OCR
Натисніть Розпізнати текст і виберіть У цьому файлі або У кількох файлах
У розділі Налаштування виберіть Пошуковий образ (додає невидимий текстовий шар — рекомендовано)
Натисніть Розпізнати текст, щоб розпочати обробку
Збережіть файл

Сильні сторони та обмеження

Adobe забезпечує високу точність на чистих англійських сканах, підтримує пакетну обробку та дозволяє виправляти помилки OCR безпосередньо. Однак Acrobat Pro коштує 19,99 доларів США на місяць за річним планом (239,88 доларів США на рік), вимагає встановлення на робочий стіл (немає OCR на основі браузера), підтримує лише близько 20 мов і може бути повільним для документів понад 50 сторінок.

Метод 3: Google Drive (Безкоштовно, але зі втратою якості)

Google Drive включає базову функцію OCR, яка витягує текст із відсканованих PDF-файлів — але зі значним компромісом.

Покрокова інструкція

Завантажте свій відсканований PDF до Google Drive
Клацніть правою кнопкою миші на файлі та виберіть Відкрити за допомогою, а потім Google Документи
Google обробляє PDF і створює Google Документ із витягнутим текстом
Текст тепер доступний для пошуку, виділення та редагування

Сильні сторони та обмеження

OCR Google Drive є абсолютно безкоштовним, забезпечує хорошу точність на чистих друкованих документах і автоматично визначає мови. Однак є критичний компроміс: він руйнує форматування. Google не додає текстовий шар до вашого PDF — він витягує текст у Google Документ. Таблиці стають звичайним текстом, колонки згортаються, а оригінальний макет втрачається. Ви отримуєте Google Документ, а не PDF для пошуку.

Він також найкраще працює з документами до 10 сторінок. Довші документи можуть бути обрізані.

Найкраще підходить для: Вилучення текстового вмісту, коли вам не потрібен оригінальний макет. Якщо вам потрібен PDF для пошуку, який зберігає зовнішній вигляд, використовуйте Метод 1 або Метод 2.

Точність OCR: Чого очікувати за типом документа

OCR — це не магія. Точність різко варіюється залежно від якості документа, типу вмісту та умов сканування. Ось що показують реальні тести.

Друковані документи (сучасні шрифти): 95-99%

Сучасні друковані документи — рахунки-фактури, контракти, звіти, надруковані на лазерних принтерах — це найкращий сценарій. Стандартні шрифти добре представлені в навчальних даних OCR, а чистий друк на білому папері створює зображення з високим контрастом. При 99% точності на сторінці з 250 словами (близько 1500 символів) ви можете очікувати близько 15 помилок символів — більшість незначних, як-от крапка, помилково прочитана як кома, або маленька літера "l", сплутана з "1".

Старі друковані документи: 85-95%

Механічні друкарські машинки створюють проблеми: нерівномірне вирівнювання літер, змінна щільність чорнила через знос стрічки та однакова ширина символів, що викликає плутанину при сегментації. Проте, друкований текст формується індивідуально та вирівнюється горизонтально, тому більшість OCR-систем обробляють його достатньо добре для пошуку.

Рукописний текст: 60-80%

Рукописний текст залишається найскладнішим викликом для OCR. Варіативність величезна — не тільки між людьми, але й у межах письма однієї людини на одній сторінці. Акуратний друкований шрифт може досягти 80-85%. Курсив, написаний олівцем на папері в лінію, може впасти нижче 60%. Завжди перевіряйте критичні дані з рукописних документів вручну.

Змішаний вміст (текст + таблиці): 90-97%

Документи, що поєднують текст із табличними даними, додають виклик аналізу макета. Розпізнавання символів у комірках зазвичай точне, але структурні помилки — неправильно визначені межі комірок, неправильно призначені колонки, багаторядкові комірки, розділені на рядки — спотворюють зв'язки даних і мають більше значення, ніж окремі помилки символів.

Таблиця підсумку точності

Тип документа	Точність символів	Доступний для пошуку?	Надійність вилучення даних?
Сучасний друкований (лазерний)	95-99%	Відмінно	Так
Сучасний друкований (струменевий)	93-98%	Відмінно	Зазвичай
Старий друкований	85-95%	Добре	З перевіркою
Чистий рукописний (друкований)	70-80%	Частково	Ні — перевіряйте все
Курсивний рукописний	60-70%	Погано	Ні
Змішаний текст + таблиці	90-97%	Добре	З переглядом структури
Деградований/пошкоджений папір	70-90%	Варіюється	З ретельною перевіркою

Найкращі практики сканування перед OCR

Найважливіший фактор точності OCR — це не програмне забезпечення OCR, а якість сканування. Чудова OCR-система, що працює з поганим сканом, дасть гірші результати, ніж посередня система, що працює з чудовим сканом.

Роздільна здатність: мінімум 300 DPI

DPI (точок на дюйм) визначає, скільки деталей захоплює сканер.

300 DPI: Стандарт для більшості документів. Достатньо для надійного розпізнавання стандартних шрифтів при нормальних розмірах тексту (10-12pt).
600 DPI: Рекомендовано для дрібного тексту (примітки, дрібний шрифт) або коли потрібна максимальна точність.
150 DPI або нижче: Не рекомендується. Символи занадто малі для надійного розпізнавання. Точність значно знижується.
1200 DPI: Надлишково для OCR. Покращення точності немає, а розміри файлів стають величезними.

Кольоровий режим: зазвичай найкраще — відтінки сірого

Відтінки сірого: Найкраще для більшості документів. Зберігає достатній контраст для хорошої бінаризації, зберігаючи при цьому керовані розміри файлів.
Чорно-білий: Може працювати для чистих документів з високим контрастом, але може знищити деталі в маргінальних областях.
Кольоровий: Необхідний лише в тому випадку, якщо документ містить кольорову інформацію, яку потрібно зберегти. Для цілей OCR колір не дає переваг перед відтінками сірого.

Вирівнювання та орієнтація

Тримайте сторінки прямо. Навіть нахил у 2-3 градуси може знизити точність OCR на 5-10%. Використовуйте напрямні для паперу сканера, щоб тримати сторінки вирівняними.
Скануйте односторонні сторінки обличчям вниз. Уникайте пробивання зворотної сторони, що створює тіньовий текст, який плутає OCR-систему.
Використовуйте планшетний сканер для зв'язаних документів. Сканери з автоподавачем можуть перекошувати сторінки з книг або зв'язаних звітів. Планшетне сканування тримає сторінку плоскою та правильно вирівняною.

Обслуговування сканера та підготовка документа

Очистіть скло перед скануванням партій — плями створюють артефакти на кожній сторінці
Перевірте на наявність смуг, скануючи порожню сторінку — вертикальні лінії вказують на брудні ролики
Видаліть скоби та скріпки, щоб запобігти застряганню та подряпинам
Розгладьте зім'яті сторінки — глибокі складки створюють тіні, які OCR-система може неправильно прочитати
Відремонтуйте розриви скотчем з виворітного боку — скотч спереду створює відблиски

Після OCR: Що робити далі

Запуск OCR — це лише перший крок. Ось як отримати максимум від ваших нових документів для пошуку.

Перевірка результатів

Завжди вибірково перевіряйте вивід OCR, особливо для критичних документів:

Шукайте ключові терміни, які, як ви знаєте, з'являються в документі. Якщо Ctrl+F знаходить їх послідовно, OCR працює.
Скопіюйте абзац і вставте його в текстовий редактор. Прочитайте його на наявність очевидних помилок — спотворених слів, відсутніх символів, безглуздих замін.
Ретельно перевіряйте цифри. Фінансові суми, дати, номери телефонів та облікові записи — це дані з високими ставками. "6", помилково прочитана як "8" у сумі транзакції, є реальною проблемою. OCR-системи іноді плутають схожі цифри (0/O, 1/l, 5/S, 6/8).

Виправлення помилок та організація

Якщо ви знайдете помилки в критичних документах, Adobe Acrobat Pro дозволяє безпосередньо редагувати текстовий шар, або ви можете повторно сканувати проблемні сторінки з роздільною здатністю 600 DPI та повторно запустити OCR. Для рукописних розділів ручне транскрибування часто швидше, ніж виправлення поганого OCR.

Після того, як ваші PDF-файли стануть доступними для пошуку, вони інтегруються в існуючі робочі процеси. Настільний пошук (Windows Search, Spotlight на Mac) автоматично індексує їх. Системи керування документами (SharePoint, Google Drive, Dropbox) дозволяють повнотекстовий пошук по вашій бібліотеці. Хороші імена файлів плюс вміст для пошуку — це ідеальна комбінація.

Реальні сценарії використання OCR

Цифровізація паперових архівів

Бізнеси, юридичні фірми та державні установи часто мають десятиліття паперових документів. Просте сканування в PDF створює файли зображень, доступні для пошуку лише за іменем файлу. Додавання OCR перетворює пасивний архів на базу даних, яку можна запитувати. Типовий робочий процес: сканування в режимі 300 DPI відтінками сірого, запуск OCR, застосування правил іменування та завантаження в систему керування документами.

Зробити юридичні документи доступними для пошуку

Юристи мають справу з величезними обсягами документів під час розкриття доказів та належної перевірки. Сторонні адвокати можуть надати тисячі сторінок відсканованих документів. Без OCR перегляд означає ручне читання кожної сторінки. За допомогою OCR адвокати можуть шукати ключові терміни, імена, дати та суми по всьому набору — роблячи перегляд можливим у реалістичні терміни.

Відповідність вимогам доступності

Відповідно до Закону про американців з обмеженими можливостями (ADA) та Розділу 508, цифрові документи від державних установ та організацій, що фінансуються федеральним бюджетом, повинні бути доступними. Екранні диктори не можуть інтерпретувати PDF-файли, що містять лише зображення — їм потрібен текстовий шар. OCR є першим кроком до відповідності. Може знадобитися додаткова робота (структура заголовків, альтернативний текст, теги порядку читання), але без текстового шару доступність неможлива.

Обробка страхування та фінансів

Страхові компанії та банки отримують мільйони відсканованих форм претензій, медичних записів, чеків та заяв на позику. OCR дозволяє автоматично вилучати дані — витягувати номери полісів, суми претензій, дати послуг та деталі облікового запису з відсканованих документів у системи обробки.

Академічні та дослідницькі архіви

Університети, бібліотеки та архіви оцифровують історичні документи, газети та рукописи. OCR робить століття знань доступними для пошуку. Такі проєкти, як Google Books та Internet Archive, провели OCR мільярдів сторінок, дозволяючи повнотекстовий пошук по колекціях, які зайняли б ціле життя для ручного читання.

Поширені запитання

Чи можу я обробляти кілька PDF-файлів одночасно (пакетна обробка)?

Так. PDFSub підтримує обробку багатосторінкових документів за одну операцію. Для великих пакетних завдань — сотень або тисяч файлів — ви б обробляли їх послідовно через інструмент. Adobe Acrobat Pro також пропонує пакетний OCR через функцію Action Wizard, яка може автоматично обробляти цілі папки PDF-файлів.

Чи змінює OCR зовнішній вигляд мого PDF?

Ні. Правильний OCR додає невидимий текстовий шар за видимим зображенням сторінки. Візуальний вигляд вашого відсканованого PDF не змінюється — ті ж сторінки, той самий макет, та сама роздільна здатність. Текстовий шар "видимий" лише для функцій пошуку, виділення тексту, копіювання-вставки та екранних дикторів.

Що станеться, якщо я запущу OCR на PDF, який вже має текст для пошуку?

Більшість OCR-інструментів виявляють існуючі текстові шари і або пропускають ці сторінки, або дають вам можливість повторно їх обробити. Запуск OCR на вже доступному для пошуку PDF, як правило, нешкідливий, але непотрібний — він не покращить існуючий текстовий шар і може трохи збільшити розмір файлу через надлишкові дані.

Чи збільшиться розмір мого файлу після OCR?

Незначно. Очікуйте збільшення на 5-15% для типового відсканованого документа. Сам текстовий шар невеликий (символи та дані позиціонування), і збільшення незначне порівняно з даними зображення, які складають більшу частину відсканованого PDF.

Чи може OCR обробляти PDF, які є сумішшю відсканованих та цифрових сторінок?

Так. Хороші OCR-інструменти обробляють кожну сторінку незалежно. Сторінки, які вже мають текстовий шар, виявляються і можуть бути пропущені. Сторінки, що містять лише зображення, обробляються. Результатом є повністю доступний для пошуку PDF, незалежно від того, як був зібраний оригінал.

Які мови підтримує OCR?

Підтримка мов залежить від інструменту. OCR PDFSub підтримує понад 130 мов, включаючи латинські (англійська, іспанська, французька, німецька), CJK (китайська, японська, корейська), кирилицю (російська, українська), арабське письмо (арабська, перська, урду), деванагарі (хінді, маратхі) та багато інших.

Чи може OCR читати рукописний текст?

Частково. Акуратний друкований шрифт досягає 70-80% точності. Курсив значно складніший (60-70% або нижче). Для критичних даних з рукописних документів завжди перевіряйте результати вручну.

Чи OCR — це те саме, що й вилучення тексту з PDF?

Ні. OCR перетворює зображення тексту на фактичні символи — це потрібно, коли немає текстових даних, лише пікселі. Вилучення тексту з PDF читає текст, який вже існує в потоці вмісту цифрового PDF — це потрібно, коли текст застряг у форматі, з яким вам важко працювати. Якщо ваш PDF цифровий за народженням, вам потрібне вилучення. Якщо він відсканований, вам спочатку потрібен OCR.

Чи OCR працює з фотографіями, зробленими камерою телефону?

Так, але точність залежить від якості фотографії. Для найкращих результатів: тримайте телефон паралельно до документа, забезпечте рівномірне освітлення (без тіней), заповніть кадр, тримайте нерухомо та використовуйте режим сканування документів на телефоні, якщо він доступний. Фотографії з телефону зазвичай дають 85-95% точності для чистого друкованого тексту — нижче, ніж сканування на планшеті, але часто достатньо для пошуку.

Чи можу я редагувати текст після OCR?

Текстовий шар OCR невидимий і розташований над зображенням скану. Ви можете копіювати текст і вставляти його в будь-який редактор, використовувати Adobe Acrobat Pro для безпосереднього редагування текстового шару або експортувати у Word або звичайний текст для редагування. Щоб змінити видимий вміст відсканованого документа, вам потрібно буде повторно сканувати або використовувати PDF-редактор для додавання анотацій поверх зображення.

Початок роботи з OCR

Якщо у вас є відскановані PDF-файли, які потребують пошуку, найшвидший шлях простий:

Тестуйте свої PDF-файли — використовуйте тест Ctrl+F, щоб підтвердити, що їм потрібен OCR
Спробуйте інструмент OCR PDFSub — завантажте відсканований PDF на pdfsub.com/tools/ocr та перегляньте результати
Перевірте вивід — вибірково перевірте кілька сторінок, щоб підтвердити, що точність відповідає вашим потребам
Обробіть решту документів — коли ви будете впевнені в результатах, працюйте над своїм беклогом

PDFSub пропонує 7-денну безкоштовну пробну версію, яка включає доступ до інструменту OCR та всіх інших інструментів PDF на платформі. Завантажте відсканований документ і побачте різницю, яку робить текст для пошуку. Скасуйте будь-коли.

How to OCR a scanned PDF - converting image-only pages into searchable, selectable text

Як визначити, чи потрібен вашому PDF OCR

Тест за 5 секунд

Відкрийте свій PDF у будь-якому переглядачі (Adobe Reader, Preview, Chrome, Edge)
Натисніть Ctrl+F (Windows/Linux) або Cmd+F (Mac)
Введіть слово, яке ви бачите на сторінці
Якщо переглядач виділяє слово: ваш PDF вже має текст для пошуку. OCR не потрібен.
Якщо нічого не знайдено: ваш PDF містить лише зображення. Він потребує OCR.

Тест виділення

Спробуйте клацнути та перетягнути, щоб виділити текст на сторінці:

Якщо ви можете виділити окремі слова і вони виділяються синім кольором: PDF має текстовий шар.
Якщо вся сторінка виділяється як один блок (як виділення зображення): PDF є сканом без текстового шару.
Якщо ви можете виділити частину тексту, але не іншу: PDF має частковий OCR або змішаний вміст — деякі сторінки цифрові, інші відскановані.

Поширені типи PDF, які потребують OCR

Тип документа	Зазвичай потребує OCR?	Чому
Відскановані паперові документи	Так	Чисте зображення, без текстових даних
Факсимільні документи, збережені як PDF	Так	Вихідний факс — растрове зображення
Фотографії документів (камера телефону)	Так	Знімок камери = зображення
PDF з копіювального апарату "сканувати в електронну пошту"	Так	Більшість копіювальних апаратів створюють PDF-зображення
PDF, експортовані з Word/Excel	Ні	Цифрові за народженням, текстовий шар включено
PDF з веб-браузерів (друк у PDF)	Ні	Текст збережено
Урядові форми, завантажені онлайн	Зазвичай ні	Більшість цифрових за народженням
Квитанції, надіслані електронною поштою як вкладення PDF	Зазвичай ні	Згенеровано POS-системами з текстом

Що таке OCR? Пояснення простою мовою

Наскільки далеко зайшов OCR

Як працює OCR: Технічний процес

OCR — це не один алгоритм. Це конвеєр кроків, кожен з яких спирається на попередній.

Крок 1: Попередня обробка зображення

Крок 2: Аналіз макета

Крок 3: Сегментація символів

Крок 4: Розпізнавання символів

Крок 5: Моделювання мови

Крок 6: Генерація виводу

Метод 1: Інструмент OCR PDFSub (Рекомендовано)

How OCR converts a scanned PDF to searchable text - Upload Scan, OCR Analysis, Extract Text, Searchable PDF

Покрокова інструкція

Перейдіть до інструменту OCR — перейдіть на pdfsub.com/tools/ocr
Завантажте свій відсканований PDF — перетягніть файл або натисніть, щоб вибрати. Немає потреби розділяти великі документи — багатосторінкові PDF-файли обробляються автоматично.
OCR обробляє ваш документ — інструмент аналізує кожну сторінку, розпізнає текст і створює невидимий текстовий шар. Час обробки залежить від кількості сторінок та складності, але більшість документів завершуються за секунди.
Завантажте свій PDF для пошуку — вихідний файл виглядає ідентично до вашого оригінального скану, але тепер підтримує пошук тексту, виділення тексту та копіювання-вставку.

Відкрийте свій відсканований PDF в Adobe Acrobat Pro
Перейдіть до Інструменти та виберіть Сканувати та OCR
Натисніть Розпізнати текст і виберіть У цьому файлі або У кількох файлах
У розділі Налаштування виберіть Пошуковий образ (додає невидимий текстовий шар — рекомендовано)
Натисніть Розпізнати текст, щоб розпочати обробку
Збережіть файл

Завантажте свій відсканований PDF до Google Drive
Клацніть правою кнопкою миші на файлі та виберіть Відкрити за допомогою, а потім Google Документи
Google обробляє PDF і створює Google Документ із витягнутим текстом
Текст тепер доступний для пошуку, виділення та редагування

Тип документа	Точність символів	Доступний для пошуку?	Надійність вилучення даних?
Сучасний друкований (лазерний)	95-99%	Відмінно	Так
Сучасний друкований (струменевий)	93-98%	Відмінно	Зазвичай
Старий друкований	85-95%	Добре	З перевіркою
Чистий рукописний (друкований)	70-80%	Частково	Ні — перевіряйте все
Курсивний рукописний	60-70%	Погано	Ні
Змішаний текст + таблиці	90-97%	Добре	З переглядом структури
Деградований/пошкоджений папір	70-90%	Варіюється	З ретельною перевіркою

Найкращі практики сканування перед OCR

Роздільна здатність: мінімум 300 DPI

DPI (точок на дюйм) визначає, скільки деталей захоплює сканер.

300 DPI: Стандарт для більшості документів. Достатньо для надійного розпізнавання стандартних шрифтів при нормальних розмірах тексту (10-12pt).
600 DPI: Рекомендовано для дрібного тексту (примітки, дрібний шрифт) або коли потрібна максимальна точність.
150 DPI або нижче: Не рекомендується. Символи занадто малі для надійного розпізнавання. Точність значно знижується.
1200 DPI: Надлишково для OCR. Покращення точності немає, а розміри файлів стають величезними.

Кольоровий режим: зазвичай найкраще — відтінки сірого

Відтінки сірого: Найкраще для більшості документів. Зберігає достатній контраст для хорошої бінаризації, зберігаючи при цьому керовані розміри файлів.
Чорно-білий: Може працювати для чистих документів з високим контрастом, але може знищити деталі в маргінальних областях.
Кольоровий: Необхідний лише в тому випадку, якщо документ містить кольорову інформацію, яку потрібно зберегти. Для цілей OCR колір не дає переваг перед відтінками сірого.

Вирівнювання та орієнтація

Тримайте сторінки прямо. Навіть нахил у 2-3 градуси може знизити точність OCR на 5-10%. Використовуйте напрямні для паперу сканера, щоб тримати сторінки вирівняними.
Скануйте односторонні сторінки обличчям вниз. Уникайте пробивання зворотної сторони, що створює тіньовий текст, який плутає OCR-систему.
Використовуйте планшетний сканер для зв'язаних документів. Сканери з автоподавачем можуть перекошувати сторінки з книг або зв'язаних звітів. Планшетне сканування тримає сторінку плоскою та правильно вирівняною.

Обслуговування сканера та підготовка документа

Очистіть скло перед скануванням партій — плями створюють артефакти на кожній сторінці
Перевірте на наявність смуг, скануючи порожню сторінку — вертикальні лінії вказують на брудні ролики
Видаліть скоби та скріпки, щоб запобігти застряганню та подряпинам
Розгладьте зім'яті сторінки — глибокі складки створюють тіні, які OCR-система може неправильно прочитати
Відремонтуйте розриви скотчем з виворітного боку — скотч спереду створює відблиски

Після OCR: Що робити далі

Запуск OCR — це лише перший крок. Ось як отримати максимум від ваших нових документів для пошуку.

Перевірка результатів

Завжди вибірково перевіряйте вивід OCR, особливо для критичних документів:

Шукайте ключові терміни, які, як ви знаєте, з'являються в документі. Якщо Ctrl+F знаходить їх послідовно, OCR працює.
Скопіюйте абзац і вставте його в текстовий редактор. Прочитайте його на наявність очевидних помилок — спотворених слів, відсутніх символів, безглуздих замін.
Ретельно перевіряйте цифри. Фінансові суми, дати, номери телефонів та облікові записи — це дані з високими ставками. "6", помилково прочитана як "8" у сумі транзакції, є реальною проблемою. OCR-системи іноді плутають схожі цифри (0/O, 1/l, 5/S, 6/8).

Тестуйте свої PDF-файли — використовуйте тест Ctrl+F, щоб підтвердити, що їм потрібен OCR
Спробуйте інструмент OCR PDFSub — завантажте відсканований PDF на pdfsub.com/tools/ocr та перегляньте результати
Перевірте вивід — вибірково перевірте кілька сторінок, щоб підтвердити, що точність відповідає вашим потребам
Обробіть решту документів — коли ви будете впевнені в результатах, працюйте над своїм беклогом