Как сделать сканированный PDF доступным для поиска (OCR)
Сканированные PDF-файлы — это просто изображения страниц, текст из которых нельзя искать, копировать или редактировать. OCR решает эту проблему, добавляя невидимый текстовый слой. Вот как это сделать тремя разными способами.
Вы отсканировали стопку документов в PDF. На экране они выглядят нормально — четкие, читаемые, профессиональные. Но попробуйте найти слово, скопировать абзац или выделить номер телефона, и ничего не произойдет. Ваш курсор просто перетаскивает синий прямоугольник по странице, как будто вы выделяете изображение. Потому что именно это вы и делаете.
Сканированные PDF-файлы — это фотографии. Каждая страница — это одно изображение, плоская сетка пикселей, не имеющая представления о буквах, словах или предложениях. Ваш компьютер видит в сканированном PDF столько же текста, сколько и в JPEG-файле заката: нисколько.
OCR (оптическое распознавание символов) решает эту проблему. Оно анализирует изображение каждой страницы, идентифицирует символы и добавляет невидимый текстовый слой поверх исходного скана. Визуальное представление остается идентичным, но теперь вы можете искать, копировать, выделять текст и позволять программам чтения с экрана получать к нему доступ.
В этом руководстве мы расскажем, что такое OCR, как оно работает, три способа OCR для ваших сканированных PDF-файлов и как добиться наилучших результатов.

Как определить, нужен ли вашему PDF-файлу OCR
Прежде чем тратить время на OCR, проверьте, действительно ли он нужен вашему PDF-файлу. Многие PDF-файлы «созданы в цифровом виде» — созданы из документов Word, электронных таблиц Excel или веб-страниц — и уже содержат реальный текстовый слой.
5-секундный тест
- Откройте PDF-файл в любом просмотрщике (Adobe Reader, Preview, Chrome, Edge).
- Нажмите Ctrl+F (Windows/Linux) или Cmd+F (Mac).
- Введите слово, которое вы видите на странице.
- Если программа просмотра выделяет слово: ваш PDF-файл уже содержит искомый текст. OCR не нужен.
- Если ничего не найдено: ваш PDF-файл состоит только из изображений. Ему нужен OCR.
Тест выделения
Попробуйте щелкнуть и перетащить, чтобы выделить текст на странице:
- Если вы можете выделить отдельные слова, и они подсвечиваются синим: PDF-файл имеет текстовый слой.
- Если вся страница выделяется как единый блок (как при выделении изображения): PDF-файл является сканом без текстового слоя.
- Если вы можете выделить часть текста, но не другую часть: PDF-файл имеет частичный OCR или смешанное содержимое — некоторые страницы цифровые, другие отсканированы.
Распространенные типы PDF, требующие OCR
| Тип документа | Обычно требуется OCR? | Почему |
|---|---|---|
| Отсканированные бумажные документы | Да | Чистое изображение, нет текстовых данных |
| Документы, полученные по факсу и сохраненные как PDF | Да | Факсимильный вывод — растровое изображение |
| Фотографии документов (камера телефона) | Да | Снимок камерой = изображение |
| PDF-файлы из функции «сканировать в электронную почту» копировального аппарата | Да | Большинство копировальных аппаратов создают PDF-изображения |
| PDF-файлы, экспортированные из Word/Excel | Нет | Созданы в цифровом виде, текстовый слой включен |
| PDF-файлы из веб-браузеров (печать в PDF) | Нет | Текст сохранен |
| Формы, загруженные из Интернета | Обычно нет | Большинство созданы в цифровом виде |
| Квитанции, отправленные по электронной почте как вложения PDF | Обычно нет | Сгенерированы POS-системами с текстом |
Что такое OCR? Объяснение простыми словами
OCR расшифровывается как Optical Character Recognition (оптическое распознавание символов). Это технология, которая считывает текст с изображений — анализируя шаблоны пикселей для идентификации букв, цифр и символов, подобно тому, как ваши глаза читают слова на странице.
Когда вы сканируете документ, сканер создает фотографию. Эта фотография содержит пиксели — темные там, где была чернила, светлые там, где была бумага — но никаких фактических текстовых данных. Сканер не знает, что набор пикселей означает слово «Счет». Он просто записывает изображение.
OCR берет это изображение, анализирует формы, сопоставляет их с известными шаблонами символов и выводит текст, который эти формы представляют. Результатом является PDF-файл, который выглядит идентично исходному скану, но содержит невидимый текстовый слой. Когда вы нажимаете Ctrl+F и ищете «Декабрь», программа просмотра PDF проверяет текстовый слой, находит совпадение и выделяет область на изображении, где появляется это слово.
Насколько далеко продвинулся OCR
OCR существует с 1950-х годов, когда ранние системы могли работать только с определенными шрифтами в контролируемых условиях. Технология развивалась через сопоставление шаблонов (1970-80-е), извлечение признаков (1990-2000-е) и машинное обучение (2010-е). Современный OCR сочетает глубокие нейронные сети для распознавания символов с языковыми моделями, которые используют контекст для разрешения неоднозначностей — если система не уверена, является ли символ «l» или «1», окружающие слова помогают ей принять решение.
Современные движки OCR достигают более 99% точности распознавания символов на чистых, хорошо отсканированных печатных документах.
Как работает OCR: Технический процесс
OCR — это не один алгоритм. Это конвейер шагов, каждый из которых строится на предыдущем.
Шаг 1: Предварительная обработка изображения
Прежде чем произойдет распознавание символов, движок OCR очищает изображение. Это включает бинарзацию (преобразование в черно-белое для максимального контраста), выравнивание (исправление даже небольшого наклона страницы — наклон в 1-2 градуса может заметно снизить точность), удаление шума (устранение артефактов сканера и пятен) и удаление полей (удаление черных краев и теней от переплета).
Шаг 2: Анализ макета
Движок определяет структуру страницы — текстовые блоки, колонки, изображения, заголовки, нижние колонтитулы, таблицы и порядок чтения. Без этого шага двухколоночный документ может выдать перепутанный результат, который читается одновременно по обеим колонкам.
Шаг 3: Сегментация символов
Внутри каждого текстового блока выделяются отдельные символы. Строки разделяются вертикальным интервалом, слова — горизонтальными пробелами, а символы внутри слов — их границами. Это сложнее, чем кажется — символы во многих шрифтах перекрываются или соприкасаются, а в таких письменах, как арабский и деванагари, символы соединяются сложным образом.
Шаг 4: Распознавание символов
Каждое сегментированное изображение символа классифицируется с использованием глубоких нейронных сетей, обученных на миллионах размеченных изображений символов. Сеть выдает список кандидатов с ранжированием по уверенности, а не один ответ. Чистая «A» может получить 99,8% уверенности. Деградировавший символ может дать гораздо более плоское распределение.
Шаг 5: Языковое моделирование
Сырое распознавание символов подвержено ошибкам. Контекст разрешает неоднозначности. Является ли «lnvoice» словом? Нет — «l» на самом деле было «I», что делает его «Invoice». Статистические языковые модели предсказывают вероятные последовательности символов, а проверка формата применяет правила к таким шаблонам, как даты и числа.
Шаг 6: Генерация вывода
Распознанный текст сопоставляется с исходными координатами изображения и записывается в PDF в виде невидимого текстового слоя. Каждое слово точно совпадает со своим визуальным аналогом, обеспечивая функцию поиска и выделения.
Метод 1: Инструмент OCR PDFSub (Рекомендуется)

Инструмент OCR PDFSub обрабатывает сканированные PDF-файлы и добавляет поисковый текстовый слой, сохраняя при этом исходный визуальный вид каждой страницы.
Пошаговая инструкция
- Перейдите в инструмент OCR — Навигация на pdfsub.com/tools/ocr.
- Загрузите ваш сканированный PDF — Перетащите файл или нажмите, чтобы выбрать. Нет необходимости разделять большие документы — многостраничные PDF обрабатываются автоматически.
- PDFSub обрабатывает ваш документ — Инструмент анализирует каждую страницу, распознает текст и создает невидимый текстовый слой. Время обработки зависит от количества страниц и сложности, но большинство документов обрабатываются за секунды.
- Скачайте ваш поисковый PDF — Исходный файл выглядит идентично вашему оригинальному скану, но теперь поддерживает поиск текста, выделение текста и копирование/вставку.
Почему PDFSub
Поддержка 130+ языков. OCR работает с документами на английском, испанском, французском, немецком, китайском, японском, корейском, арабском, хинди, русском, португальском и более чем 120 других языках. Многоязычные документы обрабатываются автоматически — вам не нужно указывать язык заранее.
Сохранение исходного вида. Процесс OCR добавляет текстовые данные, не изменяя визуальное содержимое. Ваши отсканированные страницы выглядят точно так же. Шрифты, макеты, печати, подписи и рукописные аннотации остаются нетронутыми.
Не требуется установка ПО. Все работает в вашем браузере или на защищенных серверах. Ничего не нужно скачивать, никаких системных требований, никаких проблем с совместимостью.
Конфиденциальность. Загруженные документы обрабатываются, а затем удаляются. PDFSub не хранит ваши файлы и не использует их для обучения.
Попробуйте бесплатно. PDFSub предлагает 7-дневную бесплатную пробную версию, чтобы вы могли протестировать OCR на своих документах перед покупкой.
Метод 2: Adobe Acrobat Pro
Adobe Acrobat Pro включает встроенную функцию OCR под названием «Распознать текст» в наборе инструментов «Сканирование и OCR».
Пошаговая инструкция
- Откройте ваш сканированный PDF в Adobe Acrobat Pro.
- Перейдите в Инструменты и выберите Сканирование и OCR.
- Нажмите Распознать текст и выберите В этом файле или В нескольких файлах.
- В разделе «Настройки» выберите Поисковое изображение (добавляет невидимый текстовый слой — рекомендуется).
- Нажмите Распознать текст, чтобы начать обработку.
- Сохраните файл.
Преимущества и ограничения
Adobe обеспечивает высокую точность на чистых английских сканах, поддерживает пакетную обработку и позволяет напрямую исправлять ошибки OCR. Однако Acrobat Pro стоит 19,99 долларов США в месяц по годовому плану (239,88 долларов США в год), требует установки на рабочий стол (без OCR в браузере), поддерживает только около 20 языков и может работать медленно на документах более 50 страниц.
Метод 3: Google Drive (Бесплатно, но с потерей качества)
Google Drive включает базовую функцию OCR, которая извлекает текст из сканированных PDF-файлов — но со значительными компромиссами.
Пошаговая инструкция
- Загрузите ваш сканированный PDF в Google Drive.
- Щелкните правой кнопкой мыши по файлу и выберите Открыть с помощью, затем Google Документы.
- Google обрабатывает PDF и создает документ Google Docs с извлеченным текстом.
- Текст теперь можно искать, выделять и редактировать.
Преимущества и ограничения
OCR в Google Drive абсолютно бесплатен, обеспечивает хорошую точность на чистых печатных документах и автоматически определяет языки. Однако есть критический компромисс: он разрушает форматирование. Google не добавляет текстовый слой к вашему PDF — он извлекает текст в документ Google Docs. Таблицы становятся обычным текстом, колонки схлопываются, и исходный макет теряется. В итоге вы получаете документ Google Docs, а не поисковый PDF.
Он также лучше всего работает с документами менее 10 страниц. Более длинные документы могут быть усечены.
Лучше всего подходит для: Извлечения текстового содержимого, когда вам не нужен исходный макет. Если вам нужен поисковый PDF, сохраняющий внешний вид, используйте Метод 1 или Метод 2.
Точность OCR: чего ожидать в зависимости от типа документа
OCR — это не магия. Точность резко варьируется в зависимости от качества документа, типа содержимого и условий сканирования. Вот что показывают реальные тесты.
Печатные документы (современные шрифты): 95-99%
Современные печатные документы — счета, контракты, отчеты, напечатанные на лазерных принтерах — это наилучший сценарий. Стандартные шрифты хорошо представлены в обучающих данных OCR, а чистая печать на белой бумаге дает изображения с высоким контрастом. При 99% точности на странице объемом 250 слов (около 1500 символов) вы можете ожидать около 15 ошибок в символах — большинство из них незначительны, например, точка, ошибочно принятая за запятую, или строчная «l», перепутанная с «1».
Старые машинописные документы: 85-95%
Механические пишущие машинки представляют трудности: непоследовательное выравнивание букв, разная плотность чернил из-за износа ленты и одинаковая ширина символов, вызывающая путаницу при сегментации. Тем не менее, машинописный текст формируется индивидуально и выравнивается по горизонтали, поэтому большинство движков OCR обрабатывают его достаточно хорошо для целей поиска.
Рукописный текст: 60-80%
Рукописный текст остается самой сложной задачей для OCR. Изменчивость огромна — не только между людьми, но и в пределах почерка одного человека на одной странице. Аккуратное печатное письмо может достигать 80-85%. Курсив, написанный карандашом на линованной бумаге, может опуститься ниже 60%. Всегда вручную проверяйте критически важные данные из рукописных документов.
Смешанное содержимое (текст + таблицы): 90-97%
Документы, сочетающие текст с табличными данными, добавляют задачу анализа макета. Распознавание символов в ячейках обычно точное, но структурные ошибки — неправильно определенные границы ячеек, некорректно присвоенные колонки, разделенные на строки многострочные ячейки — искажают взаимосвязи данных и имеют большее значение, чем ошибки отдельных символов.
Таблица сводки точности
| Тип документа | Точность символов | Поисковый? | Надежность извлечения данных? |
|---|---|---|---|
| Современная печать (лазер) | 95-99% | Отлично | Да |
| Современная печать (струйная) | 93-98% | Отлично | Обычно |
| Старая машинопись | 85-95% | Хорошо | С проверкой |
| Аккуратный рукописный (печатный) | 70-80% | Частично | Нет — проверять все |
| Курсивный рукописный | 60-70% | Плохо | Нет |
| Смешанный текст + таблицы | 90-97% | Хорошо | С проверкой структуры |
| Деградированная/поврежденная бумага | 70-90% | Варьируется | С тщательной проверкой |
Лучшие практики сканирования перед OCR
Самый большой фактор точности OCR — это не программное обеспечение OCR, а качество сканирования. Отличный движок OCR, работающий с плохим сканом, даст худшие результаты, чем посредственный движок, работающий с отличным сканом.
Разрешение: минимум 300 DPI
DPI (точек на дюйм) определяет, сколько деталей захватывает сканер.
- 300 DPI: Стандарт для большинства документов. Достаточно для надежного распознавания стандартных шрифтов при нормальных размерах текста (10-12pt).
- 600 DPI: Рекомендуется для мелкого текста (сноски, мелкий шрифт) или когда требуется максимальная точность.
- 150 DPI или ниже: Не рекомендуется. Символы слишком малы для надежного распознавания. Точность значительно снижается.
- 1200 DPI: Избыточно для OCR. Нет улучшения точности, а размеры файлов становятся огромными.
Цветовой режим: обычно лучше всего оттенки серого
- Оттенки серого: Лучше всего для большинства документов. Сохраняет достаточный контраст для хорошей бинарзации, сохраняя при этом управляемые размеры файлов.
- Черно-белый: Может работать для чистых, высококонтрастных документов, но может уничтожить детали в периферийных областях.
- Цветной: Необходим только в том случае, если документ содержит информацию, помеченную цветом, которую вам нужно сохранить. Для целей OCR цвет не дает преимуществ перед оттенками серого.
Выравнивание и ориентация
- Держите страницы ровно. Даже перекос в 2-3 градуса может снизить точность OCR на 5-10%. Используйте направляющие для бумаги сканера, чтобы страницы были выровнены.
- Сканируйте односторонние страницы лицевой стороной вниз. Избегайте сквозного просвечивания с обратной стороны, создавая тени, которые сбивают с толку движок OCR.
- Используйте планшетный сканер для переплетенных документов. Сканеры с автоподатчиком могут перекашивать страницы из книг или переплетенных отчетов. Планшетное сканирование удерживает страницу ровно и правильно выровненной.
Обслуживание сканера и подготовка документа
- Очистите стекло перед сканированием партий — пятна создают артефакты на каждой странице.
- Проверьте на наличие полос, отсканировав пустую страницу — вертикальные линии указывают на грязные ролики.
- Удалите скобы и скрепки, чтобы предотвратить замятия и царапины.
- Разгладьте мятые страницы — глубокие складки создают тени, которые движок OCR может неправильно прочитать.
- Заклейте разрывы с обратной стороны — клейкая лента спереди создает блики.
После OCR: Что делать дальше
Запуск OCR — это только первый шаг. Вот как получить максимум от ваших новых поисковых документов.
Проверка результатов
Всегда выборочно проверяйте результаты OCR, особенно для критически важных документов:
- Ищите ключевые термины, которые, как вы знаете, присутствуют в документе. Если Ctrl+F находит их последовательно, OCR работает.
- Скопируйте абзац и вставьте его в текстовый редактор. Прочитайте на предмет явных ошибок — искаженных слов, отсутствующих символов, бессмысленных замен.
- Тщательно проверяйте числа. Суммы, даты, номера телефонов и номера счетов — это данные с высокими ставками. «6», ошибочно прочитанное как «8» в сумме транзакции, — это реальная проблема. Движки OCR иногда путают похожие цифры (0/O, 1/l, 5/S, 6/8).
Исправление ошибок и организация
Если вы обнаружили ошибки в критически важных документах, Adobe Acrobat Pro позволяет напрямую редактировать текстовый слой, или вы можете повторно отсканировать проблемные страницы с разрешением 600 DPI и повторно запустить OCR. Для рукописных разделов ручная транскрипция часто быстрее, чем исправление плохого OCR.
После того как PDF-файлы станут поисковыми, они интегрируются в существующие рабочие процессы. Поиск по рабочему столу (Windows Search, Spotlight на Mac) автоматически индексирует их. Системы управления документами (SharePoint, Google Drive, Dropbox) позволяют выполнять полнотекстовый поиск по вашей библиотеке. Хорошие имена файлов плюс поисковое содержимое — идеальное сочетание.
Реальные примеры использования OCR
Оцифровка бумажных архивов
Компании, юридические фирмы и государственные учреждения часто имеют десятилетия бумажных документов. Простое сканирование в PDF создает файлы изображений, которые можно искать только по имени файла. Добавление OCR превращает пассивный архив в базу данных, по которой можно выполнять запросы. Типичный рабочий процесс: сканирование в 300 DPI в оттенках серого, запуск OCR, применение соглашений об именовании и загрузка в систему управления документами.
Создание поисковых возможностей для юридических документов
Юристы имеют дело с огромными объемами документов во время раскрытия информации и комплексной проверки. Юристы противоположной стороны могут предоставить тысячи страниц отсканированных документов. Без OCR проверка означает ручное чтение каждой страницы. С помощью OCR юристы могут искать ключевые термины, имена, даты и суммы по всему набору — что делает проверку выполнимой в реалистичные сроки.
Соответствие требованиям доступности
В соответствии с Законом об американцах с ограниченными возможностями (ADA) и Разделом 508, цифровые документы от государственных учреждений и организаций, финансируемых федеральным правительством, должны быть доступными. Программы чтения с экрана не могут интерпретировать PDF-файлы, состоящие только из изображений — им нужен текстовый слой. OCR — первый шаг к соответствию. Дальнейшая работа (структура заголовков, альтернативный текст, теги порядка чтения) может последовать, но без текстового слоя доступность невозможна.
Обработка страховых и финансовых документов
Страховые компании и банки получают миллионы отсканированных форм заявлений, медицинских записей, чеков и заявок на получение кредита. OCR позволяет автоматизировать извлечение данных — получение номеров полисов, сумм претензий, дат обслуживания и деталей счета из сканированных документов в системы обработки.
Академические и исследовательские архивы
Университеты, библиотеки и архивы оцифровывают исторические документы, газеты и рукописи. OCR делает столетия знаний доступными для поиска. Такие проекты, как Google Books и Internet Archive, выполнили OCR миллиардов страниц, что позволяет выполнять полнотекстовый поиск по коллекциям, на чтение которых вручную ушли бы целые жизни.
Часто задаваемые вопросы
Могу ли я выполнять OCR для нескольких PDF-файлов одновременно (пакетная обработка)?
Да. PDFSub поддерживает обработку многостраничных документов за одну операцию. Для больших пакетных заданий — сотен или тысяч файлов — вы будете обрабатывать их последовательно через инструмент. Adobe Acrobat Pro также предлагает пакетный OCR через функцию «Мастер действий», которая может автоматически обрабатывать целые папки PDF-файлов.
Изменяет ли OCR внешний вид моего PDF-файла?
Нет. Правильный OCR добавляет невидимый текстовый слой за видимым изображением страницы. Визуальный вид вашего сканированного PDF остается неизменным — те же страницы, тот же макет, то же разрешение. Текстовый слой «видим» только для функций поиска, выделения текста, копирования/вставки и программ чтения с экрана.
Что произойдет, если я запущу OCR на PDF-файле, который уже имеет поисковый текст?
Большинство инструментов OCR обнаруживают существующие текстовые слои и либо пропускают эти страницы, либо дают вам возможность повторно их обработать. Запуск OCR на уже поисковом PDF, как правило, безвреден, но ненужен — он не улучшит существующий текстовый слой и может незначительно увеличить размер файла из-за избыточных данных.
Увеличится ли размер моего файла после OCR?
Незначительно. Ожидайте увеличения на 5-15% для типичного сканированного документа. Сам текстовый слой невелик (символы и данные о положении), и увеличение незначительно по сравнению с данными изображения, которые составляют большую часть сканированного PDF.
Может ли OCR обрабатывать PDF-файлы, состоящие из смеси сканированных и цифровых страниц?
Да. Хорошие инструменты OCR обрабатывают каждую страницу независимо. Страницы, которые уже имеют текстовый слой, обнаруживаются и могут быть пропущены. Страницы, состоящие только из изображений, обрабатываются. Результатом является полностью поисковый PDF, независимо от того, как был собран оригинал.
Какие языки поддерживает OCR?
Поддержка языков зависит от инструмента. OCR PDFSub поддерживает более 130 языков, включая латиницу (английский, испанский, французский, немецкий), CJK (китайский, японский, корейский), кириллицу (русский, украинский), арабское письмо (арабский, персидский, урду), деванагари (хинди, маратхи) и многие другие.
Может ли OCR читать рукописный текст?
Частично. Аккуратное печатное письмо достигает 70-80% точности. Курсив значительно сложнее (60-70% или ниже). Для критически важных данных из рукописных документов всегда проверяйте результаты вручную.
Является ли OCR тем же самым, что и извлечение текста из PDF?
Нет. OCR преобразует изображения текста в фактические символы — это необходимо, когда нет текстовых данных, только пиксели. Извлечение текста из PDF считывает текст, который уже существует в потоке содержимого цифрового PDF — это необходимо, когда текст заперт в формате, с которым вам неудобно работать. Если ваш PDF создан в цифровом виде, вам нужно извлечение. Если он отсканирован, вам сначала нужен OCR.
Работает ли OCR на фотографиях, сделанных камерой телефона?
Да, но точность зависит от качества фотографии. Для наилучших результатов: держите телефон параллельно документу, обеспечьте равномерное освещение (без теней), заполните кадр, держите телефон неподвижно и используйте режим сканирования документов на телефоне, если он доступен. Фотографии с телефона обычно обеспечивают 85-95% точности для чистого печатного текста — ниже, чем у планшетных сканов, но часто достаточно для поисковой способности.
Могу ли я редактировать текст после OCR?
Текстовый слой OCR невидим и расположен поверх изображения скана. Вы можете копировать текст и вставлять его в любой редактор, использовать Adobe Acrobat Pro для прямого редактирования текстового слоя или экспортировать в Word или обычный текст для редактирования. Чтобы изменить видимое содержимое сканированного документа, вам потребуется повторно отсканировать его или использовать редактор PDF для добавления аннотаций поверх изображения.
Начало работы с OCR
Если у вас есть сканированные PDF-файлы, которые должны быть поисковыми, самый быстрый путь прост:
- Протестируйте ваши PDF-файлы — Используйте тест Ctrl+F, чтобы подтвердить, что им нужен OCR.
- Попробуйте инструмент OCR PDFSub — Загрузите сканированный PDF на pdfsub.com/tools/ocr и посмотрите на результаты.
- Проверьте вывод — Выборочно проверьте несколько страниц, чтобы убедиться, что точность соответствует вашим потребностям.
- Обработайте оставшиеся документы — Как только вы будете уверены в результатах, разберитесь со своим бэклогом.
PDFSub предлагает 7-дневную бесплатную пробную версию, которая включает доступ к инструменту OCR и всем другим инструментам PDF на платформе. Загрузите сканированный документ и убедитесь в разнице, которую дает поисковый текст. Отмена в любое время.