Как извлечь таблицы из PDF в Excel: сравнение 5 методов
PDF-файлы хранят таблицы как разрозненные фрагменты текста по x,y координатам — без строк, столбцов или ячеек. Вот как фактически перенести эти данные в электронную таблицу: от бесплатных онлайн-инструментов до скриптов на Python.

У вас есть PDF-файл с таблицей, которая вам нужна в Excel. Возможно, это финансовый отчет, выписка из банка, счет-фактура или научная статья. Данные находятся прямо там — аккуратно организованы в строки и столбцы на экране. Но когда вы пытаетесь их извлечь, все рушится.
Это происходит потому, что PDF — это не формат данных. Это формат отображения. В спецификации PDF нет понятия «таблица», «строка» или «столбец». То, что выглядит как структурированная таблица, на самом деле представляет собой десятки фрагментов текста, размещенных в определенных x,y координатах на холсте. Извлечение этой структуры обратно в электронную таблицу — это проблема обратного инжиниринга, и разные инструменты решают ее с разной степенью успеха.
В этом руководстве рассматриваются 5 методов извлечения таблиц из PDF, когда каждый из них работает лучше всего и что делать, когда что-то идет не так.
Почему извлечение таблиц из PDF — это сложно

В формате PDF нет таблиц
Спецификация PDF (ISO 32000-2:2020) определяет поток содержимого — последовательность операторов, которые позиционируют отдельные символы в точных координатах. Простая строка таблицы, такая как «Дата | Описание | Сумма», может быть сохранена как:
BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Office Supplies) Tj 180 0 Td (125.00) Tj ETНет тегов <table>, <tr> или <td>. Нет идентификаторов строк. Нет границ столбцов. Визуальные линии, которые вы видите вокруг ячеек, — это отдельные операции рисования, полностью отключенные от текста. Инструмент извлечения должен вывести всю структуру из пространственных отношений.
Три типа границ таблиц
Таблицы с границами (сеткой) имеют видимые линии вокруг каждой ячейки. Их легче всего извлечь, поскольку линии явно определяют границы ячеек. Часто встречаются в официальных финансовых отчетах, государственных формах и стандартизированных отчетах.
Таблицы без границ (потоковые) не имеют линий вообще. Структура определяется исключительно выравниванием пробелов — текстовые элементы, имеющие одинаковые x-координаты в строках, образуют подразумеваемые столбцы. Часто встречаются в научных статьях, счетах-фактурах и каталогах продукции.
Полуграничные таблицы имеют только частичные границы — обычно горизонтальные линии между разделами, но без вертикальных разделителей. Чрезвычайно распространены в банковских выписках, отчетах брокеров и счетах за коммунальные услуги. Их сложнее всего извлечь, поскольку частичные границы вводят в заблуждение парсеры в режиме сетки, а отсутствие границ снижает уверенность парсеров в режиме потока.
Тегированные и нетегированные PDF
Тегированные PDF включают структурные метаданные, которые идентифицируют заголовки, абзацы и ячейки таблицы. В нетегированных PDF этого нет — инструмент извлечения получает только необработанные координаты. Подавляющее большинство PDF-файлов нетегированы, включая практически все банковские выписки, счета-фактуры и финансовые отчеты.
Метод 1: PDFSub Extract Tables (Бесплатно + AI-резерв)
Инструмент Extract Tables от PDFSub использует трехступенчатый подход, который максимизирует точность при минимизации затрат:
Ступень 1: Определение на основе координат (в браузере, бесплатно)
Инструмент сначала пытается извлечь данные полностью в вашем браузере:
- Анализирует поток содержимого PDF для извлечения каждого текстового элемента с его x,y координатами
- Группирует текстовые элементы в строки на основе близости y-координат
- Анализирует закономерности выравнивания x-координат между строками для определения границ столбцов
- Требуется минимум 3 строки, 2 столбца и 70%+ уверенности
Если найдены хорошие таблицы, вы сразу получаете структурированные данные — без загрузки на сервер, без расхода кредитов AI и ваш файл никогда не покидает ваше устройство.
Ступень 2: Извлечение на стороне сервера (pdfplumber, бесплатно)
Если определение на основе координат не находит таблиц, инструмент использует pdfplumber (лицензия MIT) на сервере. Он определяет как явные линии (нарисованные границы), так и подразумеваемые линии (шаблоны выравнивания слов), находит пересечения, идентифицирует прямоугольники и сопоставляет текст с ячейками.
Ступень 3: Извлечение с помощью AI (использует кредиты)
Для отсканированных PDF, сложных макетов или таблиц, которые не могут быть разобраны методами на основе правил, инструмент использует извлечение с помощью AI-технологий компьютерного зрения. Вы также можете включить опцию «Принудительное извлечение AI», чтобы перейти непосредственно к этой ступени, когда вы знаете, что таблица сложная.
Форматы вывода: Excel (.xlsx), CSV, JSON.
Лучше всего подходит для: Быстрого извлечения без установки программного обеспечения. Цифровые PDF обрабатываются полностью в вашем браузере для максимальной конфиденциальности.
Метод 2: Power Query в Excel (Только Windows)
Доступно в Excel 2019+ и Microsoft 365 на Windows: Данные → Получить данные → Из файла → Из PDF.
Как это работает
- Нажмите Данные → Получить данные → Из файла → Из PDF
- Выберите ваш PDF-файл
- Power Query отобразит панель навигатора со списком обнаруженных таблиц на каждой странице
- Выберите нужные таблицы, нажмите Преобразовать данные для очистки, затем Загрузить
Преимущества
- Встроен в Excel — никаких дополнительных затрат для подписчиков Microsoft 365
- Движок преобразования Power Query хорошо справляется с постобработкой (заполнение вниз, сводные таблицы, объединение столбцов)
- Может обновлять данные, если исходный PDF обновлен
- Поддерживает подключение нескольких таблиц из одного PDF
Ограничения
- Только для Windows — недоступно в Excel для Mac, Excel Online или мобильных устройствах
- С трудом справляется с таблицами без границ — лучше всего работает с таблицами с четкими границами
- Нет OCR — не может извлекать данные из отсканированных PDF/PDF с изображениями
- Многостраничные таблицы проблематичны — каждая страница часто импортируется как отдельная таблица, требующая ручного объединения
- Многострочные ячейки — перенесенный текст внутри ячеек часто разбивается на несколько строк, требуя очистки
Лучше всего подходит для: Пользователей Windows с Microsoft 365, у которых есть простые таблицы с границами.
Метод 3: Adobe Acrobat (Платно)
Файл → Экспортировать PDF → Электронная таблица → Microsoft Excel Workbook
Цены (2026)
- Acrobat Standard: 12,99 $/месяц (годовой план)
- Acrobat Pro: 19,99 $/месяц (годовой план)
- Export PDF (отдельно): план более низкого уровня только для конвертации
Преимущества
- Встроенный OCR для отсканированных документов
- Обычно сохраняет форматирование для простых таблиц с границами
- Пакетная обработка доступна в Pro
Ограничения
- Дорого для одного только извлечения таблиц — 156–240 $/год
- Сложные таблицы с объединенными ячейками и многостраничными разрывами по-прежнему дают некорректный вывод
- Файлы могут загружаться в облако Adobe для обработки — проблематично для конфиденциальных финансовых данных
- Требует установки на рабочий стол
Лучше всего подходит для: Пользователей, которые уже платят за Acrobat Pro и нуждаются в периодическом экспорте таблиц с OCR.
Метод 4: Копирование-вставка (Вручную)
Самый интуитивно понятный подход — и тот, который чаще всего терпит неудачу с таблицами.
Распространенные проблемы
- Все данные в одном столбце — вся таблица вставляется без разрывов столбцов
- Числа становятся текстом — символы валюты, скобки и разделители нарушают числовое форматирование
- Многострочное содержимое ячеек создает фантомные строки — описание, которое переносится на две строки в ячейке, становится двумя отдельными строками
- Заголовки отделены от данных — строка заголовка отсоединяется
- Столбцы не выровнены — данные смещаются, потому что интервалы между символами не переводятся в табуляцию
Частичное решение
Вставьте в Excel, затем используйте Данные → Текст по столбцам с разделителями-пробелами или фиксированной шириной. Включите опцию «Считать последовательные разделители одним». Это работает для очень простых, хорошо расположенных таблиц, но не для чего-либо с многословным содержимым ячеек.
Лучше всего подходит для: Извлечения одной небольшой, простой таблицы в крайнем случае.
Метод 5: Библиотеки Python (Для разработчиков)
Три библиотеки с лицензией MIT позволяют программно извлекать таблицы из PDF:
Tabula-py
Обертка Python для Tabula (Java). Требует среды выполнения Java.
- Режим сетки для таблиц с границами (находит линии и пересечения)
- Режим потока для таблиц без границ (использует выравнивание текста)
- Хорошо подходит для пакетной обработки в скриптах
- Нет поддержки OCR
Camelot
Также предлагает режимы сетки и потока.
- Обычно превосходит Tabula для таблиц с границами
- Режим потока имеет больше параметров конфигурации для точной настройки
- Предоставляет отчеты о точности при каждом извлечении
- Требует зависимости от Ghostscript. Нет поддержки OCR
pdfplumber
Подход на основе координат: извлекает каждый символ с его точным положением, затем выводит структуру.
- Обрабатывает самый широкий спектр типов таблиц
- Предоставляет наибольший контроль, но требует больше конфигурации
- Это библиотека, которую PDFSub использует на стороне сервера
- Нет поддержки OCR
Лучше всего подходит для: Разработчиков, автоматизирующих повторяющиеся рабочие процессы извлечения таблиц, обрабатывающих большие пакеты однотипных документов.
Распространенные проблемы и как их решить
Объединенные ячейки
Когда ячейки охватывают несколько строк или столбцов, большинство инструментов либо помещают содержимое в верхнюю левую ячейку, оставляя другие пустыми, либо смещают все последующие столбцы. Универсального решения нет — формат CSV не имеет понятия объединения, поэтому информация об объединении всегда теряется.
Исправление: Извлеките таблицу, затем вручную исправьте артефакты объединения в Excel. Для повторяющихся таблиц с одинаковым шаблоном объединения рассмотрите скрипт постобработки.
Многострочное содержимое в ячейках
Длинные описания, которые переносятся внутри ячейки, становятся несколькими строками в выводе, смещая все последующие данные. Это самая распространенная ошибка при извлечении финансовых документов.
Исправление: После извлечения найдите строки, в которых отсутствуют даты и суммы — это, вероятно, строки продолжения, принадлежащие предыдущей строке. В Excel объедините их вручную или используйте вспомогательную формулу.
Таблицы, охватывающие несколько страниц
Инструменты должны определить, где продолжается таблица, следует ли удалять повторяющиеся заголовки и как фильтровать нижние колонтитулы страниц. Многие инструменты обрабатывают каждую страницу независимо.
Исправление: Если ваш инструмент предоставляет результаты по страницам, объедините листы и удалите повторяющиеся строки заголовков. Убедитесь, что последняя строка на странице N корректно соединяется с первой строкой на странице N+1.
Проблемы с форматированием валюты
Отрицательные числа в скобках ((1,234.56)) вставляются как текст, а не числа. Символы валюты и разделители тысяч также нарушают числовое форматирование.
Исправление: После извлечения выберите столбец с суммами и используйте «Найти и заменить», чтобы удалить символы $, (, ). Затем отформатируйте столбец как Число. Для отрицательных чисел в скобках замените ( на - и удалите ), затем преобразуйте в числовой формат.
Неоднозначность дат
01/02/2026 — это 2 января или 1 февраля? Инструмент извлечения сохраняет строку как есть, но Excel может интерпретировать ее по-разному в зависимости от вашей локали.
Исправление: Проверьте исходный PDF на наличие подсказок о формате даты (ищите даты, где число дня > 12). Установите формат даты Excel, соответствующий источнику, перед импортом.
Сравнение точности
| Метод | Простые с границами | Без границ | Полуграничные | Отсканированные PDF |
|---|---|---|---|---|
| PDFSub (координаты + AI) | 90–99% | 75–95% | 70–95% | 85–95% (AI) |
| Power Query | 85–95% | 40–60% | 50–70% | Не поддерживается |
| Adobe Acrobat | 90–95% | 70–80% | 70–85% | 80–90% |
| Tabula | ~68% | 55–70% | 50–65% | Не поддерживается |
| Camelot | ~73% | 65–75% | 60–70% | Не поддерживается |
| Копирование-вставка | 30–50% | 10–30% | 10–30% | Невозможно |
Диапазоны отражают вариативность в зависимости от сложности документа. Данные бенчмарков из Procycons 2025 PDF Extraction Benchmark и сравнительных исследований Camelot.
Какой метод использовать?
| Сценарий | Лучший метод | Почему |
|---|---|---|
| Быстрое одноразовое извлечение | PDFSub | Не требует установки, работает в браузере, бесплатное извлечение по координатам |
| Простая таблица с границами, Windows | Power Query | Встроен в Excel, без дополнительных затрат |
| Отсканированный PDF | PDFSub (AI) или Adobe Acrobat | Требуется возможность OCR |
| Конфиденциальные финансовые данные | PDFSub | Обработка в браузере, файл никогда не загружается |
| Повторяющаяся пакетная обработка | Python (pdfplumber) | Можно автоматизировать скриптами |
| Уже есть Acrobat Pro | Adobe Acrobat | Уже оплачено, простые таблицы работают хорошо |
| Одна небольшая таблица, нет инструментов | Копирование-вставка | Крайний случай, проверяйте все |
Советы для лучших результатов
Используйте нативные PDF. Загружайте документы из их источника, а не сканируйте бумажные копии. Нативные PDF содержат идеальный текст, что значительно повышает точность извлечения.
Сначала определите тип таблицы. Таблицы с границами работают практически с любым инструментом. Таблицы без границ требуют режима потока или извлечения с помощью AI. Знание типа поможет вам сразу выбрать правильный метод.
Начните с бесплатных методов на основе правил. Сначала попробуйте извлечение по координатам. Переходите к AI только тогда, когда методы на основе правил дают плохие результаты — это сэкономит время и кредиты.
Всегда проверяйте результат. Проверяйте количество строк, выравнивание столбцов, числовые значения и итоги. Никогда не доверяйте результатам извлечения слепо.
Следите за форматированием чисел. После извлечения убедитесь, что числа действительно являются числами в Excel (выровнены по правому краю), а не текстовыми строками (выровнены по левому краю). Символы валюты и отрицательные числа в скобках являются частыми виновниками.
Для конфиденциальных данных предпочитайте инструменты на основе браузера. Финансовые отчеты, банковские выписки и налоговые документы содержат конфиденциальную информацию. Инструменты, которые обрабатывают PDF в вашем браузере, никогда не загружают ваш файл, устраняя риск утечки данных.
Попробуйте бесплатно
Готовы извлечь таблицы из вашего PDF? Загрузите файл сейчас — PDFSub сначала пробует бесплатное извлечение по координатам, с резервным AI для сложных таблиц. Цифровые PDF обрабатываются полностью в вашем браузере. Начните 7-дневную бесплатную пробную версию.