How to Extract Tables from PDF to Excel: 5 Methods Compared

У вас есть PDF-файл с таблицей, которая вам нужна в Excel. Возможно, это финансовый отчет, выписка из банка, счет-фактура или научная статья. Данные находятся прямо там — аккуратно организованы в строки и столбцы на экране. Но когда вы пытаетесь их извлечь, все рушится.

Это происходит потому, что PDF — это не формат данных. Это формат отображения. В спецификации PDF нет понятия «таблица», «строка» или «столбец». То, что выглядит как структурированная таблица, на самом деле представляет собой десятки фрагментов текста, размещенных в определенных x,y координатах на холсте. Извлечение этой структуры обратно в электронную таблицу — это проблема обратного инжиниринга, и разные инструменты решают ее с разной степенью успеха.

В этом руководстве рассматриваются 5 методов извлечения таблиц из PDF, когда каждый из них работает лучше всего и что делать, когда что-то идет не так.

Почему извлечение таблиц из PDF — это сложно

5 Methods for Extracting PDF Tables to Excel - Accuracy Comparison

В формате PDF нет таблиц

Спецификация PDF (ISO 32000-2:2020) определяет поток содержимого — последовательность операторов, которые позиционируют отдельные символы в точных координатах. Простая строка таблицы, такая как «Дата | Описание | Сумма», может быть сохранена как:

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Office Supplies) Tj 180 0 Td (125.00) Tj ET

Нет тегов <table>, <tr> или <td>. Нет идентификаторов строк. Нет границ столбцов. Визуальные линии, которые вы видите вокруг ячеек, — это отдельные операции рисования, полностью отключенные от текста. Инструмент извлечения должен вывести всю структуру из пространственных отношений.

Три типа границ таблиц

Таблицы с границами (сеткой) имеют видимые линии вокруг каждой ячейки. Их легче всего извлечь, поскольку линии явно определяют границы ячеек. Часто встречаются в официальных финансовых отчетах, государственных формах и стандартизированных отчетах.

Таблицы без границ (потоковые) не имеют линий вообще. Структура определяется исключительно выравниванием пробелов — текстовые элементы, имеющие одинаковые x-координаты в строках, образуют подразумеваемые столбцы. Часто встречаются в научных статьях, счетах-фактурах и каталогах продукции.

Полуграничные таблицы имеют только частичные границы — обычно горизонтальные линии между разделами, но без вертикальных разделителей. Чрезвычайно распространены в банковских выписках, отчетах брокеров и счетах за коммунальные услуги. Их сложнее всего извлечь, поскольку частичные границы вводят в заблуждение парсеры в режиме сетки, а отсутствие границ снижает уверенность парсеров в режиме потока.

Тегированные и нетегированные PDF

Тегированные PDF включают структурные метаданные, которые идентифицируют заголовки, абзацы и ячейки таблицы. В нетегированных PDF этого нет — инструмент извлечения получает только необработанные координаты. Подавляющее большинство PDF-файлов нетегированы, включая практически все банковские выписки, счета-фактуры и финансовые отчеты.

Метод 1: PDFSub Extract Tables (Бесплатно + AI-резерв)

Инструмент Extract Tables от PDFSub использует трехступенчатый подход, который максимизирует точность при минимизации затрат:

Ступень 1: Определение на основе координат (в браузере, бесплатно)

Инструмент сначала пытается извлечь данные полностью в вашем браузере:

Анализирует поток содержимого PDF для извлечения каждого текстового элемента с его x,y координатами
Группирует текстовые элементы в строки на основе близости y-координат
Анализирует закономерности выравнивания x-координат между строками для определения границ столбцов
Требуется минимум 3 строки, 2 столбца и 70%+ уверенности

Если найдены хорошие таблицы, вы сразу получаете структурированные данные — без загрузки на сервер, без расхода кредитов AI и ваш файл никогда не покидает ваше устройство.

Ступень 2: Извлечение на стороне сервера (pdfplumber, бесплатно)

Если определение на основе координат не находит таблиц, инструмент использует pdfplumber (лицензия MIT) на сервере. Он определяет как явные линии (нарисованные границы), так и подразумеваемые линии (шаблоны выравнивания слов), находит пересечения, идентифицирует прямоугольники и сопоставляет текст с ячейками.

Ступень 3: Извлечение с помощью AI (использует кредиты)

Для отсканированных PDF, сложных макетов или таблиц, которые не могут быть разобраны методами на основе правил, инструмент использует извлечение с помощью AI-технологий компьютерного зрения. Вы также можете включить опцию «Принудительное извлечение AI», чтобы перейти непосредственно к этой ступени, когда вы знаете, что таблица сложная.

Форматы вывода: Excel (.xlsx), CSV, JSON.

Лучше всего подходит для: Быстрого извлечения без установки программного обеспечения. Цифровые PDF обрабатываются полностью в вашем браузере для максимальной конфиденциальности.

Метод 2: Power Query в Excel (Только Windows)

Доступно в Excel 2019+ и Microsoft 365 на Windows: Данные → Получить данные → Из файла → Из PDF.

Как это работает

Нажмите Данные → Получить данные → Из файла → Из PDF
Выберите ваш PDF-файл
Power Query отобразит панель навигатора со списком обнаруженных таблиц на каждой странице
Выберите нужные таблицы, нажмите Преобразовать данные для очистки, затем Загрузить

Преимущества

Встроен в Excel — никаких дополнительных затрат для подписчиков Microsoft 365
Движок преобразования Power Query хорошо справляется с постобработкой (заполнение вниз, сводные таблицы, объединение столбцов)
Может обновлять данные, если исходный PDF обновлен
Поддерживает подключение нескольких таблиц из одного PDF

Ограничения

Только для Windows — недоступно в Excel для Mac, Excel Online или мобильных устройствах
С трудом справляется с таблицами без границ — лучше всего работает с таблицами с четкими границами
Нет OCR — не может извлекать данные из отсканированных PDF/PDF с изображениями
Многостраничные таблицы проблематичны — каждая страница часто импортируется как отдельная таблица, требующая ручного объединения
Многострочные ячейки — перенесенный текст внутри ячеек часто разбивается на несколько строк, требуя очистки

Лучше всего подходит для: Пользователей Windows с Microsoft 365, у которых есть простые таблицы с границами.

Метод 3: Adobe Acrobat (Платно)

Файл → Экспортировать PDF → Электронная таблица → Microsoft Excel Workbook

Цены (2026)

Acrobat Standard: 12,99 $/месяц (годовой план)
Acrobat Pro: 19,99 $/месяц (годовой план)
Export PDF (отдельно): план более низкого уровня только для конвертации

Преимущества

Встроенный OCR для отсканированных документов
Обычно сохраняет форматирование для простых таблиц с границами
Пакетная обработка доступна в Pro

Ограничения

Дорого для одного только извлечения таблиц — 156–240 $/год
Сложные таблицы с объединенными ячейками и многостраничными разрывами по-прежнему дают некорректный вывод
Файлы могут загружаться в облако Adobe для обработки — проблематично для конфиденциальных финансовых данных
Требует установки на рабочий стол

Лучше всего подходит для: Пользователей, которые уже платят за Acrobat Pro и нуждаются в периодическом экспорте таблиц с OCR.

Метод 4: Копирование-вставка (Вручную)

Самый интуитивно понятный подход — и тот, который чаще всего терпит неудачу с таблицами.

Распространенные проблемы

Все данные в одном столбце — вся таблица вставляется без разрывов столбцов
Числа становятся текстом — символы валюты, скобки и разделители нарушают числовое форматирование
Многострочное содержимое ячеек создает фантомные строки — описание, которое переносится на две строки в ячейке, становится двумя отдельными строками
Заголовки отделены от данных — строка заголовка отсоединяется
Столбцы не выровнены — данные смещаются, потому что интервалы между символами не переводятся в табуляцию

Частичное решение

Вставьте в Excel, затем используйте Данные → Текст по столбцам с разделителями-пробелами или фиксированной шириной. Включите опцию «Считать последовательные разделители одним». Это работает для очень простых, хорошо расположенных таблиц, но не для чего-либо с многословным содержимым ячеек.

Лучше всего подходит для: Извлечения одной небольшой, простой таблицы в крайнем случае.

Метод 5: Библиотеки Python (Для разработчиков)

Три библиотеки с лицензией MIT позволяют программно извлекать таблицы из PDF:

Tabula-py

Обертка Python для Tabula (Java). Требует среды выполнения Java.

Режим сетки для таблиц с границами (находит линии и пересечения)
Режим потока для таблиц без границ (использует выравнивание текста)
Хорошо подходит для пакетной обработки в скриптах
Нет поддержки OCR

Camelot

Также предлагает режимы сетки и потока.

Обычно превосходит Tabula для таблиц с границами
Режим потока имеет больше параметров конфигурации для точной настройки
Предоставляет отчеты о точности при каждом извлечении
Требует зависимости от Ghostscript. Нет поддержки OCR

pdfplumber

Подход на основе координат: извлекает каждый символ с его точным положением, затем выводит структуру.

Обрабатывает самый широкий спектр типов таблиц
Предоставляет наибольший контроль, но требует больше конфигурации
Это библиотека, которую PDFSub использует на стороне сервера
Нет поддержки OCR

Лучше всего подходит для: Разработчиков, автоматизирующих повторяющиеся рабочие процессы извлечения таблиц, обрабатывающих большие пакеты однотипных документов.

Распространенные проблемы и как их решить

Объединенные ячейки

Когда ячейки охватывают несколько строк или столбцов, большинство инструментов либо помещают содержимое в верхнюю левую ячейку, оставляя другие пустыми, либо смещают все последующие столбцы. Универсального решения нет — формат CSV не имеет понятия объединения, поэтому информация об объединении всегда теряется.

Исправление: Извлеките таблицу, затем вручную исправьте артефакты объединения в Excel. Для повторяющихся таблиц с одинаковым шаблоном объединения рассмотрите скрипт постобработки.

Многострочное содержимое в ячейках

Длинные описания, которые переносятся внутри ячейки, становятся несколькими строками в выводе, смещая все последующие данные. Это самая распространенная ошибка при извлечении финансовых документов.

Исправление: После извлечения найдите строки, в которых отсутствуют даты и суммы — это, вероятно, строки продолжения, принадлежащие предыдущей строке. В Excel объедините их вручную или используйте вспомогательную формулу.

Таблицы, охватывающие несколько страниц

Инструменты должны определить, где продолжается таблица, следует ли удалять повторяющиеся заголовки и как фильтровать нижние колонтитулы страниц. Многие инструменты обрабатывают каждую страницу независимо.

Исправление: Если ваш инструмент предоставляет результаты по страницам, объедините листы и удалите повторяющиеся строки заголовков. Убедитесь, что последняя строка на странице N корректно соединяется с первой строкой на странице N+1.

Проблемы с форматированием валюты

Отрицательные числа в скобках ((1,234.56)) вставляются как текст, а не числа. Символы валюты и разделители тысяч также нарушают числовое форматирование.

Исправление: После извлечения выберите столбец с суммами и используйте «Найти и заменить», чтобы удалить символы $, (, ). Затем отформатируйте столбец как Число. Для отрицательных чисел в скобках замените ( на - и удалите ), затем преобразуйте в числовой формат.

Неоднозначность дат

01/02/2026 — это 2 января или 1 февраля? Инструмент извлечения сохраняет строку как есть, но Excel может интерпретировать ее по-разному в зависимости от вашей локали.

Исправление: Проверьте исходный PDF на наличие подсказок о формате даты (ищите даты, где число дня > 12). Установите формат даты Excel, соответствующий источнику, перед импортом.

Сравнение точности

Метод	Простые с границами	Без границ	Полуграничные	Отсканированные PDF
PDFSub (координаты + AI)	90–99%	75–95%	70–95%	85–95% (AI)
Power Query	85–95%	40–60%	50–70%	Не поддерживается
Adobe Acrobat	90–95%	70–80%	70–85%	80–90%
Tabula	~68%	55–70%	50–65%	Не поддерживается
Camelot	~73%	65–75%	60–70%	Не поддерживается
Копирование-вставка	30–50%	10–30%	10–30%	Невозможно

Диапазоны отражают вариативность в зависимости от сложности документа. Данные бенчмарков из Procycons 2025 PDF Extraction Benchmark и сравнительных исследований Camelot.

Какой метод использовать?

Сценарий	Лучший метод	Почему
Быстрое одноразовое извлечение	PDFSub	Не требует установки, работает в браузере, бесплатное извлечение по координатам
Простая таблица с границами, Windows	Power Query	Встроен в Excel, без дополнительных затрат
Отсканированный PDF	PDFSub (AI) или Adobe Acrobat	Требуется возможность OCR
Конфиденциальные финансовые данные	PDFSub	Обработка в браузере, файл никогда не загружается
Повторяющаяся пакетная обработка	Python (pdfplumber)	Можно автоматизировать скриптами
Уже есть Acrobat Pro	Adobe Acrobat	Уже оплачено, простые таблицы работают хорошо
Одна небольшая таблица, нет инструментов	Копирование-вставка	Крайний случай, проверяйте все

Советы для лучших результатов

Используйте нативные PDF. Загружайте документы из их источника, а не сканируйте бумажные копии. Нативные PDF содержат идеальный текст, что значительно повышает точность извлечения.

Сначала определите тип таблицы. Таблицы с границами работают практически с любым инструментом. Таблицы без границ требуют режима потока или извлечения с помощью AI. Знание типа поможет вам сразу выбрать правильный метод.

Начните с бесплатных методов на основе правил. Сначала попробуйте извлечение по координатам. Переходите к AI только тогда, когда методы на основе правил дают плохие результаты — это сэкономит время и кредиты.

Всегда проверяйте результат. Проверяйте количество строк, выравнивание столбцов, числовые значения и итоги. Никогда не доверяйте результатам извлечения слепо.

Следите за форматированием чисел. После извлечения убедитесь, что числа действительно являются числами в Excel (выровнены по правому краю), а не текстовыми строками (выровнены по левому краю). Символы валюты и отрицательные числа в скобках являются частыми виновниками.

Для конфиденциальных данных предпочитайте инструменты на основе браузера. Финансовые отчеты, банковские выписки и налоговые документы содержат конфиденциальную информацию. Инструменты, которые обрабатывают PDF в вашем браузере, никогда не загружают ваш файл, устраняя риск утечки данных.

Попробуйте бесплатно

Готовы извлечь таблицы из вашего PDF? Загрузите файл сейчас — PDFSub сначала пробует бесплатное извлечение по координатам, с резервным AI для сложных таблиц. Цифровые PDF обрабатываются полностью в вашем браузере. Начните 7-дневную бесплатную пробную версию.

How to Extract Tables from PDF to Excel: 5 Methods Compared

Почему извлечение таблиц из PDF — это сложно

5 Methods for Extracting PDF Tables to Excel - Accuracy Comparison

В формате PDF нет таблиц

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Office Supplies) Tj 180 0 Td (125.00) Tj ET

Три типа границ таблиц

Тегированные и нетегированные PDF

Метод 1: PDFSub Extract Tables (Бесплатно + AI-резерв)

Ступень 1: Определение на основе координат (в браузере, бесплатно)

Инструмент сначала пытается извлечь данные полностью в вашем браузере:

Анализирует поток содержимого PDF для извлечения каждого текстового элемента с его x,y координатами
Группирует текстовые элементы в строки на основе близости y-координат
Анализирует закономерности выравнивания x-координат между строками для определения границ столбцов
Требуется минимум 3 строки, 2 столбца и 70%+ уверенности

Ступень 2: Извлечение на стороне сервера (pdfplumber, бесплатно)

Ступень 3: Извлечение с помощью AI (использует кредиты)

Форматы вывода: Excel (.xlsx), CSV, JSON.

Метод 2: Power Query в Excel (Только Windows)

Доступно в Excel 2019+ и Microsoft 365 на Windows: Данные → Получить данные → Из файла → Из PDF.

Как это работает

Нажмите Данные → Получить данные → Из файла → Из PDF
Выберите ваш PDF-файл
Power Query отобразит панель навигатора со списком обнаруженных таблиц на каждой странице
Выберите нужные таблицы, нажмите Преобразовать данные для очистки, затем Загрузить

Преимущества

Встроен в Excel — никаких дополнительных затрат для подписчиков Microsoft 365
Движок преобразования Power Query хорошо справляется с постобработкой (заполнение вниз, сводные таблицы, объединение столбцов)
Может обновлять данные, если исходный PDF обновлен
Поддерживает подключение нескольких таблиц из одного PDF

Ограничения

Только для Windows — недоступно в Excel для Mac, Excel Online или мобильных устройствах
С трудом справляется с таблицами без границ — лучше всего работает с таблицами с четкими границами
Нет OCR — не может извлекать данные из отсканированных PDF/PDF с изображениями
Многостраничные таблицы проблематичны — каждая страница часто импортируется как отдельная таблица, требующая ручного объединения
Многострочные ячейки — перенесенный текст внутри ячеек часто разбивается на несколько строк, требуя очистки

Лучше всего подходит для: Пользователей Windows с Microsoft 365, у которых есть простые таблицы с границами.

Метод 3: Adobe Acrobat (Платно)

Файл → Экспортировать PDF → Электронная таблица → Microsoft Excel Workbook

Цены (2026)

Acrobat Standard: 12,99 $/месяц (годовой план)
Acrobat Pro: 19,99 $/месяц (годовой план)
Export PDF (отдельно): план более низкого уровня только для конвертации

Преимущества

Встроенный OCR для отсканированных документов
Обычно сохраняет форматирование для простых таблиц с границами
Пакетная обработка доступна в Pro

Ограничения

Дорого для одного только извлечения таблиц — 156–240 $/год
Сложные таблицы с объединенными ячейками и многостраничными разрывами по-прежнему дают некорректный вывод
Файлы могут загружаться в облако Adobe для обработки — проблематично для конфиденциальных финансовых данных
Требует установки на рабочий стол

Метод 4: Копирование-вставка (Вручную)

Самый интуитивно понятный подход — и тот, который чаще всего терпит неудачу с таблицами.

Распространенные проблемы

Все данные в одном столбце — вся таблица вставляется без разрывов столбцов
Числа становятся текстом — символы валюты, скобки и разделители нарушают числовое форматирование
Многострочное содержимое ячеек создает фантомные строки — описание, которое переносится на две строки в ячейке, становится двумя отдельными строками
Заголовки отделены от данных — строка заголовка отсоединяется
Столбцы не выровнены — данные смещаются, потому что интервалы между символами не переводятся в табуляцию

Режим сетки для таблиц с границами (находит линии и пересечения)
Режим потока для таблиц без границ (использует выравнивание текста)
Хорошо подходит для пакетной обработки в скриптах
Нет поддержки OCR

Camelot

Также предлагает режимы сетки и потока.

Обычно превосходит Tabula для таблиц с границами
Режим потока имеет больше параметров конфигурации для точной настройки
Предоставляет отчеты о точности при каждом извлечении
Требует зависимости от Ghostscript. Нет поддержки OCR

pdfplumber

Подход на основе координат: извлекает каждый символ с его точным положением, затем выводит структуру.

Обрабатывает самый широкий спектр типов таблиц
Предоставляет наибольший контроль, но требует больше конфигурации
Это библиотека, которую PDFSub использует на стороне сервера
Нет поддержки OCR

Метод	Простые с границами	Без границ	Полуграничные	Отсканированные PDF
PDFSub (координаты + AI)	90–99%	75–95%	70–95%	85–95% (AI)
Power Query	85–95%	40–60%	50–70%	Не поддерживается
Adobe Acrobat	90–95%	70–80%	70–85%	80–90%
Tabula	~68%	55–70%	50–65%	Не поддерживается
Camelot	~73%	65–75%	60–70%	Не поддерживается
Копирование-вставка	30–50%	10–30%	10–30%	Невозможно

Какой метод использовать?

Сценарий	Лучший метод	Почему
Быстрое одноразовое извлечение	PDFSub	Не требует установки, работает в браузере, бесплатное извлечение по координатам
Простая таблица с границами, Windows	Power Query	Встроен в Excel, без дополнительных затрат
Отсканированный PDF	PDFSub (AI) или Adobe Acrobat	Требуется возможность OCR
Конфиденциальные финансовые данные	PDFSub	Обработка в браузере, файл никогда не загружается
Повторяющаяся пакетная обработка	Python (pdfplumber)	Можно автоматизировать скриптами
Уже есть Acrobat Pro	Adobe Acrobat	Уже оплачено, простые таблицы работают хорошо
Одна небольшая таблица, нет инструментов	Копирование-вставка	Крайний случай, проверяйте все