PDFSub
ЦеныAPIMergeCompressEditE-SignБанковские выпискиБлог
Вернуться в блог
РуководствоExcelТаблицыИнструменты PDF

Как извлечь таблицы из PDF в Excel: сравнение 5 методов

28 февраля 2026 г.
T
Todd Lahman
Founder, PDFSub

PDF-файлы хранят таблицы как разрозненные фрагменты текста по x,y координатам — без строк, столбцов или ячеек. Вот как фактически перенести эти данные в электронную таблицу: от бесплатных онлайн-инструментов до скриптов на Python.


How to Extract Tables from PDF to Excel: 5 Methods Compared

У вас есть PDF-файл с таблицей, которая вам нужна в Excel. Возможно, это финансовый отчет, выписка из банка, счет-фактура или научная статья. Данные находятся прямо там — аккуратно организованы в строки и столбцы на экране. Но когда вы пытаетесь их извлечь, все рушится.

Это происходит потому, что PDF — это не формат данных. Это формат отображения. В спецификации PDF нет понятия «таблица», «строка» или «столбец». То, что выглядит как структурированная таблица, на самом деле представляет собой десятки фрагментов текста, размещенных в определенных x,y координатах на холсте. Извлечение этой структуры обратно в электронную таблицу — это проблема обратного инжиниринга, и разные инструменты решают ее с разной степенью успеха.

В этом руководстве рассматриваются 5 методов извлечения таблиц из PDF, когда каждый из них работает лучше всего и что делать, когда что-то идет не так.

Почему извлечение таблиц из PDF — это сложно

5 Methods for Extracting PDF Tables to Excel - Accuracy Comparison

В формате PDF нет таблиц

Спецификация PDF (ISO 32000-2:2020) определяет поток содержимого — последовательность операторов, которые позиционируют отдельные символы в точных координатах. Простая строка таблицы, такая как «Дата | Описание | Сумма», может быть сохранена как:

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Office Supplies) Tj 180 0 Td (125.00) Tj ET

Нет тегов <table>, <tr> или <td>. Нет идентификаторов строк. Нет границ столбцов. Визуальные линии, которые вы видите вокруг ячеек, — это отдельные операции рисования, полностью отключенные от текста. Инструмент извлечения должен вывести всю структуру из пространственных отношений.

Три типа границ таблиц

Таблицы с границами (сеткой) имеют видимые линии вокруг каждой ячейки. Их легче всего извлечь, поскольку линии явно определяют границы ячеек. Часто встречаются в официальных финансовых отчетах, государственных формах и стандартизированных отчетах.

Таблицы без границ (потоковые) не имеют линий вообще. Структура определяется исключительно выравниванием пробелов — текстовые элементы, имеющие одинаковые x-координаты в строках, образуют подразумеваемые столбцы. Часто встречаются в научных статьях, счетах-фактурах и каталогах продукции.

Полуграничные таблицы имеют только частичные границы — обычно горизонтальные линии между разделами, но без вертикальных разделителей. Чрезвычайно распространены в банковских выписках, отчетах брокеров и счетах за коммунальные услуги. Их сложнее всего извлечь, поскольку частичные границы вводят в заблуждение парсеры в режиме сетки, а отсутствие границ снижает уверенность парсеров в режиме потока.

Тегированные и нетегированные PDF

Тегированные PDF включают структурные метаданные, которые идентифицируют заголовки, абзацы и ячейки таблицы. В нетегированных PDF этого нет — инструмент извлечения получает только необработанные координаты. Подавляющее большинство PDF-файлов нетегированы, включая практически все банковские выписки, счета-фактуры и финансовые отчеты.


Метод 1: PDFSub Extract Tables (Бесплатно + AI-резерв)

Инструмент Extract Tables от PDFSub использует трехступенчатый подход, который максимизирует точность при минимизации затрат:

Ступень 1: Определение на основе координат (в браузере, бесплатно)

Инструмент сначала пытается извлечь данные полностью в вашем браузере:

  • Анализирует поток содержимого PDF для извлечения каждого текстового элемента с его x,y координатами
  • Группирует текстовые элементы в строки на основе близости y-координат
  • Анализирует закономерности выравнивания x-координат между строками для определения границ столбцов
  • Требуется минимум 3 строки, 2 столбца и 70%+ уверенности

Если найдены хорошие таблицы, вы сразу получаете структурированные данные — без загрузки на сервер, без расхода кредитов AI и ваш файл никогда не покидает ваше устройство.

Ступень 2: Извлечение на стороне сервера (pdfplumber, бесплатно)

Если определение на основе координат не находит таблиц, инструмент использует pdfplumber (лицензия MIT) на сервере. Он определяет как явные линии (нарисованные границы), так и подразумеваемые линии (шаблоны выравнивания слов), находит пересечения, идентифицирует прямоугольники и сопоставляет текст с ячейками.

Ступень 3: Извлечение с помощью AI (использует кредиты)

Для отсканированных PDF, сложных макетов или таблиц, которые не могут быть разобраны методами на основе правил, инструмент использует извлечение с помощью AI-технологий компьютерного зрения. Вы также можете включить опцию «Принудительное извлечение AI», чтобы перейти непосредственно к этой ступени, когда вы знаете, что таблица сложная.

Форматы вывода: Excel (.xlsx), CSV, JSON.

Лучше всего подходит для: Быстрого извлечения без установки программного обеспечения. Цифровые PDF обрабатываются полностью в вашем браузере для максимальной конфиденциальности.


Метод 2: Power Query в Excel (Только Windows)

Доступно в Excel 2019+ и Microsoft 365 на Windows: Данные → Получить данные → Из файла → Из PDF.

Как это работает

  1. Нажмите Данные → Получить данные → Из файла → Из PDF
  2. Выберите ваш PDF-файл
  3. Power Query отобразит панель навигатора со списком обнаруженных таблиц на каждой странице
  4. Выберите нужные таблицы, нажмите Преобразовать данные для очистки, затем Загрузить

Преимущества

  • Встроен в Excel — никаких дополнительных затрат для подписчиков Microsoft 365
  • Движок преобразования Power Query хорошо справляется с постобработкой (заполнение вниз, сводные таблицы, объединение столбцов)
  • Может обновлять данные, если исходный PDF обновлен
  • Поддерживает подключение нескольких таблиц из одного PDF

Ограничения

  • Только для Windows — недоступно в Excel для Mac, Excel Online или мобильных устройствах
  • С трудом справляется с таблицами без границ — лучше всего работает с таблицами с четкими границами
  • Нет OCR — не может извлекать данные из отсканированных PDF/PDF с изображениями
  • Многостраничные таблицы проблематичны — каждая страница часто импортируется как отдельная таблица, требующая ручного объединения
  • Многострочные ячейки — перенесенный текст внутри ячеек часто разбивается на несколько строк, требуя очистки

Лучше всего подходит для: Пользователей Windows с Microsoft 365, у которых есть простые таблицы с границами.


Метод 3: Adobe Acrobat (Платно)

Файл → Экспортировать PDF → Электронная таблица → Microsoft Excel Workbook

Цены (2026)

  • Acrobat Standard: 12,99 $/месяц (годовой план)
  • Acrobat Pro: 19,99 $/месяц (годовой план)
  • Export PDF (отдельно): план более низкого уровня только для конвертации

Преимущества

  • Встроенный OCR для отсканированных документов
  • Обычно сохраняет форматирование для простых таблиц с границами
  • Пакетная обработка доступна в Pro

Ограничения

  • Дорого для одного только извлечения таблиц — 156–240 $/год
  • Сложные таблицы с объединенными ячейками и многостраничными разрывами по-прежнему дают некорректный вывод
  • Файлы могут загружаться в облако Adobe для обработки — проблематично для конфиденциальных финансовых данных
  • Требует установки на рабочий стол

Лучше всего подходит для: Пользователей, которые уже платят за Acrobat Pro и нуждаются в периодическом экспорте таблиц с OCR.


Метод 4: Копирование-вставка (Вручную)

Самый интуитивно понятный подход — и тот, который чаще всего терпит неудачу с таблицами.

Распространенные проблемы

  • Все данные в одном столбце — вся таблица вставляется без разрывов столбцов
  • Числа становятся текстом — символы валюты, скобки и разделители нарушают числовое форматирование
  • Многострочное содержимое ячеек создает фантомные строки — описание, которое переносится на две строки в ячейке, становится двумя отдельными строками
  • Заголовки отделены от данных — строка заголовка отсоединяется
  • Столбцы не выровнены — данные смещаются, потому что интервалы между символами не переводятся в табуляцию

Частичное решение

Вставьте в Excel, затем используйте Данные → Текст по столбцам с разделителями-пробелами или фиксированной шириной. Включите опцию «Считать последовательные разделители одним». Это работает для очень простых, хорошо расположенных таблиц, но не для чего-либо с многословным содержимым ячеек.

Лучше всего подходит для: Извлечения одной небольшой, простой таблицы в крайнем случае.


Метод 5: Библиотеки Python (Для разработчиков)

Три библиотеки с лицензией MIT позволяют программно извлекать таблицы из PDF:

Tabula-py

Обертка Python для Tabula (Java). Требует среды выполнения Java.

  • Режим сетки для таблиц с границами (находит линии и пересечения)
  • Режим потока для таблиц без границ (использует выравнивание текста)
  • Хорошо подходит для пакетной обработки в скриптах
  • Нет поддержки OCR

Camelot

Также предлагает режимы сетки и потока.

  • Обычно превосходит Tabula для таблиц с границами
  • Режим потока имеет больше параметров конфигурации для точной настройки
  • Предоставляет отчеты о точности при каждом извлечении
  • Требует зависимости от Ghostscript. Нет поддержки OCR

pdfplumber

Подход на основе координат: извлекает каждый символ с его точным положением, затем выводит структуру.

  • Обрабатывает самый широкий спектр типов таблиц
  • Предоставляет наибольший контроль, но требует больше конфигурации
  • Это библиотека, которую PDFSub использует на стороне сервера
  • Нет поддержки OCR

Лучше всего подходит для: Разработчиков, автоматизирующих повторяющиеся рабочие процессы извлечения таблиц, обрабатывающих большие пакеты однотипных документов.


Распространенные проблемы и как их решить

Объединенные ячейки

Когда ячейки охватывают несколько строк или столбцов, большинство инструментов либо помещают содержимое в верхнюю левую ячейку, оставляя другие пустыми, либо смещают все последующие столбцы. Универсального решения нет — формат CSV не имеет понятия объединения, поэтому информация об объединении всегда теряется.

Исправление: Извлеките таблицу, затем вручную исправьте артефакты объединения в Excel. Для повторяющихся таблиц с одинаковым шаблоном объединения рассмотрите скрипт постобработки.

Многострочное содержимое в ячейках

Длинные описания, которые переносятся внутри ячейки, становятся несколькими строками в выводе, смещая все последующие данные. Это самая распространенная ошибка при извлечении финансовых документов.

Исправление: После извлечения найдите строки, в которых отсутствуют даты и суммы — это, вероятно, строки продолжения, принадлежащие предыдущей строке. В Excel объедините их вручную или используйте вспомогательную формулу.

Таблицы, охватывающие несколько страниц

Инструменты должны определить, где продолжается таблица, следует ли удалять повторяющиеся заголовки и как фильтровать нижние колонтитулы страниц. Многие инструменты обрабатывают каждую страницу независимо.

Исправление: Если ваш инструмент предоставляет результаты по страницам, объедините листы и удалите повторяющиеся строки заголовков. Убедитесь, что последняя строка на странице N корректно соединяется с первой строкой на странице N+1.

Проблемы с форматированием валюты

Отрицательные числа в скобках ((1,234.56)) вставляются как текст, а не числа. Символы валюты и разделители тысяч также нарушают числовое форматирование.

Исправление: После извлечения выберите столбец с суммами и используйте «Найти и заменить», чтобы удалить символы $, (, ). Затем отформатируйте столбец как Число. Для отрицательных чисел в скобках замените ( на - и удалите ), затем преобразуйте в числовой формат.

Неоднозначность дат

01/02/2026 — это 2 января или 1 февраля? Инструмент извлечения сохраняет строку как есть, но Excel может интерпретировать ее по-разному в зависимости от вашей локали.

Исправление: Проверьте исходный PDF на наличие подсказок о формате даты (ищите даты, где число дня > 12). Установите формат даты Excel, соответствующий источнику, перед импортом.


Сравнение точности

Метод Простые с границами Без границ Полуграничные Отсканированные PDF
PDFSub (координаты + AI) 90–99% 75–95% 70–95% 85–95% (AI)
Power Query 85–95% 40–60% 50–70% Не поддерживается
Adobe Acrobat 90–95% 70–80% 70–85% 80–90%
Tabula ~68% 55–70% 50–65% Не поддерживается
Camelot ~73% 65–75% 60–70% Не поддерживается
Копирование-вставка 30–50% 10–30% 10–30% Невозможно

Диапазоны отражают вариативность в зависимости от сложности документа. Данные бенчмарков из Procycons 2025 PDF Extraction Benchmark и сравнительных исследований Camelot.


Какой метод использовать?

Сценарий Лучший метод Почему
Быстрое одноразовое извлечение PDFSub Не требует установки, работает в браузере, бесплатное извлечение по координатам
Простая таблица с границами, Windows Power Query Встроен в Excel, без дополнительных затрат
Отсканированный PDF PDFSub (AI) или Adobe Acrobat Требуется возможность OCR
Конфиденциальные финансовые данные PDFSub Обработка в браузере, файл никогда не загружается
Повторяющаяся пакетная обработка Python (pdfplumber) Можно автоматизировать скриптами
Уже есть Acrobat Pro Adobe Acrobat Уже оплачено, простые таблицы работают хорошо
Одна небольшая таблица, нет инструментов Копирование-вставка Крайний случай, проверяйте все

Советы для лучших результатов

Используйте нативные PDF. Загружайте документы из их источника, а не сканируйте бумажные копии. Нативные PDF содержат идеальный текст, что значительно повышает точность извлечения.

Сначала определите тип таблицы. Таблицы с границами работают практически с любым инструментом. Таблицы без границ требуют режима потока или извлечения с помощью AI. Знание типа поможет вам сразу выбрать правильный метод.

Начните с бесплатных методов на основе правил. Сначала попробуйте извлечение по координатам. Переходите к AI только тогда, когда методы на основе правил дают плохие результаты — это сэкономит время и кредиты.

Всегда проверяйте результат. Проверяйте количество строк, выравнивание столбцов, числовые значения и итоги. Никогда не доверяйте результатам извлечения слепо.

Следите за форматированием чисел. После извлечения убедитесь, что числа действительно являются числами в Excel (выровнены по правому краю), а не текстовыми строками (выровнены по левому краю). Символы валюты и отрицательные числа в скобках являются частыми виновниками.

Для конфиденциальных данных предпочитайте инструменты на основе браузера. Финансовые отчеты, банковские выписки и налоговые документы содержат конфиденциальную информацию. Инструменты, которые обрабатывают PDF в вашем браузере, никогда не загружают ваш файл, устраняя риск утечки данных.


Попробуйте бесплатно

Готовы извлечь таблицы из вашего PDF? Загрузите файл сейчас — PDFSub сначала пробует бесплатное извлечение по координатам, с резервным AI для сложных таблиц. Цифровые PDF обрабатываются полностью в вашем браузере. Начните 7-дневную бесплатную пробную версию.

Вернуться в блог

Вопросы? Свяжитесь с нами

PDFSub

Все необходимые инструменты для работы с PDF и документами в одном месте. Быстро, безопасно и конфиденциально.

Соответствует GDPRСоответствует CCPAГотовность SOC 2
Работает на PDFSub Engine

Продукт

  • Все инструменты
  • Функции
  • Банковские выписки
  • API
  • Цены
  • FAQ
  • Блог

Поддержка

  • О нас
  • Центр поддержки
  • Контакты
  • FAQ

Юридическая информация

  • Политика конфиденциальности
  • Условия использования
  • Политика использования файлов cookie

© 2026 PDFSub. Все права защищены.

Сделано в Америке с для людей по всему миру