Як витягти таблиці з PDF до Excel: порівняння 5 методів
PDF зберігає таблиці як розрізнені фрагменти тексту за x,y-координатами — без рядків, стовпців чи комірок. Ось як насправді перенести ці дані в електронну таблицю: від безкоштовних інструментів у браузері до скриптів Python.

У вас є PDF-файл із таблицею, яка вам потрібна в Excel. Це може бути фінансовий звіт, виписка з банку, рахунок-фактура або наукова стаття. Дані є прямо тут — акуратно організовані в рядки та стовпці на екрані. Але коли ви намагаєтеся їх витягти, все руйнується.
Це відбувається тому, що PDF — це не формат даних. Це формат відображення. У специфікації PDF немає поняття «таблиця», «рядок» чи «стовпець». Те, що виглядає як структурована таблиця, насправді є десятками фрагментів тексту, розміщених за певними x,y-координатами на полотні. Вилучення цієї структури назад у електронну таблицю — це проблема реверс-інжинірингу, і різні інструменти вирішують її з різним ступенем успіху.
Цей посібник охоплює 5 методів вилучення таблиць з PDF, коли кожен з них працює найкраще та що робити, коли щось йде не так.
Чому вилучення таблиць з PDF є складним

Формат PDF не має таблиць
Специфікація PDF (ISO 32000-2:2020) визначає потік вмісту — послідовність операторів, які розміщують окремі символи за точними координатами. Простий рядок таблиці, як-от «Дата | Опис | Сума», може бути збережений як:
BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Канцтовари) Tj 180 0 Td (125.00) Tj ETНемає тегів <table>, <tr> чи <td>. Немає ідентифікаторів рядків. Немає меж стовпців. Візуальні лінії, які ви бачите навколо комірок, є окремими операціями малювання, повністю від'єднаними від тексту. Інструмент вилучення повинен вивести всю структуру з просторових співвідношень.
Три типи меж таблиць
Таблиці з межами (сіткою) мають видимі лінії навколо кожної комірки. Їх найлегше витягти, оскільки лінії чітко визначають межі комірок. Поширені у формальних фінансових звітах, державних формах та стандартизованих звітах.
Таблиці без меж (потокові) не мають жодних ліній. Структура визначається виключно вирівнюванням пробілів — текстові елементи, що мають однакові x-координати в рядках, утворюють неявні стовпці. Поширені в наукових статтях, рахунках-фактурах та каталогах продукції.
Напівмежові таблиці мають лише часткові межі — зазвичай горизонтальні лінії між розділами, але без вертикальних роздільників. Надзвичайно поширені у банківських виписках, брокерських звітах та рахунках за комунальні послуги. Їх найважче витягти, оскільки часткові межі вводять в оману парсери режиму сітки, а відсутність меж знижує впевненість парсерів потокового режиму.
Позначені та непозначені PDF
Позначені PDF містять структурні метадані, які ідентифікують заголовки, параграфи та комірки таблиць. Непозначені PDF не мають нічого з цього — інструмент вилучення отримує лише необроблені координати. Переважна більшість PDF є непозначеними, включаючи практично всі банківські виписки, рахунки-фактури та фінансові звіти.
Метод 1: PDFSub Extract Tables (Безкоштовно + Резерв AI)
Інструмент Extract Tables від PDFSub використовує трирівневий підхід, який максимізує точність, мінімізуючи витрати:
Рівень 1: Виявлення на основі координат (Браузер, Безкоштовно)
Інструмент спочатку намагається вилучити дані повністю у вашому браузері:
- Аналізує потік вмісту PDF для вилучення кожного текстового елемента з його x,y-координатами
- Групує текстові елементи в рядки за близькістю y-координат
- Аналізує шаблони вирівнювання x-координат між рядками для виявлення меж стовпців
- Потребує мінімум 3 рядків, 2 стовпців та 70%+ впевненості
Якщо знайдені хороші таблиці, ви негайно отримуєте структуровані дані — без завантаження на сервер, без витрати кредитів AI, і ваш файл ніколи не покидає ваш пристрій.
Рівень 2: Вилучення на стороні сервера (pdfplumber, Безкоштовно)
Якщо виявлення на основі координат не знаходить таблиць, інструмент використовує pdfplumber (ліцензія MIT) на сервері. Це виявляє як явні лінії (намальовані межі), так і неявні лінії (шаблони вирівнювання слів), знаходить перетини, ідентифікує прямокутники та зіставляє текст з комірками.
Рівень 3: Вилучення AI (Використовує кредити)
Для сканованих PDF, складних макетів або таблиць, які не можуть розпарсити інструменти на основі правил, інструмент звертається до вилучення зображень за допомогою AI. Ви також можете увімкнути «Примусове вилучення AI», щоб перейти безпосередньо до цього рівня, коли ви знаєте, що таблиця складна.
Формати виведення: Excel (.xlsx), CSV, JSON.
Найкраще для: Швидкого вилучення без встановлення програмного забезпечення. Цифрові PDF обробляються повністю у вашому браузері для максимальної конфіденційності.
Метод 2: Power Query в Excel (Тільки Windows)
Доступно в Excel 2019+ та Microsoft 365 на Windows: Дані → Отримати дані → З файлу → З PDF.
Як це працює
- Натисніть Дані → Отримати дані → З файлу → З PDF
- Виберіть ваш PDF-файл
- Power Query відобразить панель навігатора зі списком виявлених таблиць на кожній сторінці
- Виберіть потрібні таблиці, натисніть Трансформувати дані, щоб очистити, а потім Завантажити
Переваги
- Вбудовано в Excel — без додаткових витрат для підписників Microsoft 365
- Рушій трансформації Power Query добре справляється з постобробкою (заповнення вниз, зведення, об'єднання стовпців)
- Можна оновлювати дані, якщо вихідний PDF оновлено
- Підтримує підключення кількох таблиць з одного PDF
Обмеження
- Тільки для Windows — недоступно в Excel для Mac, Excel Online або мобільних пристроях
- Погано працює з таблицями без меж — найкраще працює з чітко окресленими таблицями
- Немає OCR — не може вилучати з відсканованих PDF/PDF із зображеннями
- Багатосторінкові таблиці є проблематичними — кожна сторінка часто імпортується як окрема таблиця, що вимагає ручного об'єднання
- Багаторядкові рядки — текст, що переноситься в межах комірки, часто розбивається на кілька рядків, що вимагає очищення
Найкраще для: Користувачів Windows з Microsoft 365, які мають прості таблиці з межами.
Метод 3: Adobe Acrobat (Платно)
Файл → Експортувати PDF → Електронна таблиця → Робоча книга Microsoft Excel
Ціни (2026)
- Acrobat Standard: $12.99/місяць (річний план)
- Acrobat Pro: $19.99/місяць (річний план)
- Export PDF (окремо): план нижчого рівня лише для конвертації
Переваги
- Вбудований OCR для сканованих документів
- Зазвичай зберігає форматування для простих таблиць з межами
- Пакетна обробка доступна в Pro
Обмеження
- Дорого для одного лише вилучення таблиць — $156–$240/рік
- Складні таблиці зі злиттям комірок та багатосторінковими діапазонами все одно дають невідповідний вивід
- Файли можуть завантажуватися до хмари Adobe для обробки — проблематично для конфіденційних фінансових даних
- Потребує встановлення на робочий стіл
Найкраще для: Користувачів, які вже платять за Acrobat Pro і потребують періодичного експорту таблиць з OCR.
Метод 4: Копіювання-Вставка (Вручну)
Найбільш інтуїтивний підхід — і той, який найчастіше зазнає невдачі для таблиць.
Поширені проблеми
- Всі дані в одному стовпці — вся таблиця вставляється без розривів стовпців
- Числа стають текстом — символи валют, дужки та роздільники порушують числове форматування
- Багаторядковий вміст комірки створює фантомні рядки — опис, який переноситься на два рядки в комірці, стає двома окремими рядками
- Заголовки відокремлені від даних — рядок заголовка від'єднується
- Стовпці не вирівняні — дані зміщуються, оскільки інтервал між символами не перетворюється на табуляцію
Часткове вирішення
Вставте в Excel, а потім використовуйте Дані → Текст за стовпцями з роздільниками пробілу або фіксованої ширини. Увімкніть «Розглядати послідовні роздільники як один». Це працює для дуже простих таблиць з хорошими пробілами, але не для будь-чого з багатослівним вмістом комірок.
Найкраще для: Вилучення однієї невеликої, простої таблиці як крайній захід.
Метод 5: Бібліотеки Python (Для розробників)
Три бібліотеки з ліцензією MIT дозволяють програмно вилучати таблиці з PDF:
Tabula-py
Обгортка Python для Tabula (Java). Потребує середовища виконання Java.
- Режим сітки для таблиць з межами (знаходить лінії та перетини)
- Потоковий режим для таблиць без меж (використовує вирівнювання тексту)
- Добре підходить для пакетної обробки в скриптах
- Немає підтримки OCR
Camelot
Також пропонує режими сітки та потоковий.
- Зазвичай перевершує Tabula для таблиць з межами
- Потоковий режим має більше параметрів конфігурації для точного налаштування
- Надає звіти про точність з кожним вилученням
- Потребує залежності Ghostscript. Немає підтримки OCR
pdfplumber
Підхід на основі координат: вилучає кожен символ з його точною позицією, а потім виводить структуру.
- Обробляє найширший спектр типів таблиць
- Надає найбільший контроль, але вимагає більше конфігурації
- Це бібліотека, яку PDFSub використовує на стороні сервера
- Немає підтримки OCR
Найкраще для: Розробників, які автоматизують повторювані робочі процеси вилучення таблиць, обробляють великі партії подібних документів.
Поширені проблеми та їх вирішення
Злиті комірки
Коли комірки охоплюють кілька рядків або стовпців, більшість інструментів або розміщують вміст у верхній лівій комірці, залишаючи інші порожніми, або зміщують усі наступні стовпці. Універсального рішення немає — формат CSV не має поняття злиття, тому інформація про злиття завжди втрачається.
Виправлення: Вилучіть таблицю, а потім вручну виправте артефакти злиття в Excel. Для повторюваних таблиць з однаковим шаблоном злиття розгляньте постобробний скрипт.
Багаторядковий вміст у комірках
Довгі описи, які переносяться в межах комірки, стають кількома рядками у виводі, зміщуючи всі наступні дані. Це найпоширеніша помилка вилучення для фінансових документів.
Виправлення: Після вилучення шукайте рядки, в яких відсутні дати та суми — це, ймовірно, рядки продовження, що належать до попереднього рядка. В Excel об'єднайте їх вручну або використовуйте допоміжну формулу.
Таблиці, що охоплюють кілька сторінок
Інструменти повинні визначити, де продовжується таблиця, чи слід видаляти повторювані заголовки та як фільтрувати нижні колонтитули сторінок. Багато інструментів обробляють кожну сторінку незалежно.
Виправлення: Якщо ваш інструмент надає результати посторінково, об'єднайте аркуші та видаліть повторювані рядки заголовків. Перевірте, чи останній рядок на сторінці N правильно з'єднується з першим рядком на сторінці N+1.
Проблеми з форматуванням валют
Від'ємні числа в дужках ((1,234.56)) вставляються як текст, а не числа. Символи валют та роздільники тисяч також порушують числове форматування.
Виправлення: Після вилучення виберіть стовпець сум і використовуйте «Знайти та замінити», щоб видалити символи $, (, ). Потім відформатуйте стовпець як Число. Для від'ємних чисел у дужках замініть ( на - та видаліть ), а потім конвертуйте у формат Число.
Неоднозначність дат
01/02/2026 — це 2 січня чи 1 лютого? Інструмент вилучення зберігає рядок як є, але Excel може перетлумачити його залежно від вашого регіону.
Виправлення: Перевірте вихідний PDF на наявність підказок щодо формату дати (шукайте дати зі значенням дня > 12). Встановіть формат дати Excel, щоб він відповідав вихідному перед імпортом.
Порівняння точності
| Метод | Прості з межами | Без меж | Напівмежові | Скановані PDF |
|---|---|---|---|---|
| PDFSub (координати + AI) | 90–99% | 75–95% | 70–95% | 85–95% (AI) |
| Power Query | 85–95% | 40–60% | 50–70% | Не підтримується |
| Adobe Acrobat | 90–95% | 70–80% | 70–85% | 80–90% |
| Tabula | ~68% | 55–70% | 50–65% | Не підтримується |
| Camelot | ~73% | 65–75% | 60–70% | Не підтримується |
| Копіювання-вставка | 30–50% | 10–30% | 10–30% | Неможливо |
Діапазони відображають варіації залежно від складності документа. Дані бенчмаркінгу з Procycons 2025 PDF Extraction Benchmark та досліджень порівняння Camelot.
Який метод слід використовувати?
| Сценарій | Найкращий метод | Чому |
|---|---|---|
| Швидке одноразове вилучення | PDFSub | Без встановлення, у браузері, безкоштовне вилучення за координатами |
| Проста таблиця з межами, Windows | Power Query | Вбудовано в Excel, без додаткових витрат |
| Сканований PDF | PDFSub (AI) або Adobe Acrobat | Потрібна можливість OCR |
| Конфіденційні фінансові дані | PDFSub | Обробка в браузері, файл ніколи не завантажується |
| Повторювана пакетна обробка | Python (pdfplumber) | Скриптовано, автоматизовано |
| Вже є Acrobat Pro | Adobe Acrobat | Вже платите, прості таблиці працюють добре |
| Одна невелика таблиця, без інструментів | Копіювання-вставка | Крайній захід, перевіряйте все |
Поради для найкращих результатів
Використовуйте нативні PDF. Завантажуйте документи з їхнього джерела, а не скануйте папір. Нативні PDF мають ідеальний текст, що робить вилучення значно точнішим.
Спочатку визначте тип таблиці. Таблиці з межами працюють майже з будь-яким інструментом. Таблиці без меж потребують потокового режиму або вилучення AI. Знання типу допоможе вам вибрати правильний метод заздалегідь.
Почніть з безкоштовних методів на основі правил. Спочатку спробуйте вилучення на основі координат. Переходьте до AI лише тоді, коли методи на основі правил дають погані результати — це заощаджує час і кредити.
Завжди перевіряйте результат. Перевіряйте кількість рядків, вирівнювання стовпців, числові значення та підсумки. Ніколи не довіряйте виводу вилучення сліпо.
Слідкуйте за форматуванням чисел. Після вилучення перевірте, чи числа насправді є числами в Excel (вирівняні праворуч), а не текстовими рядками (вирівняні ліворуч). Символи валют та від'ємні числа в дужках є поширеними причинами проблем.
Для конфіденційних даних надавайте перевагу інструментам на основі браузера. Фінансові звіти, банківські виписки та податкові документи містять конфіденційну інформацію. Інструменти, які обробляють PDF у вашому браузері, ніколи не завантажують ваш файл, усуваючи ризик витоку даних.
Спробуйте безкоштовно
Готові вилучити таблиці зі свого PDF? Завантажте файл зараз — PDFSub спочатку спробує вилучення на основі координат, з резервом AI для складних таблиць. Цифрові PDF обробляються повністю у вашому браузері. Почніть 7-денну безкоштовну пробну версію.