Como Extrair Tabelas de PDF para Excel: 5 Métodos Comparados
PDFs armazenam tabelas como fragmentos de texto dispersos em coordenadas x,y — sem linhas, sem colunas, sem células. Veja como obter esses dados em uma planilha, desde ferramentas gratuitas baseadas em navegador até scripts Python.
Você tem um PDF com uma tabela que precisa em Excel. Pode ser um relatório financeiro, um extrato bancário, uma fatura ou um artigo de pesquisa. Os dados estão ali — bem organizados em linhas e colunas na tela. Mas quando você tenta extraí-los, tudo se desfaz.
Isso acontece porque PDF não é um formato de dados. É um formato de exibição. Não existe o conceito de "tabela", "linha" ou "coluna" na especificação PDF. O que parece uma tabela estruturada são, na verdade, dezenas de fragmentos de texto posicionados em coordenadas x,y específicas em uma tela. Extrair essa estrutura de volta para uma planilha é um problema de engenharia reversa — e diferentes ferramentas lidam com isso com graus variados de sucesso.
Este guia abrange 5 métodos para extrair tabelas de PDFs, quando cada um funciona melhor e o que fazer quando as coisas dão errado.
Por Que a Extração de Tabelas de PDFs é Difícil
O Formato PDF Não Possui Tabelas
A especificação PDF (ISO 32000-2:2020) define um fluxo de conteúdo — uma sequência de operadores que posicionam caracteres individuais em coordenadas precisas. Uma linha de tabela simples como "Data | Descrição | Valor" pode ser armazenada como:
BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Material de Escritório) Tj 180 0 Td (125.00) Tj ET
Não há tags <table>, <tr> ou <td>. Nenhum identificador de linha. Nenhuma fronteira de coluna. As linhas visuais que você vê ao redor das células são operações de desenho separadas, completamente desconectadas do texto. Uma ferramenta de extração deve inferir toda a estrutura a partir de relações espaciais.
Três Tipos de Bordas de Tabela
Tabelas com Bordas (Grade) possuem linhas visíveis ao redor de cada célula. Estas são as mais fáceis de extrair porque as linhas definem explicitamente os limites das células. Comuns em demonstrações financeiras formais, formulários governamentais e relatórios padronizados.
Tabelas sem Bordas (Fluxo) não possuem linhas. A estrutura é definida inteiramente pelo alinhamento de espaços em branco — itens de texto que compartilham coordenadas x consistentes entre as linhas formam colunas implícitas. Comuns em artigos de pesquisa, faturas e catálogos de produtos.
Tabelas Semi-Bordadas possuem apenas bordas parciais — geralmente linhas horizontais entre seções, mas sem divisores verticais. Extremamente comuns em extratos bancários, relatórios de corretagem e contas de serviços públicos. Estas são as mais difíceis de extrair porque bordas parciais enganam os analisadores em modo grade, enquanto a ausência de bordas reduz a confiança do modo fluxo.
PDFs Marcados vs. Não Marcados
PDFs marcados incluem metadados estruturais que identificam títulos, parágrafos e células de tabela. PDFs não marcados não possuem nada disso — a ferramenta de extração recebe apenas coordenadas brutas. A grande maioria dos PDFs não são marcados, incluindo praticamente todos os extratos bancários, faturas e relatórios financeiros.
Método 1: PDFSub Extrair Tabelas (Gratuito + Fallback de IA)
A ferramenta Extrair Tabelas do PDFSub usa uma abordagem de três níveis que maximiza a precisão enquanto minimiza o custo:
Nível 1: Detecção Baseada em Coordenadas (Navegador, Gratuito)
A ferramenta primeiro tenta a extração inteiramente no seu navegador:
- Analisa o fluxo de conteúdo do PDF para extrair cada item de texto com suas coordenadas x,y
- Agrupa itens de texto em linhas com base na proximidade da coordenada y
- Analisa padrões de alinhamento de coordenadas x entre as linhas para detectar limites de coluna
- Requer um mínimo de 3 linhas, 2 colunas e 70%+ de confiança
Se tabelas boas forem encontradas, você obtém dados estruturados imediatamente — sem upload de servidor, sem consumo de créditos de IA e seu arquivo nunca sai do seu dispositivo.
Nível 2: Extração no Lado do Servidor (pdfplumber, Gratuito)
Se a detecção baseada em coordenadas não encontrar tabelas, a ferramenta usa pdfplumber (licença MIT) no servidor. Isso detecta linhas explícitas (bordas desenhadas) e linhas implícitas (padrões de alinhamento de palavras), encontra interseções, identifica retângulos e mapeia texto para células.
Nível 3: Extração por IA (Consome Créditos)
Para PDFs escaneados, layouts complexos ou tabelas que métodos baseados em regras não conseguem analisar, a ferramenta recorre à extração de visão baseada em IA. Você também pode ativar "Forçar extração por IA" para pular diretamente para este nível quando souber que a tabela é complexa.
Formatos de saída: Excel (.xlsx), CSV, JSON.
Melhor para: Extração rápida sem instalar software. PDFs digitais são processados inteiramente no seu navegador para máxima privacidade.
Método 2: Power Query no Excel (Apenas Windows)
Disponível no Excel 2019+ e Microsoft 365 no Windows: Dados → Obter Dados → De Arquivo → De PDF.
Como Funciona
- Clique em Dados → Obter Dados → De Arquivo → De PDF
- Selecione seu arquivo PDF
- O Power Query exibe um painel Navegador listando tabelas detectadas por página
- Selecione as tabelas desejadas, clique em Transformar Dados para limpar, e depois em Carregar
Pontos Fortes
- Integrado ao Excel — sem custo adicional para assinantes do Microsoft 365
- O motor de transformação do Power Query lida bem com o pós-processamento (preencher para baixo, dinamizar, mesclar colunas)
- Pode atualizar dados se o PDF de origem for atualizado
- Suporta a conexão de várias tabelas do mesmo PDF
Limitações
- Apenas Windows — não disponível no Excel para Mac, Excel Online ou mobile
- Luta com tabelas sem bordas — funciona melhor com tabelas claramente bordadas
- Sem OCR — não consegue extrair de PDFs escaneados/imagem
- Tabelas de várias páginas são problemáticas — cada página geralmente é importada como uma tabela separada, exigindo junção manual
- Linhas de várias linhas — texto quebrado dentro das células frequentemente se divide em várias linhas, exigindo limpeza
Melhor para: Usuários do Windows com Microsoft 365 que possuem tabelas simples e bordadas.
Método 3: Adobe Acrobat (Pago)
Arquivo → Exportar PDF → Planilha → Pasta de Trabalho do Microsoft Excel
Preços (2026)
- Acrobat Standard: R$ 59,90/mês (plano anual)
- Acrobat Pro: R$ 89,90/mês (plano anual)
- Exportar PDF (avulso): plano de conversão de menor custo
Pontos Fortes
- OCR integrado para documentos escaneados
- Geralmente preserva a formatação para tabelas bordadas simples
- Processamento em lote disponível no Pro
Limitações
- Caro apenas para extração de tabelas — R$ 718,80–R$ 1.078,80/ano
- Tabelas complexas com células mescladas e extensões de várias páginas ainda produzem resultados desalinhados
- Arquivos podem ser carregados na nuvem da Adobe para processamento — problemático para dados financeiros sensíveis
- Requer instalação no desktop
Melhor para: Usuários que já pagam pelo Acrobat Pro e precisam de exportações de tabelas ocasionais com OCR.
Método 4: Copiar-Colar (Manual)
A abordagem mais intuitiva — e a que falha com mais frequência para tabelas.
Problemas Comuns
- Todos os dados em uma coluna — a tabela inteira cola sem quebras de coluna
- Números se tornam texto — símbolos de moeda, parênteses e separadores quebram a formatação numérica
- Conteúdo de célula de várias linhas cria linhas fantasmas — uma descrição que se estende por duas linhas na célula se torna duas linhas separadas
- Cabeçalhos separados dos dados — a linha de cabeçalho é desconectada
- Colunas desalinhadas — os dados mudam porque o espaçamento de caracteres não se traduz em tabulações
Solução Parcial
Cole no Excel e use Dados → Texto para Colunas com delimitadores de espaço ou largura fixa. Habilite "Tratar delimitadores consecutivos como um só". Isso funciona para tabelas muito simples e bem espaçadas, mas falha para qualquer coisa com conteúdo de célula de várias palavras.
Melhor para: Extrair uma única tabela pequena e simples como último recurso.
Método 5: Bibliotecas Python (Para Desenvolvedores)
Três bibliotecas com licença MIT lidam com a extração de tabelas PDF programaticamente:
Tabula-py
Wrapper Python para Tabula (Java). Requer tempo de execução Java.
- Modo Grade para tabelas bordadas (encontra linhas e interseções)
- Modo Fluxo para tabelas sem bordas (usa alinhamento de texto)
- Bom para processamento em lote em scripts
- Sem suporte a OCR
Camelot
Também oferece modos grade e fluxo.
- Geralmente supera o Tabula para tabelas bordadas
- O modo fluxo tem mais parâmetros de configuração para ajuste fino
- Fornece relatórios de precisão com cada extração
- Requer dependência do Ghostscript. Sem suporte a OCR
pdfplumber
Abordagem baseada em coordenadas: extrai cada caractere com sua posição exata, depois infere a estrutura.
- Lida com a mais ampla gama de tipos de tabelas
- Oferece o maior controle, mas requer mais configuração
- Esta é a biblioteca que o PDFSub usa no lado do servidor
- Sem suporte a OCR
Melhor para: Desenvolvedores que automatizam fluxos de trabalho recorrentes de extração de tabelas, processando grandes lotes de documentos semelhantes.
Problemas Comuns e Como Resolvê-los
Células Mescladas
Quando células se estendem por várias linhas ou colunas, a maioria das ferramentas coloca o conteúdo na célula superior esquerda e deixa as outras vazias, ou desalinha todas as colunas subsequentes. Não há solução universal — o formato CSV não tem conceito de mesclagem, então a informação de mesclagem é sempre perdida.
Correção: Extraia a tabela e, em seguida, corrija manualmente os artefatos de mesclagem no Excel. Para tabelas recorrentes com o mesmo padrão de mesclagem, considere um script de pós-processamento.
Conteúdo de Várias Linhas Dentro das Células
Descrições longas que quebram dentro de uma célula se tornam várias linhas na saída, empurrando todos os dados subsequentes para fora do alinhamento. Este é o erro de extração mais comum para documentos financeiros.
Correção: Após a extração, procure por linhas que não tenham datas e valores — estas são provavelmente linhas de continuação que pertencem à linha acima. No Excel, mescle-as manualmente ou use uma fórmula auxiliar.
Tabelas que se Estendem por Várias Páginas
As ferramentas precisam determinar onde a tabela continua, se devem remover cabeçalhos repetidos e como filtrar rodapés de página. Muitas ferramentas tratam cada página independentemente.
Correção: Se sua ferramenta fornecer resultados por página, combine as planilhas e remova as linhas de cabeçalho repetidas. Verifique se a última linha da página N se conecta corretamente à primeira linha da página N+1.
Problemas de Formatação de Moeda
Números negativos entre parênteses ((1.234,56)) colam como texto, não como números. Símbolos de moeda e separadores de milhar também quebram a formatação numérica.
Correção: Após a extração, selecione a coluna de valores e use Localizar e Substituir para remover os caracteres R$, (, ). Em seguida, formate a coluna como Número. Para negativos entre parênteses, substitua ( por - e remova ), depois converta para o formato Número.
Ambiguidade de Data
01/02/2026 — é 2 de janeiro ou 1º de fevereiro? A ferramenta de extração preserva a string como está, mas o Excel pode reinterpretá-la com base na sua localidade.
Correção: Verifique o PDF de origem em busca de pistas sobre o formato da data (procure datas com valores de dia > 12). Defina o formato de data do Excel para corresponder à origem antes de importar.
Comparação de Precisão
| Método | Simples Bordada | Sem Bordas | Semi-Bordada | PDFs Escaneados |
|---|---|---|---|---|
| PDFSub (coordenada + IA) | 90–99% | 75–95% | 70–95% | 85–95% (IA) |
| Power Query | 85–95% | 40–60% | 50–70% | Não suportado |
| Adobe Acrobat | 90–95% | 70–80% | 70–85% | 80–90% |
| Tabula | ~68% | 55–70% | 50–65% | Não suportado |
| Camelot | ~73% | 65–75% | 60–70% | Não suportado |
| Copiar-colar | 30–50% | 10–30% | 10–30% | Impossível |
Intervalos refletem variações na complexidade do documento. Dados de referência do Benchmark de Extração de PDF da Procycons e estudos de comparação do Camelot.
Qual Método Usar?
| Cenário | Melhor Método | Por Quê |
|---|---|---|
| Extração rápida única | PDFSub | Sem instalação, baseado em navegador, extração gratuita por coordenadas |
| Tabela bordada simples, Windows | Power Query | Integrado ao Excel, sem custo adicional |
| PDF escaneado | PDFSub (IA) ou Adobe Acrobat | Necessita de capacidade OCR |
| Dados financeiros sensíveis | PDFSub | Processamento baseado em navegador, arquivo nunca é carregado |
| Processamento em lote recorrente | Python (pdfplumber) | Scriptável, automatizável |
| Já possui Acrobat Pro | Adobe Acrobat | Já está pagando, tabelas simples funcionam bem |
| Tabela pequena única, sem ferramentas | Copiar-colar | Último recurso, verifique tudo |
Dicas para Melhores Resultados
Use PDFs nativos. Baixe documentos de sua origem em vez de escanear papel. PDFs nativos possuem texto perfeito, tornando a extração dramaticamente mais precisa.
Identifique o tipo de tabela primeiro. Tabelas bordadas funcionam com quase qualquer ferramenta. Tabelas sem bordas precisam de modo fluxo ou extração por IA. Saber o tipo ajuda você a escolher o método certo antecipadamente.
Comece com métodos gratuitos e baseados em regras. Tente a extração baseada em coordenadas primeiro. Só escale para IA quando métodos baseados em regras produzirem resultados ruins — isso economiza tempo e créditos.
Sempre verifique a saída. Cheque a contagem de linhas, alinhamento de colunas, valores numéricos e totais. Nunca confie cegamente na saída da extração.
Fique atento à formatação de números. Após a extração, verifique se os números são realmente números no Excel (alinhados à direita), e não strings de texto (alinhados à esquerda). Símbolos de moeda e negativos entre parênteses são culpados comuns.
Para dados sensíveis, prefira ferramentas baseadas em navegador. Relatórios financeiros, extratos bancários e documentos fiscais contêm informações sensíveis. Ferramentas que processam PDFs no seu navegador nunca carregam seu arquivo, eliminando o risco de exposição de dados.
Experimente Grátis
Pronto para extrair tabelas do seu PDF? Faça o upload de um arquivo agora — o PDFSub tenta a extração gratuita baseada em coordenadas primeiro, com fallback de IA para tabelas complexas. PDFs digitais são processados inteiramente no seu navegador. Inicie um teste gratuito de 7 dias.