How to Extract Tables from PDF to Excel: 5 Methods Compared

Tienes un PDF con una tabla que necesitas en Excel. Podría ser un informe financiero, un extracto bancario, una factura o un artículo de investigación. Los datos están ahí, organizados de forma ordenada en filas y columnas en la pantalla. Pero cuando intentas extraerlos, todo se desmorona.

Esto sucede porque el PDF no es un formato de datos. Es un formato de visualización. No existe el concepto de "tabla", "fila" o "columna" en la especificación del PDF. Lo que parece una tabla estructurada son en realidad docenas de fragmentos de texto colocados en coordenadas x,y específicas en un lienzo. Extraer esa estructura de nuevo a una hoja de cálculo es un problema de ingeniería inversa, y diferentes herramientas lo manejan con distintos grados de éxito.

Esta guía cubre 5 métodos para extraer tablas de PDF, cuándo funciona mejor cada uno y qué hacer cuando las cosas van mal.

Por qué la extracción de tablas de PDF es difícil

5 Methods for Extracting PDF Tables to Excel - Accuracy Comparison

El formato PDF no tiene tablas

La especificación del PDF (ISO 32000-2:2020) define un flujo de contenido — una secuencia de operadores que posicionan caracteres individuales en coordenadas precisas. Una fila de tabla simple como "Fecha | Descripción | Importe" podría almacenarse como:

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Suministros de oficina) Tj 180 0 Td (125.00) Tj ET

No hay etiquetas <table>, <tr> o <td>. No hay identificadores de fila. No hay límites de columna. Las líneas visuales que ves alrededor de las celdas son operaciones de dibujo separadas, completamente desconectadas del texto. Una herramienta de extracción debe inferir toda la estructura a partir de las relaciones espaciales.

Tres tipos de bordes de tabla

Las tablas con bordes (enrejado) tienen líneas visibles alrededor de cada celda. Estas son las más fáciles de extraer porque las líneas definen explícitamente los límites de las celdas. Comunes en estados financieros formales, formularios gubernamentales e informes estandarizados.

Las tablas sin bordes (flujo) no tienen líneas en absoluto. La estructura se define enteramente por la alineación del espacio en blanco: los elementos de texto que comparten coordenadas x consistentes a través de las filas forman columnas implícitas. Comunes en artículos de investigación, facturas y catálogos de productos.

Las tablas semibordeada tienen solo bordes parciales — típicamente líneas horizontales entre secciones pero sin divisores verticales. Extremadamente comunes en extractos bancarios, informes de corredores y facturas de servicios públicos. Estas son las más difíciles de extraer porque los bordes parciales engañan a los analizadores en modo de enrejado, mientras que la ausencia de bordes reduce la confianza del modo de flujo.

PDF etiquetados vs. no etiquetados

Los PDF etiquetados incluyen metadatos estructurales que identifican encabezados, párrafos y celdas de tabla. Los PDF no etiquetados no tienen nada de esto; la herramienta de extracción solo recibe coordenadas brutas. La gran mayoría de los PDF no están etiquetados, incluyendo prácticamente todos los extractos bancarios, facturas e informes financieros.

Método 1: PDFSub Extraer Tablas (Gratis + Fallback de IA)

La herramienta Extraer Tablas de PDFSub utiliza un enfoque de tres niveles que maximiza la precisión y minimiza el costo:

Nivel 1: Detección basada en coordenadas (Navegador, Gratis)

La herramienta primero intenta la extracción completamente en tu navegador:

Analiza el flujo de contenido del PDF para extraer cada elemento de texto con sus coordenadas x,y
Agrupa los elementos de texto en líneas basándose en la proximidad de la coordenada y
Analiza los patrones de alineación de coordenadas x a través de las líneas para detectar los límites de las columnas
Requiere un mínimo de 3 filas, 2 columnas y una confianza del 70% o superior

Si se encuentran tablas buenas, obtienes datos estructurados inmediatamente — sin carga de servidor, sin consumo de créditos de IA y tu archivo nunca sale de tu dispositivo.

Nivel 2: Extracción del lado del servidor (pdfplumber, Gratis)

Si la detección basada en coordenadas no encuentra tablas, la herramienta utiliza pdfplumber (licencia MIT) en el servidor. Esto detecta tanto líneas explícitas (bordes dibujados) como líneas implícitas (patrones de alineación de palabras), encuentra intersecciones, identifica rectángulos y mapea texto a celdas.

Nivel 3: Extracción con IA (Consume créditos)

Para PDF escaneados, diseños complejos o tablas que los métodos basados en reglas no pueden analizar, la herramienta recurre a la extracción de visión impulsada por IA. También puedes activar "Forzar extracción con IA" para saltar directamente a este nivel cuando sepas que la tabla es compleja.

Formatos de salida: Excel (.xlsx), CSV, JSON.

Ideal para: Extracción rápida sin instalar software. Los PDF digitales se procesan completamente en tu navegador para máxima privacidad.

Método 2: Power Query en Excel (Solo Windows)

Disponible en Excel 2019+ y Microsoft 365 en Windows: Datos → Obtener datos → Desde archivo → Desde PDF.

Cómo funciona

Haz clic en Datos → Obtener datos → Desde archivo → Desde PDF
Selecciona tu archivo PDF
Power Query muestra un panel Navegador que lista las tablas detectadas por página
Selecciona las tablas que deseas, haz clic en Transformar datos para limpiar, y luego en Cargar

Fortalezas

Integrado en Excel — sin costo adicional para suscriptores de Microsoft 365
El motor de transformación de Power Query maneja bien el post-procesamiento (rellenar hacia abajo, pivotar, fusionar columnas)
Puede actualizar los datos si se actualiza el PDF de origen
Admite la conexión de múltiples tablas del mismo PDF

Limitaciones

Solo Windows — no disponible en Excel para Mac, Excel Online o móvil
Lucha con tablas sin bordes — funciona mejor con tablas claramente bordeada
Sin OCR — no puede extraer de PDF escaneados/imágenes
Tablas de varias páginas son problemáticas — cada página a menudo se importa como una tabla separada, lo que requiere unir manualmente
Filas de varias líneas — el texto que se envuelve dentro de las celdas a menudo se divide en varias filas, lo que requiere limpieza

Ideal para: Usuarios de Windows con Microsoft 365 que tienen tablas simples y bordeada.

Método 3: Adobe Acrobat (De pago)

Archivo → Exportar PDF → Hoja de cálculo → Libro de Microsoft Excel

Precios (2026)

Acrobat Standard: 12,99 $/mes (plan anual)
Acrobat Pro: 19,99 $/mes (plan anual)
Exportar PDF (independiente): plan de solo conversión de nivel inferior

Fortalezas

OCR incorporado para documentos escaneados
Generalmente conserva el formato para tablas bordeada simples
Procesamiento por lotes disponible en Pro

Limitaciones

Caro solo para extracción de tablas — 156–240 $/año
Las tablas complejas con celdas fusionadas y extensiones de varias páginas aún producen resultados desalineados
Los archivos pueden cargarse en la nube de Adobe para su procesamiento — problemático para datos financieros sensibles
Requiere instalación de escritorio

Ideal para: Usuarios que ya pagan por Acrobat Pro y necesitan exportaciones de tablas ocasionales con OCR.

Método 4: Copiar-Pegar (Manual)

El enfoque más intuitivo, y el que falla con más frecuencia para las tablas.

Problemas comunes

Todos los datos en una columna — toda la tabla se pega sin saltos de columna
Los números se convierten en texto — los símbolos de moneda, los paréntesis y los separadores rompen el formato numérico
Contenido de celda de varias líneas crea filas fantasma — una descripción que se envuelve en dos líneas en la celda se convierte en dos filas separadas
Encabezados separados de los datos — la fila de encabezado se desconecta
Columnas desalineadas — los datos se desplazan porque el espaciado de caracteres no se traduce a tabulaciones

Solución parcial

Pega en Excel, luego usa Datos → Texto en columnas con delimitadores de espacio o de ancho fijo. Habilita "Tratar delimitadores consecutivos como uno solo". Esto funciona para tablas muy simples y bien espaciadas, pero falla para cualquier cosa con contenido de celda de varias palabras.

Ideal para: Extraer una tabla pequeña y simple como último recurso.

Método 5: Bibliotecas de Python (Para desarrolladores)

Tres bibliotecas con licencia MIT manejan la extracción de tablas de PDF mediante programación:

Tabula-py

Envoltorio de Python para Tabula (Java). Requiere tiempo de ejecución de Java.

Modo enrejado para tablas con bordes (encuentra líneas e intersecciones)
Modo flujo para tablas sin bordes (usa alineación de texto)
Bueno para procesamiento por lotes en scripts
Sin soporte OCR

Camelot

También ofrece modos enrejado y flujo.

Generalmente supera a Tabula para tablas con bordes
El modo flujo tiene más parámetros de configuración para ajustes finos
Proporciona informes de precisión con cada extracción
Requiere dependencia de Ghostscript. Sin soporte OCR

pdfplumber

Enfoque basado en coordenadas: extrae cada carácter con su posición exacta, luego infiere la estructura.

Maneja la gama más amplia de tipos de tablas
Ofrece el mayor control pero requiere más configuración
Esta es la biblioteca que PDFSub utiliza en el lado del servidor
Sin soporte OCR

Ideal para: Desarrolladores que automatizan flujos de trabajo de extracción de tablas recurrentes, procesando grandes lotes de documentos similares.

Problemas comunes y cómo resolverlos

Celdas fusionadas

Cuando las celdas abarcan varias filas o columnas, la mayoría de las herramientas colocan el contenido en la celda superior izquierda y dejan las otras vacías, o desalinean todas las columnas subsiguientes. No hay una solución universal: el formato CSV no tiene concepto de fusión, por lo que la información de fusión siempre se pierde.

Solución: Extrae la tabla y luego corrige manualmente los artefactos de fusión en Excel. Para tablas recurrentes con el mismo patrón de fusión, considera un script de post-procesamiento.

Contenido de varias líneas dentro de las celdas

Las descripciones largas que se envuelven dentro de una celda se convierten en varias filas en la salida, desplazando todos los datos subsiguientes fuera de alineación. Este es el error de extracción más común para documentos financieros.

Solución: Después de la extracción, busca filas a las que les falten fechas e importes; es probable que sean líneas de continuación que pertenecen a la fila anterior. En Excel, fusionarlas manualmente o usar una fórmula auxiliar.

Tablas que abarcan varias páginas

Las herramientas deben determinar dónde continúa la tabla, si se deben eliminar los encabezados repetidos y cómo filtrar los pies de página. Muchas herramientas tratan cada página de forma independiente.

Solución: Si tu herramienta proporciona resultados por página, combina las hojas y elimina las filas de encabezado repetidas. Comprueba que la última fila de la página N se conecte correctamente con la primera fila de la página N+1.

Problemas de formato de moneda

Los números negativos entre paréntesis ((1.234,56)) se pegan como texto, no como números. Los símbolos de moneda y los separadores de miles también rompen el formato numérico.

Solución: Después de la extracción, selecciona la columna de importes y usa Buscar y Reemplazar para eliminar los caracteres $, (, ). Luego, formatea la columna como Número. Para negativos entre paréntesis, reemplaza ( por - y elimina ), luego convierte al formato Número.

Ambigüedad de fecha

01/02/2026 — ¿es el 2 de enero o el 1 de febrero? La herramienta de extracción conserva la cadena tal cual, pero Excel puede reinterpretarla según tu configuración regional.

Solución: Busca pistas del formato de fecha en el PDF de origen (busca fechas con valores de día > 12). Configura el formato de fecha de Excel para que coincida con el de origen antes de importar.

Comparación de precisión

Método	Simple con bordes	Sin bordes	Semi-bordeada	PDF escaneados
PDFSub (coordenadas + IA)	90–99%	75–95%	70–95%	85–95% (IA)
Power Query	85–95%	40–60%	50–70%	No soportado
Adobe Acrobat	90–95%	70–80%	70–85%	80–90%
Tabula	~68%	55–70%	50–65%	No soportado
Camelot	~73%	65–75%	60–70%	No soportado
Copiar-pegar	30–50%	10–30%	10–30%	No posible

Los rangos reflejan la variación según la complejidad del documento. Datos de referencia del Benchmark de Extracción de PDF de Procyons 2025 y estudios de comparación de Camelot.

¿Qué método deberías usar?

Escenario	Mejor método	Por qué
Extracción rápida única	PDFSub	Sin instalación, basado en navegador, extracción gratuita por coordenadas
Tabla simple con bordes, Windows	Power Query	Integrado en Excel, sin costo adicional
PDF escaneado	PDFSub (IA) o Adobe Acrobat	Necesita capacidad OCR
Datos financieros sensibles	PDFSub	Procesamiento basado en navegador, el archivo nunca se carga
Procesamiento por lotes recurrente	Python (pdfplumber)	Scriptable, automatizable
Ya tienes Acrobat Pro	Adobe Acrobat	Ya estás pagando, las tablas simples funcionan bien
Tabla pequeña única, sin herramientas	Copiar-pegar	Último recurso, verifica todo

Consejos para obtener los mejores resultados

Usa PDF nativos. Descarga los documentos de su fuente en lugar de escanear papel. Los PDF nativos tienen texto perfecto, lo que hace que la extracción sea drásticamente más precisa.

Identifica primero el tipo de tabla. Las tablas con bordes funcionan con casi cualquier herramienta. Las tablas sin bordes necesitan modo flujo o extracción con IA. Conocer el tipo te ayuda a elegir el método correcto de antemano.

Comienza con métodos gratuitos basados en reglas. Prueba primero la extracción basada en coordenadas. Solo escala a IA cuando los métodos basados en reglas produzcan resultados deficientes; esto ahorra tiempo y créditos.

Siempre verifica la salida. Comprueba el recuento de filas, la alineación de columnas, los valores numéricos y los totales. Nunca confíes ciegamente en la salida de extracción.

Presta atención al formato de los números. Después de la extracción, verifica que los números sean realmente números en Excel (alineados a la derecha), no cadenas de texto (alineados a la izquierda). Los símbolos de moneda y los negativos entre paréntesis son culpables comunes.

Para datos sensibles, prefiere herramientas basadas en navegador. Los informes financieros, extractos bancarios y documentos fiscales contienen información sensible. Las herramientas que procesan PDF en tu navegador nunca suben tu archivo, eliminando el riesgo de exposición de datos.

Pruébalo gratis

¿Listo para extraer tablas de tu PDF? Sube un archivo ahora — PDFSub intenta primero la extracción gratuita basada en coordenadas, con fallback de IA para tablas complejas. Los PDF digitales se procesan completamente en tu navegador. Comienza una prueba gratuita de 7 días.

How to Extract Tables from PDF to Excel: 5 Methods Compared

Esta guía cubre 5 métodos para extraer tablas de PDF, cuándo funciona mejor cada uno y qué hacer cuando las cosas van mal.

Por qué la extracción de tablas de PDF es difícil

5 Methods for Extracting PDF Tables to Excel - Accuracy Comparison

El formato PDF no tiene tablas

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Suministros de oficina) Tj 180 0 Td (125.00) Tj ET

Tres tipos de bordes de tabla

PDF etiquetados vs. no etiquetados

Método 1: PDFSub Extraer Tablas (Gratis + Fallback de IA)

La herramienta Extraer Tablas de PDFSub utiliza un enfoque de tres niveles que maximiza la precisión y minimiza el costo:

Nivel 1: Detección basada en coordenadas (Navegador, Gratis)

La herramienta primero intenta la extracción completamente en tu navegador:

Analiza el flujo de contenido del PDF para extraer cada elemento de texto con sus coordenadas x,y
Agrupa los elementos de texto en líneas basándose en la proximidad de la coordenada y
Analiza los patrones de alineación de coordenadas x a través de las líneas para detectar los límites de las columnas
Requiere un mínimo de 3 filas, 2 columnas y una confianza del 70% o superior

Si se encuentran tablas buenas, obtienes datos estructurados inmediatamente — sin carga de servidor, sin consumo de créditos de IA y tu archivo nunca sale de tu dispositivo.

Nivel 2: Extracción del lado del servidor (pdfplumber, Gratis)

Nivel 3: Extracción con IA (Consume créditos)

Formatos de salida: Excel (.xlsx), CSV, JSON.

Ideal para: Extracción rápida sin instalar software. Los PDF digitales se procesan completamente en tu navegador para máxima privacidad.

Método 2: Power Query en Excel (Solo Windows)

Disponible en Excel 2019+ y Microsoft 365 en Windows: Datos → Obtener datos → Desde archivo → Desde PDF.

Cómo funciona

Haz clic en Datos → Obtener datos → Desde archivo → Desde PDF
Selecciona tu archivo PDF
Power Query muestra un panel Navegador que lista las tablas detectadas por página
Selecciona las tablas que deseas, haz clic en Transformar datos para limpiar, y luego en Cargar

Fortalezas

Integrado en Excel — sin costo adicional para suscriptores de Microsoft 365
El motor de transformación de Power Query maneja bien el post-procesamiento (rellenar hacia abajo, pivotar, fusionar columnas)
Puede actualizar los datos si se actualiza el PDF de origen
Admite la conexión de múltiples tablas del mismo PDF

Limitaciones

Solo Windows — no disponible en Excel para Mac, Excel Online o móvil
Lucha con tablas sin bordes — funciona mejor con tablas claramente bordeada
Sin OCR — no puede extraer de PDF escaneados/imágenes
Tablas de varias páginas son problemáticas — cada página a menudo se importa como una tabla separada, lo que requiere unir manualmente
Filas de varias líneas — el texto que se envuelve dentro de las celdas a menudo se divide en varias filas, lo que requiere limpieza

Ideal para: Usuarios de Windows con Microsoft 365 que tienen tablas simples y bordeada.

Método 3: Adobe Acrobat (De pago)

Archivo → Exportar PDF → Hoja de cálculo → Libro de Microsoft Excel

Precios (2026)

Acrobat Standard: 12,99 $/mes (plan anual)
Acrobat Pro: 19,99 $/mes (plan anual)
Exportar PDF (independiente): plan de solo conversión de nivel inferior

Fortalezas

OCR incorporado para documentos escaneados
Generalmente conserva el formato para tablas bordeada simples
Procesamiento por lotes disponible en Pro

Limitaciones

Caro solo para extracción de tablas — 156–240 $/año
Las tablas complejas con celdas fusionadas y extensiones de varias páginas aún producen resultados desalineados
Los archivos pueden cargarse en la nube de Adobe para su procesamiento — problemático para datos financieros sensibles
Requiere instalación de escritorio

Ideal para: Usuarios que ya pagan por Acrobat Pro y necesitan exportaciones de tablas ocasionales con OCR.

Método 4: Copiar-Pegar (Manual)

El enfoque más intuitivo, y el que falla con más frecuencia para las tablas.

Problemas comunes

Todos los datos en una columna — toda la tabla se pega sin saltos de columna
Los números se convierten en texto — los símbolos de moneda, los paréntesis y los separadores rompen el formato numérico
Contenido de celda de varias líneas crea filas fantasma — una descripción que se envuelve en dos líneas en la celda se convierte en dos filas separadas
Encabezados separados de los datos — la fila de encabezado se desconecta
Columnas desalineadas — los datos se desplazan porque el espaciado de caracteres no se traduce a tabulaciones

Solución parcial

Ideal para: Extraer una tabla pequeña y simple como último recurso.

Método 5: Bibliotecas de Python (Para desarrolladores)

Tres bibliotecas con licencia MIT manejan la extracción de tablas de PDF mediante programación:

Tabula-py

Envoltorio de Python para Tabula (Java). Requiere tiempo de ejecución de Java.

Modo enrejado para tablas con bordes (encuentra líneas e intersecciones)
Modo flujo para tablas sin bordes (usa alineación de texto)
Bueno para procesamiento por lotes en scripts
Sin soporte OCR

Camelot

También ofrece modos enrejado y flujo.

Generalmente supera a Tabula para tablas con bordes
El modo flujo tiene más parámetros de configuración para ajustes finos
Proporciona informes de precisión con cada extracción
Requiere dependencia de Ghostscript. Sin soporte OCR

pdfplumber

Enfoque basado en coordenadas: extrae cada carácter con su posición exacta, luego infiere la estructura.

Maneja la gama más amplia de tipos de tablas
Ofrece el mayor control pero requiere más configuración
Esta es la biblioteca que PDFSub utiliza en el lado del servidor
Sin soporte OCR

Ideal para: Desarrolladores que automatizan flujos de trabajo de extracción de tablas recurrentes, procesando grandes lotes de documentos similares.

Problemas comunes y cómo resolverlos

Celdas fusionadas

Solución: Extrae la tabla y luego corrige manualmente los artefactos de fusión en Excel. Para tablas recurrentes con el mismo patrón de fusión, considera un script de post-procesamiento.

Contenido de varias líneas dentro de las celdas

Tablas que abarcan varias páginas

Problemas de formato de moneda

Los números negativos entre paréntesis ((1.234,56)) se pegan como texto, no como números. Los símbolos de moneda y los separadores de miles también rompen el formato numérico.

Ambigüedad de fecha

01/02/2026 — ¿es el 2 de enero o el 1 de febrero? La herramienta de extracción conserva la cadena tal cual, pero Excel puede reinterpretarla según tu configuración regional.

Comparación de precisión

Método	Simple con bordes	Sin bordes	Semi-bordeada	PDF escaneados
PDFSub (coordenadas + IA)	90–99%	75–95%	70–95%	85–95% (IA)
Power Query	85–95%	40–60%	50–70%	No soportado
Adobe Acrobat	90–95%	70–80%	70–85%	80–90%
Tabula	~68%	55–70%	50–65%	No soportado
Camelot	~73%	65–75%	60–70%	No soportado
Copiar-pegar	30–50%	10–30%	10–30%	No posible

Los rangos reflejan la variación según la complejidad del documento. Datos de referencia del Benchmark de Extracción de PDF de Procyons 2025 y estudios de comparación de Camelot.

¿Qué método deberías usar?

Escenario	Mejor método	Por qué
Extracción rápida única	PDFSub	Sin instalación, basado en navegador, extracción gratuita por coordenadas
Tabla simple con bordes, Windows	Power Query	Integrado en Excel, sin costo adicional
PDF escaneado	PDFSub (IA) o Adobe Acrobat	Necesita capacidad OCR
Datos financieros sensibles	PDFSub	Procesamiento basado en navegador, el archivo nunca se carga
Procesamiento por lotes recurrente	Python (pdfplumber)	Scriptable, automatizable
Ya tienes Acrobat Pro	Adobe Acrobat	Ya estás pagando, las tablas simples funcionan bien
Tabla pequeña única, sin herramientas	Copiar-pegar	Último recurso, verifica todo

Consejos para obtener los mejores resultados

Usa PDF nativos. Descarga los documentos de su fuente en lugar de escanear papel. Los PDF nativos tienen texto perfecto, lo que hace que la extracción sea drásticamente más precisa.

Siempre verifica la salida. Comprueba el recuento de filas, la alineación de columnas, los valores numéricos y los totales. Nunca confíes ciegamente en la salida de extracción.