PDFSub
PreciosMergeSplitCompressEditE-SignExtractos bancarios
Volver al blog
TutorialExcelTablasHerramientas PDF

Cómo extraer tablas de PDF a Excel: 5 métodos comparados

28 de febrero de 2026
PDFSub Team

Los PDF almacenan tablas como fragmentos de texto dispersos en coordenadas x,y — sin filas, sin columnas, sin celdas. Aquí te mostramos cómo obtener esos datos en una hoja de cálculo, desde herramientas gratuitas basadas en navegador hasta scripts de Python.


PDFFechaDescripciónImporte01/15Payment Recv$1,250.0001/16Office Supply-$85.0001/18Wire Transfer$3,400.0001/20Utility Bill-$142.5001/22Client Inv$2,100.00ExtraerExcelABCD1234567FechaDescripciónImporteBalance01/15/2026Payment Recv$1,250.00$5,25001/16/2026Office Supply-$85.00$5,16501/18/2026Wire Transfer$3,400.00$8,56501/20/2026Utility Bill-$142.50$8,42301/22/2026Client Inv$2,100.00$10,523Extraer tablas de PDF a ExcelDetecta y extrae automáticamente datos de tablas estructuradas

Tienes un PDF con una tabla que necesitas en Excel. Podría ser un informe financiero, un extracto bancario, una factura o un artículo de investigación. Los datos están ahí, organizados pulcramente en filas y columnas en la pantalla. Pero cuando intentas sacarlos, todo se desmorona.

Esto sucede porque el PDF no es un formato de datos. Es un formato de visualización. No existe el concepto de "tabla", "fila" o "columna" en la especificación del PDF. Lo que parece una tabla estructurada son en realidad docenas de fragmentos de texto colocados en coordenadas x,y específicas en un lienzo. Extraer esa estructura de nuevo a una hoja de cálculo es un problema de ingeniería inversa, y diferentes herramientas lo manejan con distintos grados de éxito.

Esta guía cubre 5 métodos para extraer tablas de PDF, cuándo funciona mejor cada uno y qué hacer cuando las cosas van mal.

Por qué la extracción de tablas de PDF es difícil

5 Methods for Extracting PDF Tables to ExcelAccuracy comparison across table types — choose the right tool for your PDFMethodBordered TablesBorderless TablesScanned PDFsCostPDFSub (Free+AI)★90–99%75–95%85–95%FreePower Query85–95%40–60%N/A$0 (built-in)Adobe Acrobat90–95%70–80%80–90%$240/yrTabula/Camelot68–73%55–75%N/AFreeCopy-Paste30–50%10–30%0%FreeHigh (80%+)Medium (50–79%)Low (<50%)Not supported★ Recommended for sensitive financial data

El formato PDF no tiene tablas

La especificación PDF (ISO 32000-2:2020) define un flujo de contenido — una secuencia de operadores que posicionan caracteres individuales en coordenadas precisas. Una fila de tabla simple como "Fecha | Descripción | Importe" podría almacenarse como:

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Suministros de oficina) Tj 180 0 Td (125.00) Tj ET

No hay etiquetas <table>, <tr> o <td>. No hay identificadores de fila. No hay límites de columna. Las líneas visuales que ves alrededor de las celdas son operaciones de dibujo separadas y completamente desconectadas del texto. Una herramienta de extracción debe inferir toda la estructura a partir de las relaciones espaciales.

Tres tipos de bordes de tabla

Las tablas con bordes (rejilla) tienen líneas visibles alrededor de cada celda. Estas son las más fáciles de extraer porque las líneas definen explícitamente los límites de las celdas. Comunes en estados financieros formales, formularios gubernamentales e informes estandarizados.

Las tablas sin bordes (flujo) no tienen líneas en absoluto. La estructura se define completamente por la alineación del espacio en blanco: los elementos de texto que comparten coordenadas x consistentes a través de las filas forman columnas implícitas. Comunes en artículos de investigación, facturas y catálogos de productos.

Las tablas semibordeada tienen solo bordes parciales — típicamente líneas horizontales entre secciones pero sin divisores verticales. Extremadamente comunes en extractos bancarios, informes de corretaje y facturas de servicios públicos. Estas son las más difíciles de extraer porque los bordes parciales engañan a los analizadores en modo rejilla, mientras que la falta de bordes reduce la confianza del modo flujo.

PDF etiquetados vs. no etiquetados

Los PDF etiquetados incluyen metadatos estructurales que identifican encabezados, párrafos y celdas de tabla. Los PDF no etiquetados no tienen nada de esto — la herramienta de extracción solo obtiene coordenadas brutas. La gran mayoría de los PDF no están etiquetados, incluyendo prácticamente todos los extractos bancarios, facturas e informes financieros.


Método 1: PDFSub Extraer Tablas (Gratis + Fallback de IA)

La herramienta Extraer Tablas de PDFSub utiliza un enfoque de tres niveles que maximiza la precisión y minimiza el costo:

Nivel 1: Detección basada en coordenadas (Navegador, Gratis)

La herramienta primero intenta la extracción completamente en tu navegador:

  • Analiza el flujo de contenido del PDF para extraer cada elemento de texto con sus coordenadas x,y
  • Agrupa los elementos de texto en líneas según la proximidad de la coordenada y
  • Analiza los patrones de alineación de coordenadas x entre líneas para detectar los límites de las columnas
  • Requiere un mínimo de 3 filas, 2 columnas y un 70% de confianza

Si se encuentran tablas buenas, obtienes datos estructurados de inmediato — sin carga de servidor, sin consumo de créditos de IA y tu archivo nunca sale de tu dispositivo.

Nivel 2: Extracción del lado del servidor (pdfplumber, Gratis)

Si la detección basada en coordenadas no encuentra tablas, la herramienta utiliza pdfplumber (licencia MIT) en el servidor. Esto detecta tanto líneas explícitas (bordes dibujados) como líneas implícitas (patrones de alineación de palabras), encuentra intersecciones, identifica rectángulos y mapea texto a celdas.

Nivel 3: Extracción de IA (Consume Créditos)

Para PDF escaneados, diseños complejos o tablas que los métodos basados en reglas no pueden analizar, la herramienta recurre a la extracción de visión basada en IA. También puedes activar "Forzar extracción de IA" para saltar directamente a este nivel cuando sepas que la tabla es compleja.

Formatos de salida: Excel (.xlsx), CSV, JSON.

Ideal para: Extracción rápida sin instalar software. Los PDF digitales se procesan completamente en tu navegador para máxima privacidad.


Método 2: Power Query en Excel (Solo Windows)

Disponible en Excel 2019+ y Microsoft 365 en Windows: Datos → Obtener datos → Desde archivo → Desde PDF.

Cómo funciona

  1. Haz clic en Datos → Obtener datos → Desde archivo → Desde PDF
  2. Selecciona tu archivo PDF
  3. Power Query muestra un panel del Navegador que lista las tablas detectadas por página
  4. Selecciona las tablas que deseas, haz clic en Transformar datos para limpiar, y luego en Cargar

Fortalezas

  • Integrado en Excel — sin costo adicional para suscriptores de Microsoft 365
  • El motor de transformación de Power Query maneja bien el post-procesamiento (rellenar hacia abajo, pivotar, fusionar columnas)
  • Puede actualizar datos si se actualiza el PDF de origen
  • Admite la conexión de múltiples tablas del mismo PDF

Limitaciones

  • Solo Windows — no disponible en Excel para Mac, Excel Online o móvil
  • Lucha con tablas sin bordes — funciona mejor con tablas claramente bordeada
  • Sin OCR — no puede extraer de PDF escaneados/imágenes
  • Tablas de varias páginas son problemáticas — cada página a menudo se importa como una tabla separada, lo que requiere una unión manual
  • Filas de varias líneas — el texto que se ajusta dentro de las celdas a menudo se divide en varias filas, lo que requiere limpieza

Ideal para: Usuarios de Windows con Microsoft 365 que tienen tablas simples y bordeada.


Método 3: Adobe Acrobat (Pago)

Archivo → Exportar PDF → Hoja de cálculo → Libro de Microsoft Excel

Precios (2026)

  • Acrobat Standard: $12.99/mes (plan anual)
  • Acrobat Pro: $19.99/mes (plan anual)
  • Exportar PDF (independiente): plan de solo conversión de nivel inferior

Fortalezas

  • OCR incorporado para documentos escaneados
  • Generalmente conserva el formato para tablas bordeada simples
  • Procesamiento por lotes disponible en Pro

Limitaciones

  • Caro solo para extracción de tablas — $156–$240/año
  • Las tablas complejas con celdas fusionadas y extensiones de varias páginas aún producen resultados desalineados
  • Los archivos pueden cargarse en la nube de Adobe para su procesamiento — problemático para datos financieros sensibles
  • Requiere instalación de escritorio

Ideal para: Usuarios que ya pagan por Acrobat Pro y necesitan exportaciones de tablas ocasionales con OCR.


Método 4: Copiar-Pegar (Manual)

El enfoque más intuitivo — y el que falla con más frecuencia para las tablas.

Problemas comunes

  • Todos los datos en una columna — la tabla completa se pega sin saltos de columna
  • Los números se convierten en texto — los símbolos de moneda, paréntesis y separadores rompen el formato numérico
  • Contenido de celda de varias líneas crea filas fantasma — una descripción que se ajusta en dos líneas en la celda se convierte en dos filas separadas
  • Encabezados separados de los datos — la fila de encabezado se desconecta
  • Columnas desalineadas — los datos se desplazan porque el espaciado de caracteres no se traduce a tabulaciones

Solución parcial

Pega en Excel, luego usa Datos → Texto en columnas con delimitadores de espacio o de ancho fijo. Habilita "Tratar delimitadores consecutivos como uno solo". Esto funciona para tablas muy simples y bien espaciadas, pero falla para cualquier cosa con contenido de celda de varias palabras.

Ideal para: Extraer una tabla pequeña y simple como último recurso.


Método 5: Bibliotecas de Python (Para desarrolladores)

Tres bibliotecas con licencia MIT manejan la extracción de tablas de PDF programáticamente:

Tabula-py

Envoltorio de Python para Tabula (Java). Requiere tiempo de ejecución de Java.

  • Modo rejilla para tablas bordeada (encuentra líneas e intersecciones)
  • Modo flujo para tablas sin bordes (usa alineación de texto)
  • Bueno para procesamiento por lotes en scripts
  • Sin soporte OCR

Camelot

También ofrece modos rejilla y flujo.

  • Generalmente supera a Tabula para tablas bordeada
  • El modo flujo tiene más parámetros de configuración para ajustes finos
  • Proporciona informes de precisión con cada extracción
  • Requiere dependencia de Ghostscript. Sin soporte OCR

pdfplumber

Enfoque basado en coordenadas: extrae cada carácter con su posición exacta, luego infiere la estructura.

  • Maneja la gama más amplia de tipos de tablas
  • Ofrece el mayor control pero requiere más configuración
  • Esta es la biblioteca que PDFSub usa en el lado del servidor
  • Sin soporte OCR

Ideal para: Desarrolladores que automatizan flujos de trabajo de extracción de tablas recurrentes, procesando grandes lotes de documentos similares.


Problemas comunes y cómo resolverlos

Celdas fusionadas

Cuando las celdas abarcan varias filas o columnas, la mayoría de las herramientas colocan el contenido en la celda superior izquierda y dejan las otras vacías, o desalinean todas las columnas subsiguientes. No hay una solución universal — el formato CSV no tiene concepto de fusión, por lo que la información de fusión siempre se pierde.

Solución: Extrae la tabla, y luego corrige manualmente los artefactos de fusión en Excel. Para tablas recurrentes con el mismo patrón de fusión, considera un script de post-procesamiento.

Contenido de varias líneas dentro de las celdas

Las descripciones largas que se ajustan dentro de una celda se convierten en varias filas en la salida, desalineando todos los datos subsiguientes. Este es el error de extracción más común para documentos financieros.

Solución: Después de la extracción, busca filas a las que les falten fechas e importes — estas son probablemente líneas de continuación que pertenecen a la fila anterior. En Excel, fusionarlas manualmente o usar una fórmula auxiliar.

Tablas que abarcan varias páginas

Las herramientas deben determinar dónde continúa la tabla, si deben eliminar encabezados repetidos y cómo filtrar los pies de página. Muchas herramientas tratan cada página de forma independiente.

Solución: Si tu herramienta proporciona resultados por página, combina las hojas y elimina las filas de encabezado repetidas. Verifica que la última fila de la página N se conecte correctamente con la primera fila de la página N+1.

Problemas de formato de moneda

Los números negativos entre paréntesis ((1,234.56)) se pegan como texto, no como números. Los símbolos de moneda y los separadores de miles también rompen el formato numérico.

Solución: Después de la extracción, selecciona la columna de importes y usa Buscar y Reemplazar para eliminar los caracteres $, ( y ). Luego, formatea la columna como Número. Para negativos entre paréntesis, reemplaza ( por - y elimina ), luego convierte al formato Número.

Ambigüedad de fechas

01/02/2026 — ¿es enero 2 o febrero 1? La herramienta de extracción conserva la cadena tal cual, pero Excel puede reinterpretarla según tu configuración regional.

Solución: Busca pistas del formato de fecha en el PDF de origen (busca fechas con valores de día > 12). Establece el formato de fecha de Excel para que coincida con el origen antes de importar.


Comparación de precisión

Método Simple con bordes Sin bordes Semibordeada PDF escaneados
PDFSub (coordenadas + IA) 90–99% 75–95% 70–95% 85–95% (IA)
Power Query 85–95% 40–60% 50–70% No compatible
Adobe Acrobat 90–95% 70–80% 70–85% 80–90%
Tabula ~68% 55–70% 50–65% No compatible
Camelot ~73% 65–75% 60–70% No compatible
Copiar-pegar 30–50% 10–30% 10–30% No es posible

Los rangos reflejan la variación según la complejidad del documento. Datos de referencia del Benchmark de Extracción de PDF de Procyons 2025 y estudios de comparación de Camelot.


¿Qué método deberías usar?

Escenario Mejor método Por qué
Extracción rápida única PDFSub Sin instalación, basado en navegador, extracción gratuita por coordenadas
Tabla bordeada simple, Windows Power Query Integrado en Excel, sin costo adicional
PDF escaneado PDFSub (IA) o Adobe Acrobat Necesita capacidad OCR
Datos financieros sensibles PDFSub Procesamiento basado en navegador, el archivo nunca se sube
Procesamiento por lotes recurrente Python (pdfplumber) Scriptable, automatizable
Ya tienes Acrobat Pro Adobe Acrobat Ya pagas, las tablas simples funcionan bien
Tabla pequeña única, sin herramientas Copiar-pegar Último recurso, verifica todo

Consejos para obtener los mejores resultados

Usa PDF nativos. Descarga los documentos de su fuente en lugar de escanear papel. Los PDF nativos tienen texto perfecto, lo que hace que la extracción sea drásticamente más precisa.

Identifica primero el tipo de tabla. Las tablas bordeada funcionan con casi cualquier herramienta. Las tablas sin bordes necesitan modo flujo o extracción de IA. Conocer el tipo te ayuda a elegir el método correcto desde el principio.

Comienza con métodos gratuitos y basados en reglas. Prueba primero la extracción basada en coordenadas. Solo escala a IA cuando los métodos basados en reglas produzcan resultados deficientes — esto ahorra tiempo y créditos.

Siempre verifica la salida. Comprueba el recuento de filas, la alineación de columnas, los valores numéricos y los totales. Nunca confíes ciegamente en la salida de extracción.

Presta atención al formato de los números. Después de la extracción, verifica que los números sean realmente números en Excel (alineados a la derecha), no cadenas de texto (alineadas a la izquierda). Los símbolos de moneda y los negativos entre paréntesis son culpables comunes.

Para datos sensibles, prefiere herramientas basadas en navegador. Los informes financieros, extractos bancarios y documentos fiscales contienen información sensible. Las herramientas que procesan PDF en tu navegador nunca suben tu archivo, eliminando el riesgo de exposición de datos.


Pruébalo gratis

¿Listo para extraer tablas de tu PDF? Sube un archivo ahora — PDFSub intenta primero la extracción gratuita basada en coordenadas, con fallback de IA para tablas complejas. Los PDF digitales se procesan completamente en tu navegador. Inicia una prueba gratuita de 7 días.

Volver al blog

¿Tienes preguntas? Contáctanos

PDFSub

Todas las herramientas para PDF y documentos que necesitas en un solo lugar. Rápido, seguro y privado.

Cumple con el GDPRCumple con la CCPASOC 2 Ready
Powered by PDFSub Engine

Herramientas PDF

  • Unir PDFs
  • Dividir PDF
  • Reordenar páginas
  • Rotar PDF
  • Eliminar páginas
  • Extraer páginas
  • Añadir marca de agua
  • Editar PDF
  • Sellar PDF
  • Rellenar formularios PDF
  • Recortar páginas
  • Cambiar tamaño de página
  • Añadir números de página
  • Encabezados y pies de página
  • Comprimir PDF
  • Hacer que se pueda buscar
  • Clean Scanned PDF
  • Photo to Document
  • Auto-Crop PDF
  • Reparar PDF
  • Editar metadatos
  • Eliminar metadatos
  • PDF a Word
  • Word a PDF
  • Excel a PDF
  • PDF a PowerPoint
  • PDF a imagen
  • Imagen a PDF
  • HTML a PDF
  • HEIC a imagen
  • WEBP a JPG
  • WEBP a PNG
  • PowerPoint a PDF
  • PDF a HTML
  • EPUB a PDF
  • TIFF a PDF
  • PNG a PDF
  • PDF a PNG
  • Texto a PDF
  • SVG to PDF
  • WEBP a PDF
  • PDF a EPUB
  • RTF a PDF
  • ODT a PDF
  • ODS a PDF
  • PDF a ODT
  • PDF a ODS
  • PDF a SVG
  • PDF a RTF
  • PDF a texto
  • ODP a PDF
  • PDF a ODP
  • ODG a PDF
  • Visor de PDF
  • Conversión a PDF/A
  • Crear PDF
  • Conversión por lotes
  • Páginas por hoja
  • Proteger con contraseña
  • Desbloquear PDF
  • Censurar PDF
  • Firma electrónica de PDF
  • Comparar PDFs
  • Extraer tablas
  • PDF to Excel
  • Convertidor de extractos bancarios
  • Extractor de facturas
  • Escáner de recibos
  • Informe financiero
  • OCR - Extraer texto
  • Conversión de manuscritos
  • Resumir PDF
  • Traducir PDF
  • Chatear con PDF
  • Extraer datos
  • Estudio de diseño

Producto

  • Privacy & Security
  • Todas las herramientas
  • Funcionalidades
  • Extractos bancarios
  • Precios
  • Preguntas frecuentes
  • Blog

Soporte

  • Centro de ayuda
  • Contacto
  • Preguntas frecuentes

Legal

  • Política de privacidad
  • Términos de servicio
  • Política de cookies

© 2026 PDFSub. Todos los derechos reservados.

Hecho en Estados Unidos con para personas de todo el mundo