PDFSub
PreusAPIMergeCompressEditE-SignExtractes bancarisBlog
Tornar al blog
TutorialExcelTaulesEines PDF

Com extreure taules de PDF a Excel: 5 mètodes comparats

28 de febrer del 2026
T
Todd Lahman
Founder, PDFSub

Els PDF emmagatzemen taules com a fragments de text dispersos a coordenades x,y — sense files, columnes ni cel·les. Aquí us expliquem com introduir aquestes dades en una fulla de càlcul, des d'eines gratuïtes basades en navegador fins a scripting amb Python.


How to Extract Tables from PDF to Excel: 5 Methods Compared

Us trobeu amb un PDF que conté una taula que necessiteu en Excel. Potser és un informe financer, un extracte bancari, una factura o un article de recerca. Les dades hi són, ben organitzades en files i columnes a la pantalla. Però quan intenteu extreure-les, tot es desmunta.

Això passa perquè el PDF no és un format de dades. És un format de visualització. No hi ha el concepte de "taula", "fila" o "columna" a la especificació del PDF. El que sembla una taula estructurada són en realitat desenes de fragments de text col·locats a coordenades x,y específiques en un llenç. Extreure aquesta estructura de nou a una fulla de càlcul és un problema d'enginyeria inversa, i diferents eines ho gestionen amb graus d'èxit variables.

Guia tracta 5 mètodes per extreure taules de PDF, quan funciona millor cadascun i què fer quan les coses van malament.

Per què és difícil extreure taules de PDF

5 Methods for Extracting PDF Tables to Excel - Accuracy Comparison

El format PDF no té taules

L'especificació del PDF (ISO 32000-2:2020) defineix un stream de contingut — una seqüència d'operadors que posicionen caràcters individuals a coordenades precises. Una fila de taula senzilla com "Data | Descripció | Import" podria emmagatzemar-se com:

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Subministraments d'oficina) Tj 180 0 Td (125.00) Tj ET

No hi ha etiquetes <table>, <tr> o <td>. Cap identificador de fila. Cap límit de columna. Les línies visuals que veieu al voltant de les cel·les són operacions de dibuix separades completament desconnectades del text. Una eina d'extracció ha d'inferir tota l'estructura a partir de relacions espacials.

Tres tipus de vores de taula

Les taules amb vores (enreixat) tenen línies visibles al voltant de cada cel·la. Aquestes són les més fàcils d'extreure perquè les línies defineixen explícitament els límits de les cel·les. Comuns en informes financers formals, formularis governamentals i informes estandarditzats.

Les taules sense vores (stream) no tenen cap línia. L'estructura es defineix completament per l'alineació de l'espai en blanc: els elements de text que comparteixen coordenades x consistents entre files formen columnes implícites. Comuns en articles de recerca, factures i catàlegs de productes.

Les taules semi-amb-vores només tenen vores parcials: normalment línies horitzontals entre seccions però sense divisors verticals. Extremadament comunes en extractes bancaris, informes de corredors i factures de serveis públics. Aquestes són les més difícils d'extreure perquè les vores parcials enganyen els parsers en mode enreixat, mentre que la manca de vores redueix la confiança del mode stream.

PDF etiquetats vs. no etiquetats

Els PDF etiquetats inclouen metadades estructurals que identifiquen encapçalaments, paràgrafs i cel·les de taula. Els PDF no etiquetats no en tenen cap: l'eina d'extracció només obté coordenades brutes. La gran majoria de PDF no estan etiquetats, incloent-hi pràcticament tots els extractes bancaris, factures i informes financers.


Mètode 1: PDFSub Extreu Taules (Gratuït + Fallback IA)

L'eina Extreu Taules de PDFSub utilitza un enfocament de tres nivells que maximitza la precisió i minimitza el cost:

Nivell 1: Detecció basada en coordenades (Navegador, Gratuït)

L'eina primer intenta l'extracció completament al vostre navegador:

  • Analitza el stream de contingut del PDF per extreure cada element de text amb les seves coordenades x,y
  • Agrupa els elements de text en línies basant-se en la proximitat de la coordenada y
  • Analitza els patrons d'alineació de les coordenades x entre línies per detectar límits de columna
  • Requereix un mínim de 3 files, 2 columnes i una confiança del 70%+

Si es troben taules bones, obteniu dades estructurades immediatament — cap càrrega al servidor, cap crèdit d'IA consumit, i el vostre fitxer mai surt del vostre dispositiu.

Nivell 2: Extracció al servidor (pdfplumber, Gratuït)

Si la detecció basada en coordenades no troba taules, l'eina utilitza pdfplumber (llicència MIT) al servidor. Aquesta detecta tant línies explícites (vores dibuixades) com línies implícites (patrons d'alineació de paraules), troba interseccions, identifica rectangles i mapeja text a cel·les.

Nivell 3: Extracció IA (Utilitza crèdits)

Per a PDF escanejats, dissenys complexos o taules que els mètodes basats en regles no poden analitzar, l'eina recorre a l'extracció visual basada en IA. També podeu activar "Forçar extracció IA" per saltar directament a aquest nivell quan sabeu que la taula és complexa.

Formats de sortida: Excel (.xlsx), CSV, JSON.

Millor per a: Extracció ràpida sense instal·lar programari. Els PDF digitals es processen completament al vostre navegador per a màxima privadesa.


Mètode 2: Power Query a Excel (Només Windows)

Disponible a Excel 2019+ i Microsoft 365 a Windows: Dades → Obtenir dades → Des d'un fitxer → Des de PDF.

Com funciona

  1. Feu clic a Dades → Obtenir dades → Des d'un fitxer → Des de PDF
  2. Seleccioneu el vostre fitxer PDF
  3. Power Query mostra un panell de Navegador que enumera les taules detectades per pàgina
  4. Seleccioneu les taules que vulgueu, feu clic a Transformar dades per netejar, i després a Carregar

Avantatges

  • Integrat a Excel — sense cost addicional per als subscriptors de Microsoft 365
  • El motor de transformació de Power Query gestiona bé el post-processament (omplir avall, pivotar, combinar columnes)
  • Pot actualitzar les dades si el PDF font s'actualitza
  • Admet la connexió de múltiples taules del mateix PDF

Limitacions

  • Només Windows — no disponible a Excel per a Mac, Excel Online o mòbil
  • Té dificultats amb taules sense vores — funciona millor amb taules amb vores clares
  • Sense OCR — no pot extreure de PDF escanejats/imatges
  • Taules de múltiples pàgines són problemàtiques — cada pàgina sovint s'importa com una taula separada, requerint una unió manual
  • Files de múltiples línies — el text embolicat dins de les cel·les sovint es divideix en múltiples files, requerint neteja

Millor per a: Usuaris de Windows amb Microsoft 365 que tenen taules simples amb vores.


Mètode 3: Adobe Acrobat (De pagament)

Fitxer → Exportar un PDF → Full de càlcul → Llibre de treball de Microsoft Excel

Preus (2026)

  • Acrobat Standard: 12,99 $/mes (pla anual)
  • Acrobat Pro: 19,99 $/mes (pla anual)
  • Export PDF (autònom): pla de conversió només de nivell inferior

Avantatges

  • OCR integrat per a documents escanejats
  • Generalment preserva el format per a taules simples amb vores
  • Processament per lots disponible a Pro

Limitacions

  • Car per a l'extracció de taules sola — 156–240 $/any
  • Les taules complexes amb cel·les combinades i intervals de múltiples pàgines encara produeixen resultats desalineats
  • Els fitxers poden ser pujats al núvol d'Adobe per al processament — problemàtic per a dades financeres sensibles
  • Requereix instal·lació d'escriptori

Millor per a: Usuaris que ja paguen per Acrobat Pro i necessiten exportacions de taules ocasionals amb OCR.


Mètode 4: Copiar-i-enganxar (Manual)

L'aproximació més intuïtiva — i la que falla més sovint per a les taules.

Problemes comuns

  • Totes les dades en una columna — tota la taula s'enganxa sense separacions de columna
  • Els números esdevenen text — símbols de moneda, parèntesis i separadors trenquen el format numèric
  • Contingut de cel·la de múltiples línies crea files fantasma — una descripció que s'embolica en dues línies a la cel·la es converteix en dues files separades
  • Capçaleres separades de les dades — la fila de capçalera es desconnecta
  • Columnes desalineades — les dades es desplacen perquè l'espaiat de caràcters no es tradueix en tabulacions

Solució parcial

Enganxeu a Excel, després utilitzeu Dades → Text a columnes amb delimitadors d'espai o d'amplada fixa. Activeu "Tractar delimitadors consecutius com un sol". Això funciona per a taules molt simples i ben espaiades, però falla per a qualsevol cosa amb contingut de cel·la de múltiples paraules.

Millor per a: Extreure una única taula petita i senzilla com a últim recurs.


Mètode 5: Llibreries de Python (Per a desenvolupadors)

Tres llibreries amb llicència MIT gestionen l'extracció de taules de PDF programàticament:

Tabula-py

Envolcall de Python al voltant de Tabula (Java). Requereix entorn d'execució Java.

  • Mode enreixat per a taules amb vores (troba línies i interseccions)
  • Mode stream per a taules sense vores (utilitza l'alineació de text)
  • Bo per a processament per lots en scripts
  • Sense suport OCR

Camelot

També ofereix modes enreixat i stream.

  • Generalment supera Tabula per a taules amb vores
  • El mode stream té més paràmetres de configuració per a un ajust fi
  • Proporciona informes de precisió amb cada extracció
  • Requereix dependència de Ghostscript. Sense suport OCR

pdfplumber

Aproximació basada en coordenades: extreu cada caràcter amb la seva posició exacta, i després infereix l'estructura.

  • Gestiona la gamma més àmplia de tipus de taules
  • Ofereix el màxim control però requereix més configuració
  • Aquesta és la llibreria que PDFSub utilitza al servidor
  • Sense suport OCR

Millor per a: Desenvolupadors que automatitzen fluxos de treball d'extracció de taules recurrents, processant grans lots de documents similars.


Problemes comuns i com resoldre'ls

Cel·les combinades

Quan les cel·les abasten múltiples files o columnes, la majoria d'eines o bé col·loquen el contingut a la cel·la superior esquerra i deixen les altres buides, o bé desalineen totes les columnes posteriors. No hi ha una solució universal — el format CSV no té concepte de combinació, de manera que la informació de combinació sempre es perd.

Solució: Extreu la taula, i després corregeix manualment els artefactes de combinació a Excel. Per a taules recurrents amb el mateix patró de combinació, considereu un script de post-processament.

Contingut de múltiples línies dins de les cel·les

Descripcions llargues que s'emboliquen dins d'una cel·la es converteixen en múltiples files a la sortida, desalineant totes les dades posteriors. Aquest és l'error d'extracció més comú per a documents financers.

Solució: Després de l'extracció, busqueu files a les quals els faltin dates i imports — aquestes són probablement línies de continuació que pertanyen a la fila anterior. A Excel, combineu-les manualment o utilitzeu una fórmula auxiliar.

Taules que abasten múltiples pàgines

Les eines han de determinar on continua la taula, si s'han d'eliminar les capçaleres repetides i com filtrar els peus de pàgina. Moltes eines tracten cada pàgina de manera independent.

Solució: Si la vostra eina proporciona resultats per pàgina, combineu les fulles i elimineu les files de capçalera repetides. Comproveu que la darrera fila de la pàgina N es connecta correctament amb la primera fila de la pàgina N+1.

Problemes de format de moneda

Els números negatius entre parèntesis ((1.234,56)) s'enganxen com a text, no com a números. Els símbols de moneda i els separadors de milers també trenquen el format numèric.

Solució: Després de l'extracció, seleccioneu la columna d'import i utilitzeu Cercar i substituir per eliminar els caràcters €, (, ). Després formateu la columna com a Número. Per als negatius entre parèntesis, substituïu ( per - i elimineu ), després convertiu al format de Número.

Ambigüitat de dates

01/02/2026 — és el 2 de gener o l'1 de febrer? L'eina d'extracció preserva la cadena tal qual, però Excel pot reinterpretar-la segons la vostra configuració regional.

Solució: Consulteu el PDF font per obtenir pistes sobre el format de data (busqueu dates amb valors de dia > 12). Configureu el format de data d'Excel perquè coincideixi amb la font abans d'importar.


Comparació de precisió

Mètode Simple amb vores Sense vores Semi-amb-vores PDF escanejats
PDFSub (coordenades + IA) 90–99% 75–95% 70–95% 85–95% (IA)
Power Query 85–95% 40–60% 50–70% No suportat
Adobe Acrobat 90–95% 70–80% 70–85% 80–90%
Tabula ~68% 55–70% 50–65% No suportat
Camelot ~73% 65–75% 60–70% No suportat
Copiar-i-enganxar 30–50% 10–30% 10–30% No possible

Els rangs reflecteixen la variació segons la complexitat del document. Dades de referència del Benchmark d'Extracció de PDF de Procyons 2025 i estudis de comparació de Camelot.


Quin mètode heu d'utilitzar?

Escenari Millor mètode Per què
Extracció ràpida única PDFSub Sense instal·lació, basat en navegador, extracció gratuïta per coordenades
Taula simple amb vores, Windows Power Query Integrat a Excel, sense cost addicional
PDF escanejat PDFSub (IA) o Adobe Acrobat Necessita capacitat OCR
Dades financeres sensibles PDFSub Processament basat en navegador, el fitxer mai es carrega
Processament per lots recurrent Python (pdfplumber) Scriptable, automatitzable
Ja teniu Acrobat Pro Adobe Acrobat Ja pagueu, les taules simples funcionen bé
Una sola taula petita, sense eines Copiar-i-enganxar Últim recurs, verifiqueu-ho tot

Consells per obtenir els millors resultats

Utilitzeu PDF nadius. Descarregueu documents de la seva font en lloc d'escanejar paper. Els PDF nadius tenen text perfecte, fent l'extracció dràsticament més precisa.

Identifiqueu primer el tipus de taula. Les taules amb vores funcionen amb gairebé qualsevol eina. Les taules sense vores necessiten mode stream o extracció IA. Conèixer el tipus us ajuda a triar el mètode adequat per endavant.

Comenceu amb mètodes gratuïts basats en regles. Proveu primer l'extracció basada en coordenades. Només escalfeu a IA quan els mètodes basats en regles produeixin resultats pobres — això estalvia temps i crèdits.

Sempre verifiqueu la sortida. Comproveu el recompte de files, l'alineació de columnes, els valors numèrics i els totals. Mai confieu cegament en la sortida d'extracció.

Tingueu cura del format dels números. Després de l'extracció, verifiqueu que els números siguin realment números a Excel (alineats a la dreta), no cadenes de text (alineades a l'esquerra). Els símbols de moneda i els negatius entre parèntesis són culpables comuns.

Per a dades sensibles, preferiu eines basades en navegador. Els informes financers, els extractes bancaris i els documents fiscals contenen informació sensible. Les eines que processen PDF al vostre navegador mai no carreguen el vostre fitxer, eliminant el risc d'exposició de dades.


Proveu-ho gratis

Preparat per extreure taules del vostre PDF? Puja un fitxer ara — PDFSub prova primer l'extracció gratuïta basada en coordenades, amb fallback IA per a taules complexes. Els PDF digitals es processen completament al vostre navegador. Comenceu una prova gratuïta de 7 dies.

Tornar al blog

Preguntes? Contacta amb nosaltres

PDFSub

Totes les eines de PDF i documents que necessites en un sol lloc. Ràpid, segur i privat.

Compliment GDPRCompliment CCPAPreparat per SOC 2
Potenciat per PDFSub Engine

Eines PDF

  • Unir PDF
  • Dividir PDF
  • Reordenar pàgines
  • Pàgines per full
  • Visualitzador PDF
  • Extreure pàgines
  • Extreure imatges
  • Reemplaçar imatge
  • Girar PDF
  • Eliminar pàgines
  • Afegir marca d'aigua
  • Editar PDF
  • Segellar PDF
  • Omplir formularis PDF
  • Retallar pàgines
  • Canviar la mida de la pàgina
  • Afegir números de pàgina
  • Capçaleres i peus de pàgina
  • Comprimir PDF
  • Fer cercable
  • Clean Scanned PDF
  • Photo to Document
  • Auto-Crop PDF
  • Reparar PDF
  • Editar metadades
  • Eliminar metadades
  • PDF a Word
  • Word a PDF
  • PDF to Excel
  • Excel a PDF
  • PDF a PowerPoint
  • PowerPoint a PDF
  • HTML a PDF
  • HTML to Text
  • HTML to Markdown
  • PDF a HTML
  • EPUB a PDF
  • PDF a EPUB
  • Text a PDF
  • RTF a PDF
  • PDF a RTF
  • PDF a Text
  • ODT a PDF
  • PDF a ODT
  • ODS a PDF
  • PDF a ODS
  • ODP a PDF
  • PDF a ODP
  • Conversió PDF/A
  • Crear PDF
  • Conversió per lots
  • PDF a imatge
  • Imatge a PDF
  • PDF a PNG
  • PNG a PDF
  • HTML to PNG
  • HTML to JPEG
  • HTML to WEBP
  • SVG a PDF
  • PDF a SVG
  • TIFF a PDF
  • WEBP a PDF
  • HEIC a imatge
  • WEBP a JPG
  • WEBP a PNG
  • Image Converter
  • ODG a PDF
  • Protegir amb contrasenya
  • Desbloquejar PDF
  • Redactar PDF
  • Signar PDF electrònicament
  • Share Document
  • Comparar PDF
  • Extreure taules
  • Convertidor d'extractes bancaris
  • Extractor de factures
  • Escàner de rebuts
  • Informe financer
  • OCR - Extreure text
  • Conversió d'escriptura manual
  • Resumir PDF
  • Traduir PDF
  • Xatejar amb el PDF
  • Extreure dades
  • Estudi de disseny

Producte

  • Totes les eines
  • Característiques
  • Extractes bancaris
  • API
  • Preus
  • Preguntes freqüents
  • Blog

Suport

  • Sobre nosaltres
  • Centre d'ajuda
  • Contacte
  • Preguntes freqüents

Legal

  • Política de privadesa
  • Condicions del servei
  • Política de cookies

© 2026 PDFSub. Tots els drets reservats.

Fet a Amèrica amb per a tothom