How to Extract Tables from PDF to Excel: 5 Methods Compared

Us trobeu amb un PDF que conté una taula que necessiteu en Excel. Potser és un informe financer, un extracte bancari, una factura o un article de recerca. Les dades hi són, ben organitzades en files i columnes a la pantalla. Però quan intenteu extreure-les, tot es desmunta.

Això passa perquè el PDF no és un format de dades. És un format de visualització. No hi ha el concepte de "taula", "fila" o "columna" a la especificació del PDF. El que sembla una taula estructurada són en realitat desenes de fragments de text col·locats a coordenades x,y específiques en un llenç. Extreure aquesta estructura de nou a una fulla de càlcul és un problema d'enginyeria inversa, i diferents eines ho gestionen amb graus d'èxit variables.

Guia tracta 5 mètodes per extreure taules de PDF, quan funciona millor cadascun i què fer quan les coses van malament.

Per què és difícil extreure taules de PDF

5 Methods for Extracting PDF Tables to Excel - Accuracy Comparison

El format PDF no té taules

L'especificació del PDF (ISO 32000-2:2020) defineix un stream de contingut — una seqüència d'operadors que posicionen caràcters individuals a coordenades precises. Una fila de taula senzilla com "Data | Descripció | Import" podria emmagatzemar-se com:

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Subministraments d'oficina) Tj 180 0 Td (125.00) Tj ET

No hi ha etiquetes <table>, <tr> o <td>. Cap identificador de fila. Cap límit de columna. Les línies visuals que veieu al voltant de les cel·les són operacions de dibuix separades completament desconnectades del text. Una eina d'extracció ha d'inferir tota l'estructura a partir de relacions espacials.

Tres tipus de vores de taula

Les taules amb vores (enreixat) tenen línies visibles al voltant de cada cel·la. Aquestes són les més fàcils d'extreure perquè les línies defineixen explícitament els límits de les cel·les. Comuns en informes financers formals, formularis governamentals i informes estandarditzats.

Les taules sense vores (stream) no tenen cap línia. L'estructura es defineix completament per l'alineació de l'espai en blanc: els elements de text que comparteixen coordenades x consistents entre files formen columnes implícites. Comuns en articles de recerca, factures i catàlegs de productes.

Les taules semi-amb-vores només tenen vores parcials: normalment línies horitzontals entre seccions però sense divisors verticals. Extremadament comunes en extractes bancaris, informes de corredors i factures de serveis públics. Aquestes són les més difícils d'extreure perquè les vores parcials enganyen els parsers en mode enreixat, mentre que la manca de vores redueix la confiança del mode stream.

PDF etiquetats vs. no etiquetats

Els PDF etiquetats inclouen metadades estructurals que identifiquen encapçalaments, paràgrafs i cel·les de taula. Els PDF no etiquetats no en tenen cap: l'eina d'extracció només obté coordenades brutes. La gran majoria de PDF no estan etiquetats, incloent-hi pràcticament tots els extractes bancaris, factures i informes financers.

Mètode 1: PDFSub Extreu Taules (Gratuït + Fallback IA)

L'eina Extreu Taules de PDFSub utilitza un enfocament de tres nivells que maximitza la precisió i minimitza el cost:

Nivell 1: Detecció basada en coordenades (Navegador, Gratuït)

L'eina primer intenta l'extracció completament al vostre navegador:

Analitza el stream de contingut del PDF per extreure cada element de text amb les seves coordenades x,y
Agrupa els elements de text en línies basant-se en la proximitat de la coordenada y
Analitza els patrons d'alineació de les coordenades x entre línies per detectar límits de columna
Requereix un mínim de 3 files, 2 columnes i una confiança del 70%+

Si es troben taules bones, obteniu dades estructurades immediatament — cap càrrega al servidor, cap crèdit d'IA consumit, i el vostre fitxer mai surt del vostre dispositiu.

Nivell 2: Extracció al servidor (pdfplumber, Gratuït)

Si la detecció basada en coordenades no troba taules, l'eina utilitza pdfplumber (llicència MIT) al servidor. Aquesta detecta tant línies explícites (vores dibuixades) com línies implícites (patrons d'alineació de paraules), troba interseccions, identifica rectangles i mapeja text a cel·les.

Nivell 3: Extracció IA (Utilitza crèdits)

Per a PDF escanejats, dissenys complexos o taules que els mètodes basats en regles no poden analitzar, l'eina recorre a l'extracció visual basada en IA. També podeu activar "Forçar extracció IA" per saltar directament a aquest nivell quan sabeu que la taula és complexa.

Formats de sortida: Excel (.xlsx), CSV, JSON.

Millor per a: Extracció ràpida sense instal·lar programari. Els PDF digitals es processen completament al vostre navegador per a màxima privadesa.

Mètode 2: Power Query a Excel (Només Windows)

Disponible a Excel 2019+ i Microsoft 365 a Windows: Dades → Obtenir dades → Des d'un fitxer → Des de PDF.

Com funciona

Feu clic a Dades → Obtenir dades → Des d'un fitxer → Des de PDF
Seleccioneu el vostre fitxer PDF
Power Query mostra un panell de Navegador que enumera les taules detectades per pàgina
Seleccioneu les taules que vulgueu, feu clic a Transformar dades per netejar, i després a Carregar

Avantatges

Integrat a Excel — sense cost addicional per als subscriptors de Microsoft 365
El motor de transformació de Power Query gestiona bé el post-processament (omplir avall, pivotar, combinar columnes)
Pot actualitzar les dades si el PDF font s'actualitza
Admet la connexió de múltiples taules del mateix PDF

Limitacions

Només Windows — no disponible a Excel per a Mac, Excel Online o mòbil
Té dificultats amb taules sense vores — funciona millor amb taules amb vores clares
Sense OCR — no pot extreure de PDF escanejats/imatges
Taules de múltiples pàgines són problemàtiques — cada pàgina sovint s'importa com una taula separada, requerint una unió manual
Files de múltiples línies — el text embolicat dins de les cel·les sovint es divideix en múltiples files, requerint neteja

Millor per a: Usuaris de Windows amb Microsoft 365 que tenen taules simples amb vores.

Mètode 3: Adobe Acrobat (De pagament)

Fitxer → Exportar un PDF → Full de càlcul → Llibre de treball de Microsoft Excel

Preus (2026)

Acrobat Standard: 12,99 $/mes (pla anual)
Acrobat Pro: 19,99 $/mes (pla anual)
Export PDF (autònom): pla de conversió només de nivell inferior

Avantatges

OCR integrat per a documents escanejats
Generalment preserva el format per a taules simples amb vores
Processament per lots disponible a Pro

Limitacions

Car per a l'extracció de taules sola — 156–240 $/any
Les taules complexes amb cel·les combinades i intervals de múltiples pàgines encara produeixen resultats desalineats
Els fitxers poden ser pujats al núvol d'Adobe per al processament — problemàtic per a dades financeres sensibles
Requereix instal·lació d'escriptori

Millor per a: Usuaris que ja paguen per Acrobat Pro i necessiten exportacions de taules ocasionals amb OCR.

Mètode 4: Copiar-i-enganxar (Manual)

L'aproximació més intuïtiva — i la que falla més sovint per a les taules.

Problemes comuns

Totes les dades en una columna — tota la taula s'enganxa sense separacions de columna
Els números esdevenen text — símbols de moneda, parèntesis i separadors trenquen el format numèric
Contingut de cel·la de múltiples línies crea files fantasma — una descripció que s'embolica en dues línies a la cel·la es converteix en dues files separades
Capçaleres separades de les dades — la fila de capçalera es desconnecta
Columnes desalineades — les dades es desplacen perquè l'espaiat de caràcters no es tradueix en tabulacions

Solució parcial

Enganxeu a Excel, després utilitzeu Dades → Text a columnes amb delimitadors d'espai o d'amplada fixa. Activeu "Tractar delimitadors consecutius com un sol". Això funciona per a taules molt simples i ben espaiades, però falla per a qualsevol cosa amb contingut de cel·la de múltiples paraules.

Millor per a: Extreure una única taula petita i senzilla com a últim recurs.

Mètode 5: Llibreries de Python (Per a desenvolupadors)

Tres llibreries amb llicència MIT gestionen l'extracció de taules de PDF programàticament:

Tabula-py

Envolcall de Python al voltant de Tabula (Java). Requereix entorn d'execució Java.

Mode enreixat per a taules amb vores (troba línies i interseccions)
Mode stream per a taules sense vores (utilitza l'alineació de text)
Bo per a processament per lots en scripts
Sense suport OCR

Camelot

També ofereix modes enreixat i stream.

Generalment supera Tabula per a taules amb vores
El mode stream té més paràmetres de configuració per a un ajust fi
Proporciona informes de precisió amb cada extracció
Requereix dependència de Ghostscript. Sense suport OCR

pdfplumber

Aproximació basada en coordenades: extreu cada caràcter amb la seva posició exacta, i després infereix l'estructura.

Gestiona la gamma més àmplia de tipus de taules
Ofereix el màxim control però requereix més configuració
Aquesta és la llibreria que PDFSub utilitza al servidor
Sense suport OCR

Millor per a: Desenvolupadors que automatitzen fluxos de treball d'extracció de taules recurrents, processant grans lots de documents similars.

Problemes comuns i com resoldre'ls

Cel·les combinades

Quan les cel·les abasten múltiples files o columnes, la majoria d'eines o bé col·loquen el contingut a la cel·la superior esquerra i deixen les altres buides, o bé desalineen totes les columnes posteriors. No hi ha una solució universal — el format CSV no té concepte de combinació, de manera que la informació de combinació sempre es perd.

Solució: Extreu la taula, i després corregeix manualment els artefactes de combinació a Excel. Per a taules recurrents amb el mateix patró de combinació, considereu un script de post-processament.

Contingut de múltiples línies dins de les cel·les

Descripcions llargues que s'emboliquen dins d'una cel·la es converteixen en múltiples files a la sortida, desalineant totes les dades posteriors. Aquest és l'error d'extracció més comú per a documents financers.

Solució: Després de l'extracció, busqueu files a les quals els faltin dates i imports — aquestes són probablement línies de continuació que pertanyen a la fila anterior. A Excel, combineu-les manualment o utilitzeu una fórmula auxiliar.

Taules que abasten múltiples pàgines

Les eines han de determinar on continua la taula, si s'han d'eliminar les capçaleres repetides i com filtrar els peus de pàgina. Moltes eines tracten cada pàgina de manera independent.

Solució: Si la vostra eina proporciona resultats per pàgina, combineu les fulles i elimineu les files de capçalera repetides. Comproveu que la darrera fila de la pàgina N es connecta correctament amb la primera fila de la pàgina N+1.

Problemes de format de moneda

Els números negatius entre parèntesis ((1.234,56)) s'enganxen com a text, no com a números. Els símbols de moneda i els separadors de milers també trenquen el format numèric.

Solució: Després de l'extracció, seleccioneu la columna d'import i utilitzeu Cercar i substituir per eliminar els caràcters €, (, ). Després formateu la columna com a Número. Per als negatius entre parèntesis, substituïu ( per - i elimineu ), després convertiu al format de Número.

Ambigüitat de dates

01/02/2026 — és el 2 de gener o l'1 de febrer? L'eina d'extracció preserva la cadena tal qual, però Excel pot reinterpretar-la segons la vostra configuració regional.

Solució: Consulteu el PDF font per obtenir pistes sobre el format de data (busqueu dates amb valors de dia > 12). Configureu el format de data d'Excel perquè coincideixi amb la font abans d'importar.

Comparació de precisió

Mètode	Simple amb vores	Sense vores	Semi-amb-vores	PDF escanejats
PDFSub (coordenades + IA)	90–99%	75–95%	70–95%	85–95% (IA)
Power Query	85–95%	40–60%	50–70%	No suportat
Adobe Acrobat	90–95%	70–80%	70–85%	80–90%
Tabula	~68%	55–70%	50–65%	No suportat
Camelot	~73%	65–75%	60–70%	No suportat
Copiar-i-enganxar	30–50%	10–30%	10–30%	No possible

Els rangs reflecteixen la variació segons la complexitat del document. Dades de referència del Benchmark d'Extracció de PDF de Procyons 2025 i estudis de comparació de Camelot.

Quin mètode heu d'utilitzar?

Escenari	Millor mètode	Per què
Extracció ràpida única	PDFSub	Sense instal·lació, basat en navegador, extracció gratuïta per coordenades
Taula simple amb vores, Windows	Power Query	Integrat a Excel, sense cost addicional
PDF escanejat	PDFSub (IA) o Adobe Acrobat	Necessita capacitat OCR
Dades financeres sensibles	PDFSub	Processament basat en navegador, el fitxer mai es carrega
Processament per lots recurrent	Python (pdfplumber)	Scriptable, automatitzable
Ja teniu Acrobat Pro	Adobe Acrobat	Ja pagueu, les taules simples funcionen bé
Una sola taula petita, sense eines	Copiar-i-enganxar	Últim recurs, verifiqueu-ho tot

Consells per obtenir els millors resultats

Utilitzeu PDF nadius. Descarregueu documents de la seva font en lloc d'escanejar paper. Els PDF nadius tenen text perfecte, fent l'extracció dràsticament més precisa.

Identifiqueu primer el tipus de taula. Les taules amb vores funcionen amb gairebé qualsevol eina. Les taules sense vores necessiten mode stream o extracció IA. Conèixer el tipus us ajuda a triar el mètode adequat per endavant.

Comenceu amb mètodes gratuïts basats en regles. Proveu primer l'extracció basada en coordenades. Només escalfeu a IA quan els mètodes basats en regles produeixin resultats pobres — això estalvia temps i crèdits.

Sempre verifiqueu la sortida. Comproveu el recompte de files, l'alineació de columnes, els valors numèrics i els totals. Mai confieu cegament en la sortida d'extracció.

Tingueu cura del format dels números. Després de l'extracció, verifiqueu que els números siguin realment números a Excel (alineats a la dreta), no cadenes de text (alineades a l'esquerra). Els símbols de moneda i els negatius entre parèntesis són culpables comuns.

Per a dades sensibles, preferiu eines basades en navegador. Els informes financers, els extractes bancaris i els documents fiscals contenen informació sensible. Les eines que processen PDF al vostre navegador mai no carreguen el vostre fitxer, eliminant el risc d'exposició de dades.

Proveu-ho gratis

Preparat per extreure taules del vostre PDF? Puja un fitxer ara — PDFSub prova primer l'extracció gratuïta basada en coordenades, amb fallback IA per a taules complexes. Els PDF digitals es processen completament al vostre navegador. Comenceu una prova gratuïta de 7 dies.

How to Extract Tables from PDF to Excel: 5 Methods Compared

Guia tracta 5 mètodes per extreure taules de PDF, quan funciona millor cadascun i què fer quan les coses van malament.

Per què és difícil extreure taules de PDF

5 Methods for Extracting PDF Tables to Excel - Accuracy Comparison

El format PDF no té taules

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Subministraments d'oficina) Tj 180 0 Td (125.00) Tj ET

Tres tipus de vores de taula

PDF etiquetats vs. no etiquetats

Mètode 1: PDFSub Extreu Taules (Gratuït + Fallback IA)

L'eina Extreu Taules de PDFSub utilitza un enfocament de tres nivells que maximitza la precisió i minimitza el cost:

Nivell 1: Detecció basada en coordenades (Navegador, Gratuït)

L'eina primer intenta l'extracció completament al vostre navegador:

Analitza el stream de contingut del PDF per extreure cada element de text amb les seves coordenades x,y
Agrupa els elements de text en línies basant-se en la proximitat de la coordenada y
Analitza els patrons d'alineació de les coordenades x entre línies per detectar límits de columna
Requereix un mínim de 3 files, 2 columnes i una confiança del 70%+

Si es troben taules bones, obteniu dades estructurades immediatament — cap càrrega al servidor, cap crèdit d'IA consumit, i el vostre fitxer mai surt del vostre dispositiu.

Nivell 2: Extracció al servidor (pdfplumber, Gratuït)

Nivell 3: Extracció IA (Utilitza crèdits)

Formats de sortida: Excel (.xlsx), CSV, JSON.

Millor per a: Extracció ràpida sense instal·lar programari. Els PDF digitals es processen completament al vostre navegador per a màxima privadesa.

Mètode 2: Power Query a Excel (Només Windows)

Disponible a Excel 2019+ i Microsoft 365 a Windows: Dades → Obtenir dades → Des d'un fitxer → Des de PDF.

Com funciona

Feu clic a Dades → Obtenir dades → Des d'un fitxer → Des de PDF
Seleccioneu el vostre fitxer PDF
Power Query mostra un panell de Navegador que enumera les taules detectades per pàgina
Seleccioneu les taules que vulgueu, feu clic a Transformar dades per netejar, i després a Carregar

Avantatges

Integrat a Excel — sense cost addicional per als subscriptors de Microsoft 365
El motor de transformació de Power Query gestiona bé el post-processament (omplir avall, pivotar, combinar columnes)
Pot actualitzar les dades si el PDF font s'actualitza
Admet la connexió de múltiples taules del mateix PDF

Limitacions

Només Windows — no disponible a Excel per a Mac, Excel Online o mòbil
Té dificultats amb taules sense vores — funciona millor amb taules amb vores clares
Sense OCR — no pot extreure de PDF escanejats/imatges
Taules de múltiples pàgines són problemàtiques — cada pàgina sovint s'importa com una taula separada, requerint una unió manual
Files de múltiples línies — el text embolicat dins de les cel·les sovint es divideix en múltiples files, requerint neteja

Millor per a: Usuaris de Windows amb Microsoft 365 que tenen taules simples amb vores.

Mètode 3: Adobe Acrobat (De pagament)

Fitxer → Exportar un PDF → Full de càlcul → Llibre de treball de Microsoft Excel

Preus (2026)

Acrobat Standard: 12,99 $/mes (pla anual)
Acrobat Pro: 19,99 $/mes (pla anual)
Export PDF (autònom): pla de conversió només de nivell inferior

Avantatges

OCR integrat per a documents escanejats
Generalment preserva el format per a taules simples amb vores
Processament per lots disponible a Pro

Limitacions

Car per a l'extracció de taules sola — 156–240 $/any
Les taules complexes amb cel·les combinades i intervals de múltiples pàgines encara produeixen resultats desalineats
Els fitxers poden ser pujats al núvol d'Adobe per al processament — problemàtic per a dades financeres sensibles
Requereix instal·lació d'escriptori

Millor per a: Usuaris que ja paguen per Acrobat Pro i necessiten exportacions de taules ocasionals amb OCR.

Mètode 4: Copiar-i-enganxar (Manual)

L'aproximació més intuïtiva — i la que falla més sovint per a les taules.

Problemes comuns

Totes les dades en una columna — tota la taula s'enganxa sense separacions de columna
Els números esdevenen text — símbols de moneda, parèntesis i separadors trenquen el format numèric
Contingut de cel·la de múltiples línies crea files fantasma — una descripció que s'embolica en dues línies a la cel·la es converteix en dues files separades
Capçaleres separades de les dades — la fila de capçalera es desconnecta
Columnes desalineades — les dades es desplacen perquè l'espaiat de caràcters no es tradueix en tabulacions

Solució parcial

Millor per a: Extreure una única taula petita i senzilla com a últim recurs.

Mètode 5: Llibreries de Python (Per a desenvolupadors)

Tres llibreries amb llicència MIT gestionen l'extracció de taules de PDF programàticament:

Tabula-py

Envolcall de Python al voltant de Tabula (Java). Requereix entorn d'execució Java.

Mode enreixat per a taules amb vores (troba línies i interseccions)
Mode stream per a taules sense vores (utilitza l'alineació de text)
Bo per a processament per lots en scripts
Sense suport OCR

Camelot

També ofereix modes enreixat i stream.

Generalment supera Tabula per a taules amb vores
El mode stream té més paràmetres de configuració per a un ajust fi
Proporciona informes de precisió amb cada extracció
Requereix dependència de Ghostscript. Sense suport OCR

pdfplumber

Aproximació basada en coordenades: extreu cada caràcter amb la seva posició exacta, i després infereix l'estructura.

Gestiona la gamma més àmplia de tipus de taules
Ofereix el màxim control però requereix més configuració
Aquesta és la llibreria que PDFSub utilitza al servidor
Sense suport OCR

Millor per a: Desenvolupadors que automatitzen fluxos de treball d'extracció de taules recurrents, processant grans lots de documents similars.

Problemes comuns i com resoldre'ls

Cel·les combinades

Contingut de múltiples línies dins de les cel·les

Taules que abasten múltiples pàgines

Les eines han de determinar on continua la taula, si s'han d'eliminar les capçaleres repetides i com filtrar els peus de pàgina. Moltes eines tracten cada pàgina de manera independent.

Problemes de format de moneda

Els números negatius entre parèntesis ((1.234,56)) s'enganxen com a text, no com a números. Els símbols de moneda i els separadors de milers també trenquen el format numèric.

Ambigüitat de dates

01/02/2026 — és el 2 de gener o l'1 de febrer? L'eina d'extracció preserva la cadena tal qual, però Excel pot reinterpretar-la segons la vostra configuració regional.

Comparació de precisió

Mètode	Simple amb vores	Sense vores	Semi-amb-vores	PDF escanejats
PDFSub (coordenades + IA)	90–99%	75–95%	70–95%	85–95% (IA)
Power Query	85–95%	40–60%	50–70%	No suportat
Adobe Acrobat	90–95%	70–80%	70–85%	80–90%
Tabula	~68%	55–70%	50–65%	No suportat
Camelot	~73%	65–75%	60–70%	No suportat
Copiar-i-enganxar	30–50%	10–30%	10–30%	No possible

Els rangs reflecteixen la variació segons la complexitat del document. Dades de referència del Benchmark d'Extracció de PDF de Procyons 2025 i estudis de comparació de Camelot.

Quin mètode heu d'utilitzar?

Escenari	Millor mètode	Per què
Extracció ràpida única	PDFSub	Sense instal·lació, basat en navegador, extracció gratuïta per coordenades
Taula simple amb vores, Windows	Power Query	Integrat a Excel, sense cost addicional
PDF escanejat	PDFSub (IA) o Adobe Acrobat	Necessita capacitat OCR
Dades financeres sensibles	PDFSub	Processament basat en navegador, el fitxer mai es carrega
Processament per lots recurrent	Python (pdfplumber)	Scriptable, automatitzable
Ja teniu Acrobat Pro	Adobe Acrobat	Ja pagueu, les taules simples funcionen bé
Una sola taula petita, sense eines	Copiar-i-enganxar	Últim recurs, verifiqueu-ho tot

Consells per obtenir els millors resultats

Utilitzeu PDF nadius. Descarregueu documents de la seva font en lloc d'escanejar paper. Els PDF nadius tenen text perfecte, fent l'extracció dràsticament més precisa.

Sempre verifiqueu la sortida. Comproveu el recompte de files, l'alineació de columnes, els valors numèrics i els totals. Mai confieu cegament en la sortida d'extracció.