Com extreure taules de PDF a Excel: 5 mètodes comparats
Els PDF emmagatzemen taules com a fragments de text dispersos a coordenades x,y — sense files, columnes ni cel·les. Aquí us expliquem com introduir aquestes dades en una fulla de càlcul, des d'eines gratuïtes basades en navegador fins a scripting amb Python.

Us trobeu amb un PDF que conté una taula que necessiteu en Excel. Potser és un informe financer, un extracte bancari, una factura o un article de recerca. Les dades hi són, ben organitzades en files i columnes a la pantalla. Però quan intenteu extreure-les, tot es desmunta.
Això passa perquè el PDF no és un format de dades. És un format de visualització. No hi ha el concepte de "taula", "fila" o "columna" a la especificació del PDF. El que sembla una taula estructurada són en realitat desenes de fragments de text col·locats a coordenades x,y específiques en un llenç. Extreure aquesta estructura de nou a una fulla de càlcul és un problema d'enginyeria inversa, i diferents eines ho gestionen amb graus d'èxit variables.
Guia tracta 5 mètodes per extreure taules de PDF, quan funciona millor cadascun i què fer quan les coses van malament.
Per què és difícil extreure taules de PDF

El format PDF no té taules
L'especificació del PDF (ISO 32000-2:2020) defineix un stream de contingut — una seqüència d'operadors que posicionen caràcters individuals a coordenades precises. Una fila de taula senzilla com "Data | Descripció | Import" podria emmagatzemar-se com:
BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Subministraments d'oficina) Tj 180 0 Td (125.00) Tj ETNo hi ha etiquetes <table>, <tr> o <td>. Cap identificador de fila. Cap límit de columna. Les línies visuals que veieu al voltant de les cel·les són operacions de dibuix separades completament desconnectades del text. Una eina d'extracció ha d'inferir tota l'estructura a partir de relacions espacials.
Tres tipus de vores de taula
Les taules amb vores (enreixat) tenen línies visibles al voltant de cada cel·la. Aquestes són les més fàcils d'extreure perquè les línies defineixen explícitament els límits de les cel·les. Comuns en informes financers formals, formularis governamentals i informes estandarditzats.
Les taules sense vores (stream) no tenen cap línia. L'estructura es defineix completament per l'alineació de l'espai en blanc: els elements de text que comparteixen coordenades x consistents entre files formen columnes implícites. Comuns en articles de recerca, factures i catàlegs de productes.
Les taules semi-amb-vores només tenen vores parcials: normalment línies horitzontals entre seccions però sense divisors verticals. Extremadament comunes en extractes bancaris, informes de corredors i factures de serveis públics. Aquestes són les més difícils d'extreure perquè les vores parcials enganyen els parsers en mode enreixat, mentre que la manca de vores redueix la confiança del mode stream.
PDF etiquetats vs. no etiquetats
Els PDF etiquetats inclouen metadades estructurals que identifiquen encapçalaments, paràgrafs i cel·les de taula. Els PDF no etiquetats no en tenen cap: l'eina d'extracció només obté coordenades brutes. La gran majoria de PDF no estan etiquetats, incloent-hi pràcticament tots els extractes bancaris, factures i informes financers.
Mètode 1: PDFSub Extreu Taules (Gratuït + Fallback IA)
L'eina Extreu Taules de PDFSub utilitza un enfocament de tres nivells que maximitza la precisió i minimitza el cost:
Nivell 1: Detecció basada en coordenades (Navegador, Gratuït)
L'eina primer intenta l'extracció completament al vostre navegador:
- Analitza el stream de contingut del PDF per extreure cada element de text amb les seves coordenades x,y
- Agrupa els elements de text en línies basant-se en la proximitat de la coordenada y
- Analitza els patrons d'alineació de les coordenades x entre línies per detectar límits de columna
- Requereix un mínim de 3 files, 2 columnes i una confiança del 70%+
Si es troben taules bones, obteniu dades estructurades immediatament — cap càrrega al servidor, cap crèdit d'IA consumit, i el vostre fitxer mai surt del vostre dispositiu.
Nivell 2: Extracció al servidor (pdfplumber, Gratuït)
Si la detecció basada en coordenades no troba taules, l'eina utilitza pdfplumber (llicència MIT) al servidor. Aquesta detecta tant línies explícites (vores dibuixades) com línies implícites (patrons d'alineació de paraules), troba interseccions, identifica rectangles i mapeja text a cel·les.
Nivell 3: Extracció IA (Utilitza crèdits)
Per a PDF escanejats, dissenys complexos o taules que els mètodes basats en regles no poden analitzar, l'eina recorre a l'extracció visual basada en IA. També podeu activar "Forçar extracció IA" per saltar directament a aquest nivell quan sabeu que la taula és complexa.
Formats de sortida: Excel (.xlsx), CSV, JSON.
Millor per a: Extracció ràpida sense instal·lar programari. Els PDF digitals es processen completament al vostre navegador per a màxima privadesa.
Mètode 2: Power Query a Excel (Només Windows)
Disponible a Excel 2019+ i Microsoft 365 a Windows: Dades → Obtenir dades → Des d'un fitxer → Des de PDF.
Com funciona
- Feu clic a Dades → Obtenir dades → Des d'un fitxer → Des de PDF
- Seleccioneu el vostre fitxer PDF
- Power Query mostra un panell de Navegador que enumera les taules detectades per pàgina
- Seleccioneu les taules que vulgueu, feu clic a Transformar dades per netejar, i després a Carregar
Avantatges
- Integrat a Excel — sense cost addicional per als subscriptors de Microsoft 365
- El motor de transformació de Power Query gestiona bé el post-processament (omplir avall, pivotar, combinar columnes)
- Pot actualitzar les dades si el PDF font s'actualitza
- Admet la connexió de múltiples taules del mateix PDF
Limitacions
- Només Windows — no disponible a Excel per a Mac, Excel Online o mòbil
- Té dificultats amb taules sense vores — funciona millor amb taules amb vores clares
- Sense OCR — no pot extreure de PDF escanejats/imatges
- Taules de múltiples pàgines són problemàtiques — cada pàgina sovint s'importa com una taula separada, requerint una unió manual
- Files de múltiples línies — el text embolicat dins de les cel·les sovint es divideix en múltiples files, requerint neteja
Millor per a: Usuaris de Windows amb Microsoft 365 que tenen taules simples amb vores.
Mètode 3: Adobe Acrobat (De pagament)
Fitxer → Exportar un PDF → Full de càlcul → Llibre de treball de Microsoft Excel
Preus (2026)
- Acrobat Standard: 12,99 $/mes (pla anual)
- Acrobat Pro: 19,99 $/mes (pla anual)
- Export PDF (autònom): pla de conversió només de nivell inferior
Avantatges
- OCR integrat per a documents escanejats
- Generalment preserva el format per a taules simples amb vores
- Processament per lots disponible a Pro
Limitacions
- Car per a l'extracció de taules sola — 156–240 $/any
- Les taules complexes amb cel·les combinades i intervals de múltiples pàgines encara produeixen resultats desalineats
- Els fitxers poden ser pujats al núvol d'Adobe per al processament — problemàtic per a dades financeres sensibles
- Requereix instal·lació d'escriptori
Millor per a: Usuaris que ja paguen per Acrobat Pro i necessiten exportacions de taules ocasionals amb OCR.
Mètode 4: Copiar-i-enganxar (Manual)
L'aproximació més intuïtiva — i la que falla més sovint per a les taules.
Problemes comuns
- Totes les dades en una columna — tota la taula s'enganxa sense separacions de columna
- Els números esdevenen text — símbols de moneda, parèntesis i separadors trenquen el format numèric
- Contingut de cel·la de múltiples línies crea files fantasma — una descripció que s'embolica en dues línies a la cel·la es converteix en dues files separades
- Capçaleres separades de les dades — la fila de capçalera es desconnecta
- Columnes desalineades — les dades es desplacen perquè l'espaiat de caràcters no es tradueix en tabulacions
Solució parcial
Enganxeu a Excel, després utilitzeu Dades → Text a columnes amb delimitadors d'espai o d'amplada fixa. Activeu "Tractar delimitadors consecutius com un sol". Això funciona per a taules molt simples i ben espaiades, però falla per a qualsevol cosa amb contingut de cel·la de múltiples paraules.
Millor per a: Extreure una única taula petita i senzilla com a últim recurs.
Mètode 5: Llibreries de Python (Per a desenvolupadors)
Tres llibreries amb llicència MIT gestionen l'extracció de taules de PDF programàticament:
Tabula-py
Envolcall de Python al voltant de Tabula (Java). Requereix entorn d'execució Java.
- Mode enreixat per a taules amb vores (troba línies i interseccions)
- Mode stream per a taules sense vores (utilitza l'alineació de text)
- Bo per a processament per lots en scripts
- Sense suport OCR
Camelot
També ofereix modes enreixat i stream.
- Generalment supera Tabula per a taules amb vores
- El mode stream té més paràmetres de configuració per a un ajust fi
- Proporciona informes de precisió amb cada extracció
- Requereix dependència de Ghostscript. Sense suport OCR
pdfplumber
Aproximació basada en coordenades: extreu cada caràcter amb la seva posició exacta, i després infereix l'estructura.
- Gestiona la gamma més àmplia de tipus de taules
- Ofereix el màxim control però requereix més configuració
- Aquesta és la llibreria que PDFSub utilitza al servidor
- Sense suport OCR
Millor per a: Desenvolupadors que automatitzen fluxos de treball d'extracció de taules recurrents, processant grans lots de documents similars.
Problemes comuns i com resoldre'ls
Cel·les combinades
Quan les cel·les abasten múltiples files o columnes, la majoria d'eines o bé col·loquen el contingut a la cel·la superior esquerra i deixen les altres buides, o bé desalineen totes les columnes posteriors. No hi ha una solució universal — el format CSV no té concepte de combinació, de manera que la informació de combinació sempre es perd.
Solució: Extreu la taula, i després corregeix manualment els artefactes de combinació a Excel. Per a taules recurrents amb el mateix patró de combinació, considereu un script de post-processament.
Contingut de múltiples línies dins de les cel·les
Descripcions llargues que s'emboliquen dins d'una cel·la es converteixen en múltiples files a la sortida, desalineant totes les dades posteriors. Aquest és l'error d'extracció més comú per a documents financers.
Solució: Després de l'extracció, busqueu files a les quals els faltin dates i imports — aquestes són probablement línies de continuació que pertanyen a la fila anterior. A Excel, combineu-les manualment o utilitzeu una fórmula auxiliar.
Taules que abasten múltiples pàgines
Les eines han de determinar on continua la taula, si s'han d'eliminar les capçaleres repetides i com filtrar els peus de pàgina. Moltes eines tracten cada pàgina de manera independent.
Solució: Si la vostra eina proporciona resultats per pàgina, combineu les fulles i elimineu les files de capçalera repetides. Comproveu que la darrera fila de la pàgina N es connecta correctament amb la primera fila de la pàgina N+1.
Problemes de format de moneda
Els números negatius entre parèntesis ((1.234,56)) s'enganxen com a text, no com a números. Els símbols de moneda i els separadors de milers també trenquen el format numèric.
Solució: Després de l'extracció, seleccioneu la columna d'import i utilitzeu Cercar i substituir per eliminar els caràcters €, (, ). Després formateu la columna com a Número. Per als negatius entre parèntesis, substituïu ( per - i elimineu ), després convertiu al format de Número.
Ambigüitat de dates
01/02/2026 — és el 2 de gener o l'1 de febrer? L'eina d'extracció preserva la cadena tal qual, però Excel pot reinterpretar-la segons la vostra configuració regional.
Solució: Consulteu el PDF font per obtenir pistes sobre el format de data (busqueu dates amb valors de dia > 12). Configureu el format de data d'Excel perquè coincideixi amb la font abans d'importar.
Comparació de precisió
| Mètode | Simple amb vores | Sense vores | Semi-amb-vores | PDF escanejats |
|---|---|---|---|---|
| PDFSub (coordenades + IA) | 90–99% | 75–95% | 70–95% | 85–95% (IA) |
| Power Query | 85–95% | 40–60% | 50–70% | No suportat |
| Adobe Acrobat | 90–95% | 70–80% | 70–85% | 80–90% |
| Tabula | ~68% | 55–70% | 50–65% | No suportat |
| Camelot | ~73% | 65–75% | 60–70% | No suportat |
| Copiar-i-enganxar | 30–50% | 10–30% | 10–30% | No possible |
Els rangs reflecteixen la variació segons la complexitat del document. Dades de referència del Benchmark d'Extracció de PDF de Procyons 2025 i estudis de comparació de Camelot.
Quin mètode heu d'utilitzar?
| Escenari | Millor mètode | Per què |
|---|---|---|
| Extracció ràpida única | PDFSub | Sense instal·lació, basat en navegador, extracció gratuïta per coordenades |
| Taula simple amb vores, Windows | Power Query | Integrat a Excel, sense cost addicional |
| PDF escanejat | PDFSub (IA) o Adobe Acrobat | Necessita capacitat OCR |
| Dades financeres sensibles | PDFSub | Processament basat en navegador, el fitxer mai es carrega |
| Processament per lots recurrent | Python (pdfplumber) | Scriptable, automatitzable |
| Ja teniu Acrobat Pro | Adobe Acrobat | Ja pagueu, les taules simples funcionen bé |
| Una sola taula petita, sense eines | Copiar-i-enganxar | Últim recurs, verifiqueu-ho tot |
Consells per obtenir els millors resultats
Utilitzeu PDF nadius. Descarregueu documents de la seva font en lloc d'escanejar paper. Els PDF nadius tenen text perfecte, fent l'extracció dràsticament més precisa.
Identifiqueu primer el tipus de taula. Les taules amb vores funcionen amb gairebé qualsevol eina. Les taules sense vores necessiten mode stream o extracció IA. Conèixer el tipus us ajuda a triar el mètode adequat per endavant.
Comenceu amb mètodes gratuïts basats en regles. Proveu primer l'extracció basada en coordenades. Només escalfeu a IA quan els mètodes basats en regles produeixin resultats pobres — això estalvia temps i crèdits.
Sempre verifiqueu la sortida. Comproveu el recompte de files, l'alineació de columnes, els valors numèrics i els totals. Mai confieu cegament en la sortida d'extracció.
Tingueu cura del format dels números. Després de l'extracció, verifiqueu que els números siguin realment números a Excel (alineats a la dreta), no cadenes de text (alineades a l'esquerra). Els símbols de moneda i els negatius entre parèntesis són culpables comuns.
Per a dades sensibles, preferiu eines basades en navegador. Els informes financers, els extractes bancaris i els documents fiscals contenen informació sensible. Les eines que processen PDF al vostre navegador mai no carreguen el vostre fitxer, eliminant el risc d'exposició de dades.
Proveu-ho gratis
Preparat per extreure taules del vostre PDF? Puja un fitxer ara — PDFSub prova primer l'extracció gratuïta basada en coordenades, amb fallback IA per a taules complexes. Els PDF digitals es processen completament al vostre navegador. Comenceu una prova gratuïta de 7 dies.