PDFSub
PreusAPIMergeCompressEditE-SignExtractes bancarisBlog
Tornar al blog
TutorialExcelPDFConversió de dades

Com convertir PDF a Excel: 6 mètodes que funcionen realment (2026)

29 de gener del 2026
T
Todd Lahman
Founder, PDFSub

Es creen més de 290 mil milions de PDF cada any, però el format no té cap concepte de files, columnes o cel·les. Aquí teniu com introduir les vostres dades a Excel, des d'eines gratuïtes integrades fins a l'extracció mitjançant IA.


Teniu dades atrapades en un PDF i les necessiteu a Excel. Potser és un informe financer, una factura d'un proveïdor, un extracte bancari o una taula de dades de productes exportada d'un sistema antic. El problema? Els PDF estan dissenyats per tenir un aspecte idèntic a cada pantalla, no per transferir dades estructurades.

S'estima que es creen més de 290 mil milions de PDF cada any, amb un creixement aproximat del 12% anual. Adobe informa de més de 400 milions de PDF oberts i 100 milions d'usuaris d'Acrobat diaris a tot el món. Els PDF s'han convertit en el format predeterminat per compartir documents financers, contractes legals, formularis governamentals i informes empresarials. No obstant això, la bretxa entre "veure un PDF" i "treballar amb les seves dades" costa a les empreses dels EUA una mitjana de 28.500 dòlars per empleat anualment en introducció manual de dades, segons una enquesta de Parseur/QuestionPro de 2025, amb treballadors que passen més de 9 hores setmanals transferint dades de documents a fulls de càlcul.

Aquesta guia cobreix tots els mètodes disponibles el 2026, des d'eines gratuïtes integrades fins a l'extracció mitjançant IA, amb avaluacions honestes del que funciona i el que no.

PDF to Excel conversion process showing a PDF document transforming into an Excel spreadsheet

Per què la conversió de PDF a Excel és fonamentalment difícil

Abans d'endinsar-nos en els mètodes, és útil entendre per què existeix aquest problema. Els PDF i els fulls de càlcul d'Excel són arquitectònicament incompatibles, no només diferents, sinó dissenyats amb objectius oposats.

Com els PDF emmagatzemen realment les dades

Una pàgina PDF no "conté" una taula. Conté un flux de contingut, una seqüència d'operadors binaris basats en PostScript que posicionen caràcters individuals en coordenades x,y precises en un llenç. L'especificació PDF (ISO 32000-2:2020) defineix la representació de text mitjançant operadors com:

  • BT / ET: Inicia i finalitza un objecte de text
  • Tf: Estableix la font i la mida de la font
  • Tm: Estableix la posició absoluta utilitzant una matriu de sis números
  • Tj / TJ: Representa una cadena de text (TJ inclou ajustos de kerning per glif)

El que sembla una taula als vostres ulls - files i columnes ordenades amb números alineats - són en realitat centenars de comandes de posicionament de text individuals. No hi ha etiquetes <table>, <tr> o <td>. No hi ha identificadors de fila o columna. No hi ha límits de cel·la. El convertidor ha de fer una enginyeria inversa de l'estructura de la taula analitzant les relacions espacials entre els caràcters: quins caràcters estan alineats verticalment (suggerint una columna), quins estan a la mateixa línia horitzontal (suggerint una fila) i on els espais indiquen límits de cel·la.

Aquesta és la raó per la qual la conversió directa sovint produeix resultats desordenats: les columnes es fusionen perquè els caràcters estan lleugerament desalineats, els números es converteixen en cadenes de text perquè els símbols de moneda són elements posicionats per separat i les descripcions de diverses línies es divideixen en files fantasma.

PDF etiquetats vs. no etiquetats

L'especificació PDF inclou un "arbre d'estructura" opcional per a l'accessibilitat: PDF etiquetats que identifiquen encapçalaments, paràgrafs i cel·les de taula per als lectors de pantalla. Si hi és present, aquesta metadada facilita dràsticament l'extracció. La realitat: la gran majoria dels PDF no estan etiquetats. La majoria dels generadors de PDF ometen el pas d'etiquetatge perquè és opcional i afegeix complexitat. Els extractes bancaris, les factures i els informes financers gairebé mai no estan etiquetats.

Codificació de fonts i el problema Unicode

Els PDF utilitzen dues vies de cerca separades per a cada caràcter: una per al contorn del glif (com es veu) i una altra per al mapa Unicode (què significa). Quan la taula ToUnicode CMap falta, està incompleta o està deliberadament barrejada, com passa amb alguns generadors de PDF i eines de seguretat, l'extracció de text produeix una sortida esgarriada, fins i tot si el PDF es representa perfectament a la pantalla. Veieu els caràcters correctes visualment, però la còpia/enganxa o l'extracció programàtica produeix un disbarat.


Mètode 1: PDFSub (Basat en navegador, funciona per a tots els tipus de PDF)

PDFSub gestiona tota la gamma de conversions de PDF a Excel, des de taules simples d'una sola pàgina fins a documents financers complexos de diverses pàgines amb cel·les fusionades, descripcions de diverses línies i formats de números internacionals.

Com funciona

  1. Puja el teu PDF - Arrossega i deixa anar qualsevol fitxer PDF. PDFSub detecta automàticament el tipus de document i l'estructura.
  2. Extracció automàtica - Es detecten les taules i les dades s'extreuen en files i columnes estructurades. Per als PDF digitals, això es fa completament al teu navegador: el fitxer mai surt del teu dispositiu.
  3. Revisa la previsualització - Comprova les dades extretes abans de descarregar. Els encapçalaments de columna, els tipus de dades i l'alineació de files són visibles a la previsualització.
  4. Descarrega - Exporta com a Excel (.xlsx), CSV o altres formats.

Per què funciona

Privadesa primer al navegador. Els PDF digitals es processen completament al teu navegador utilitzant JavaScript al costat del client. No hi ha càrrega de fitxers, ni exposició del servidor, ni retenció de dades. Això és important per a documents financers, registres fiscals i qualsevol cosa que contingui informació sensible. Segons el GDPR, el processament al costat del client evita la classificació com a processador de dades, ja que no es recopilen ni es transmeten dades personals.

Gestiona documents escanejats. Si el PDF és una imatge escanejada (sense text seleccionable), PDFSub utilitza OCR al costat del servidor amb neteja automàtica. L'enfocament de dos nivells significa que tant els PDF digitals com els escanejats produeixen resultats útils.

Expertesa en documents financers. El motor d'extracció entén el format financer: números negatius entre parèntesis, símbols de moneda com a elements separats, divisions de columnes de dèbit/crèdit, validació de balanços corrents i formats de números internacionals (1.234,56 vs 1,234.56).

Més de 130 idiomes. Funciona amb PDF en qualsevol idioma, inclosos CJK (xinès, japonès, coreà) amb codificacions de caràcters complexes, àrab i hebreu de dreta a esquerra, i idiomes europeus amb caràcters accentuats.


Mètode 2: Microsoft Excel Power Query (Només Windows)

Excel 2019 i Microsoft 365 (Windows) inclouen una funció d'importació de PDF integrada a través de Power Query. Aquesta és l'opció més accessible per a persones que ja tenen Excel instal·lat.

Power Query PDF import steps showing the Data menu and import dialog

Com fer-ho

  1. Obriu Excel i aneu a Dades → Obtenir dades → Des d'un fitxer → Des de PDF
  2. Seleccioneu el vostre fitxer PDF
  3. Power Query mostra un panell de Navegador que mostra les taules detectades: cada taula s'enumera per separat, i també podeu veure text cru de la pàgina
  4. Seleccioneu la taula que necessiteu i feu clic a Transformar dades per netejar els encapçalaments de columna, els tipus de dades i el format abans de carregar, o feu clic a Carregar per introduir-la directament al vostre full de càlcul.

Què fa bé Power Query

  • Les taules simples i ben estructurades amb vores clares o espais consistents es converteixen de manera fiable.
  • Les taules de diverses pàgines sovint es detecten i es combinen correctament si la disposició és coherent.
  • Les importacions repetides es poden configurar com a connexions actualitzables, útils si rebeu regularment el mateix format d'informe.
  • Sense cost més enllà de la vostra llicència existent de Microsoft 365 o Excel 2019.

Amb què té dificultats Power Query

  • No disponible a Mac. El connector PDF falta completament a Excel per a Mac. Microsoft no ha anunciat plans per afegir-lo. Solució per a Mac: obriu el PDF a Microsoft Word (que el converteix en text editable), després copieu les taules a Excel.
  • Cap capacitat OCR. Si el PDF és una imatge escanejada sense capa de text incrustada, Power Query no veu res; requereix text seleccionable.
  • Les disposicions complexes fallen. Les cel·les fusionades, els encapçalaments de diversos nivells, les taules niades i les estructures de columnes irregulars produeixen resultats desordenats. Una fila de "Total" amb una cel·la de descripció fusionada pot fer que totes les files posteriors es desalineïn.
  • Els encapçalaments i peus de pàgina es repeteixen. Les taules de diverses pàgines on la fila d'encapçalament es repeteix a cada pàgina donen lloc a text d'encapçalament intercalat amb files de dades. Heu de filtrar-los manualment.
  • Format de moneda i números. Power Query pot importar números com a cadenes de text quan hi ha símbols de moneda, negatius entre parèntesis o separadors de milers no nord-americans. Requereix una conversió de tipus manual després de la importació.

Power Query per a usuaris de Mac (Solució)

Des de gener de 2026, Microsoft ha portat Power Query a Excel per al web, cosa que potencialment amplia l'accés a la importació de PDF. No obstant això, el connector PDF específicament encara pot ser només per a Windows. La solució més fiable per a Mac continua sent:

  1. Obriu el PDF a Microsoft Word (Fitxer → Obri → seleccioneu el PDF)
  2. Word converteix el PDF en un document editable (imperfectament)
  3. Copieu la taula de Word i enganxeu-la a Excel
  4. Utilitzeu Text a columnes i conversions de tipus de dades per netejar.

Mètode 3: Adobe Acrobat Pro

Adobe Acrobat Pro pot exportar PDF a format Excel. Com a creador del format PDF, l'eina d'Adobe té un profund coneixement dels elements interns dels PDF, però això no sempre es tradueix en una sortida d'Excel neta.

Preus

  • Acrobat Pro: 19,99 $/mes (compromís anual) o 29,99 $/mes (mes a mes). Total: 239,88–359,88 $/any.
  • Acrobat Export PDF (només conversió): 1,99 $/mes (23,88 $/any). Converteix PDF a Word, Excel o RTF.
  • Eina en línia gratuïta: Disponible a adobe.com amb conversions limitades per dia. Requereix creació de compte.
  • Límits de fitxer: 100 MB de mida de fitxer, 600 pàgines màxim per a serveis al núvol.

Com fer-ho

  1. Obriu el vostre PDF a Acrobat Pro
  2. Aneu a Fitxer → Exportar a → Full de càlcul → Microsoft Excel Workbook
  3. Trieu la ubicació de desar
  4. Per als PDF escanejats, Acrobat aplica automàticament OCR abans de l'exportació.

Què fa bé Adobe

  • OCR automàtic per a documents escanejats: detecta i processa PDF basats en imatges.
  • Suport multilingüe per a OCR (anglès, alemany, espanyol, francès, portuguès i altres).
  • Reconeixement de camps de formulari: els formularis PDF estructurats s'exporten amb noms de camps i valors.

Amb què té dificultats Adobe

  • Les cel·les fusionades creen columnes excessives. Els usuaris informen habitualment que les columnes i les tabulacions produeixen moltes columnes buides a la sortida d'Excel, un problema ben documentat als fòrums de suport d'Adobe.
  • El text de diverses línies es divideix en files addicionals. Una única cel·la que conté una descripció amb salt de línia es converteix en dues o tres files separades, trencant l'alineació de tota la taula.
  • Car per a ús ocasional. A 240–360 $/any, és excessiu si només necessiteu convertir PDF ocasionalment. L'Export PDF autònom a 24 $/any és més raonable però no té el conjunt complet d'eines d'Acrobat.
  • Processament al costat del servidor. Els fitxers es carreguen al núvol d'Adobe per a la conversió, cosa que pot ser una preocupació per a documents financers sensibles.

Mètode 4: Google Sheets (Gratuït, però limitat)

Google Sheets no té una funció d'importació de PDF nativa. No hi ha cap opció "Importa PDF" enlloc dels menús. No obstant això, hi ha solucions.

Mètode Google Docs (Gratuït)

  1. Puja el PDF a Google Drive
  2. Feu clic dret al fitxer → Obre amb → Google Docs
  3. Google converteix el PDF en un document editable
  4. Copieu les taules del document de Google i enganxeu-les a Google Sheets
  5. Netegeu el format, l'alineació de columnes i els tipus de dades.

Quan funciona: PDF simples amb taules bàsiques i formatació mínima.

Quan falla: Taules complexes, disposicions de diverses columnes, documents escanejats. La conversió sovint esgarria l'estructura de la taula: les cel·les es fusionen, les columnes es desplacen i les files es divideixen.

Alternativa: Convertir primer, després pujar

L'enfocament més fiable és convertir el PDF a Excel o CSV utilitzant una altra eina (PDFSub, Adobe, etc.), després pujar el fitxer resultant a Google Sheets. Aquest procés de dos passos evita l'anàlisi inconsistent de PDF de Google.


Mètode 5: Convertidors en línia (Ràpids però amb compromís de privadesa)

Diverses eines en línia gratuïtes converteixen PDF a Excel sense necessitat d'instal·lar programari.

Opcions populars

Eina Nivell gratuït Límits de fitxer OCR
Smallpdf 2 tasques/dia 5 GB Sí (de pagament)
iLovePDF Limitada 100 MB Sí (de pagament)
PDF2Go Limitada Varia Bàsic
Zamzar 2 fitxers/dia 50 MB No

El problema de la privadesa

Quan utilitzeu qualsevol convertidor en línia, el vostre fitxer es carrega als seus servidors per al processament. El proveïdor del servei té accés complet al document durant el processament: contingut de text, metadades, imatges incrustades, tot. Fins i tot si el proveïdor afirma eliminar els fitxers després del processament, les instantànies a nivell de sistema, els registres o les integracions de tercers poden conservar fragments.

Per a extractes bancaris, documents fiscals, factures, registres mèdics o qualsevol document que contingui dades financeres, informació d'identificació personal o dades empresarials confidencials, el processament al costat del servidor crea un risc mesurable. Segons el GDPR, en el moment en què un servei emmagatzema el vostre document al seu servidor, es converteix en un processador de dades amb obligacions de compliment. Des de 2025, s'han registrat més de 2.245 multes del GDPR per un total aproximat de 5.650 milions d'euros.

Quan els convertidors en línia tenen sentit: Documents no sensibles on la comoditat supera la privadesa. Conversions ràpides puntuals de dades públiques. Documents que estaria disposat a enviar per correu electrònic a un desconegut.

Quan evitar-los: Extractes financers, declaracions fiscals, registres mèdics, documents legals, qualsevol cosa amb números de SSN o de compte, dades empresarials propietaries.


Mètode 6: Llibreries de Python (Per a desenvolupadors)

Si sou un desenvolupador o analista de dades que processa PDF de manera programàtica, diverses llibreries de Python de codi obert gestionen l'extracció de taules de PDF.

Comparació de llibreries

Llibreria Llicència OCR Detecció de taules Millor per a
pdfplumber MIT No Manual + configurable Taules complexes, control detallat
Tabula-py MIT No Autodetecció Extracció ràpida de taules amb vores
Camelot MIT No Modes Lattice + Stream Taules amb vores (el mode Lattice destaca)
PyMuPDF AGPL No Bàsic Extracció ràpida de text (problemes de llicència per a SaaS)

pdfplumber

Basat en pdfminer.six. Proporciona accés a cada caràcter, línia, rectangle i corba d'una pàgina amb coordenades precises. L'extracció de taules utilitza estratègies configurables per detectar els límits de les cel·les. Ofereix depuració visual: podeu dibuixar taules detectades a les imatges de la pàgina. Requereix més configuració que Tabula per a casos simples, però gestiona taules complexes millor que qualsevol altra llibreria de codi obert.

Tabula-py

Envoltant de Python per a Tabula-java (requereix JVM instal·lada). Bona per detectar automàticament els límits de les taules. Surt directament a DataFrames de pandas. La dependència de la JVM dificulta la implementació i té dificultats amb encapçalaments de diversos nivells complexos.

Camelot

Dos modes: el mode Lattice utilitza processament d'imatges (transforms morfològiques d'OpenCV) per detectar línies de regla i trobar límits de cel·la a partir d'interseccions de línies; és molt precís per a taules amb vores. El mode Stream agrupa caràcters per proximitat d'espais en blanc per inferir columnes. Proporciona mètriques d'exactitud/qualitat per taula. El mode Lattice aconsegueix puntuacions F1 superiors a 0,85 en punts de referència ICDAR, però falla en taules amb línies fines o febles.

Quan utilitzar Python

  • Processament per lots de centenars o milers de documents similars.
  • Construcció de pipelines automatitzats per a informes recurrents.
  • Quan necessiteu control total sobre la lògica d'extracció i el postprocessament.
  • Quan el format del document és conegut i coherent.
  • Projectes de recerca i periodisme de dades.

Quan no utilitzar Python

  • Conversions puntuals (el temps de configuració supera el temps estalviat).
  • Usuaris no tècnics.
  • PDF escanejats (aquestes llibreries no inclouen OCR; primer necessiteu un pas d'OCR separat).
  • Quan la velocitat de lliurament és més important que la personalització.

Problemes comuns de conversió i com solucionar-los

Common PDF to Excel conversion issues showing misaligned columns and merged data

Cada mètode de conversió produeix resultats imperfectes en alguns documents. Aquí teniu els errors més comuns i les solucions pràctiques.

Nombres importats com a text

El problema: Excel tracta els números extrets com a cadenes de text, cosa que impedeix SUMA, MITJANA i tots els càlculs. Això passa perquè els PDF no distingeixen entre números i text: un símbol de moneda, un signe negatiu o un separador de milers fan que tota la cel·la sigui una cadena de text.

Com detectar: Busqueu un triangle verd a la cantonada superior esquerra de les cel·les, o proveu SUMA en una columna; si retorna 0, els valors són text.

Solucions:

  • Seleccioneu la columna → Dades → Text a columnes → feu clic a Finalitzar (això obliga Excel a tornar a analitzar les dades).
  • Multiplicar per 1: en una columna auxiliar, utilitzeu =A1*1 per forçar la conversió numèrica.
  • Utilitzeu NUMBERVALUE: =NUMBERVALUE(A1, ".", ",") gestiona el format europeu.
  • Troba i substitueix per eliminar símbols de moneda: substitueix "$" per res, substitueix "(" per "-", substitueix ")" per res.

Nombres negatius entre parèntesis

El problema: La convenció comptable mostra els números negatius com a (200,00) en lloc de -200,00. Cada convertidor de PDF genera la cadena literal "(200,00)" que Excel tracta com a text.

Solució: Troba i substitueix en dos passos: substitueix "(" per "-" i substitueix ")" per res. Després, converteix la columna a format numèric. O utilitzeu: =IF(LEFT(A1,1)="(",-VALUE(SUBSTITUTE(SUBSTITUTE(A1,"(",""),")","")) ,VALUE(A1))

Columnes fusionades

El problema: Les dades de diverses columnes acaben en una única cel·la: "01/15/2026 Dipòsit $3.500,00" tot en la columna A.

Solució: Dades → Text a columnes amb un delimitador (espai, coma, tabulació o amplada fixa). Per a amplada fixa, la divisió de columnes de Power Query és més fiable perquè podeu ajustar visualment els punts de separació.

Descripcions de diverses línies dividides en files addicionals

El problema: Una única transacció amb una descripció de dues línies es converteix en dues files a Excel, amb la segona línia amb camps de data, import i saldo buits. Això trenca l'alineació de files de tot el full de càlcul.

Solució: Aquest és el problema més difícil de solucionar manualment. Busqueu files on la columna de data estigui buida; probablement són línies de continuació. Concateneu-les amb la fila anterior utilitzant una fórmula auxiliar, després elimineu les files buides. Per als extractes bancaris específicament, un convertidor especialitzat com el convertidor d'extractes bancaris de PDFSub gestiona automàticament les descripcions de diverses línies detectant patrons de continuació.

Encapçalaments i peus de pàgina barrejats amb dades

El problema: Els PDF de diverses pàgines repeteixen les files d'encapçalament, els números de pàgina, les dates i els títols del document a cada pàgina. Els convertidors genèrics extreuen aquests com a files de dades, barrejats amb dades reals.

Solució: Després de la conversió, ordeneu o filtreu per la columna de data. Les files d'encapçalament i els peus de pàgina normalment no contenen dates vàlides i s'ordenaran a la part superior o inferior. Elimineu-los manualment. Per a informes recurrents amb el mateix format, enregistreu una macro per automatitzar la neteja.

Ambigüitat de dates (MM/DD vs DD/MM)

El problema: La data 03/04/2026 podria ser el 4 de març (format nord-americà) o el 3 d'abril (format europeu). Quan totes les dates d'un document tenen valors de dia inferiors o iguals a 12, no hi ha manera algorítmica de determinar el format correcte. Els convertidors normalment predeterminen a MM/DD/AAAA, però això produeix silenciosament dates incorrectes per a documents no nord-americans.

Solució: Comproveu la localització del document original. Si és d'una font europea, asiàtica o llatinoamericana, el format és gairebé segur DD/MM/AAAA. A Excel, seleccioneu la columna de dates, feu clic dret → Format de cel·les → Número → Data, i trieu la localització correcta. Si les dates ja s'han malinterpretat, potser haureu d'intercanviar el dia i el mes utilitzant =DATE(YEAR(A1), DAY(A1), MONTH(A1)).

Dades faltants

El problema: Alguns continguts no apareixen a la conversió en absolut, normalment marques d'aigua, dades en imatges o text que utilitza fonts amb mapes Unicode que falten.

Solució: Obriu el PDF original i proveu de seleccionar el text que falta. Si no el podeu seleccionar, és una imatge; necessiteu capacitat OCR. Si el podeu seleccionar però es copia com a caràcters esgarriats, el PDF té un problema d'codificació de font. Proveu un convertidor diferent; cada un gestiona el mapatge de fonts de manera diferent. PDFSub gestiona tots dos escenaris: extracció al costat del client per a text incrustat i OCR al costat del servidor per a contingut escanejat.


Quin mètode utilitzar per al vostre tipus de document

Diferents PDF necessiten diferents enfocaments. Aquí teniu una matriu de decisió:

Tipus de document Millor mètode Per què
Extractes bancaris PDFSub o convertidor especialitzat Les descripcions de diverses línies, la validació del balanç corrent, les columnes de dèbit/crèdit necessiten una extracció conscient dels financers
Factures PDFSub o Adobe Acrobat Disposicions irregulars, línies d'elements amb càlculs d'impostos, format de moneda
Informes financers (10-K, trimestrals) Power Query o pdfplumber Taules denses de diverses columnes amb elements niats; Power Query gestiona bé les estructures repetitives
Taules de dades simples Power Query (gratuït) Les taules amb vores netes d'informes empresarials es converteixen de manera fiable
Documents de paper escanejats PDFSub o Adobe Acrobat (OCR) Ha de tenir capacitat OCR; Power Query i les llibreries de Python no poden processar imatges
Formularis governamentals Adobe Acrobat o PDFSub Camps de posició fixa, barreja d'estructura preimpresa i dades emplenades
Informes per lots recurrents Python (Tabula/Camelot) Pipeline programable per a documents de format idèntic processats regularment
Documents internacionals PDFSub Gestiona més de 130 idiomes, formats de números/dates no nord-americans, codificacions de caràcters CJK

OCR vs. PDF natiu: per què importa

El factor més important en l'exactitud de la conversió és si el vostre PDF conté text incrustat o és una imatge escanejada.

PDF nadius (digitals)

Creades digitalment per programari: el portal en línia del vostre banc, exportacions de programari de comptabilitat, conversions de Word a PDF. Podeu seleccionar i copiar text quan visualitzeu el PDF.

  • Exactitud: Efectivament 100% per a l'extracció de caràcters (sense errors de reconeixement). Els errors provenen de problemes d'codificació de font o mala interpretació de la disposició, no del reconeixement de caràcters.
  • Velocitat: Ràpida, no es necessita processament d'imatges.
  • Privadesa: Es pot processar completament al navegador (no cal pujar al servidor).

PDF escanejats

Imatges de documents de paper creades per escàners, càmeres de telèfon o fax a PDF. No podeu seleccionar text; és una imatge.

  • Exactitud: Varia dràsticament segons el motor i la qualitat de l'escaneig.
Motor OCR Exactitud del text escrit Cost
ABBYY FineReader 99,3–99,8% Des de 16 $/mes
Google Cloud Vision ~98% Gratuït per a 1.000 pàgines/mes; 1,50 $/1.000 després
AWS Textract 95–99% ~1,50 $/1.000 pàgines (text); 15 $/1.000 (taules)
Tesseract (codi obert) <95% Gratuït

Un estudi d'informes financers escanejats va trobar que Tesseract (l'OCR de codi obert més comú) produïa una taxa d'error de caràcters del 46%, és a dir, gairebé la meitat dels caràcters eren incorrectes. Les alternatives comercials són dràsticament millors però costen diners.

Conclusió: Utilitzeu sempre PDF digitals nadius quan estiguin disponibles. Descarregueu extractes del lloc web del vostre banc en lloc d'escanejar paper. Si heu d'escanejar, utilitzeu la resolució més alta possible (300+ DPI) i assegureu-vos que la pàgina estigui plana i il·luminada uniformement.


Extracció de PDF mitjançant IA (2025–2026)

Els models de llenguatge grans estan canviant el panorama de l'extracció de PDF. En lloc d'anàlisi basada en regles, els models d'IA poden "entendre" l'estructura del document de manera contextual.

Què pot fer la IA que les regles no poden

  • Gestionar disposicions variades sense plantilles predefinides: la IA inferix l'estructura de la taula del context visual.
  • Interpretar terminologia específica del domini: entendre que "(200,00)" significa negatiu 200 en comptabilitat, o que "Cr" significa crèdit.
  • Processar documents multilingües sense regles específiques de l'idioma.
  • Combinar descripcions de diverses línies entenent que una línia de continuació pertany a la transacció anterior.

Limitacions actuals

  • Risc d'al·lucinació: la IA pot generar dades que semblen plausibles però que no existeixen al document original. Verifiqueu sempre la sortida amb la font.
  • Límits de tokens: els PDF molt grans (centenars de pàgines) poden superar la finestra de context del model, cosa que requereix paginació.
  • Cost: l'extracció amb IA costa significativament més per pàgina que l'extracció basada en regles.
  • Latència: el processament triga més que l'extracció de text directa.

L'enfocament híbrid

Les eines modernes més efectives utilitzen una estratègia híbrida: extracció ràpida basada en regles per a PDF digitals nets (gestionant el 80%+ dels documents), amb una alternativa d'IA per a disposicions complexes, documents escanejats i casos extrems. Això us proporciona la velocitat i l'exactitud de l'anàlisi determinista amb la flexibilitat de la IA quan cal.


Consells per a millors resultats (independentment del mètode)

Abans de la conversió

Utilitzeu PDF nadius sempre que sigui possible. Descarregueu extractes i informes del sistema font en lloc d'escanejar paper. Podeu saber si un PDF és nadiu si podeu seleccionar paraules individuals al vostre visualitzador de PDF.

Comproveu si hi ha protecció per contrasenya. Alguns bancs i institucions protegeixen els PDF amb contrasenya. La contrasenya sol ser els últims 4 dígits del vostre número de compte, la vostra data de naixement o el vostre SSN. Elimineu la protecció abans de convertir; la majoria dels mètodes fallen silenciosament en PDF xifrats.

Comproveu l'ordre de les pàgines. Els documents de diverses pàgines de vegades tenen pàgines fora d'ordre, especialment els PDF escanejats. Un convertidor extreurà les pàgines seqüencialment, de manera que les pàgines fora d'ordre produiran dades fora d'ordre.

Després de la conversió

Verifiqueu sempre la sortida. Cap convertidor és 100% precís en tots els documents. Comproveu que:

  • El recompte de files coincideix amb l'original (compteu les transaccions al PDF enfront de les files a Excel).
  • Els saldos d'obertura i tancament coincideixen (per a documents financers).
  • Comproveu aleatòriament 3-5 valors individuals amb la font.
  • Els encapçalaments de columna s'han identificat correctament.
  • Les dates tenen el format esperat.

Això triga 60 segons i detecta errors que podrien costar hores o produir informes financers incorrectes.

Deseu tant el fitxer original com el convertit. Mantingueu el PDF original al costat de la vostra exportació d'Excel. Si algun valor es qüestiona mai, podeu verificar-lo amb la font. Per a documents financers, moltes regulacions (llei fiscal, requisits d'auditoria) exigeixen la conservació dels registres originals.


Preguntes freqüents

Puc convertir un PDF protegit per contrasenya a Excel?

R: Necessiteu eliminar primer la protecció per contrasenya. Si coneixeu la contrasenya, obriu el PDF a Adobe Reader o a qualsevol visualitzador de PDF, imprimiu-lo a un PDF nou sense protecció, i després convertiu-lo. Les contrasenyes de la majoria d'extractes bancaris són els últims 4 dígits del vostre número de compte. Si no coneixeu la contrasenya, poseu-vos en contacte amb qui va crear el document.

Per què els meus números apareixen com a text a Excel després de la conversió?

R: Els PDF no distingeixen entre números i text; tots són caràcters posicionats en una pàgina. Quan Excel importa dades, els símbols de moneda ($, EUR), els negatius entre parèntesis com (200), els separadors de milers o els marcadors decimals no estàndard fan que Excel predetermini el format de text. Solució: seleccioneu la columna → Dades → Text a columnes → Finalitzar, o multipliqueu per 1 per forçar la conversió numèrica.

Hi ha una manera d'automatitzar la conversió de PDF a Excel?

R: Sí. Les connexions de Power Query es poden actualitzar automàticament. Les llibreries de Python (Tabula-py, pdfplumber, Camelot) permeten pipelines completament automatitzats per a documents recurrents. PDFSub admet càrregues massives per processar diversos fitxers. Per a l'automatització a escala empresarial, les API d'Adobe, AWS Textract i Google Document AI processen PDF de manera programàtica.

Quin mètode proporciona els resultats més precisos?

R: Depèn completament del vostre document. Per a PDF digitals nets amb taules amb vores simples, Power Query sovint funciona bé i és gratuït. Per a documents financers (extractes bancaris, factures, informes), eines especialitzades com PDFSub que entenen el format financer produeixen resultats significativament millors. Per a documents escanejats, necessiteu capacitat OCR; Power Query i les llibreries de Python no poden processar imatges en absolut.

Puc convertir diversos PDF alhora?

R: Algunes eines en línia admeten la conversió per lots. PDFSub permet pujar diversos fitxers que es processen seqüencialment. Power Query pot importar de diversos fitxers amb una configuració. Per al processament per lots regular, els scripts de Python proporcionen la màxima flexibilitat per a grans volums.

La versió gratuïta d'Excel admet la importació de PDF?

R: La importació de PDF de Power Query requereix Excel 2019 o Microsoft 365 (només Windows). La versió web gratuïta d'Excel i Excel per a Mac no inclouen el connector PDF. Si necessiteu una opció gratuïta sense Excel 2019, utilitzeu el convertidor basat en navegador de PDFSub o una eina en línia.

Puc convertir una taula PDF a Google Sheets?

R: Google Sheets no té importació de PDF nativa. La solució és convertir el PDF a Excel o CSV primer amb una altra eina, després pujar el fitxer a Google Sheets. Alternativament, podeu pujar el PDF a Google Drive i obrir-lo amb Google Docs, però aquest mètode sovint esgarria l'estructura de la taula i no és fiable per a dades de diverses columnes.

Com gestiono els PDF amb taules en diversos idiomes?

R: La majoria dels convertidors assumeixen formats anglesos (dates MM/DD/AAAA, separadors de milers amb coma). Per a documents en altres idiomes, necessiteu un convertidor que admeti formats internacionals. PDFSub gestiona més de 130 idiomes amb detecció automàtica de formats de data (DD/MM/AAAA, AAAA-MM-DD), formats de números (1.234,56 vs 1,234.56) i codificacions de caràcters (UTF-8, GBK, Shift_JIS, ISO 8859).


Resum

Convertir PDF a Excel no sempre és senzill, però el mètode adequat per al vostre tipus de document marca una diferència significativa:

Mètode Cost OCR Millor per a
PDFSub Prova gratuïta de 7 dies Sí Documents financers, PDF internacionals, dades sensibles a la privadesa
Power Query Gratuït (amb Excel 2019/365) No Taules simples, usuaris de Windows
Adobe Acrobat 20–30 $/mes Sí PDF nadius, exportacions de formularis
Google Docs Gratuït No Només taules molt bàsiques
Convertidors en línia Gratuït (limitat) Varia Ús ocasional no sensible
Llibreries de Python Gratuït (codi obert) No Desenvolupadors, processament per lots

El principi clau: ajusteu el vostre mètode al vostre tipus de document i nivell de sensibilitat. Les taules simples de PDF digitals es converteixen bé amb eines gratuïtes. Els documents financers, els PDF escanejats i els documents internacionals es beneficien d'una extracció especialitzada. I per a qualsevol cosa que contingui dades sensibles, doneu prioritat a les eines que processen fitxers al vostre navegador en lloc de pujar-los a servidors de tercers.

Tornar al blog

Preguntes? Contacta amb nosaltres

PDFSub

Totes les eines de PDF i documents que necessites en un sol lloc. Ràpid, segur i privat.

Compliment GDPRCompliment CCPAPreparat per SOC 2
Potenciat per PDFSub Engine

Producte

  • Totes les eines
  • Característiques
  • Extractes bancaris
  • API
  • Preus
  • Preguntes freqüents
  • Blog

Suport

  • Sobre nosaltres
  • Centre d'ajuda
  • Contacte
  • Preguntes freqüents

Legal

  • Política de privadesa
  • Condicions del servei
  • Política de cookies

© 2026 PDFSub. Tots els drets reservats.

Fet a Amèrica amb per a tothom