How to Extract Tables from PDF to Excel: 5 Methods Compared

Du har en PDF med en tabell som du behöver i Excel. Kanske är det en finansiell rapport, ett kontoutdrag, en faktura eller en forskningsartikel. Datan finns där – snyggt organiserad i rader och kolumner på skärmen. Men när du försöker få ut den faller allt isär.

Detta händer eftersom PDF inte är ett dataformat. Det är ett visningsformat. Det finns inget koncept av en "tabell", "rad" eller "kolumn" i PDF-specifikationen. Vad som ser ut som en strukturerad tabell är faktiskt dussintals textfragment placerade vid specifika x,y-koordinater på en yta. Att extrahera den strukturen tillbaka till ett kalkylblad är ett problem med omvänd ingenjörskonst – och olika verktyg hanterar det med varierande framgång.

Den här guiden täcker 5 metoder för att extrahera tabeller från PDF-filer, när var och en fungerar bäst, och vad du ska göra när saker och ting går fel.

Varför tabell-extrahering från PDF är svårt

5 Methods for Extracting PDF Tables to Excel - Accuracy Comparison

PDF-formatet har inga tabeller

PDF-specifikationen (ISO 32000-2:2020) definierar en innehållsström – en sekvens av operatorer som placerar enskilda tecken vid exakta koordinater. En enkel tabellrad som "Datum | Beskrivning | Belopp" kan lagras som:

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Kontorsmaterial) Tj 180 0 Td (125.00) Tj ET

Det finns inga <table>, <tr> eller <td>-taggar. Inga radidentifierare. Inga kolumnavgränsningar. De visuella linjerna du ser runt celler är separata ritoperationer helt frikopplade från texten. Ett extraktionsverktyg måste härleda hela strukturen från rumsliga relationer.

Tre typer av tabellramar

Inramade (rutnät) tabeller har synliga linjer runt varje cell. Dessa är enklast att extrahera eftersom linjerna tydligt definierar cellgränser. Vanligt i formella finansiella rapporter, myndighetsformulär och standardiserade rapporter.

Utan ram (ström) tabeller har inga linjer alls. Strukturen definieras helt av blankstegsjustering – textobjekt som delar konsekventa x-koordinater över rader bildar implicita kolumner. Vanligt i forskningsartiklar, fakturor och produktkataloger.

Halvinramade tabeller har bara delvisa ramar – vanligtvis horisontella linjer mellan sektioner men inga vertikala avdelare. Extremt vanligt i kontoutdrag, mäklarrapporter och fakturor för allmännyttiga tjänster. Dessa är svårast att extrahera eftersom partiella ramar vilseleder rutnätsläges-parsare medan saknade ramar minskar strömläges-konfidensen.

Tagged vs. Untagged PDF-filer

Tagged PDF-filer inkluderar strukturell metadata som identifierar rubriker, stycken och tabellceller. Untagged PDF-filer har inget av detta – extraktionsverktyget får bara råa koordinater. Den stora majoriteten av PDF-filer är untagged, inklusive praktiskt taget alla kontoutdrag, fakturor och finansiella rapporter.

Metod 1: PDFSub Extrahera tabeller (Gratis + AI-återfall)

PDFSubs Verktyg för att extrahera tabeller använder en tre-nivåers metod som maximerar noggrannheten samtidigt som kostnaden minimeras:

Nivå 1: Koordinatbaserad detektering (Webbläsare, Gratis)

Verktyget försöker först extrahera helt i din webbläsare:

Parsar PDF-innehållsströmmen för att extrahera varje textobjekt med dess x,y-koordinater
Grupperar textobjekt i rader baserat på närhet i y-koordinat
Analyserar x-koordinatjusteringsmönster över rader för att upptäcka kolumnavgränsningar
Kräver minst 3 rader, 2 kolumner och 70%+ konfidens

Om bra tabeller hittas får du strukturerad data omedelbart – ingen serveruppladdning, inga AI-krediter förbrukade, och din fil lämnar aldrig din enhet.

Nivå 2: Serverbaserad extrahering (pdfplumber, Gratis)

Om koordinatbaserad detektering inte hittar några tabeller använder verktyget pdfplumber (MIT-licens) på servern. Detta upptäcker både explicita linjer (ritade ramar) och implicita linjer (ordjusteringsmönster), hittar skärningspunkter, identifierar rektanglar och mappar text till celler.

Nivå 3: AI-extrahering (Använder krediter)

För skannade PDF-filer, komplexa layouter eller tabeller som regelbaserade metoder inte kan parsa, faller verktyget tillbaka på AI-driven visuell extrahering. Du kan också växla "Tvinga AI-extrahering" för att hoppa direkt till denna nivå när du vet att tabellen är komplex.

Utdataformat: Excel (.xlsx), CSV, JSON.

Bäst för: Snabb extrahering utan att installera programvara. Digitala PDF-filer bearbetas helt i din webbläsare för maximal integritet.

Metod 2: Power Query i Excel (Endast Windows)

Tillgängligt i Excel 2019+ och Microsoft 365 på Windows: Data → Hämta data → Från fil → Från PDF.

Hur det fungerar

Klicka på Data → Hämta data → Från fil → Från PDF
Välj din PDF-fil
Power Query visar en Navigator-panel som listar upptäckta tabeller per sida
Välj de tabeller du vill ha, klicka på Transformera data för att rensa upp, och sedan Läs in

Styrkor

Inbyggt i Excel – ingen extra kostnad för Microsoft 365-prenumeranter
Power Querys transformationsmotor hanterar efterbearbetning väl (fylla ner, pivotera, slå ihop kolumner)
Kan uppdatera data om käll-PDF:en uppdateras
Stöder anslutning av flera tabeller från samma PDF

Begränsningar

Endast Windows – inte tillgängligt i Excel för Mac, Excel Online eller mobil
Har svårt med tabeller utan ram – fungerar bäst med tydligt inramade tabeller
Ingen OCR – kan inte extrahera från skannade/bild-PDF-filer
Fler sidors tabeller är problematiska – varje sida importeras ofta som en separat tabell, vilket kräver manuell sammanfogning
Fler-raders rader – ombruten text i celler delas ofta upp i flera rader, vilket kräver rensning

Bäst för: Windows-användare med Microsoft 365 som har enkla, inramade tabeller.

Metod 3: Adobe Acrobat (Betald)

Arkiv → Exportera en PDF → Kalkylblad → Microsoft Excel-arbetsbok

Prissättning (2026)

Acrobat Standard: 12,99 USD/månad (årsplan)
Acrobat Pro: 19,99 USD/månad (årsplan)
Export PDF (fristående): lägre nivå av enbart konverteringsplan

Styrkor

Inbyggd OCR för skannade dokument
Bevarar generellt formateringen för enkla inramade tabeller
Batchbearbetning tillgänglig i Pro

Begränsningar

Dyr för enbart tabell-extrahering – 156–240 USD/år
Komplexa tabeller med sammanslagna celler och fler sidors intervall ger fortfarande feljusterat resultat
Filer kan laddas upp till Adobes moln för bearbetning – problematiskt för känsliga finansiella data
Kräver skrivbordsinstallation

Bäst för: Användare som redan betalar för Acrobat Pro och behöver enstaka tabell-exporter med OCR.

Metod 4: Kopiera-klistra (Manuell)

Det mest intuitiva tillvägagångssättet – och det som oftast misslyckas för tabeller.

Vanliga problem

All data i en kolumn – hela tabellen klistras in utan kolumnbrytningar
Siffror blir text – valutasymboler, parenteser och skiljetecken bryter numerisk formatering
Innehåll i flerradiga celler skapar spök-rader – en beskrivning som bryts över två rader i cellen blir två separata rader
Rubriker separerade från data – rubrikraden kopplas bort
Kolumner feljusterade – data flyttas eftersom teckenavstånd inte översätts till tabbar

Partiell lösning

Klistra in i Excel, använd sedan Data → Text till kolumner med blanksteg eller fast bredd som avgränsare. Aktivera "Behandla på varandra följande avgränsare som en". Detta fungerar för mycket enkla, välutrymda tabeller men misslyckas för allt med flervärdes-cellinnehåll.

Bäst för: Att extrahera en enda liten, enkel tabell som en sista utväg.

Metod 5: Python-bibliotek (För utvecklare)

Tre MIT-licensierade bibliotek hanterar PDF-tabell-extrahering programmatiskt:

Tabula-py

Python-wrapper runt Tabula (Java). Kräver Java runtime.

Rutnätsläge för inramade tabeller (hittar linjer och skärningspunkter)
Strömläge för tabeller utan ram (använder textjustering)
Bra för batchbearbetning i skript
Ingen OCR-support

Camelot

Erbjuder också rutnäts- och strömlägen.

Presterar generellt bättre än Tabula för inramade tabeller
Strömläget har fler konfigurationsparametrar för finjustering
Ger noggrannhetsrapporter med varje extrahering
Kräver Ghostscript-beroende. Ingen OCR-support

pdfplumber

Koordinatbaserad metod: extraherar varje tecken med dess exakta position, härleder sedan struktur.

Hanterar det bredaste utbudet av tabelltyper
Ger mest kontroll men kräver mer konfiguration
Detta är biblioteket som PDFSub använder på servern
Ingen OCR-support

Bäst för: Utvecklare som automatiserar återkommande arbetsflöden för tabell-extrahering, bearbetar stora batcher av liknande dokument.

Vanliga problem och hur man löser dem

Sammanslagna celler

När celler sträcker sig över flera rader eller kolumner, placerar de flesta verktyg antingen innehåll i den övre vänstra cellen och lämnar andra tomma, eller feljusterar alla efterföljande kolumner. Det finns ingen universell lösning – CSV-formatet har inget koncept för sammanslagning, så sammanslagningsinformation går alltid förlorad.

Åtgärd: Extrahera tabellen, fixa sedan manuellt sammanslagningsartefakter i Excel. För återkommande tabeller med samma sammanslagningsmönster, överväg ett efterbearbetningsskript.

Flerradigt innehåll inom celler

Långa beskrivningar som bryts inom en cell blir flera rader i utdata, vilket skjuter all efterföljande data ur linje. Detta är det vanligaste extraktionsfelet för finansiella dokument.

Åtgärd: Efter extrahering, leta efter rader som saknar datum och belopp – dessa är troligen fortsättningsrader som tillhör raden ovanför. I Excel, slå ihop dem manuellt eller använd en hjälpformel.

Tabeller som sträcker sig över flera sidor

Verktyg måste avgöra var tabellen fortsätter, om upprepade rubriker ska tas bort, och hur sidfotar ska filtreras. Många verktyg behandlar varje sida oberoende.

Åtgärd: Om ditt verktyg ger resultat per sida, kombinera bladen och ta bort upprepade rubrikrader. Kontrollera att den sista raden på sida N ansluter korrekt till den första raden på sida N+1.

Problem med valutainställningar

Negativa tal inom parentes ((1.234,56)) klistras in som text, inte siffror. Valutasymboler och tusentalsavgränsare bryter också numerisk formatering.

Åtgärd: Efter extrahering, markera beloppskolumnen och använd Sök och ersätt för att ta bort symboler som $ och (, ). Formatera sedan kolumnen som Nummer. För negativa tal inom parentes, ersätt ( med - och ta bort ), konvertera sedan till Nummerformat.

Datumambiguitet

2026-01-02 – är det 2 januari eller 1 februari? Extraktionsverktyget bevarar strängen som den är, men Excel kan tolka om den baserat på din region.

Åtgärd: Kontrollera käll-PDF:en för ledtrådar om datumformat (leta efter datum med dagvärden > 12). Ställ in Excels datumformat så att det matchar källan innan import.

Noggrannhetsjämförelse

Metod	Enkel Inramad	Utan Ram	Halvinramad	Skannade PDF-filer
PDFSub (koordinat + AI)	90–99%	75–95%	70–95%	85–95% (AI)
Power Query	85–95%	40–60%	50–70%	Stöds ej
Adobe Acrobat	90–95%	70–80%	70–85%	80–90%
Tabula	~68%	55–70%	50–65%	Stöds ej
Camelot	~73%	65–75%	60–70%	Stöds ej
Kopiera-klistra	30–50%	10–30%	10–30%	Ej möjligt

Intervall återspeglar variationer i dokumentkomplexitet. Jämförelsedata från Procycons 2025 PDF Extraction Benchmark och Camelot-jämförelsestudier.

Vilken metod ska du använda?

Scenario	Bästa Metod	Varför
Snabb engångs-extrahering	PDFSub	Ingen installation, webbläsarbaserad, gratis koordinat-extrahering
Enkel inramad tabell, Windows	Power Query	Inbyggt i Excel, ingen extra kostnad
Skannad PDF	PDFSub (AI) eller Adobe Acrobat	Kräver OCR-kapacitet
Känsliga finansiella data	PDFSub	Webbläsarbaserad bearbetning, filen laddas aldrig upp
Återkommande batchbearbetning	Python (pdfplumber)	Skriptbar, automatiserbar
Har redan Acrobat Pro	Adobe Acrobat	Betalar redan, enkla tabeller fungerar bra
En enda liten tabell, inga verktyg	Kopiera-klistra	Sista utväg, verifiera allt

Tips för bästa resultat

Använd ursprungliga PDF-filer. Ladda ner dokument från deras källa istället för att skanna papper. Ursprungliga PDF-filer har perfekt text, vilket gör extraheringen dramatiskt mer exakt.

Identifiera tabelltypen först. Inramade tabeller fungerar med nästan alla verktyg. Tabeller utan ram kräver strömläge eller AI-extrahering. Att känna till typen hjälper dig att välja rätt metod i förväg.

Börja med gratis, regelbaserade metoder. Prova koordinatbaserad extrahering först. Eskalera bara till AI när regelbaserade metoder ger dåliga resultat – detta sparar tid och krediter.

Verifiera alltid resultatet. Kontrollera radantal, kolumnjustering, numeriska värden och totaler. Lita aldrig blint på extraktionsresultat.

Var uppmärksam på nummerformatering. Efter extrahering, verifiera att siffror faktiskt är siffror i Excel (högerjusterade), inte textsträngar (vänsterjusterade). Valutasymboler och negativa tal inom parentes är vanliga bovar.

För känsliga data, föredra webbläsarbaserade verktyg. Finansiella rapporter, kontoutdrag och skattedokument innehåller känslig information. Verktyg som bearbetar PDF-filer i din webbläsare laddar aldrig upp din fil, vilket eliminerar risken för dataintrång.

Prova gratis

Redo att extrahera tabeller från din PDF? Ladda upp en fil nu – PDFSub försöker först med gratis koordinatbaserad extrahering, med AI-återfall för komplexa tabeller. Digitala PDF-filer bearbetas helt i din webbläsare. Starta en 7-dagars gratis provperiod.

How to Extract Tables from PDF to Excel: 5 Methods Compared

Den här guiden täcker 5 metoder för att extrahera tabeller från PDF-filer, när var och en fungerar bäst, och vad du ska göra när saker och ting går fel.

Varför tabell-extrahering från PDF är svårt

5 Methods for Extracting PDF Tables to Excel - Accuracy Comparison

PDF-formatet har inga tabeller

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Kontorsmaterial) Tj 180 0 Td (125.00) Tj ET

Tre typer av tabellramar

Tagged vs. Untagged PDF-filer

Metod 1: PDFSub Extrahera tabeller (Gratis + AI-återfall)

PDFSubs Verktyg för att extrahera tabeller använder en tre-nivåers metod som maximerar noggrannheten samtidigt som kostnaden minimeras:

Nivå 1: Koordinatbaserad detektering (Webbläsare, Gratis)

Verktyget försöker först extrahera helt i din webbläsare:

Parsar PDF-innehållsströmmen för att extrahera varje textobjekt med dess x,y-koordinater
Grupperar textobjekt i rader baserat på närhet i y-koordinat
Analyserar x-koordinatjusteringsmönster över rader för att upptäcka kolumnavgränsningar
Kräver minst 3 rader, 2 kolumner och 70%+ konfidens

Om bra tabeller hittas får du strukturerad data omedelbart – ingen serveruppladdning, inga AI-krediter förbrukade, och din fil lämnar aldrig din enhet.

Nivå 2: Serverbaserad extrahering (pdfplumber, Gratis)

Nivå 3: AI-extrahering (Använder krediter)

Utdataformat: Excel (.xlsx), CSV, JSON.

Bäst för: Snabb extrahering utan att installera programvara. Digitala PDF-filer bearbetas helt i din webbläsare för maximal integritet.

Metod 2: Power Query i Excel (Endast Windows)

Tillgängligt i Excel 2019+ och Microsoft 365 på Windows: Data → Hämta data → Från fil → Från PDF.

Hur det fungerar

Klicka på Data → Hämta data → Från fil → Från PDF
Välj din PDF-fil
Power Query visar en Navigator-panel som listar upptäckta tabeller per sida
Välj de tabeller du vill ha, klicka på Transformera data för att rensa upp, och sedan Läs in

Styrkor

Inbyggt i Excel – ingen extra kostnad för Microsoft 365-prenumeranter
Power Querys transformationsmotor hanterar efterbearbetning väl (fylla ner, pivotera, slå ihop kolumner)
Kan uppdatera data om käll-PDF:en uppdateras
Stöder anslutning av flera tabeller från samma PDF

Begränsningar

Endast Windows – inte tillgängligt i Excel för Mac, Excel Online eller mobil
Har svårt med tabeller utan ram – fungerar bäst med tydligt inramade tabeller
Ingen OCR – kan inte extrahera från skannade/bild-PDF-filer
Fler sidors tabeller är problematiska – varje sida importeras ofta som en separat tabell, vilket kräver manuell sammanfogning
Fler-raders rader – ombruten text i celler delas ofta upp i flera rader, vilket kräver rensning

Bäst för: Windows-användare med Microsoft 365 som har enkla, inramade tabeller.

Metod 3: Adobe Acrobat (Betald)

Arkiv → Exportera en PDF → Kalkylblad → Microsoft Excel-arbetsbok

Prissättning (2026)

Acrobat Standard: 12,99 USD/månad (årsplan)
Acrobat Pro: 19,99 USD/månad (årsplan)
Export PDF (fristående): lägre nivå av enbart konverteringsplan

Styrkor

Inbyggd OCR för skannade dokument
Bevarar generellt formateringen för enkla inramade tabeller
Batchbearbetning tillgänglig i Pro

Begränsningar

Dyr för enbart tabell-extrahering – 156–240 USD/år
Komplexa tabeller med sammanslagna celler och fler sidors intervall ger fortfarande feljusterat resultat
Filer kan laddas upp till Adobes moln för bearbetning – problematiskt för känsliga finansiella data
Kräver skrivbordsinstallation

Bäst för: Användare som redan betalar för Acrobat Pro och behöver enstaka tabell-exporter med OCR.

Metod 4: Kopiera-klistra (Manuell)

Det mest intuitiva tillvägagångssättet – och det som oftast misslyckas för tabeller.

Vanliga problem

All data i en kolumn – hela tabellen klistras in utan kolumnbrytningar
Siffror blir text – valutasymboler, parenteser och skiljetecken bryter numerisk formatering
Innehåll i flerradiga celler skapar spök-rader – en beskrivning som bryts över två rader i cellen blir två separata rader
Rubriker separerade från data – rubrikraden kopplas bort
Kolumner feljusterade – data flyttas eftersom teckenavstånd inte översätts till tabbar

Partiell lösning

Bäst för: Att extrahera en enda liten, enkel tabell som en sista utväg.

Metod 5: Python-bibliotek (För utvecklare)

Tre MIT-licensierade bibliotek hanterar PDF-tabell-extrahering programmatiskt:

Tabula-py

Python-wrapper runt Tabula (Java). Kräver Java runtime.

Rutnätsläge för inramade tabeller (hittar linjer och skärningspunkter)
Strömläge för tabeller utan ram (använder textjustering)
Bra för batchbearbetning i skript
Ingen OCR-support

Camelot

Erbjuder också rutnäts- och strömlägen.

Presterar generellt bättre än Tabula för inramade tabeller
Strömläget har fler konfigurationsparametrar för finjustering
Ger noggrannhetsrapporter med varje extrahering
Kräver Ghostscript-beroende. Ingen OCR-support

pdfplumber

Koordinatbaserad metod: extraherar varje tecken med dess exakta position, härleder sedan struktur.

Hanterar det bredaste utbudet av tabelltyper
Ger mest kontroll men kräver mer konfiguration
Detta är biblioteket som PDFSub använder på servern
Ingen OCR-support

Bäst för: Utvecklare som automatiserar återkommande arbetsflöden för tabell-extrahering, bearbetar stora batcher av liknande dokument.

Vanliga problem och hur man löser dem

Sammanslagna celler

Åtgärd: Extrahera tabellen, fixa sedan manuellt sammanslagningsartefakter i Excel. För återkommande tabeller med samma sammanslagningsmönster, överväg ett efterbearbetningsskript.

Flerradigt innehåll inom celler

Långa beskrivningar som bryts inom en cell blir flera rader i utdata, vilket skjuter all efterföljande data ur linje. Detta är det vanligaste extraktionsfelet för finansiella dokument.

Tabeller som sträcker sig över flera sidor

Verktyg måste avgöra var tabellen fortsätter, om upprepade rubriker ska tas bort, och hur sidfotar ska filtreras. Många verktyg behandlar varje sida oberoende.

Problem med valutainställningar

Negativa tal inom parentes ((1.234,56)) klistras in som text, inte siffror. Valutasymboler och tusentalsavgränsare bryter också numerisk formatering.

Datumambiguitet

2026-01-02 – är det 2 januari eller 1 februari? Extraktionsverktyget bevarar strängen som den är, men Excel kan tolka om den baserat på din region.

Åtgärd: Kontrollera käll-PDF:en för ledtrådar om datumformat (leta efter datum med dagvärden > 12). Ställ in Excels datumformat så att det matchar källan innan import.

Noggrannhetsjämförelse

Metod	Enkel Inramad	Utan Ram	Halvinramad	Skannade PDF-filer
PDFSub (koordinat + AI)	90–99%	75–95%	70–95%	85–95% (AI)
Power Query	85–95%	40–60%	50–70%	Stöds ej
Adobe Acrobat	90–95%	70–80%	70–85%	80–90%
Tabula	~68%	55–70%	50–65%	Stöds ej
Camelot	~73%	65–75%	60–70%	Stöds ej
Kopiera-klistra	30–50%	10–30%	10–30%	Ej möjligt

Intervall återspeglar variationer i dokumentkomplexitet. Jämförelsedata från Procycons 2025 PDF Extraction Benchmark och Camelot-jämförelsestudier.

Vilken metod ska du använda?

Scenario	Bästa Metod	Varför
Snabb engångs-extrahering	PDFSub	Ingen installation, webbläsarbaserad, gratis koordinat-extrahering
Enkel inramad tabell, Windows	Power Query	Inbyggt i Excel, ingen extra kostnad
Skannad PDF	PDFSub (AI) eller Adobe Acrobat	Kräver OCR-kapacitet
Känsliga finansiella data	PDFSub	Webbläsarbaserad bearbetning, filen laddas aldrig upp
Återkommande batchbearbetning	Python (pdfplumber)	Skriptbar, automatiserbar
Har redan Acrobat Pro	Adobe Acrobat	Betalar redan, enkla tabeller fungerar bra
En enda liten tabell, inga verktyg	Kopiera-klistra	Sista utväg, verifiera allt

Tips för bästa resultat

Använd ursprungliga PDF-filer. Ladda ner dokument från deras källa istället för att skanna papper. Ursprungliga PDF-filer har perfekt text, vilket gör extraheringen dramatiskt mer exakt.

Börja med gratis, regelbaserade metoder. Prova koordinatbaserad extrahering först. Eskalera bara till AI när regelbaserade metoder ger dåliga resultat – detta sparar tid och krediter.

Verifiera alltid resultatet. Kontrollera radantal, kolumnjustering, numeriska värden och totaler. Lita aldrig blint på extraktionsresultat.