PDFSub
PrissättningAPIMergeCompressEditE-SignBankkontoutdragBlogg
Tillbaka till bloggen
HandbokExcelTabellerPDF-verktyg

Så här extraherar du tabeller från PDF till Excel: 5 metoder jämförda

28 februari 2026
T
Todd Lahman
Founder, PDFSub

PDF-filer lagrar tabeller som utspridda textfragment vid x,y-koordinater – inga rader, inga kolumner, inga celler. Här är hur du faktiskt får in den datan i ett kalkylblad, från gratis webbaserade verktyg till Python-skript.


How to Extract Tables from PDF to Excel: 5 Methods Compared

Du har en PDF med en tabell som du behöver i Excel. Kanske är det en finansiell rapport, ett kontoutdrag, en faktura eller en forskningsartikel. Datan finns där – snyggt organiserad i rader och kolumner på skärmen. Men när du försöker få ut den faller allt isär.

Detta händer eftersom PDF inte är ett dataformat. Det är ett visningsformat. Det finns inget koncept av en "tabell", "rad" eller "kolumn" i PDF-specifikationen. Vad som ser ut som en strukturerad tabell är faktiskt dussintals textfragment placerade vid specifika x,y-koordinater på en yta. Att extrahera den strukturen tillbaka till ett kalkylblad är ett problem med omvänd ingenjörskonst – och olika verktyg hanterar det med varierande framgång.

Den här guiden täcker 5 metoder för att extrahera tabeller från PDF-filer, när var och en fungerar bäst, och vad du ska göra när saker och ting går fel.

Varför tabell-extrahering från PDF är svårt

5 Methods for Extracting PDF Tables to Excel - Accuracy Comparison

PDF-formatet har inga tabeller

PDF-specifikationen (ISO 32000-2:2020) definierar en innehållsström – en sekvens av operatorer som placerar enskilda tecken vid exakta koordinater. En enkel tabellrad som "Datum | Beskrivning | Belopp" kan lagras som:

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Kontorsmaterial) Tj 180 0 Td (125.00) Tj ET

Det finns inga <table>, <tr> eller <td>-taggar. Inga radidentifierare. Inga kolumnavgränsningar. De visuella linjerna du ser runt celler är separata ritoperationer helt frikopplade från texten. Ett extraktionsverktyg måste härleda hela strukturen från rumsliga relationer.

Tre typer av tabellramar

Inramade (rutnät) tabeller har synliga linjer runt varje cell. Dessa är enklast att extrahera eftersom linjerna tydligt definierar cellgränser. Vanligt i formella finansiella rapporter, myndighetsformulär och standardiserade rapporter.

Utan ram (ström) tabeller har inga linjer alls. Strukturen definieras helt av blankstegsjustering – textobjekt som delar konsekventa x-koordinater över rader bildar implicita kolumner. Vanligt i forskningsartiklar, fakturor och produktkataloger.

Halvinramade tabeller har bara delvisa ramar – vanligtvis horisontella linjer mellan sektioner men inga vertikala avdelare. Extremt vanligt i kontoutdrag, mäklarrapporter och fakturor för allmännyttiga tjänster. Dessa är svårast att extrahera eftersom partiella ramar vilseleder rutnätsläges-parsare medan saknade ramar minskar strömläges-konfidensen.

Tagged vs. Untagged PDF-filer

Tagged PDF-filer inkluderar strukturell metadata som identifierar rubriker, stycken och tabellceller. Untagged PDF-filer har inget av detta – extraktionsverktyget får bara råa koordinater. Den stora majoriteten av PDF-filer är untagged, inklusive praktiskt taget alla kontoutdrag, fakturor och finansiella rapporter.


Metod 1: PDFSub Extrahera tabeller (Gratis + AI-återfall)

PDFSubs Verktyg för att extrahera tabeller använder en tre-nivåers metod som maximerar noggrannheten samtidigt som kostnaden minimeras:

Nivå 1: Koordinatbaserad detektering (Webbläsare, Gratis)

Verktyget försöker först extrahera helt i din webbläsare:

  • Parsar PDF-innehållsströmmen för att extrahera varje textobjekt med dess x,y-koordinater
  • Grupperar textobjekt i rader baserat på närhet i y-koordinat
  • Analyserar x-koordinatjusteringsmönster över rader för att upptäcka kolumnavgränsningar
  • Kräver minst 3 rader, 2 kolumner och 70%+ konfidens

Om bra tabeller hittas får du strukturerad data omedelbart – ingen serveruppladdning, inga AI-krediter förbrukade, och din fil lämnar aldrig din enhet.

Nivå 2: Serverbaserad extrahering (pdfplumber, Gratis)

Om koordinatbaserad detektering inte hittar några tabeller använder verktyget pdfplumber (MIT-licens) på servern. Detta upptäcker både explicita linjer (ritade ramar) och implicita linjer (ordjusteringsmönster), hittar skärningspunkter, identifierar rektanglar och mappar text till celler.

Nivå 3: AI-extrahering (Använder krediter)

För skannade PDF-filer, komplexa layouter eller tabeller som regelbaserade metoder inte kan parsa, faller verktyget tillbaka på AI-driven visuell extrahering. Du kan också växla "Tvinga AI-extrahering" för att hoppa direkt till denna nivå när du vet att tabellen är komplex.

Utdataformat: Excel (.xlsx), CSV, JSON.

Bäst för: Snabb extrahering utan att installera programvara. Digitala PDF-filer bearbetas helt i din webbläsare för maximal integritet.


Metod 2: Power Query i Excel (Endast Windows)

Tillgängligt i Excel 2019+ och Microsoft 365 på Windows: Data → Hämta data → Från fil → Från PDF.

Hur det fungerar

  1. Klicka på Data → Hämta data → Från fil → Från PDF
  2. Välj din PDF-fil
  3. Power Query visar en Navigator-panel som listar upptäckta tabeller per sida
  4. Välj de tabeller du vill ha, klicka på Transformera data för att rensa upp, och sedan Läs in

Styrkor

  • Inbyggt i Excel – ingen extra kostnad för Microsoft 365-prenumeranter
  • Power Querys transformationsmotor hanterar efterbearbetning väl (fylla ner, pivotera, slå ihop kolumner)
  • Kan uppdatera data om käll-PDF:en uppdateras
  • Stöder anslutning av flera tabeller från samma PDF

Begränsningar

  • Endast Windows – inte tillgängligt i Excel för Mac, Excel Online eller mobil
  • Har svårt med tabeller utan ram – fungerar bäst med tydligt inramade tabeller
  • Ingen OCR – kan inte extrahera från skannade/bild-PDF-filer
  • Fler sidors tabeller är problematiska – varje sida importeras ofta som en separat tabell, vilket kräver manuell sammanfogning
  • Fler-raders rader – ombruten text i celler delas ofta upp i flera rader, vilket kräver rensning

Bäst för: Windows-användare med Microsoft 365 som har enkla, inramade tabeller.


Metod 3: Adobe Acrobat (Betald)

Arkiv → Exportera en PDF → Kalkylblad → Microsoft Excel-arbetsbok

Prissättning (2026)

  • Acrobat Standard: 12,99 USD/månad (årsplan)
  • Acrobat Pro: 19,99 USD/månad (årsplan)
  • Export PDF (fristående): lägre nivå av enbart konverteringsplan

Styrkor

  • Inbyggd OCR för skannade dokument
  • Bevarar generellt formateringen för enkla inramade tabeller
  • Batchbearbetning tillgänglig i Pro

Begränsningar

  • Dyr för enbart tabell-extrahering – 156–240 USD/år
  • Komplexa tabeller med sammanslagna celler och fler sidors intervall ger fortfarande feljusterat resultat
  • Filer kan laddas upp till Adobes moln för bearbetning – problematiskt för känsliga finansiella data
  • Kräver skrivbordsinstallation

Bäst för: Användare som redan betalar för Acrobat Pro och behöver enstaka tabell-exporter med OCR.


Metod 4: Kopiera-klistra (Manuell)

Det mest intuitiva tillvägagångssättet – och det som oftast misslyckas för tabeller.

Vanliga problem

  • All data i en kolumn – hela tabellen klistras in utan kolumnbrytningar
  • Siffror blir text – valutasymboler, parenteser och skiljetecken bryter numerisk formatering
  • Innehåll i flerradiga celler skapar spök-rader – en beskrivning som bryts över två rader i cellen blir två separata rader
  • Rubriker separerade från data – rubrikraden kopplas bort
  • Kolumner feljusterade – data flyttas eftersom teckenavstånd inte översätts till tabbar

Partiell lösning

Klistra in i Excel, använd sedan Data → Text till kolumner med blanksteg eller fast bredd som avgränsare. Aktivera "Behandla på varandra följande avgränsare som en". Detta fungerar för mycket enkla, välutrymda tabeller men misslyckas för allt med flervärdes-cellinnehåll.

Bäst för: Att extrahera en enda liten, enkel tabell som en sista utväg.


Metod 5: Python-bibliotek (För utvecklare)

Tre MIT-licensierade bibliotek hanterar PDF-tabell-extrahering programmatiskt:

Tabula-py

Python-wrapper runt Tabula (Java). Kräver Java runtime.

  • Rutnätsläge för inramade tabeller (hittar linjer och skärningspunkter)
  • Strömläge för tabeller utan ram (använder textjustering)
  • Bra för batchbearbetning i skript
  • Ingen OCR-support

Camelot

Erbjuder också rutnäts- och strömlägen.

  • Presterar generellt bättre än Tabula för inramade tabeller
  • Strömläget har fler konfigurationsparametrar för finjustering
  • Ger noggrannhetsrapporter med varje extrahering
  • Kräver Ghostscript-beroende. Ingen OCR-support

pdfplumber

Koordinatbaserad metod: extraherar varje tecken med dess exakta position, härleder sedan struktur.

  • Hanterar det bredaste utbudet av tabelltyper
  • Ger mest kontroll men kräver mer konfiguration
  • Detta är biblioteket som PDFSub använder på servern
  • Ingen OCR-support

Bäst för: Utvecklare som automatiserar återkommande arbetsflöden för tabell-extrahering, bearbetar stora batcher av liknande dokument.


Vanliga problem och hur man löser dem

Sammanslagna celler

När celler sträcker sig över flera rader eller kolumner, placerar de flesta verktyg antingen innehåll i den övre vänstra cellen och lämnar andra tomma, eller feljusterar alla efterföljande kolumner. Det finns ingen universell lösning – CSV-formatet har inget koncept för sammanslagning, så sammanslagningsinformation går alltid förlorad.

Åtgärd: Extrahera tabellen, fixa sedan manuellt sammanslagningsartefakter i Excel. För återkommande tabeller med samma sammanslagningsmönster, överväg ett efterbearbetningsskript.

Flerradigt innehåll inom celler

Långa beskrivningar som bryts inom en cell blir flera rader i utdata, vilket skjuter all efterföljande data ur linje. Detta är det vanligaste extraktionsfelet för finansiella dokument.

Åtgärd: Efter extrahering, leta efter rader som saknar datum och belopp – dessa är troligen fortsättningsrader som tillhör raden ovanför. I Excel, slå ihop dem manuellt eller använd en hjälpformel.

Tabeller som sträcker sig över flera sidor

Verktyg måste avgöra var tabellen fortsätter, om upprepade rubriker ska tas bort, och hur sidfotar ska filtreras. Många verktyg behandlar varje sida oberoende.

Åtgärd: Om ditt verktyg ger resultat per sida, kombinera bladen och ta bort upprepade rubrikrader. Kontrollera att den sista raden på sida N ansluter korrekt till den första raden på sida N+1.

Problem med valutainställningar

Negativa tal inom parentes ((1.234,56)) klistras in som text, inte siffror. Valutasymboler och tusentalsavgränsare bryter också numerisk formatering.

Åtgärd: Efter extrahering, markera beloppskolumnen och använd Sök och ersätt för att ta bort symboler som $ och (, ). Formatera sedan kolumnen som Nummer. För negativa tal inom parentes, ersätt ( med - och ta bort ), konvertera sedan till Nummerformat.

Datumambiguitet

2026-01-02 – är det 2 januari eller 1 februari? Extraktionsverktyget bevarar strängen som den är, men Excel kan tolka om den baserat på din region.

Åtgärd: Kontrollera käll-PDF:en för ledtrådar om datumformat (leta efter datum med dagvärden > 12). Ställ in Excels datumformat så att det matchar källan innan import.


Noggrannhetsjämförelse

Metod Enkel Inramad Utan Ram Halvinramad Skannade PDF-filer
PDFSub (koordinat + AI) 90–99% 75–95% 70–95% 85–95% (AI)
Power Query 85–95% 40–60% 50–70% Stöds ej
Adobe Acrobat 90–95% 70–80% 70–85% 80–90%
Tabula ~68% 55–70% 50–65% Stöds ej
Camelot ~73% 65–75% 60–70% Stöds ej
Kopiera-klistra 30–50% 10–30% 10–30% Ej möjligt

Intervall återspeglar variationer i dokumentkomplexitet. Jämförelsedata från Procycons 2025 PDF Extraction Benchmark och Camelot-jämförelsestudier.


Vilken metod ska du använda?

Scenario Bästa Metod Varför
Snabb engångs-extrahering PDFSub Ingen installation, webbläsarbaserad, gratis koordinat-extrahering
Enkel inramad tabell, Windows Power Query Inbyggt i Excel, ingen extra kostnad
Skannad PDF PDFSub (AI) eller Adobe Acrobat Kräver OCR-kapacitet
Känsliga finansiella data PDFSub Webbläsarbaserad bearbetning, filen laddas aldrig upp
Återkommande batchbearbetning Python (pdfplumber) Skriptbar, automatiserbar
Har redan Acrobat Pro Adobe Acrobat Betalar redan, enkla tabeller fungerar bra
En enda liten tabell, inga verktyg Kopiera-klistra Sista utväg, verifiera allt

Tips för bästa resultat

Använd ursprungliga PDF-filer. Ladda ner dokument från deras källa istället för att skanna papper. Ursprungliga PDF-filer har perfekt text, vilket gör extraheringen dramatiskt mer exakt.

Identifiera tabelltypen först. Inramade tabeller fungerar med nästan alla verktyg. Tabeller utan ram kräver strömläge eller AI-extrahering. Att känna till typen hjälper dig att välja rätt metod i förväg.

Börja med gratis, regelbaserade metoder. Prova koordinatbaserad extrahering först. Eskalera bara till AI när regelbaserade metoder ger dåliga resultat – detta sparar tid och krediter.

Verifiera alltid resultatet. Kontrollera radantal, kolumnjustering, numeriska värden och totaler. Lita aldrig blint på extraktionsresultat.

Var uppmärksam på nummerformatering. Efter extrahering, verifiera att siffror faktiskt är siffror i Excel (högerjusterade), inte textsträngar (vänsterjusterade). Valutasymboler och negativa tal inom parentes är vanliga bovar.

För känsliga data, föredra webbläsarbaserade verktyg. Finansiella rapporter, kontoutdrag och skattedokument innehåller känslig information. Verktyg som bearbetar PDF-filer i din webbläsare laddar aldrig upp din fil, vilket eliminerar risken för dataintrång.


Prova gratis

Redo att extrahera tabeller från din PDF? Ladda upp en fil nu – PDFSub försöker först med gratis koordinatbaserad extrahering, med AI-återfall för komplexa tabeller. Digitala PDF-filer bearbetas helt i din webbläsare. Starta en 7-dagars gratis provperiod.

Tillbaka till bloggen

Frågor? Kontakta oss

PDFSub

Alla PDF- och dokumentverktyg du behöver på ett ställe. Snabbt, säkert och privat.

GDPR-kompatibelCCPA-kompatibelSOC 2-redo
Drivs av PDFSub Engine

Produkt

  • Alla verktyg
  • Funktioner
  • Bankkontoutdrag
  • API
  • Prissättning
  • FAQ
  • Blogg

Support

  • Om oss
  • Hjälpcenter
  • Kontakt
  • FAQ

Juridik

  • Integritetspolicy
  • Användarvillkor
  • Cookiepolicy

© 2026 PDFSub. Alla rättigheter förbehållna.

Tillverkad i Amerika med för människor överallt