PDFSub
BeiAPIMergeCompressEditE-SignTaarifa za BenkiBlogu
Rudi kwenye Blogu
MafunzoExcelJedwaliZana za PDF

Jinsi ya Kuchambua Jedwali kutoka PDF hadi Excel: Mbinu 5 Zilizofananishwa

28 Februari 2026
T
Todd Lahman
Founder, PDFSub

PDF huhifadhi jedwali kama vipande vya maandishi vilivyotawanyika kwenye uratibu wa x,y — hakuna safu, hakuna nguzo, hakuna seli. Hivi ndivyo jinsi ya kupata data hiyo kwenye lahajedwali, kutoka kwa zana za bure zinazotumiwa kwenye kivinjari hadi uandishi wa Python.


How to Extract Tables from PDF to Excel: 5 Methods Compared

Una PDF yenye jedwali unalohitaji katika Excel. Labda ni ripoti ya kifedha, taarifa ya benki, ankara, au karatasi ya utafiti. Data iko hapo hapo - imepangwa vizuri katika safu na nguzo kwenye skrini. Lakini unapojaribu kuitoa, kila kitu huanguka.

Hii hutokea kwa sababu PDF si umbizo la data. Ni umbizo la kuonyesha. Hakuna dhana ya "jedwali," "safu," au "nguzo" katika vipimo vya PDF. Kinachoonekana kama jedwali lililoandaliwa ni vipande vingi vya maandishi vilivyowekwa kwenye uratibu maalum wa x,y kwenye turubai. Kuchambua muundo huo kurudi kwenye lahajedwali ni tatizo la uhandisi wa nyuma - na zana tofauti huishughulikia kwa mafanikio tofauti.

Mwongozo huu unashughulikia mbinu 5 za kuchambua jedwali kutoka kwa PDF, ni lini kila moja hufanya kazi vizuri zaidi, na nini cha kufanya wakati mambo yanapokwenda vibaya.

Kwa Nini Kuchambua Jedwali kutoka PDF ni Ngumu

5 Methods for Extracting PDF Tables to Excel - Accuracy Comparison

Umbizo la PDF Halina Jedwali

Vipimo vya PDF (ISO 32000-2:2020) vinafafanua mkondo wa maudhui - mfuatano wa waendeshaji wanaoweka herufi za kibinafsi kwenye uratibu kamili. Safu rahisi ya jedwali kama "Tarehe | Maelezo | Kiasi" inaweza kuhifadhiwa kama:

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Office Supplies) Tj 180 0 Td (125.00) Tj ET

Hakuna vitambulisho vya <table>, <tr>, au <td>. Hakuna vitambulisho vya safu. Hakuna mipaka ya nguzo. Mistari inayoonekana inayozunguka seli ni shughuli tofauti za kuchora ambazo hazihusiani kabisa na maandishi. Zana ya kuchambua lazima idhani muundo mzima kutoka kwa uhusiano wa anga.

Aina Tatu za Mipaka ya Jedwali

Jedwali zenye Mipaka (Lattice) zina mistari inayoonekana karibu na kila seli. Hizi ndizo rahisi zaidi kuchambua kwa sababu mistari hufafanua mipaka ya seli. Zinaonekana katika taarifa rasmi za kifedha, fomu za serikali, na ripoti sanifu.

Jedwali zisizo na Mipaka (Stream) hazina mistari kabisa. Muundo unafafanuliwa kabisa na upangaji wa nafasi - vitu vya maandishi vinavyoshiriki uratibu sawa wa x katika safu huunda nguzo za dhahiri. Zinaonekana katika karatasi za utafiti, ankara, na katalogi za bidhaa.

Jedwali zenye Nusu-Mipaka zina mipaka ya sehemu tu - kwa kawaida sheria za mlalo kati ya sehemu lakini hakuna vizuizi vya wima. Zinaonekana sana katika taarifa za benki, ripoti za udalali, na bili za huduma. Hizi ndizo ngumu zaidi kuchambua kwa sababu mipaka ya sehemu huchanganya watafsiri wa hali ya lattice wakati kutokuwepo kwa mipaka hupunguza ujasiri wa hali ya mkondo.

PDF Zilizowekwa Alama dhidi ya Zisizo na Alama

PDF zilizowekwa alama hujumuisha metadata ya muundo ambayo hutambulisha vichwa, aya, na seli za jedwali. PDF zisizo na alama hazina chochote kati ya hivi - zana ya kuchambua hupata uratibu mbichi tu. Aghalabu ya PDF hazina alama, ikiwa ni pamoja na karibu taarifa zote za benki, ankara, na ripoti za kifedha.


Njia ya 1: PDFSub Changanua Jedwali (Bure + Hali ya AI)

Zana ya PDFSub ya Changanua Jedwali hutumia mbinu ya ngazi tatu ambayo huongeza usahihi huku ikipunguza gharama:

Ngazi ya 1: Utambuzi wa Msingi wa Uratibu (Kivinjari, Bure)

Zana kwanza inajaribu kuchambua kabisa kwenye kivinjari chako:

  • Inachambua mkondo wa maudhui wa PDF ili kuchambua kila kipengele cha maandishi na uratibu wake wa x,y
  • Huunganisha vipengele vya maandishi kwenye mistari kulingana na ukaribu wa uratibu wa y
  • Inachambua ruwaza za upangaji wa uratibu wa x katika mistari ili kugundua mipaka ya nguzo

Inahitaji kiwango cha chini cha safu 3, nguzo 2, na ujasiri wa 70%+

Ikiwa jedwali nzuri zitapatikana, utapata data iliyopangwa mara moja - hakuna upakiaji wa seva, hakuna mikopo ya AI inayotumiwa, na faili yako haiondoki kamwe kwenye kifaa chako.

Ngazi ya 2: Kuchambua Upande wa Seva (pdfplumber, Bure)

Ikiwa utambuzi wa msingi wa uratibu hautapata jedwali, zana hutumia pdfplumber (leseni ya MIT) kwenye seva. Hii hutambua mistari dhahiri (mipaka iliyochorwa) na mistari ya dhahiri (ruwaza za upangaji wa maneno), hupata makutano, hutambua maumbo ya mraba, na huweka maandishi kwenye seli.

Ngazi ya 3: Kuchambua kwa AI (Inatumia Mikopo)

Kwa PDF zilizochanganuliwa, miundo changamano, au jedwali ambazo mbinu za msingi wa sheria haziwezi kuchambua, zana hurudi kwenye kuchambua kwa kutumia maono yanayowezeshwa na AI. Unaweza pia kuwasha "Kulazimisha kuchambua kwa AI" ili kuruka moja kwa moja kwenye ngazi hii wakati unajua jedwali ni changamano.

Umbizo la matokeo: Excel (.xlsx), CSV, JSON.

Inafaa zaidi kwa: Kuchambua haraka bila kusakinisha programu. PDF za kidijitali huchakatwa kabisa kwenye kivinjari chako kwa faragha ya juu zaidi.


Njia ya 2: Power Query katika Excel (Windows Pekee)

Inapatikana katika Excel 2019+ na Microsoft 365 kwenye Windows: Data → Pata Data → Kutoka Faili → Kutoka PDF.

Jinsi Inavyofanya Kazi

  1. Bofya Data → Pata Data → Kutoka Faili → Kutoka PDF
  2. Chagua faili yako ya PDF
  3. Power Query huonyesha paneli ya Mtafuta inayoorodhesha jedwali zilizogunduliwa kwa kila ukurasa
  4. Chagua jedwali unazotaka, bofya Transform Data ili kusafisha, kisha Load

Nguvu

  • Imejengwa ndani ya Excel - hakuna gharama ya ziada kwa wanachama wa Microsoft 365
  • Injini ya uhamishaji ya Power Query hushughulikia usindikaji wa baada ya hapo vizuri (jaza chini, pivot, unganisha nguzo)
  • Inaweza kusasisha data ikiwa PDF chanzo imesasishwa
  • Inasaidia kuunganisha jedwali nyingi kutoka kwa PDF sawa

Vizuizi

  • Windows pekee - haipatikani katika Excel kwa Mac, Excel Online, au simu
  • Inatatizika na jedwali zisizo na mipaka - hufanya kazi vizuri zaidi na jedwali zenye mipaka iliyo wazi
  • Hakuna OCR - haiwezi kuchambua kutoka kwa PDF zilizochanganuliwa/za picha
  • Jedwali za kurasa nyingi ni tatizo - kila ukurasa mara nyingi huagizwa kama jedwali tofauti, ikihitaji kuunganishwa kwa mikono
  • Safu za mistari mingi - maandishi yaliyofungwa ndani ya seli mara nyingi hugawanyika katika safu nyingi, ikihitaji kusafishwa

Inafaa zaidi kwa: Watumiaji wa Windows walio na Microsoft 365 ambao wana jedwali rahisi, zenye mipaka.


Njia ya 3: Adobe Acrobat (Inalipiwa)

Faili → Hamisha PDF → Lahajedwali → Kazi ya Microsoft Excel

Bei (2026)

  • Acrobat Standard: $12.99/mwezi (mpango wa mwaka)
  • Acrobat Pro: $19.99/mwezi (mpango wa mwaka)
  • Hamisha PDF (standalone): mpango wa kiwango cha chini wa ubadilishaji tu

Nguvu

  • OCR iliyojengwa kwa hati zilizochanganuliwa
  • Kwa ujumla huhifadhi umbizo kwa jedwali rahisi zenye mipaka
  • Usindikaji wa kundi unapatikana katika Pro

Vizuizi

  • Ghali kwa kuchambua jedwali tu - $156–$240/mwaka
  • Jedwali changamano zenye seli zilizounganishwa na vipindi vya kurasa nyingi bado hutoa matokeo yasiyo sawa
  • Faili zinaweza kupakiwa kwenye wingu la Adobe kwa usindikaji - tatizo kwa data nyeti ya kifedha
  • Inahitaji usakinishaji wa kompyuta ya mezani

Inafaa zaidi kwa: Watumiaji ambao tayari hulipa kwa Acrobat Pro na wanahitaji kuchambua mara kwa mara kwa OCR.


Njia ya 4: Nakili-Paka (Mwongozo)

Mbinu ya angavu zaidi - na ile ambayo hufeli mara nyingi zaidi kwa jedwali.

Matatizo ya Kawaida

  • Data zote katika nguzo moja - jedwali zima hupakwa bila mapumziko ya nguzo
  • Nambari zinakuwa maandishi - alama za sarafu, mabano, na vizitenganishi huvunja umbizo la nambari
  • Maudhui ya seli ya mistari mingi huunda safu bandia - maelezo ambayo hufungwa kwenye mistari miwili katika seli huwa safu mbili tofauti
  • Vichwa vimetenganishwa na data - safu ya kichwa imetenganishwa
  • Nguzo hazijawekwa sawa - data huhamishwa kwa sababu nafasi ya herufi haitafsiri kwa tabo

Suluhisho la Sehemu

Paka katika Excel, kisha tumia Data → Nakala hadi Nguzo na vizitenganishi vya nafasi au urefu maalum. Washa "Shughulikia vizitenganishi vinavyofuata kama kimoja." Hii hufanya kazi kwa jedwali rahisi sana, zilizo na nafasi nzuri lakini hufeli kwa kitu chochote chenye maudhui ya seli yenye maneno mengi.

Inafaa zaidi kwa: Kuchambua jedwali moja dogo, rahisi kama suluhisho la mwisho.


Njia ya 5: Maktaba za Python (Kwa Wasanidi Programu)

Maktaba tatu zenye leseni ya MIT hushughulikia kuchambua jedwali la PDF kwa programu:

Tabula-py

Kifuniko cha Python cha Tabula (Java). Inahitaji mazingira ya Java.

  • Hali ya Lattice kwa jedwali zenye mipaka (hupata mistari na makutano)
  • Hali ya Stream kwa jedwali zisizo na mipaka (hutumia upangaji wa maandishi)
  • Nzuri kwa usindikaji wa kundi katika hati
  • Hakuna msaada wa OCR

Camelot

Inatoa pia hali za lattice na stream.

  • Kwa ujumla hufanya vizuri zaidi kuliko Tabula kwa jedwali zenye mipaka
  • Hali ya Stream ina vigezo zaidi vya usanidi kwa urekebishaji mzuri
  • Hutoa ripoti za usahihi na kila uchambuzi
  • Inahitaji utegemezi wa Ghostscript. Hakuna msaada wa OCR

pdfplumber

Mbinu ya msingi wa uratibu: huchambua kila herufi na nafasi yake kamili, kisha hufikiria muundo.

  • Hushughulikia aina mbalimbali za jedwali
  • Hutoa udhibiti zaidi lakini inahitaji usanidi zaidi
  • Hii ndiyo maktaba ambayo PDFSub hutumia upande wa seva

Inafaa zaidi kwa: Wasanidi programu wanaotengeneza michakato ya kuchambua jedwali inayojirudia, kusindika kundi kubwa za hati zinazofanana.


Matatizo ya Kawaida na Jinsi ya Kuyatatua

Seli Zilizounganishwa

Wakati seli zinapochukua safu au nguzo nyingi, zana nyingi huweka maudhui kwenye seli ya juu kushoto na kuacha zingine tupu, au huweka sawa nguzo zote zinazofuata. Hakuna suluhisho la ulimwengu wote - umbizo la CSV halina dhana ya kuunganisha, kwa hivyo habari ya kuunganisha hupotea kila wakati.

Rekebisho: Changanua jedwali, kisha urekebishe kwa mikono athari za kuunganisha katika Excel. Kwa jedwali zinazorudiwa zenye ruwaza sawa ya kuunganisha, zingatia hati ya usindikaji wa baadae.

Maudhui ya Mistari Mingi Ndani ya Seli

Maelezo marefu ambayo hufungwa ndani ya seli huwa safu nyingi katika matokeo, yakisukuma data zote zinazofuata nje ya usawa. Hili ndilo kosa la kawaida zaidi la kuchambua kwa hati za kifedha.

Rekebisho: Baada ya kuchambua, tafuta safu ambazo hazina tarehe na kiasi - hizi ni laini za mwendelezo ambazo ni za safu iliyo hapo juu. Katika Excel, ziunganishe kwa mikono au tumia fomula ya msaidizi.

Jedwali Zinazopita Kurasa Nyingi

Zana lazima ziamue mahali jedwali linaendelea, ikiwa zitatoa vichwa vilivyojirudia, na jinsi ya kuchuja sehemu za chini za ukurasa. Zana nyingi huchukua kila ukurasa kivyake.

Rekebisho: Ikiwa zana yako inatoa matokeo kwa kila ukurasa, unganisha laha na uondoe safu za vichwa vilivyojirudia. Angalia kuwa safu ya mwisho kwenye ukurasa N inaunganishwa kwa usahihi na safu ya kwanza kwenye ukurasa N+1.

Masuala ya Umbizo la Sarafu

Nambari hasi katika mabano ((1,234.56)) hupakwa kama maandishi, si nambari. Alama za sarafu na vizitenganishi vya maelfu pia huvunja umbizo la nambari.

Rekebisho: Baada ya kuchambua, chagua nguzo ya kiasi na utumie Tafuta & Badilisha ili kuondoa alama za $, (, ). Kisha umbiza nguzo kama Nambari. Kwa hasi zilizo na mabano, badilisha ( na - na uondoe ), kisha ubadilishe kuwa umbizo la Nambari.

Utata wa Tarehe

01/02/2026 - je, ni Januari 2 au Februari 1? Zana ya kuchambua huhifadhi maandishi kama yalivyo, lakini Excel inaweza kuifasiri upya kulingana na eneo lako.

Rekebisho: Angalia PDF chanzo kwa dalili za umbizo la tarehe (tafuta tarehe zilizo na thamani za siku > 12). Weka umbizo la tarehe la Excel ili lilingane na chanzo kabla ya kuagiza.


Ulinganishaji wa Usahihi

Njia Rahisi Zenye Mipaka Isiyo na Mipaka Nusu-Mipaka PDF Zilizochanganuliwa
PDFSub (uratibu + AI) 90–99% 75–95% 70–95% 85–95% (AI)
Power Query 85–95% 40–60% 50–70% Haipatikani
Adobe Acrobat 90–95% 70–80% 70–85% 80–90%
Tabula ~68% 55–70% 50–65% Haipatikani
Camelot ~73% 65–75% 60–70% Haipatikani
Nakili-paka 30–50% 10–30% 10–30% Haiwezekani

Safu huonyesha mabadiliko kote katika ugumu wa hati. Data ya vipimo kutoka kwa Vipimo vya Kuchambua PDF vya Procyons 2025 na tafiti za ulinganishaji za Camelot.


Unapaswa Kutumia Njia Gani?

Hali Njia Bora Kwa Nini
Kuchambua kwa haraka mara moja PDFSub Hakuna usakinishaji, hutumiwa kwenye kivinjari, uchambuzi wa bure wa uratibu
Jedwali rahisi lenye mipaka, Windows Power Query Imejengwa ndani ya Excel, hakuna gharama ya ziada
PDF iliyochanganuliwa PDFSub (AI) au Adobe Acrobat Inahitaji uwezo wa OCR
Data nyeti ya kifedha PDFSub Usindikaji unaotumiwa kwenye kivinjari, faili haipakiwi kamwe
Usindikaji wa kundi unaojirudia Python (pdfplumber) Inaweza kuandikwa hati, kutengenezwa kiotomatiki
Tayari una Acrobat Pro Adobe Acrobat Tayari unalipa, jedwali rahisi hufanya kazi vizuri
Jedwali moja dogo, hakuna zana Nakili-paka Suluhisho la mwisho, thibitisha kila kitu

Vidokezo vya Matokeo Bora

Tumia PDF asili. Pakua hati kutoka kwa chanzo chao badala ya kuchanganua karatasi. PDF asili zina maandishi kamili, na kufanya uchambuzi kuwa sahihi zaidi.

Tambua aina ya jedwali kwanza. Jedwali zenye mipaka hufanya kazi na karibu zana yoyote. Jedwali zisizo na mipaka zinahitaji hali ya mkondo au uchambuzi wa AI. Kujua aina husaidia kuchagua njia sahihi mapema.

Anza na mbinu za bure, za msingi wa sheria. Jaribu uchambuzi wa msingi wa uratibu kwanza. Endelea tu kwa AI wakati mbinu za msingi wa sheria zinatoa matokeo duni - hii huokoa muda na mikopo.

Daima thibitisha matokeo. Angalia idadi ya safu, upangaji wa nguzo, maadili ya nambari, na jumla. Kamwe usiamini matokeo ya uchambuzi bila kufikiria.

Kuhusu umbizo la nambari. Baada ya kuchambua, thibitisha kuwa nambari ni nambari katika Excel (zilizowekwa sawa kulia), sio maandishi (yaliyoachwa kushoto). Alama za sarafu na nambari hasi zilizo na mabano ni sababu za kawaida.

Kwa data nyeti, pendelea zana zinazotumiwa kwenye kivinjari. Ripoti za kifedha, taarifa za benki, na hati za kodi zina habari nyeti. Zana zinazochakata PDF kwenye kivinjari chako hazipaki kamwe faili yako, zikiondoa hatari ya kufichuliwa kwa data.


Jaribu Bure

Uko tayari kuchambua jedwali kutoka kwa PDF yako? Pakia faili sasa - PDFSub hujaribu uchambuzi wa bure wa msingi wa uratibu kwanza, na akili bandia ya ziada kwa jedwali changamano. PDF za kidijitali huchakatwa kabisa kwenye kivinjari chako. Anza jaribio la bure la siku 7.

Rudi kwenye Blogu

Maswali? Wasiliana Nasi

PDFSub

Zana zote za PDF na hati unazohitaji katika sehemu moja. Haraka, salama, na ya faragha.

Inatii GDPRInatii CCPAInafaa kwa SOC 2
Inaendeshwa na PDFSub Engine

Zana za PDF

  • Unga PDF
  • Gawanya PDF
  • Panga Upya Kurasa
  • Kurasa kwa Kila Karatasi
  • Kivinjari cha PDF
  • Ondoa Kurasa
  • Ondoa Picha
  • Badilisha Picha
  • Zungusha PDF
  • Futa Kurasa
  • Ongeza Watermark
  • Hariri PDF
  • Weka Stempu PDF
  • Kijaza Fomu za PDF
  • Punguza Kurasa
  • Badilisha Ukubwa wa Ukurasa
  • Ongeza Nambari za Kurasa
  • Vichwa na Fuedi
  • Kandamiza PDF
  • Fanya Itawezekana Kutafutwa
  • Clean Scanned PDF
  • Photo to Document
  • Auto-Crop PDF
  • Rekebisha PDF
  • Hariri Metadata
  • Ondoa Metadata
  • PDF hadi Word
  • Word hadi PDF
  • PDF to Excel
  • Excel hadi PDF
  • PDF hadi PowerPoint
  • PowerPoint hadi PDF
  • HTML hadi PDF
  • HTML to Text
  • HTML to Markdown
  • PDF hadi HTML
  • EPUB hadi PDF
  • PDF hadi EPUB
  • Maandishi hadi PDF
  • RTF hadi PDF
  • PDF hadi RTF
  • PDF hadi Maandishi
  • ODT hadi PDF
  • PDF hadi ODT
  • ODS hadi PDF
  • PDF hadi ODS
  • ODP hadi PDF
  • PDF hadi ODP
  • Badilisha PDF/A
  • Tengeneza PDF
  • Badilisha kwa Kundi
  • PDF hadi Picha
  • Picha hadi PDF
  • PDF hadi PNG
  • PNG hadi PDF
  • HTML to PNG
  • HTML to JPEG
  • HTML to WEBP
  • SVG hadi PDF
  • PDF hadi SVG
  • TIFF hadi PDF
  • WEBP hadi PDF
  • HEIC hadi Picha
  • WEBP hadi JPG
  • WEBP hadi PNG
  • Image Converter
  • ODG hadi PDF
  • Linda kwa Nenosiri
  • Fungua PDF
  • Ficha Maelezo PDF
  • Saini PDF
  • Share Document
  • Linganisha PDF
  • Ondoa Meza
  • Kibadilisha Taarifa za Benki
  • Kiondoa Ankara
  • Kichanganuzi cha Stakabadhi
  • Ripoti ya Kifedha
  • OCR - Ondoa Maandishi
  • Ubadilishaji wa Maandishi Yanayoandikwa kwa Mkono
  • Fupisha PDF
  • Tafsiri PDF
  • Zungumza na PDF
  • Ondoa Data
  • Studio cha Ubunifu

Bidhaa

  • Zana Zote
  • Vipengele
  • Taarifa za Benki
  • API
  • Bei
  • Maswali Yanayoulizwa Mara Kwa Upatu
  • Blogu

Usaidizi

  • Kuhusu
  • Kituo cha Msaada
  • Wasiliana Nasi
  • Maswali Yanayoulizwa Mara Kwa Upatu

Kisheria

  • Sera ya Faragha
  • Sheria na Masharti
  • Sera ya Vidakuzi

© 2026 PDFSub. Haki zote zimehifadhiwa.

Imetengenezwa Marekani kwa kwa watu kila mahali