Jinsi ya Kuchambua Jedwali kutoka PDF hadi Excel: Mbinu 5 Zilizofananishwa
PDF huhifadhi jedwali kama vipande vya maandishi vilivyotawanyika kwenye uratibu wa x,y — hakuna safu, hakuna nguzo, hakuna seli. Hivi ndivyo jinsi ya kupata data hiyo kwenye lahajedwali, kutoka kwa zana za bure zinazotumiwa kwenye kivinjari hadi uandishi wa Python.

Una PDF yenye jedwali unalohitaji katika Excel. Labda ni ripoti ya kifedha, taarifa ya benki, ankara, au karatasi ya utafiti. Data iko hapo hapo - imepangwa vizuri katika safu na nguzo kwenye skrini. Lakini unapojaribu kuitoa, kila kitu huanguka.
Hii hutokea kwa sababu PDF si umbizo la data. Ni umbizo la kuonyesha. Hakuna dhana ya "jedwali," "safu," au "nguzo" katika vipimo vya PDF. Kinachoonekana kama jedwali lililoandaliwa ni vipande vingi vya maandishi vilivyowekwa kwenye uratibu maalum wa x,y kwenye turubai. Kuchambua muundo huo kurudi kwenye lahajedwali ni tatizo la uhandisi wa nyuma - na zana tofauti huishughulikia kwa mafanikio tofauti.
Mwongozo huu unashughulikia mbinu 5 za kuchambua jedwali kutoka kwa PDF, ni lini kila moja hufanya kazi vizuri zaidi, na nini cha kufanya wakati mambo yanapokwenda vibaya.
Kwa Nini Kuchambua Jedwali kutoka PDF ni Ngumu

Umbizo la PDF Halina Jedwali
Vipimo vya PDF (ISO 32000-2:2020) vinafafanua mkondo wa maudhui - mfuatano wa waendeshaji wanaoweka herufi za kibinafsi kwenye uratibu kamili. Safu rahisi ya jedwali kama "Tarehe | Maelezo | Kiasi" inaweza kuhifadhiwa kama:
BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Office Supplies) Tj 180 0 Td (125.00) Tj ETHakuna vitambulisho vya <table>, <tr>, au <td>. Hakuna vitambulisho vya safu. Hakuna mipaka ya nguzo. Mistari inayoonekana inayozunguka seli ni shughuli tofauti za kuchora ambazo hazihusiani kabisa na maandishi. Zana ya kuchambua lazima idhani muundo mzima kutoka kwa uhusiano wa anga.
Aina Tatu za Mipaka ya Jedwali
Jedwali zenye Mipaka (Lattice) zina mistari inayoonekana karibu na kila seli. Hizi ndizo rahisi zaidi kuchambua kwa sababu mistari hufafanua mipaka ya seli. Zinaonekana katika taarifa rasmi za kifedha, fomu za serikali, na ripoti sanifu.
Jedwali zisizo na Mipaka (Stream) hazina mistari kabisa. Muundo unafafanuliwa kabisa na upangaji wa nafasi - vitu vya maandishi vinavyoshiriki uratibu sawa wa x katika safu huunda nguzo za dhahiri. Zinaonekana katika karatasi za utafiti, ankara, na katalogi za bidhaa.
Jedwali zenye Nusu-Mipaka zina mipaka ya sehemu tu - kwa kawaida sheria za mlalo kati ya sehemu lakini hakuna vizuizi vya wima. Zinaonekana sana katika taarifa za benki, ripoti za udalali, na bili za huduma. Hizi ndizo ngumu zaidi kuchambua kwa sababu mipaka ya sehemu huchanganya watafsiri wa hali ya lattice wakati kutokuwepo kwa mipaka hupunguza ujasiri wa hali ya mkondo.
PDF Zilizowekwa Alama dhidi ya Zisizo na Alama
PDF zilizowekwa alama hujumuisha metadata ya muundo ambayo hutambulisha vichwa, aya, na seli za jedwali. PDF zisizo na alama hazina chochote kati ya hivi - zana ya kuchambua hupata uratibu mbichi tu. Aghalabu ya PDF hazina alama, ikiwa ni pamoja na karibu taarifa zote za benki, ankara, na ripoti za kifedha.
Njia ya 1: PDFSub Changanua Jedwali (Bure + Hali ya AI)
Zana ya PDFSub ya Changanua Jedwali hutumia mbinu ya ngazi tatu ambayo huongeza usahihi huku ikipunguza gharama:
Ngazi ya 1: Utambuzi wa Msingi wa Uratibu (Kivinjari, Bure)
Zana kwanza inajaribu kuchambua kabisa kwenye kivinjari chako:
- Inachambua mkondo wa maudhui wa PDF ili kuchambua kila kipengele cha maandishi na uratibu wake wa x,y
- Huunganisha vipengele vya maandishi kwenye mistari kulingana na ukaribu wa uratibu wa y
- Inachambua ruwaza za upangaji wa uratibu wa x katika mistari ili kugundua mipaka ya nguzo
Inahitaji kiwango cha chini cha safu 3, nguzo 2, na ujasiri wa 70%+
Ikiwa jedwali nzuri zitapatikana, utapata data iliyopangwa mara moja - hakuna upakiaji wa seva, hakuna mikopo ya AI inayotumiwa, na faili yako haiondoki kamwe kwenye kifaa chako.
Ngazi ya 2: Kuchambua Upande wa Seva (pdfplumber, Bure)
Ikiwa utambuzi wa msingi wa uratibu hautapata jedwali, zana hutumia pdfplumber (leseni ya MIT) kwenye seva. Hii hutambua mistari dhahiri (mipaka iliyochorwa) na mistari ya dhahiri (ruwaza za upangaji wa maneno), hupata makutano, hutambua maumbo ya mraba, na huweka maandishi kwenye seli.
Ngazi ya 3: Kuchambua kwa AI (Inatumia Mikopo)
Kwa PDF zilizochanganuliwa, miundo changamano, au jedwali ambazo mbinu za msingi wa sheria haziwezi kuchambua, zana hurudi kwenye kuchambua kwa kutumia maono yanayowezeshwa na AI. Unaweza pia kuwasha "Kulazimisha kuchambua kwa AI" ili kuruka moja kwa moja kwenye ngazi hii wakati unajua jedwali ni changamano.
Umbizo la matokeo: Excel (.xlsx), CSV, JSON.
Inafaa zaidi kwa: Kuchambua haraka bila kusakinisha programu. PDF za kidijitali huchakatwa kabisa kwenye kivinjari chako kwa faragha ya juu zaidi.
Njia ya 2: Power Query katika Excel (Windows Pekee)
Inapatikana katika Excel 2019+ na Microsoft 365 kwenye Windows: Data → Pata Data → Kutoka Faili → Kutoka PDF.
Jinsi Inavyofanya Kazi
- Bofya Data → Pata Data → Kutoka Faili → Kutoka PDF
- Chagua faili yako ya PDF
- Power Query huonyesha paneli ya Mtafuta inayoorodhesha jedwali zilizogunduliwa kwa kila ukurasa
- Chagua jedwali unazotaka, bofya Transform Data ili kusafisha, kisha Load
Nguvu
- Imejengwa ndani ya Excel - hakuna gharama ya ziada kwa wanachama wa Microsoft 365
- Injini ya uhamishaji ya Power Query hushughulikia usindikaji wa baada ya hapo vizuri (jaza chini, pivot, unganisha nguzo)
- Inaweza kusasisha data ikiwa PDF chanzo imesasishwa
- Inasaidia kuunganisha jedwali nyingi kutoka kwa PDF sawa
Vizuizi
- Windows pekee - haipatikani katika Excel kwa Mac, Excel Online, au simu
- Inatatizika na jedwali zisizo na mipaka - hufanya kazi vizuri zaidi na jedwali zenye mipaka iliyo wazi
- Hakuna OCR - haiwezi kuchambua kutoka kwa PDF zilizochanganuliwa/za picha
- Jedwali za kurasa nyingi ni tatizo - kila ukurasa mara nyingi huagizwa kama jedwali tofauti, ikihitaji kuunganishwa kwa mikono
- Safu za mistari mingi - maandishi yaliyofungwa ndani ya seli mara nyingi hugawanyika katika safu nyingi, ikihitaji kusafishwa
Inafaa zaidi kwa: Watumiaji wa Windows walio na Microsoft 365 ambao wana jedwali rahisi, zenye mipaka.
Njia ya 3: Adobe Acrobat (Inalipiwa)
Faili → Hamisha PDF → Lahajedwali → Kazi ya Microsoft Excel
Bei (2026)
- Acrobat Standard: $12.99/mwezi (mpango wa mwaka)
- Acrobat Pro: $19.99/mwezi (mpango wa mwaka)
- Hamisha PDF (standalone): mpango wa kiwango cha chini wa ubadilishaji tu
Nguvu
- OCR iliyojengwa kwa hati zilizochanganuliwa
- Kwa ujumla huhifadhi umbizo kwa jedwali rahisi zenye mipaka
- Usindikaji wa kundi unapatikana katika Pro
Vizuizi
- Ghali kwa kuchambua jedwali tu - $156–$240/mwaka
- Jedwali changamano zenye seli zilizounganishwa na vipindi vya kurasa nyingi bado hutoa matokeo yasiyo sawa
- Faili zinaweza kupakiwa kwenye wingu la Adobe kwa usindikaji - tatizo kwa data nyeti ya kifedha
- Inahitaji usakinishaji wa kompyuta ya mezani
Inafaa zaidi kwa: Watumiaji ambao tayari hulipa kwa Acrobat Pro na wanahitaji kuchambua mara kwa mara kwa OCR.
Njia ya 4: Nakili-Paka (Mwongozo)
Mbinu ya angavu zaidi - na ile ambayo hufeli mara nyingi zaidi kwa jedwali.
Matatizo ya Kawaida
- Data zote katika nguzo moja - jedwali zima hupakwa bila mapumziko ya nguzo
- Nambari zinakuwa maandishi - alama za sarafu, mabano, na vizitenganishi huvunja umbizo la nambari
- Maudhui ya seli ya mistari mingi huunda safu bandia - maelezo ambayo hufungwa kwenye mistari miwili katika seli huwa safu mbili tofauti
- Vichwa vimetenganishwa na data - safu ya kichwa imetenganishwa
- Nguzo hazijawekwa sawa - data huhamishwa kwa sababu nafasi ya herufi haitafsiri kwa tabo
Suluhisho la Sehemu
Paka katika Excel, kisha tumia Data → Nakala hadi Nguzo na vizitenganishi vya nafasi au urefu maalum. Washa "Shughulikia vizitenganishi vinavyofuata kama kimoja." Hii hufanya kazi kwa jedwali rahisi sana, zilizo na nafasi nzuri lakini hufeli kwa kitu chochote chenye maudhui ya seli yenye maneno mengi.
Inafaa zaidi kwa: Kuchambua jedwali moja dogo, rahisi kama suluhisho la mwisho.
Njia ya 5: Maktaba za Python (Kwa Wasanidi Programu)
Maktaba tatu zenye leseni ya MIT hushughulikia kuchambua jedwali la PDF kwa programu:
Tabula-py
Kifuniko cha Python cha Tabula (Java). Inahitaji mazingira ya Java.
- Hali ya Lattice kwa jedwali zenye mipaka (hupata mistari na makutano)
- Hali ya Stream kwa jedwali zisizo na mipaka (hutumia upangaji wa maandishi)
- Nzuri kwa usindikaji wa kundi katika hati
- Hakuna msaada wa OCR
Camelot
Inatoa pia hali za lattice na stream.
- Kwa ujumla hufanya vizuri zaidi kuliko Tabula kwa jedwali zenye mipaka
- Hali ya Stream ina vigezo zaidi vya usanidi kwa urekebishaji mzuri
- Hutoa ripoti za usahihi na kila uchambuzi
- Inahitaji utegemezi wa Ghostscript. Hakuna msaada wa OCR
pdfplumber
Mbinu ya msingi wa uratibu: huchambua kila herufi na nafasi yake kamili, kisha hufikiria muundo.
- Hushughulikia aina mbalimbali za jedwali
- Hutoa udhibiti zaidi lakini inahitaji usanidi zaidi
- Hii ndiyo maktaba ambayo PDFSub hutumia upande wa seva
Inafaa zaidi kwa: Wasanidi programu wanaotengeneza michakato ya kuchambua jedwali inayojirudia, kusindika kundi kubwa za hati zinazofanana.
Matatizo ya Kawaida na Jinsi ya Kuyatatua
Seli Zilizounganishwa
Wakati seli zinapochukua safu au nguzo nyingi, zana nyingi huweka maudhui kwenye seli ya juu kushoto na kuacha zingine tupu, au huweka sawa nguzo zote zinazofuata. Hakuna suluhisho la ulimwengu wote - umbizo la CSV halina dhana ya kuunganisha, kwa hivyo habari ya kuunganisha hupotea kila wakati.
Rekebisho: Changanua jedwali, kisha urekebishe kwa mikono athari za kuunganisha katika Excel. Kwa jedwali zinazorudiwa zenye ruwaza sawa ya kuunganisha, zingatia hati ya usindikaji wa baadae.
Maudhui ya Mistari Mingi Ndani ya Seli
Maelezo marefu ambayo hufungwa ndani ya seli huwa safu nyingi katika matokeo, yakisukuma data zote zinazofuata nje ya usawa. Hili ndilo kosa la kawaida zaidi la kuchambua kwa hati za kifedha.
Rekebisho: Baada ya kuchambua, tafuta safu ambazo hazina tarehe na kiasi - hizi ni laini za mwendelezo ambazo ni za safu iliyo hapo juu. Katika Excel, ziunganishe kwa mikono au tumia fomula ya msaidizi.
Jedwali Zinazopita Kurasa Nyingi
Zana lazima ziamue mahali jedwali linaendelea, ikiwa zitatoa vichwa vilivyojirudia, na jinsi ya kuchuja sehemu za chini za ukurasa. Zana nyingi huchukua kila ukurasa kivyake.
Rekebisho: Ikiwa zana yako inatoa matokeo kwa kila ukurasa, unganisha laha na uondoe safu za vichwa vilivyojirudia. Angalia kuwa safu ya mwisho kwenye ukurasa N inaunganishwa kwa usahihi na safu ya kwanza kwenye ukurasa N+1.
Masuala ya Umbizo la Sarafu
Nambari hasi katika mabano ((1,234.56)) hupakwa kama maandishi, si nambari. Alama za sarafu na vizitenganishi vya maelfu pia huvunja umbizo la nambari.
Rekebisho: Baada ya kuchambua, chagua nguzo ya kiasi na utumie Tafuta & Badilisha ili kuondoa alama za $, (, ). Kisha umbiza nguzo kama Nambari. Kwa hasi zilizo na mabano, badilisha ( na - na uondoe ), kisha ubadilishe kuwa umbizo la Nambari.
Utata wa Tarehe
01/02/2026 - je, ni Januari 2 au Februari 1? Zana ya kuchambua huhifadhi maandishi kama yalivyo, lakini Excel inaweza kuifasiri upya kulingana na eneo lako.
Rekebisho: Angalia PDF chanzo kwa dalili za umbizo la tarehe (tafuta tarehe zilizo na thamani za siku > 12). Weka umbizo la tarehe la Excel ili lilingane na chanzo kabla ya kuagiza.
Ulinganishaji wa Usahihi
| Njia | Rahisi Zenye Mipaka | Isiyo na Mipaka | Nusu-Mipaka | PDF Zilizochanganuliwa |
|---|---|---|---|---|
| PDFSub (uratibu + AI) | 90–99% | 75–95% | 70–95% | 85–95% (AI) |
| Power Query | 85–95% | 40–60% | 50–70% | Haipatikani |
| Adobe Acrobat | 90–95% | 70–80% | 70–85% | 80–90% |
| Tabula | ~68% | 55–70% | 50–65% | Haipatikani |
| Camelot | ~73% | 65–75% | 60–70% | Haipatikani |
| Nakili-paka | 30–50% | 10–30% | 10–30% | Haiwezekani |
Safu huonyesha mabadiliko kote katika ugumu wa hati. Data ya vipimo kutoka kwa Vipimo vya Kuchambua PDF vya Procyons 2025 na tafiti za ulinganishaji za Camelot.
Unapaswa Kutumia Njia Gani?
| Hali | Njia Bora | Kwa Nini |
|---|---|---|
| Kuchambua kwa haraka mara moja | PDFSub | Hakuna usakinishaji, hutumiwa kwenye kivinjari, uchambuzi wa bure wa uratibu |
| Jedwali rahisi lenye mipaka, Windows | Power Query | Imejengwa ndani ya Excel, hakuna gharama ya ziada |
| PDF iliyochanganuliwa | PDFSub (AI) au Adobe Acrobat | Inahitaji uwezo wa OCR |
| Data nyeti ya kifedha | PDFSub | Usindikaji unaotumiwa kwenye kivinjari, faili haipakiwi kamwe |
| Usindikaji wa kundi unaojirudia | Python (pdfplumber) | Inaweza kuandikwa hati, kutengenezwa kiotomatiki |
| Tayari una Acrobat Pro | Adobe Acrobat | Tayari unalipa, jedwali rahisi hufanya kazi vizuri |
| Jedwali moja dogo, hakuna zana | Nakili-paka | Suluhisho la mwisho, thibitisha kila kitu |
Vidokezo vya Matokeo Bora
Tumia PDF asili. Pakua hati kutoka kwa chanzo chao badala ya kuchanganua karatasi. PDF asili zina maandishi kamili, na kufanya uchambuzi kuwa sahihi zaidi.
Tambua aina ya jedwali kwanza. Jedwali zenye mipaka hufanya kazi na karibu zana yoyote. Jedwali zisizo na mipaka zinahitaji hali ya mkondo au uchambuzi wa AI. Kujua aina husaidia kuchagua njia sahihi mapema.
Anza na mbinu za bure, za msingi wa sheria. Jaribu uchambuzi wa msingi wa uratibu kwanza. Endelea tu kwa AI wakati mbinu za msingi wa sheria zinatoa matokeo duni - hii huokoa muda na mikopo.
Daima thibitisha matokeo. Angalia idadi ya safu, upangaji wa nguzo, maadili ya nambari, na jumla. Kamwe usiamini matokeo ya uchambuzi bila kufikiria.
Kuhusu umbizo la nambari. Baada ya kuchambua, thibitisha kuwa nambari ni nambari katika Excel (zilizowekwa sawa kulia), sio maandishi (yaliyoachwa kushoto). Alama za sarafu na nambari hasi zilizo na mabano ni sababu za kawaida.
Kwa data nyeti, pendelea zana zinazotumiwa kwenye kivinjari. Ripoti za kifedha, taarifa za benki, na hati za kodi zina habari nyeti. Zana zinazochakata PDF kwenye kivinjari chako hazipaki kamwe faili yako, zikiondoa hatari ya kufichuliwa kwa data.
Jaribu Bure
Uko tayari kuchambua jedwali kutoka kwa PDF yako? Pakia faili sasa - PDFSub hujaribu uchambuzi wa bure wa msingi wa uratibu kwanza, na akili bandia ya ziada kwa jedwali changamano. PDF za kidijitali huchakatwa kabisa kwenye kivinjari chako. Anza jaribio la bure la siku 7.