PDFSub
BeiAPIMergeCompressEditE-SignTaarifa za BenkiBlogu
Rudi kwenye Blogu
MwongozoRisitiOCRAIUsahihi

Usahihi wa OCR wa Risiti: Nini cha Kutarajia kutoka kwa Kuchanganua kwa AI

2 Machi 2026
T
Todd Lahman
Founder, PDFSub

OCR ya risiti ni ngumu zaidi kuliko kuchanganua hati za kawaida - karatasi ya joto hufifia, miundo hutofautiana sana, na fonti ni ndogo. Hapa kuna usahihi ambao unaweza kutarajia kutoka kwa OCR ya jadi dhidi ya uchimbaji unaowezeshwa na AI.


Unachanganua risiti kutoka kwa chakula cha mchana cha biashara cha Jumanne iliyopita. Jumla inarudi kama $14.73 badala ya $114.73. Nambari moja iliyoangushwa, na ripoti yako ya gharama ni mbaya.

Huu ndio mvutano mkuu katika OCR ya risiti: teknolojia inaonekana ya kichawi inapofanya kazi, lakini pengo kati ya "karibu sawa" na "kweli sawa" ndio ambapo pesa halisi hupotea. Kiwango cha usahihi wa herufi 95% kinaonekana kuvutia hadi utambue kuwa inamaanisha makosa matano kwa kila herufi mia - na kwenye risiti ya mgahawa ya mistari 30, hiyo inatosha kuharibu jumla, kusoma vibaya tarehe, au kuharibu jina la muuzaji.

Kuchanganua risiti kumeimarika sana katika miaka miwili iliyopita. Lakini usahihi bado unatofautiana sana kulingana na zana unayotumia, hali ya risiti, na ni sehemu gani unajaribu kutoa. Mwongozo huu unavunja kile unachoweza kutarajia kweli - na nambari maalum, sio madai ya uuzaji.

Receipt OCR accuracy comparison: traditional OCR vs AI-powered extraction across different receipt conditions

Kwa Nini OCR ya Risiti Ni Ngumu Kuliko OCR ya Hati

Ikiwa umewahi kutumia OCR kwenye barua rasmi ya biashara au ripoti iliyoandikwa kwa maandishi, unaweza kudhani kuwa kuchanganua risiti kungekuwa na uhakika sawa. Si hivyo. Risiti ni miongoni mwa hati ngumu zaidi kwa injini za OCR kusindika, na sababu ni za kimuundo, sio tu za kiufundi.

Uharibifu wa Karatasi ya Joto

Muuaji mkuu wa usahihi sio injini ya OCR - ni karatasi. Takriban 93% ya risiti za mauzo hutolewa kwa karatasi ya joto, ambayo hutumia mipako ya kemikali nyeti kwa joto badala ya wino. Hii inaleta shida tatu:

  1. Kufifia hakuepukiki. Chini ya hali ya kawaida (baridi, kavu, mwanga mdogo), risiti za joto huanza kufifia ndani ya miezi sita hadi mwaka mmoja. Katika mazingira magumu - sehemu ya kuhifadhia glavu ya gari wakati wa kiangazi, mkoba wenye unyevunyevu - kufifia kunaweza kuanza ndani ya wiki. Karatasi ya joto ya kiwango cha kawaida huhifadhi uonekano kwa miaka mitano hadi saba chini ya uhifadhi bora, lakini "bora" inamaanisha chini ya digrii 77 Fahrenheit, unyevu wa jamaa wa 45-65%, na hakuna mfiduo wa mwanga. Hiyo inaelezea kumbukumbu iliyodhibitiwa na hali ya hewa, sio sanduku la viatu.

  2. Kufifia si sare. Kingo na mikunjo hufifia kwanza kwa sababu msuguano na shinikizo huharakisha uharibifu wa kemikali. Hii inamaanisha kuwa maeneo ya mwisho ambapo jumla na jumla ndogo mara nyingi huonekana - chini ya risiti - huharibika haraka zaidi.

  3. Uchafuzi wa BPA. Karatasi nyingi za joto zina bisphenol A (BPA) au mbadala wake bisphenol S (BPS) kama kiendelezi cha rangi. Risiti za kibinafsi zinaweza kuwa na BPA kwa viwango mara 250 hadi 1,000 zaidi kuliko vile hupatikana kwenye kopo la chakula. Kemikali hazijafungwa kwa kemikali kwenye karatasi, kwa hivyo huhamishwa kwa urahisi kwenye ngozi, pochi, na karatasi zingine zilizohifadhiwa karibu. Hii sio shida ya moja kwa moja ya OCR, lakini ni hoja yenye nguvu ya kuweka risiti kidijitali mara moja na kupunguza utunzaji wa kimwili.

Miundo Tofauti

Hati rasmi za biashara - ankara, taarifa za benki, fomu za kodi - hufuata miundo inayotabirika kiasi. Risiti hazifanyi hivyo. Fikiria tofauti kati ya aina nne za kawaida za risiti:

Aina ya Risiti Tabia za Muundo Changamoto ya OCR
Mgahawa Vyakula/vinywaji vilivyoorodheshwa, mstari wa kidokezo, jumla ndogo nyingi, jina la mhudumu Kiasi cha kidokezo kilichoandikwa kwa mkono, nafasi tofauti
Rejareja/Mboga Orodha ndefu za bidhaa, nambari za SKU, punguzo, akiba za uaminifu Bidhaa 50+ za mistari, nambari mchanganyiko wa alfanumeriki
Kituo cha Gesi Nambari ya pampu, daraja la mafuta, galoni, bei kwa galoni, odometer Majina ya sehemu yaliyofupishwa, mfiduo wa hali ya hewa
Mtandaoni/Barua pepe Imechapishwa kwa HTML, muundo thabiti, nambari za agizo Kwa kawaida safi - lakini usafirishaji wa PDF unaweza kuanzisha picha bandia

Mfumo wa OCR unaotegemea kiolezo ambao umeandaliwa kwa risiti za rejareja utashindwa kwenye risiti za mgahawa zenye vidokezo vilivyoandikwa kwa mkono. Injini iliyoboreshwa kwa risiti za lugha ya Kiingereza itapambana na miundo ya lugha nyingi inayopatikana katika safari za kimataifa. Na mfumo ulioundwa kwa hati za kawaida za ukubwa wa barua unaweza usishughulikie kabisa umbizo la karatasi nyembamba, inayoendelea ya karatasi ya joto.

Fonti Ndogo na Tofauti Kidogo

Matangazo ya risiti kwa kawaida hutumia fonti kati ya pointi 7 na 10 - ndogo kuliko maandishi ya kawaida katika hati nyingi. Pamoja na utoaji wa joto wa chini wa tofauti ikilinganishwa na utoaji wa leza au inkjet, hii inaleta changamoto za utambuzi wa herufi hata kwa injini za kisasa zaidi za OCR. Herufi kama "1" na "l", "0" na "O", "5" na "S" huwa na utata kwa ukubwa mdogo, haswa baada ya kufifia kidogo.

Uharibifu wa Kimwili

Risiti hupigwa kwenye mifuko, hukunjwa kwenye pochi, na kuingizwa kwenye bahasha. Kila mkojo huunda mstari ambao injini ya OCR inaweza kutafsiri kama mpaka wa herufi, kukatwa, au kelele. Uharibifu wa maji kutoka kwa mvua au kumwagika hupinda karatasi na kusababisha wino kuvuja. Mafuta na grisi kutoka kwa risiti za chakula huficha maandishi. Hakuna hata moja ya shida hizi ipo wakati wa kuchanganua hati safi ya ofisi kutoka kwa printa ya leza.


Receipt OCR process: Capture → OCR → Verify → Export, with accuracy benchmarks

Kuelewa Usahihi: Vipimo Vitatu Tofauti

Wakati muuzaji anadai "usahihi wa 99%", unahitaji kuuliza: 99% ya nini? Kuna njia tatu tofauti za msingi za kupima usahihi wa OCR, na kila moja inasimulia hadithi tofauti sana.

Usahihi wa Herufi (Kiwango cha Makosa ya Herufi)

Usahihi wa herufi hupima ni herufi ngapi injini inasoma kwa usahihi. Huhesabiwa kwa kutumia Kiwango cha Makosa ya Herufi (CER), ambacho huhesabu nyongeza, kufutwa, na ubadilishaji katika kiwango cha herufi.

Mfano: Ikiwa mstari wa risiti unasomeka "COFFEE MEDIUM $4.50" na OCR inatoa "C0FFEE MEDIUN $4.5O", hiyo ni makosa 3 kati ya herufi 21 - kiwango cha usahihi wa herufi 85.7%.

Usahihi wa herufi ndio kipimo cha kina zaidi na rahisi zaidi kupima kwa malengo. Pia ndio haina manufaa zaidi kwa madhumuni ya vitendo kwa sababu inatibu makosa yote kwa usawa. Kusoma vibaya "MEDIUM" kama "MEDIUN" katika maelezo ni kukasirisha. Kusoma vibaya "$4.50" kama "$4.5O" (herufi O badala ya sifuri) ni kosa la uharibifu wa data.

Usahihi wa Sehemu (Alama ya F1 ya Kiwango cha Sehemu)

Usahihi wa sehemu hupima ikiwa sehemu maalum za data zinatolewa kwa usahihi kama vitengo kamili. Je, mfumo ulitambua na kutoa jumla ya kiasi kwa usahihi? Tarehe? Jina la muuzaji? Kiasi cha kodi?

Mfano: Ikiwa mfumo wa OCR unasoma risiti na kurudisha:

  • Jumla: $47.83 (sahihi)
  • Tarehe: 02/28/2026 (sahihi)
  • Muuzaji: "STARBCUKS" (sahihi - inapaswa kuwa "STARBUCKS")
  • Kodi: $3.42 (sahihi)

Hiyo ni sehemu 3 kati ya 4 sahihi - usahihi wa sehemu 75%.

Usahihi wa sehemu ndio muhimu kwa mtiririko wa kazi wa usimamizi wa gharama na uhasibu. Kosa la herufi katika maelezo linaweza kuvumiliwa. Kosa la sehemu katika jumla ya kiasi huharibu risiti nzima.

Usahihi wa Hati (Kiwango cha Mafanikio cha Mwisho hadi Mwisho)

Usahihi wa hati hupima ikiwa risiti nzima ilisindika kwa usahihi - sehemu zote, bidhaa zote za mistari, hakuna makosa mahali popote. Hiki ndicho kipimo kikali zaidi na cha kweli zaidi kwa mitiririko ya kazi ya uzalishaji.

Ikiwa risiti ina sehemu 8 zinazoweza kutolewa na mfumo unapata 7 sawa lakini unasoma vibaya mstari mmoja wa bidhaa, usahihi wa hati ni 0% - kosa moja mahali popote linamaanisha hati nzima inahitaji ukaguzi.

Viwango vya tasnia kwa muhtasari:

Kipimo OCR ya Jadi Uchimbaji Unaowezeshwa na AI
Usahihi wa herufi 85-92% 95-99%
Usahihi wa sehemu (sehemu muhimu) 70-85% 93-99%
Usahihi wa hati (sehemu zote sahihi) 40-60% 75-92%

Pengo kati ya usahihi wa herufi na usahihi wa hati linaelezea kwa nini zana inaweza kudai "usahihi wa 95%" na bado kutoa matokeo yanayohitaji marekebisho ya mikono kwa nusu ya risiti zote.


Usahihi wa Jadi wa OCR kwenye Risiti: Kiwango cha Msingi

OCR ya jadi - injini zinazotegemea sheria zinazotambua herufi kupitia kulinganisha ruwaza na mgawanyiko - zimekuwepo kwa miongo kadhaa. Mifumo miwili hutawala nafasi hii.

Tesseract (Chanzo Huria)

Tesseract, iliyoendelezwa awali na HP Labs katika miaka ya 1980 na baadaye kutunzwa na Google, ndiyo injini ya OCR ya chanzo huria inayotumiwa zaidi. Kwenye hati za kawaida (mihogo safi ya kurasa zilizochapishwa), Tesseract hufikia usahihi wa herufi 95-99%. Kwenye risiti, picha ni mbaya zaidi.

Viwango huru vinaonyesha Tesseract ikifikia usahihi wa herufi 50-80% kwenye risiti, kulingana na ubora wa picha na hali ya risiti. Injini iliundwa na kuboreshwa kwa kutambua sentensi za maneno katika hati za kawaida - sio maandishi yaliyofupishwa, mchanganyiko wa umbizo yanayopatikana kwenye risiti. Hali za kawaida za kushindwa ni pamoja na:

  • Nambari za SKU na nambari za bidhaa husomwa vibaya kwa sababu zinaonekana kama minyororo ya herufi nasibu kwa modeli ya lugha iliyoandaliwa kwa maandishi ya Kiingereza
  • Safu za bei hupoteza mpangilio wa desimali wakati ugunduzi wa nafasi unashindwa
  • Fonti ndogo za joto hutoa mechi za herufi za chini za ujasiri
  • Picha zilizozungushwa au zilizopinda kutoka kwa kamera za simu hupunguza usahihi kwa kiasi kikubwa

Tesseract inahitaji usindikaji wa awali wa kiasi kikubwa - kunyoosha, kuweka rangi nyeusi na nyeupe, kuondoa kelele, kuongeza utofauti - kufikia usahihi unaokubalika kwenye risiti. Hata kwa usindikaji bora, usahihi wa kiwango cha sehemu kwenye sehemu muhimu kama jumla na tarehe kwa kawaida hutofautiana kutoka 60-75%.

ABBYY FineReader (Biashara)

ABBYY inawakilisha kiwango cha juu cha OCR ya jadi. Kwenye hati safi, zilizoandaliwa, ABBYY hufikia usahihi wa herufi hadi 99.8% - bora zaidi katika kategoria ya OCR ya jadi. Kwenye risiti, ABBYY hufanya kazi vizuri zaidi kuliko Tesseract, kwa kawaida ikifikia usahihi wa herufi 88-93% kwenye risiti zilizo wazi kiasi.

Faida ya ABBYY inatokana na miongo ya data ya mafunzo, algoriti bora za usindikaji wa awali, na chanjo pana ya lugha na fonti. Walakini, bado inategemea sana utambuzi wa kiwango cha herufi bila uelewa wa maana wa muundo wa hati. Inaweza kusoma kwa usahihi kile kilicho kwenye risiti, lakini haiwezi kuelewa kuwa nambari iliyo chini ni jumla na tarehe iliyo juu ni wakati shughuli ilipotokea.

Shida ya Kiolezo

Mifumo ya OCR ya jadi inayopita zaidi ya utambuzi wa herufi mbichi hadi uchimbaji wa sehemu kwa kawaida hutegemea violezo - ramani za kuratibu zilizofafanuliwa awali ambazo huambia mfumo "jumla iko kwenye nafasi X,Y kwenye ukurasa." Njia hii hufanya kazi vizuri kwa fomu sanifu (hati za kodi, madai ya bima) lakini hushindwa kwa risiti kwa sababu:

  1. Kuna maelfu ya miundo tofauti ya risiti kati ya wauzaji, mifumo ya POS, na nchi
  2. Hata mnyororo sawa wa duka unaweza kubadilisha muundo wa risiti yake wakati wa kusasisha vifaa vya POS
  3. Uundaji na matengenezo ya kiolezo ni kazi ngumu - kila muundo mpya unahitaji usanidi wa mikono
  4. Urefu wa risiti hutofautiana (risiti ya mboga yenye bidhaa 50 ni tofauti kimwili na risiti ya duka la kahawa yenye bidhaa 2)

Mifumo inayotegemea kiolezo kwa kawaida inasaidia miundo 50-200 ya risiti. Hiyo inashughulikia wauzaji wakuu katika nchi moja. Haishughulikii mkia mrefu wa biashara ndogo ndogo, risiti za kimataifa, au mikahawa.


Uchimbaji Unaowezeshwa na AI: Njia Tofauti

Uchimbaji wa kisasa wa risiti wa AI haufanyi kazi kama OCR ya jadi hata kidogo. Badala ya kulinganisha ruwaza herufi za kibinafsi na ramani za kuratibu kwa violezo, mifumo ya AI hutumia modeli kubwa za lugha na modeli za maono zinazoelewa muktadha wa hati.

Jinsi Uchimbaji wa AI Unavyofanya Kazi

Mchakato kwa kawaida hufuata hatua tatu:

  1. Uelewa wa kuona. Mfumo wa AI huchakata picha ya risiti (au PDF) kama pembejeo ya kuona, ukibainisha maeneo ya maandishi, muundo wa mpangilio, na uhusiano wa anga. Hii ni tofauti sana na OCR ya jadi, ambayo huchakata herufi kivyake.

  2. Uchimbaji wa muktadha. Badala ya kuuliza "ni herufi gani iko kwenye nafasi X,Y?", mfumo unauliza "ni kiasi gani cha jumla kwenye risiti hii?". Inafahamu kuwa jumla kwa kawaida huwa karibu na chini, ikitanguliwa na neno kama "Jumla", "Kiasi Kinachodaiwa", au "Jumla Kuu", na kuumbizwa kama thamani ya sarafu. Uelewa huu wa muktadha ndio unaofanya uchimbaji wa AI kuwa huru wa umbizo - hakuna violezo vinavyohitajika.

  3. Pato lililoandaliwa. Mfumo hurudisha kitu cha data kilichoandaliwa na sehemu zilizo na lebo: jina la muuzaji, tarehe, bidhaa za mistari, jumla ndogo, kodi, jumla. Umbizo la pato ni thabiti bila kujali mpangilio wa risiti ya pembejeo.

Usahihi wa AI kwa Hali

Uchimbaji unaowezeshwa na AI hufikia usahihi wa juu zaidi kuliko OCR ya jadi, lakini nambari hutofautiana sana kulingana na hali ya risiti:

Hali ya Risiti Usahihi wa Sehemu (Sehemu Muhimu) Usahihi wa Sehemu (Sehemu Zote) Maelezo
Risiti safi ya kidijitali (PDF) 98-99%+ 95-98% Karibu kamili; muundo ni thabiti
Risiti mpya ya joto (miezi 0-3) 96-99% 92-96% Tofauti kubwa, maandishi wazi
Risiti ya joto ya zamani (miezi 3-12) 90-95% 82-90% Kufifia kidogo, hasa kingo
Risiti iliyofifia (miaka 1-3) 75-88% 65-80% Upotevu mkubwa wa herufi; muktadha husaidia
Imeharibika sana (miaka 3+, mfiduo wa joto) 50-70% 40-60% Maeneo ya maandishi yaliyokosekana; uchimbaji wa sehemu
Imejikunja/imekwazwa 85-93% 78-88% Mikunjo huathiri ugunduzi wa mistari
Picha ya ubora wa chini (msogeo wa blur, vivuli) 80-90% 70-85% Ubora wa picha ndio kikwazo

Uelewa muhimu ni kwamba AI hudumisha usahihi wa juu zaidi kuliko OCR ya jadi hata hali zinapozorota, kwa sababu inaweza kutumia muktadha kujaza mapengo. Ikiwa injini inaweza kusoma "Tot" ikifuatiwa na "$47.8_" (ambapo tarakimu ya mwisho haiwezi kusomeka), inajua kutoka kwa muktadha kuwa hii ni sehemu ya jumla na tarakimu iliyokosekana pengine ni "3" kulingana na bidhaa za mistari hapo juu. OCR ya jadi ingetoa tu alama ya kuuliza au ubashiri wake bora wa herufi moja.

Pengo la Usahihi kwenye Sehemu Muhimu

Sio sehemu zote ni muhimu kwa usawa. Kwa usimamizi wa gharama na utiifu wa kodi, kuna uongozi wazi:

Sehemu Kipaumbele Kwa Nini Ni Muhimu Usahihi wa AI (Risiti Safi)
Jumla ya kiasi Muhimu Huamua thamani ya gharama na kiasi cha punguzo 98-99%
Tarehe Muhimu Inahitajika kwa mwaka wa kodi na mgao wa kipindi 97-99%
Jina la muuzaji Juu Inahitajika kwa uainishaji na njia ya ukaguzi 95-98%
Kiasi cha kodi Juu Inahitajika kwa taarifa za kodi na mikopo ya kodi ya pembejeo 96-98%
Njia ya malipo Kati Inafaa kwa maelewano na taarifa za kadi 93-96%
Bidhaa za mistari Kati Inahitajika kwa uainishaji wa kina wa gharama 88-95%
Kiasi cha kidokezo Kati Inahusiana na gharama za milo, mara nyingi huandikwa kwa mkono 85-92%
Anwani/simu Chini Mara chache huhitajika kwa usindikaji wa gharama 90-95%

Zana za uchimbaji wa AI hufikia kwa thabiti usahihi wao wa juu zaidi kwenye sehemu zinazohitajika zaidi - jumla ya kiasi na tarehe - kwa sababu sehemu hizi zina ishara kali za muktadha (nafasi, umbizo, maandishi yanayozunguka) ambazo mfumo unaweza kutumia hata wakati herufi za kibinafsi ni za utata.


Sababu Zinazoathiri Usahihi

Kuelewa nini huharibu usahihi husaidia kufanya maamuzi bora kuhusu lini kuamini uchimbaji wa kiotomatiki na lini kukagua kwa mikono.

Ubora wa Picha

Ubora wa picha ndio sababu kubwa zaidi inayoweza kudhibitiwa katika usahihi wa OCR. Tofauti kati ya picha iliyonaswa kwa uangalifu na picha ya haraka inaweza kuongeza usahihi wa sehemu kwa pointi 15-20 za asilimia.

Sababu Athari kwa Usahihi Nini cha Kufanya
Azimio Chini ya 200 DPI, usahihi hupungua kwa kasi Tumia angalau 300 DPI; kamera nyingi za simu huzidi hili
Mwangaza Mwangaza usio sawa husababisha shida za utofauti Tumia mwanga wa asili, uliotawanyika; epuka mwanga wa moja kwa moja juu
Vivuli Vivuli vya mkono/simu huficha maandishi Weka chanzo cha mwanga kando; tumia taa ikiwa inahitajika
Mng'ao wa flash Karatasi ya joto huakisi; flash huunda maeneo meupe yanayoonekana kama maeneo meupe kwa injini ya OCR, mara nyingi juu ya maandishi muhimu zaidi Lemaza flash; tumia mwangaza wa kawaida badala yake
Uzingatiaji Maandishi yenye ukungu hayawezi kusomeka kwa azimio lolote Gusa ili kulenga maandishi; shikilia simu kwa utulivu
Pembe Upotoshaji wa mtazamo hupinda herufi Shikilia kamera moja kwa moja juu ya risiti, sambamba na uso
Kupunguzwa Mandharinyuma nyingi huchanganya ugunduzi wa kingo Jaza 80% ya fremu na risiti

Hali ya Karatasi

Hali ya karatasi ndio sababu kubwa zaidi isiyoweza kudhibitiwa. Unaweza kuboresha ubora wa picha kwa mbinu; huwezi kufuta risiti iliyofifia.

Ratiba ya kufifia kwa risiti za joto inategemea sana hali ya uhifadhi:

  • Uhifadhi bora (giza, baridi, unyevu wa 45-65%): miaka 5-7 ya uonekano kwa kiwango cha kawaida, hadi miaka 25 kwa karatasi ya joto iliyopakwa juu
  • Hali za kawaida (droo ya dawati, folda ya faili): miaka 1-3
  • Mkoba au mfuko: miezi 3-12
  • Dashibodi ya gari au sehemu ya kuhifadhia glavu: Wiki hadi miezi, kulingana na hali ya hewa
  • Mfiduo wa jua moja kwa moja: Siku hadi wiki

Uchukuzi wa vitendo ni wazi: weka risiti kidijitali ndani ya saa 48 za kuzipokea. Kila siku ya kuchelewa hupunguza usahihi wa juu zaidi unaoweza kufikiwa. Risiti iliyochanganuliwa siku ya ununuzi itatoa matokeo karibu kamili. Risiti sawa iliyochanganuliwa miezi sita baadaye inaweza kupoteza 10-20% ya uwazi wa maandishi yake.

Urefu na Ugumu wa Risiti

Risiti ndefu zilizo na bidhaa nyingi zaidi zina usahihi wa chini wa kiwango cha hati kwa sababu tu kuna fursa zaidi za makosa. Risiti ya mboga yenye bidhaa 5 ina nafasi kubwa zaidi ya kuwa 100% sahihi kuliko risiti ya mboga yenye bidhaa 60.

Urefu wa Risiti Bidhaa za Mistari Wastani Usahihi wa Hati (AI) Sehemu Zinazowezekana Kuwa na Kosa
Fupi (bidhaa 1-5) Mistari 8-15 90-95% Jina la muuzaji (fupisho)
Kati (bidhaa 6-20) Mistari 16-40 80-90% Maelezo ya bidhaa za mistari
Ndefu (bidhaa 21-50) Mistari 41-80 70-82% Kiasi cha bidhaa, bei za kitengo
Ndefu sana (bidhaa 50+) Mistari 80+ 55-70% Sehemu nyingi; makosa ya jumla

Fonti na Umbizo

Mifumo mingine ya POS hutumia fonti maalum au nyembamba ambazo ni changamoto hasa kwa OCR. Matangazo ya risiti ya dot-matrix - bado yanapatikana katika baadhi ya vituo vya mafuta na maeneo ya rejareja ya zamani - hutoa herufi za ubora wa chini kuliko matangazo ya joto. Umbizo la herufi kubwa zote, ingawa ni ngumu zaidi kwa wanadamu kusoma, kwa kweli ni rahisi kwa injini za OCR kwa sababu herufi kubwa zina maumbo tofauti zaidi.


Usahihi kwa Aina ya Risiti

Aina tofauti za risiti huwasilisha changamoto za kipekee na hutoa maelezo tofauti ya usahihi.

Risiti za Mgahawa

Risiti za mgahawa ni miongoni mwa changamoto zaidi kwa OCR kwa sababu mara nyingi hujumuisha vipengele vilivyoandikwa kwa mkono - kiasi cha kidokezo, jumla, na saini. Uchimbaji wa AI hushughulikia sehemu zilizochapishwa vizuri (usahihi wa sehemu 95-98% kwa muuzaji, tarehe, jumla ndogo) lakini hupambana na utambuzi wa maandishi kwa mikono kwenye mistari ya kidokezo (usahihi wa 70-85%). Kiasi cha kidokezo mara nyingi ndio sehemu muhimu zaidi iliyoandikwa kwa mkono.

Mazoezi bora: Ikiwa usahihi wa kidokezo ni muhimu kwa mtiririko wako wa kazi, kagua kidokezo na jumla kwa mikono. Sehemu za jumla ndogo, kodi, na muuzaji kwa kawaida huaminika bila ukaguzi.

Risiti za Rejareja na Mboga

Risiti za rejareja huweka changamoto kwa OCR kwa wingi tu. Risiti ya kawaida ya mboga ina bidhaa 30-60 za mistari, kila moja ikiwa na maelezo, kiasi, na bei. Maelezo ya bidhaa za mistari mara nyingi hufupishwa (k.w. "ORG BNS CHKN" kwa "Organic Boneless Chicken") na inaweza kujumuisha nambari za ndani za SKU ambazo zinaonekana kama maandishi yaliyoharibika kwa injini ya OCR.

Usahihi wa sehemu muhimu (jumla, tarehe, muuzaji) ni wa juu kwa 96-99%. Usahihi wa bidhaa za mistari ni wa chini kwa 85-92% kwa sababu ya fupisho na kutofautiana kwa umbizo. Kwa madhumuni ya uainishaji wa gharama, jumla na muuzaji kwa kawaida huwa wa kutosha - mara chache huhitaji kila bidhaa ya mstari kuandikwa kwa usahihi.

Risiti za Kituo cha Gesi

Risiti za kituo cha gesi ni fupi lakini mara nyingi huharibika. Hutolewa kwenye pampu za nje zilizo wazi kwa hali ya hewa, hushughulikiwa kwa mikono yenye glavu au yenye grisi, na mara nyingi hupigwa mara moja. Karatasi ya joto inaweza kuwa ya ubora wa chini kuliko ile inayotumiwa ndani. Usahihi wa sehemu kwa kiasi na tarehe kwa kawaida ni 90-96% kwa risiti mpya lakini hupungua haraka kuliko aina zingine za risiti kwa sababu ya mfiduo wa mazingira.

Risiti za Mtandaoni na Barua pepe

Risiti za kidijitali - uthibitisho wa barua pepe, upakuaji wa PDF kutoka kwa ununuzi mtandaoni, risiti za kielektroniki kutoka kwa mifumo ya POS ya kidijitali - ni kategoria rahisi zaidi kwa OCR. Zinazo umbizo thabiti, utofauti wa juu, hakuna uharibifu wa karatasi, na nafasi za sehemu zinazotabirika. Usahihi wa sehemu kwa kawaida huzidi 98% kwa sehemu zote, na usahihi wa hati hufikia 92-97%.

Ikiwa una chaguo la kupokea risiti za kidijitali, chagua kila wakati. Zinashughulikia shida ya karatasi ya joto kabisa na hutoa usahihi wa juu zaidi wa uchimbaji.

Ulinganisho Kati ya Aina za Risiti

Aina ya Risiti Usahihi wa Jumla Usahihi wa Tarehe Usahihi wa Muuzaji Usahihi wa Bidhaa za Mistari Wastani wa Jumla wa Sehemu
Mtandaoni/barua pepe (PDF) 99% 99% 98% 96% 98%
Rejareja mpya 98% 98% 96% 90% 95%
Mgahawa mpya 97% 97% 95% 92% 93%
Kituo cha gesi 95% 94% 92% 88% 91%
Joto la zamani (miezi 6+) 88% 87% 82% 72% 82%
Lililofifia/kuharibika 72% 70% 65% 50% 64%

Jinsi PDFSub Inavyoshughulikia Kuchanganua Risiti

Kichanganuzi cha Risiti cha PDFSub hutumia uchimbaji unaowezeshwa na AI kuchakata risiti katika umbizo lolote - mihogo ya karatasi ya joto, picha za simu, upakuaji wa PDF, na viambatisho vya risiti za barua pepe.

Inachochomoa

Kichanganuzi cha risiti hutambua na kuchomoa data iliyoandaliwa kutoka kwa kila risiti:

  • Jina na anwani ya muuzaji - ikijumuisha nambari ya duka na eneo inapopatikana
  • Tarehe na saa ya muamala - na utambuzi wa kiotomatiki wa umbizo la tarehe (MM/DD, DD/MM, YYYY-MM-DD)
  • Bidhaa za mistari - maelezo, kiasi, bei ya kitengo, na jumla ya mstari kwa kila bidhaa
  • Jumla ndogo, kodi, na jumla - imegawanywa katika sehemu tofauti kwa usahihi wa uhasibu
  • Njia ya malipo - pesa taslimu, kadi ya mkopo (nambari nne za mwisho), deni, malipo ya simu
  • Sarafu - hugunduliwa kiotomatiki kutoka kwa alama na umbizo

Jinsi Inavyoshughulikia Miundo Tofauti

PDFSub haitumii violezo. Injini ya AI huchanganua kila risiti kivyake, ikielewa muundo wa hati kupitia muktadha badala ya ramani za kuratibu. Hii inamaanisha kuwa inafanya kazi na mpangilio wowote wa risiti kutoka kwa muuzaji yeyote, katika nchi yoyote, bila kuhitaji usanidi wa awali. Iwe unapakia risiti ya duka la kahawa kutoka Brooklyn, risiti ya duka la dawa kutoka Munich, au risiti ya teksi kutoka Tokyo, mchakato wa uchimbaji ni sawa.

Usindikaji na Faragha

Kwa risiti za PDF za kidijitali, uchimbaji wa awali wa maandishi hufanyika kwenye kivinjari chako - hakuna upakuaji unaohitajika. Kwa picha zilizochanganuliwa au risiti zinazohitaji usindikaji wa AI, faili hutumwa kwa injini ya uchimbaji, inasindika, na nakala halisi haihifadhiwi baada ya uchimbaji kukamilika.

Unaweza kujaribu kichanganuzi cha risiti na jaribio la bila malipo la siku 7 - Pakia risiti chache na uangalie matokeo ya uchimbaji dhidi ya nakala halisi ili kutathmini usahihi kwa aina zako maalum za risiti. Ghairi wakati wowote.


Vidokezo vya Kuchanganua Risiti Bora

Unaweza kuboresha kwa kiasi kikubwa usahihi wa uchimbaji kwa kufuata mazoea machache rahisi wakati wa kunasa risiti.

Mbinu ya Kunasa

  1. Tumia mwanga wa asili, uliotawanyika. Kuchanganua karibu na dirisha wakati wa mchana hutoa matokeo bora kuliko taa bandia za juu. Lengo ni mwangaza sare bila vivuli vikali.

  2. Weka risiti kwenye uso wa gorofa, wa giza. Dawati la giza au kaunta huunda utofauti ambao husaidia ugunduzi wa kingo na utambuzi wa maandishi. Epuka kuchanganua risiti kwenye nyuso nyeupe - kingo huwa hazionekani.

  3. Shikilia kamera yako moja kwa moja juu. Weka kamera sambamba na risiti ili kuepuka upotoshaji wa mtazamo. Hata pembe kidogo inaweza kupinda herufi vya kutosha kupunguza usahihi.

  4. Lemaza flash. Karatasi ya joto huakisi. Flash ya kamera huunda maeneo ya mng'ao ambayo huonekana kama maeneo meupe tupu kwa injini ya OCR, mara nyingi juu ya maandishi muhimu zaidi.

  5. Jaza fremu. Risiti inapaswa kuchukua takriban 80% ya picha. Mandharinyuma nyingi huchanganya azimio. Mazao yaliyopunguzwa sana yana hatari ya kukata maandishi ya kingo.

  6. Gusa ili kulenga maandishi. Auto-focus mara nyingi hufunga kwenye uso wa karatasi badala ya maandishi yaliyochapishwa. Gusa eneo la maandishi ili kuhakikisha utoaji wa herufi safi.

  7. Pindua mikunjo na makunyanzi. Bonyeza risiti kwa uthabiti kabla ya kuchanganua. Mikunjo huunda vivuli ambavyo injini ya OCR inaweza kutafsiri kama herufi au vipindi vya mstari. Ikiwa risiti imekunjwa sana, jaribu kuibonyeza chini ya kitabu kizito kwa dakika chache kwanza.

Wakati

  1. Changanua ndani ya saa 48. Risiti za joto huanza kuharibika mara moja. Kadiri unavyonasa haraka, ndivyo usahihi utakavyokuwa juu. Fanya kuchanganua risiti kuwa tabia ya kila siku au ya mwisho wa siku badala ya mchakato wa kundi la kila mwezi.

  2. Usiisubiri siku ya kundi. Mazoezi ya kawaida ya kuhifadhi risiti kwa mwezi na kisha kuzichanganua zote mara moja huhakikisha usahihi wa chini. Baadhi ya risiti hizo zitakuwa zimetumia wiki nne kwenye mkoba, mfuko, au gari - zikififia wakati wote.

Usimamizi wa Faili

  1. Hifadhi picha halisi. Hata baada ya uchimbaji, hifadhi mihogo au picha halisi. Ikiwa utahitaji kuchomoa tena baadaye na zana iliyoboreshwa, picha halisi ndiyo chanzo chako cha ukweli.

  2. Tumia umbizo la PDF inapowezekana. Ikiwa programu yako ya kuchanganua au simu yako inatoa pato la PDF, ipendelee kuliko JPEG. PDF huhifadhi ubora wa juu zaidi na hushughulikia risiti za kurasa nyingi (kama vile risiti ndefu za mboga ambazo zilichanganuliwa kwa sehemu mbili).


Lini Kukagua kwa Mikono

Uchimbaji wa AI ni mzuri wa kutosha kuaminiwa bila kufikiria kwa risiti za dau la chini - kahawa ya $4.50, tiketi ya maegesho ya $12. Lakini hali fulani zinahitaji ukaguzi wa mikono.

Daima Angalia Hizi

  • Risiti za zaidi ya $500. Athari ya kifedha ya kosa la uchimbaji kwenye risiti ya thamani kubwa inahalalisha dakika 30 za ukaguzi wa mikono.
  • Risiti muhimu kwa kodi. Risiti yoyote unayopanga kutumia kama punguzo la kodi inapaswa kukaguliwa. IRS inahitaji hati kwa kila gharama ya zaidi ya $75, na kiasi kisicho sahihi kwenye punguzo kinaweza kusababisha maswali ya ukaguzi.
  • Risiti zilizo na vipengele vilivyoandikwa kwa mkono. Kiasi cha kidokezo, marekebisho ya bei ya mikono, na madokezo yaliyoandikwa kwa mkono bado ndio sehemu dhaifu zaidi kwa uchimbaji wa AI. Ikiwa risiti inajumuisha maandishi, angalia sehemu hizo.
  • Risiti zilizofifia au kuharibika. Ikiwa unaweza kusoma risiti kwa macho yako mwenyewe, usiamini uchimbaji wa AI bila ukaguzi. Risiti zilizo na uharibifu mkubwa zinapaswa kuchukuliwa kama takriban badala ya mamlaka.
  • Risiti za sarafu za kigeni. Ubadilishaji wa sarafu na miundo isiyo ya kawaida ya nambari (vipindi dhidi ya koma kama vizitenganishi vya desimali) vinaweza kusababisha makosa ya uchimbaji. Kagua kiasi na sarafu kwenye risiti za kimataifa.

Angalia kwa Uteuzi Hizi

  • Risiti za mboga zilizo na bidhaa 20+. Angalia kwa uteuzi bidhaa 3-5 za mistari na thibitisha jumla inalingana na kiasi. Ikiwa jumla ni sahihi, makosa ya kibinafsi ya bidhaa za mistari hayana uwezekano wa kuathiri ripoti yako ya gharama.
  • Risiti kutoka kwa wauzaji wasiojulikana. Risiti ya kwanza kutoka kwa muuzaji mpya inaweza kutoa usahihi wa chini kwa sababu AI haijaona mpangilio huo maalum hapo awali. Baada ya kuthibitisha ya kwanza, risiti zinazofuata kutoka kwa muuzaji sawa kwa kawaida huaminika zaidi.
  • Risiti zilizosindika kwa kundi. Ikiwa unasindika risiti 50+ mara moja, angalia kwa uteuzi 10-15% kati yao. Ikiwa usahihi ni wa juu kila mara, unaweza kuamini zingine.

Amina bila Kuangalia

  • Risiti za kidijitali/barua pepe zilizo na umbizo safi na miundo sanifu.
  • Risiti mpya kutoka kwa wauzaji wakuu ambapo jumla ni nambari kamili au inalingana na taarifa yako ya benki.
  • Risiti za chini ya $25 ambapo gharama ya ukaguzi huzidi gharama ya kosa linalowezekana.

Kesi ya Biashara ya Kuweka Risiti Kidijitali Mara Moja

Takwimu za usahihi zinaelekea kwenye hitimisho moja la kushangaza: wakati mzuri wa kuchanganua risiti ni mara moja. Kila siku ya kuchelewa hugharimu usahihi, na usahihi uliopotea kwa kufifia kwa joto hauwezi kurejeshwa.

Fikiria uchumi:

  • Thamani ya wastani ya risiti inayoweza kupunguzwa: $35-75
  • Uwezekano wa kufifia zaidi ya usomaji wa OCR ndani ya mwaka 1: 30-50% (uhifadhi wa mkoba)
  • Uwezekano wa kupotea kabla ya kuchanganua: 15-25% kwa mwezi
  • Akiba ya wastani ya kodi kwa kila risiti (kwa kiwango cha juu cha 25%): $8.75-18.75
  • Wakati wa kuchanganua risiti moja na simu: sekunde 5-10

Hisabati ni rahisi. Skana ya sekunde 10 inayohifadhi punguzo la kodi la $12 ina thamani ya $4,320 kwa saa katika tija sawa. Hata kama utachanganua tu risiti za thamani kubwa, faida ya muda uliowekeza ni kubwa.

Ongeza mfiduo wa BPA kwenye equation - kushughulikia risiti za joto huhamisha kiasi kinachoweza kupimwa cha misombo ya bisphenol kupitia mguso wa ngozi - na kesi ya digitization ya haraka inakuwa ya kifedha na ya kiafya. Umoja wa Ulaya tayari imeanza kuondoa BPA katika karatasi ya joto, na majimbo kadhaa ya Marekani yamepitisha au kupendekeza vikwazo sawa.


Nini cha Kutarajia Baadaye

Usahihi wa OCR wa risiti umeimarika takriban pointi 2-3 za asilimia kwa mwaka katika miaka mitano iliyopita, ikichochewa zaidi na maendeleo katika modeli za maono-lugha badala ya uhandisi wa jadi wa OCR. Kizazi cha sasa cha zana za uchimbaji wa AI kinawakilisha kizingiti cha maana cha usahihi: kwa mara ya kwanza, usahihi wa sehemu muhimu kwenye risiti safi huendelea kuzidi 97%, na kufanya usindikaji kamili wa risiti kiotomatiki kuwa unawezekana kwa mitiririko mingi ya kazi ya biashara.

Pengo la usahihi lililobaki - vidokezo vilivyoandikwa kwa mkono, karatasi ya joto iliyofifia sana, miundo ya POS ya kigeni - itaendelea kupungua. Lakini shida ya karatasi ya joto ni ya kimwili, sio ya hesabu. Hakuna kiasi cha maendeleo ya AI kitakachorejesha maandishi ambayo yametoweka kwa kemikali kutoka kwa uso wa karatasi.

Suluhisho la vitendo linabaki sawa: nasaa mapema, nasaa kwa mwangaza mzuri, na acha AI ishughulikie uchimbaji. Kwa risiti ambazo ni muhimu zaidi, thibitisha jumla. Kwa kila kitu kingine, amini nambari na endelea.

Kichanganuzi cha risiti cha PDFSub huchakata risiti katika umbizo lolote, kutoka kwa muuzaji yeyote, kwa lugha yoyote. Anza jaribio la bila malipo la siku 7 ili kukijaribu dhidi ya risiti zako mwenyewe - nambari za usahihi katika makala haya ni viwango vya tasnia, na nambari pekee zinazojali ni zile unazoona kwenye hati zako mwenyewe.

Rudi kwenye Blogu

Maswali? Wasiliana Nasi

PDFSub

Zana zote za PDF na hati unazohitaji katika sehemu moja. Haraka, salama, na ya faragha.

Inatii GDPRInatii CCPAInafaa kwa SOC 2
Inaendeshwa na PDFSub Engine

Zana za PDF

  • Unga PDF
  • Gawanya PDF
  • Panga Upya Kurasa
  • Kurasa kwa Kila Karatasi
  • Kivinjari cha PDF
  • Ondoa Kurasa
  • Ondoa Picha
  • Badilisha Picha
  • Zungusha PDF
  • Futa Kurasa
  • Ongeza Watermark
  • Hariri PDF
  • Weka Stempu PDF
  • Kijaza Fomu za PDF
  • Punguza Kurasa
  • Badilisha Ukubwa wa Ukurasa
  • Ongeza Nambari za Kurasa
  • Vichwa na Fuedi
  • Kandamiza PDF
  • Fanya Itawezekana Kutafutwa
  • Clean Scanned PDF
  • Photo to Document
  • Auto-Crop PDF
  • Rekebisha PDF
  • Hariri Metadata
  • Ondoa Metadata
  • PDF hadi Word
  • Word hadi PDF
  • PDF to Excel
  • Excel hadi PDF
  • PDF hadi PowerPoint
  • PowerPoint hadi PDF
  • HTML hadi PDF
  • HTML to Text
  • HTML to Markdown
  • PDF hadi HTML
  • EPUB hadi PDF
  • PDF hadi EPUB
  • Maandishi hadi PDF
  • RTF hadi PDF
  • PDF hadi RTF
  • PDF hadi Maandishi
  • ODT hadi PDF
  • PDF hadi ODT
  • ODS hadi PDF
  • PDF hadi ODS
  • ODP hadi PDF
  • PDF hadi ODP
  • Badilisha PDF/A
  • Tengeneza PDF
  • Badilisha kwa Kundi
  • PDF hadi Picha
  • Picha hadi PDF
  • PDF hadi PNG
  • PNG hadi PDF
  • HTML to PNG
  • HTML to JPEG
  • HTML to WEBP
  • SVG hadi PDF
  • PDF hadi SVG
  • TIFF hadi PDF
  • WEBP hadi PDF
  • HEIC hadi Picha
  • WEBP hadi JPG
  • WEBP hadi PNG
  • Image Converter
  • ODG hadi PDF
  • Linda kwa Nenosiri
  • Fungua PDF
  • Ficha Maelezo PDF
  • Saini PDF
  • Share Document
  • Linganisha PDF
  • Ondoa Meza
  • Kibadilisha Taarifa za Benki
  • Kiondoa Ankara
  • Kichanganuzi cha Stakabadhi
  • Ripoti ya Kifedha
  • OCR - Ondoa Maandishi
  • Ubadilishaji wa Maandishi Yanayoandikwa kwa Mkono
  • Fupisha PDF
  • Tafsiri PDF
  • Zungumza na PDF
  • Ondoa Data
  • Studio cha Ubunifu

Bidhaa

  • Zana Zote
  • Vipengele
  • Taarifa za Benki
  • API
  • Bei
  • Maswali Yanayoulizwa Mara Kwa Upatu
  • Blogu

Usaidizi

  • Kuhusu
  • Kituo cha Msaada
  • Wasiliana Nasi
  • Maswali Yanayoulizwa Mara Kwa Upatu

Kisheria

  • Sera ya Faragha
  • Sheria na Masharti
  • Sera ya Vidakuzi

© 2026 PDFSub. Haki zote zimehifadhiwa.

Imetengenezwa Marekani kwa kwa watu kila mahali