Ulichanganua rundo la hati kuwa PDF. Zinaonekana vizuri kwenye skrini - wazi, zinazosomeka, za kitaalamu. Lakini jaribu kutafuta neno, kunakili aya, au kuchagua nambari ya simu, na hakuna kinachotokea. Kielekezi chako kinapitia ukurasa kama vile unachagua picha. Kwa sababu ndicho hasa unachofanya.

PDF zilizochanganuliwa ni picha. Kila ukurasa ni picha moja - gridi ya pikseli bapa bila dhana ya herufi, maneno, au sentensi. Kompyuta yako inaona maandishi kidogo katika PDF iliyochanganuliwa kama inavyoona picha ya machweo: hakuna.

OCR (Optical Character Recognition) inatatua hili. Inachanganua picha ya kila ukurasa, inatambua herufi, na inaongeza safu ya maandishi isiyoonekana juu ya uchanganuzi wa awali. Muonekano wa kuona unabaki sawa, lakini sasa unaweza kutafuta, kunakili, kuchagua maandishi, na kuruhusu wasomaji wa skrini wayapate.

Mwongozo huu unashughulikia kile OCR ni, jinsi inavyofanya kazi, njia tatu za kutumia OCR kwenye PDF zako zilizochanganuliwa, na jinsi ya kupata matokeo bora zaidi.

How to OCR a scanned PDF - converting image-only pages into searchable, selectable text

Jinsi ya Kujua Kama PDF Yako Inahitaji OCR

Kabla ya kuwekeza muda katika OCR, angalia ikiwa PDF yako inaihitaji kweli. PDF nyingi huundwa "kwa njia ya kidijitali" - zilizoundwa kutoka kwa hati za Word, lahajedwali za Excel, au kurasa za wavuti - na tayari zina safu halisi ya maandishi.

Jaribio la Sekunde 5

Fungua PDF yako katika kichunguzi chochote (Adobe Reader, Preview, Chrome, Edge)
Bonyeza Ctrl+F (Windows/Linux) au Cmd+F (Mac)
Andika neno unaloweza kuona kwenye ukurasa
Ikiwa kichunguzi kinasisitiza neno: PDF yako tayari ina maandishi yanayoweza kutafutwa. Hakuna OCR inayohitajika.
Ikiwa hakuna kinachopatikana: PDF yako ni picha tu. Inahitaji OCR.

Jaribio la Kuchagua

Jaribu kubofya na kuburuta ili kuchagua maandishi kwenye ukurasa:

Ikiwa unaweza kuchagua maneno ya kibinafsi na yanaangaziwa kwa rangi ya bluu: PDF ina safu ya maandishi.
Ikiwa ukurasa mzima unachaguliwa kama kizuizi kimoja (kama kuchagua picha): PDF ni uchanganuzi bila safu ya maandishi.
Ikiwa unaweza kuchagua maandishi mengine lakini sio mengine: PDF ina OCR ya sehemu au yaliyomo mchanganyiko - kurasa zingine ni za kidijitali, zingine zimechanganuliwa.

Aina za Kawaida za PDF Zinazohitaji OCR

Aina ya Hati	Kwa kawaida Inahitaji OCR?	Kwa Nini
Hati za karatasi zilizochanganuliwa	Ndiyo	Picha safi, hakuna data ya maandishi
Hati zilizotumwa kwa faksi zilizohifadhiwa kama PDF	Ndiyo	Matokeo ya faksi ni picha ya raster
Picha za hati (kamera ya simu)	Ndiyo	Picha ya kamera = picha
PDF kutoka kwa mashine ya kunakili "changanua kwa barua pepe"	Ndiyo	Mashine nyingi za kunakili hutoa PDF za picha
PDF zilizosafirishwa kutoka Word/Excel	Hapana	Zimeundwa kwa njia ya kidijitali, safu ya maandishi imejumuishwa
PDF kutoka kwa vivinjari vya wavuti (chapisha hadi PDF)	Hapana	Maandishi huhifadhiwa
Fomu za serikali zilizopakuliwa mtandaoni	Kwa kawaida hapana	Nyingi huundwa kwa njia ya kidijitali
Stakabadhi zilizotumwa kwa barua pepe kama viambatisho vya PDF	Kwa kawaida hapana	Hutengenezwa na mifumo ya POS yenye maandishi

OCR ni Nini? Maelezo kwa Lugha Rahisi

OCR inasimama kwa Optical Character Recognition (Utambuzi wa Tabia kwa Macho). Ni teknolojia inayosoma maandishi kutoka kwa picha - ikichanganua ruwaza za pikseli ili kutambua herufi, nambari, na alama, sawa na macho yako yanavyosoma maneno kwenye ukurasa.

Unapochanganua hati, skana huunda picha. Picha hiyo ina pikseli - giza pale ambapo wino ulikuwa, nyepesi pale ambapo karatasi ilikuwa - lakini hakuna data halisi ya maandishi. Skana hajui kuwa mpangilio wa pikseli unasema "Invoice." Inarekodi tu picha.

OCR huchukua picha hiyo, inachanganua maumbo, inalinganisha na ruwaza za herufi zinazojulikana, na hutoa maandishi ambayo maumbo hayo yanawakilisha. Matokeo yake ni PDF inayoonekana sawa na uchanganuzi wa awali lakini ina safu ya maandishi isiyoonekana. Unapobonyeza Ctrl+F na kutafuta "Desemba," kichunguzi cha PDF huangalia safu ya maandishi, hupata mechi, na huangazia eneo kwenye picha ambapo neno hilo linaonekana.

Jinsi OCR Imesonga Mbele

OCR ilianza miaka ya 1950, wakati mifumo ya awali iliweza tu kushughulikia fonti maalum katika mazingira yaliyodhibitiwa. Teknolojia ilibadilika kupitia kulinganisha ruwaza (miaka ya 1970-80), uchimbaji wa vipengele (miaka ya 1990-2000), na ujifunzaji wa mashine (miaka ya 2010). OCR ya leo inachanganya mitandao ya kina ya neural kwa utambuzi wa herufi na mifumo ya lugha inayotumia muktadha kutatua utata - ikiwa mfumo hauna uhakika ikiwa herufi ni "l" au "1", maneno yanayozunguka husaidia kuamua.

Injini za kisasa za OCR hufikia usahihi wa zaidi ya 99% wa herufi kwenye hati zilizochapishwa zilizo wazi na zilizochanganuliwa vizuri.

Jinsi OCR Inavyofanya Kazi: Mchakato wa Kiufundi

OCR sio algorithm moja. Ni mfululizo wa hatua, kila moja ikijenga juu ya ile iliyotangulia.

Hatua ya 1: Uandaaji wa Picha Kabla

Kabla ya utambuzi wowote wa herufi kutokea, injini ya OCR husafisha picha. Hii inajumuisha binarization (kubadilisha kuwa nyeusi na nyeupe kwa utofautishaji wa juu zaidi), deskewing (kusahihisha hata mwelekeo mdogo wa ukurasa - mwelekeo wa digrii 1-2 unaweza kupunguza usahihi kwa kiasi kikubwa), kuondoa kelele (kuondoa kasoro za skana na madoa), na kuondoa mipaka (kuondoa kingo nyeusi na vivuli vya kufunga).

Hatua ya 2: Uchanganuzi wa Mpangilio

Injini hutambua muundo wa ukurasa - vitalu vya maandishi, nguzo, picha, vichwa, viambatanisho, meza, na mpangilio wa kusoma. Bila hatua hii, hati yenye nguzo mbili inaweza kutoa matokeo yaliyochanganywa ambayo yanasoma kupitia nguzo zote kwa wakati mmoja.

Hatua ya 3: Ugawanyaji wa Herufi

Ndani ya kila kizuizi cha maandishi, herufi za kibinafsi hutengwa. Mistari hutenganishwa na nafasi ya wima, maneno na mapengo ya mlalo, na herufi ndani ya maneno na mipaka yao. Hii ni ngumu kuliko inavyoonekana - herufi katika fonti nyingi huungana au kugusa, na katika maandishi kama Kiarabu na Devanagari, herufi huungana kwa njia ngumu.

Hatua ya 4: Utambuzi wa Herufi

Kila picha ya herufi iliyogawanywa huainishwa kwa kutumia mitandao ya kina ya neural iliyofunzwa kwenye mamilioni ya picha za herufi zenye lebo. Mtandao hutoa orodha ya wagombea yenye kiwango cha ujasiri, sio jibu moja. "A" safi inaweza kupata ujasiri wa 99.8%. Herufi iliyoharibika inaweza kutoa usambazaji ulio bapa zaidi.

Hatua ya 5: Uundaji wa Lugha

Utambuzi wa herufi mbichi hujaa makosa. Muktadha hutatua utata. Je, "lnvoice" ni neno? Hapana - "l" ilikuwa "I", na kuifanya "Invoice." Mifumo ya lugha ya takwimu hutabiri mlolongo wa herufi unaowezekana, na uthibitishaji wa umbizo hutumia sheria kwa ruwaza kama tarehe na nambari.

Hatua ya 6: Kizazi cha Matokeo

Maandishi yaliyotambuliwa hurudishwa kwenye uratibu wa picha ya awali na huandikwa kwenye PDF kama safu ya maandishi isiyoonekana. Kila neno linaendana kikamilifu na mwenzake wa kuona, likiwezesha utendaji wa utafutaji na kuangazia.

Njia ya 1: Zana ya PDFSub OCR (Inapendekezwa)

How OCR converts a scanned PDF to searchable text - Upload Scan, OCR Analysis, Extract Text, Searchable PDF

Zana ya OCR ya PDFSub huchakata PDF zilizochanganuliwa na kuongeza safu ya maandishi inayoweza kutafutwa huku ikihifadhi mwonekano halisi wa kila ukurasa.

Maelekezo ya Hatua kwa Hatua

Nenda kwenye zana ya OCR - Nenda kwa pdfsub.com/tools/ocr
Pakia PDF yako iliyochanganuliwa - Buruta na udondoshe faili yako au bofya ili kuvinjari. Hakuna haja ya kugawanya hati kubwa - PDF za kurasa nyingi hushughulikiwa kiotomatiki.
OCR huchakata hati yako - Zana huchanganua kila ukurasa, hutambua maandishi, na huunda safu ya maandishi isiyoonekana. Muda wa kuchakata unategemea idadi ya kurasa na ugumu, lakini hati nyingi hukamilika kwa sekunde.
Pakua PDF yako inayoweza kutafutwa - Faili ya matokeo inaonekana sawa na uchanganuzi wako wa awali lakini sasa inasaidia utafutaji wa maandishi, uteuzi wa maandishi, na kunakili-kama-ulivyoweka.

Kwa Nini PDFSub

Usaidizi wa lugha 130+. OCR hufanya kazi na hati kwa Kiingereza, Kihispania, Kifaransa, Kijerumani, Kichina, Kijapani, Kikorea, Kiarabu, Kihindi, Kirusi, Kireno, na zaidi ya lugha 120 za ziada. Hati za lugha nyingi hushughulikiwa kiotomatiki - huusihi kuhitaji kutaja lugha mapema.

Muonekano halisi huhifadhiwa. Mchakato wa OCR huongeza data ya maandishi bila kubadilisha yaliyomo kwenye kuona. Kurasa zako zilizochanganuliwa zinaonekana sawa. Fonti, mipangilio, mihuri, saini, na maelezo yaliyoandikwa kwa mkono vyote hubaki bila kubadilika.

Hakuna programu ya kusakinisha. Kila kitu huendeshwa katika kivinjari chako au kwenye seva salama. Hakuna cha kupakua, hakuna mahitaji ya mfumo wa kuangalia, na hakuna masuala ya utangamano.

Ubunifu unaozingatia faragha. Hati zilizopakiwa huchakatwa na kisha kufutwa. PDFSub haihifadhi faili zako wala kuitumia kwa mafunzo.

Jijaribu bure. PDFSub inatoa jaribio la bure la siku 7 ili uweze kujaribu OCR kwenye hati zako mwenyewe kabla ya kujitolea.

Njia ya 2: Adobe Acrobat Pro

Adobe Acrobat Pro inajumuisha kipengele cha ndani cha OCR kiitwacho "Recognize Text" ndani ya zana zake za Scan & OCR.

Maelekezo ya Hatua kwa Hatua

Fungua PDF yako iliyochanganuliwa katika Adobe Acrobat Pro
Nenda kwa Tools na uchague Scan & OCR
Bofya Recognize Text na uchague In This File au In Multiple Files
Chini ya Mipangilio, chagua Searchable Image (inaongeza safu ya maandishi isiyoonekana - inapendekezwa)
Bofya Recognize Text ili kuanza kuchakata
Hifadhi faili

Nguvu na Vizuizi

Adobe hutoa usahihi wa juu kwenye uchanganuzi safi wa Kiingereza, inasaidia usindikaji wa kundi, na hukuruhusu kurekebisha makosa ya OCR moja kwa moja. Hata hivyo, Acrobat Pro inagharimu $19.99/mwezi kwa mpango wa kila mwaka ($239.88/mwaka), inahitaji usakinishaji wa kompyuta (hakuna OCR inayotegemea kivinjari), inasaidia takriban lugha 20 tu, na inaweza kuwa polepole kwenye hati zenye kurasa zaidi ya 50.

Njia ya 3: Google Drive (Bure, lakini Hupoteza Ubora)

Google Drive inajumuisha kipengele cha msingi cha OCR kinachotoa maandishi kutoka kwa PDF zilizochanganuliwa - lakini kwa gharama kubwa.

Maelekezo ya Hatua kwa Hatua

Pakia PDF yako iliyochanganuliwa kwenye Google Drive
Bofya kulia faili na uchague Open with kisha Google Docs
Google huchakata PDF na kuunda Hati ya Google na maandishi yaliyotolewa
Maandishi sasa yanaweza kutafutwa, kuchaguliwa, na kuhaririwa

Nguvu na Vizuizi

OCR ya Google Drive ni bure kabisa, hutoa usahihi mzuri kwenye hati zilizoandikwa kwa ufanisi, na hutambua lugha kiotomatiki. Hata hivyo, kuna gharama muhimu: inaharibu umbizo. Google haiweki safu ya maandishi kwenye PDF yako - inatoa maandishi kwenye Hati ya Google. Meza zinakuwa maandishi wazi, nguzo zinakwisha, na mpangilio wa awali unapotea. Unamaliza na Hati ya Google, sio PDF inayoweza kutafutwa.

Inafanya kazi vyema zaidi kwenye hati zilizo chini ya kurasa 10. Hati ndefu zinaweza kukatwa.

Bora kwa: Kutoa yaliyomo kwenye maandishi wakati huhitaji mpangilio wa awali. Ikiwa unahitaji PDF inayoweza kutafutwa inayohifadhi mwonekano, tumia Njia ya 1 au Njia ya 2.

Usahihi wa OCR: Nini cha Kutarajia kwa Aina ya Hati

OCR sio uchawi. Usahihi hutofautiana sana kulingana na ubora wa hati, aina ya yaliyomo, na hali ya uchanganuzi. Hapa kuna kile ambacho vipimo vya ulimwengu halisi vinaonyesha.

Hati Zilizochapishwa (Fonti za Kisasa): 95-99%

Hati za kisasa zilizochapishwa - ankara, mikataba, ripoti zilizochapishwa kwenye printa za leza - ni hali bora zaidi. Fonti za kawaida zinawakilishwa vizuri katika data ya mafunzo ya OCR, na chapa safi kwenye karatasi nyeupe hutoa picha zenye utofautishaji wa juu. Kwa usahihi wa 99% kwenye ukurasa wenye maneno 250 (~1,500 herufi), ungetarajia makosa kama 15 ya herufi - nyingi hazina madhara, kama vile nukta iliyokosewa kama koma au "l" ndogo iliyochanganywa na "1".

Hati za Kale Zilizochapishwa kwa Mashine: 85-95%

Mashine za kuandika za mitambo huleta changamoto: mpangilio usio sawa wa herufi, msongamano tofauti wa wino kutoka kwa uchakavu wa riboni, na upana sawa wa herufi unaosababisha utata wa ugawanyaji. Hata hivyo, maandishi yaliyochapishwa kwa mashine huundwa kibinafsi na kuwekwa kwa usawa, kwa hivyo injini nyingi za OCR huzishughulikia vizuri vya kutosha kwa madhumuni ya utafutaji.

Maandishi Yaliyoandikwa kwa Mkono: 60-80%

Maandishi yaliyoandikwa kwa mkono yanabaki kuwa changamoto kubwa zaidi kwa OCR. Tofauti ni kubwa sana - sio tu kati ya watu bali ndani ya uandishi wa mtu mmoja kwenye ukurasa mmoja. Uchapishaji mzuri wa vizuizi unaweza kufikia 80-85%. Kuandika kwa mkono kwa penseli kwenye karatasi yenye mistari kunaweza kushuka chini ya 60%. Daima angalia data muhimu kutoka kwa hati zilizoandikwa kwa mkono.

Yaliyomo Mchanganyiko (Maandishi + Meza): 90-97%

Hati zinazochanganya maandishi na data ya jedwali huongeza changamoto ya uchanganuzi wa mpangilio. Utambuzi wa herufi ndani ya seli kwa kawaida ni sahihi, lakini makosa ya kimuundo - mipaka ya seli iliyotambuliwa vibaya, nguzo zilizopewa vibaya, seli za mistari mingi zilizogawanywa katika safu - huharibu uhusiano wa data na huathiri zaidi kuliko makosa ya herufi binafsi.

Muhtasari wa Jedwali la Usahihi

Aina ya Hati	Usahihi wa Herufi	Inaweza Kutafutwa?	Utoaji wa Data Unaaminika?
Chapisho la kisasa (leza)	95-99%	Bora	Ndiyo
Chapisho la kisasa (inkjet)	93-98%	Bora	Kwa kawaida
Uchapishaji wa zamani kwa mashine	85-95%	Nzuri	Kwa uthibitisho
Uandishi safi wa mkono (block)	70-80%	Sehemu	Hapana - thibitisha kila kitu
Uandishi wa mkono wa cursive	60-70%	Duni	Hapana
Maandishi mchanganyiko + meza	90-97%	Nzuri	Kwa ukaguzi wa kimuundo
Karatasi iliyoharibika/iliyoharibika	70-90%	Inatofautiana	Kwa uthibitisho mzito

Mazoea Bora kwa Kuchanganua Kabla ya OCR

Sababu kubwa zaidi ya usahihi wa OCR sio programu ya OCR - ni ubora wa uchanganuzi. Injini nzuri ya OCR inayofanya kazi kwenye uchanganuzi duni itatoa matokeo mabaya zaidi kuliko injini ya wastani inayofanya kazi kwenye uchanganuzi mzuri.

Azimio: 300 DPI Kiwango cha Chini

DPI (dots per inch - nukta kwa inchi) huamua ni maelezo mangapi skana hunasa.

300 DPI: Kiwango cha kawaida kwa hati nyingi. Inatosha kwa utambuzi wa kuaminika wa fonti za kawaida kwa saizi za kawaida za maandishi (10-12pt).
600 DPI: Inapendekezwa kwa maandishi madogo (maandishi madogo, maelezo madogo) au unapohitaji usahihi wa juu zaidi.
150 DPI au chini: Haipendekezwi. Herufi ni ndogo sana kwa utambuzi wa kuaminika. Usahihi hupungua sana.
1200 DPI: Zaidi ya kuhitajika kwa OCR. Hakuna uboreshaji wa usahihi, na saizi za faili huwa kubwa sana.

Hali ya Rangi: Grayscale Kwa Kawaida Ni Bora

Grayscale: Bora kwa hati nyingi. Huhifadhi utofautishaji wa kutosha kwa binarization nzuri huku ikidumisha saizi za faili zinazoweza kudhibitiwa.
Nyeusi na nyeupe: Inaweza kufanya kazi kwa hati safi, zenye utofautishaji wa juu lakini inaweza kuharibu maelezo katika maeneo ya pembeni.
Rangi: Inahitajika tu ikiwa hati ina habari iliyo na rangi unayohitaji kuhifadhi. Kwa madhumuni ya OCR, rangi haitoi faida yoyote juu ya grayscale.

Mpangilio na Mwelekeo

Weka kurasa ziwe sawa. Hata digrii 2-3 za mwelekeo zinaweza kupunguza usahihi wa OCR kwa 5-10%. Tumia viongozi vya karatasi vya skana ili kuweka kurasa ziwe sawa.
Changanua kurasa za upande mmoja chini. Epuka kuruhusu kupenya kutoka upande wa nyuma kuunda maandishi ya kivuli ambayo huchanganya injini ya OCR.
Tumia skana tambarare kwa hati zilizo na vifungo. Skana za karatasi za karatasi zinaweza kuelekeza kurasa kutoka kwa vitabu au ripoti zilizo na vifungo. Kuchanganua kwa tambarare huweka ukurasa tambarare na kuwekwa sawa.

Matengenezo ya Skana na Maandalizi ya Hati

Safisha kioo kabla ya kuchanganua makundi - madoa huunda kasoro kwenye kila ukurasa
Angalia michirizi kwa kuchanganua ukurasa tupu - mistari ya wima inaonyesha rollers chafu
Ondoa stapler na klipu za karatasi ili kuzuia msongamano na mikwaruzo
Nyosha kurasa zilizokunjamana - mikunjo mirefu huunda vivuli ambavyo injini ya OCR inaweza kusoma vibaya
Rekebisha machozi na tepi upande wa nyuma - tepi mbele huunda miale

Baada ya OCR: Nini cha Kufanya Ifuatayo

Kukimbiza OCR ni hatua ya kwanza tu. Hivi ndivyo unavyoweza kupata manufaa zaidi kutoka kwa hati zako mpya zinazoweza kutafutwa.

Thibitisha Matokeo

Daima angalia matokeo ya OCR, hasa kwa hati muhimu:

Tafuta maneno muhimu unayojua yanaonekana kwenye hati. Ikiwa Ctrl+F yanayapata mara kwa mara, OCR inafanya kazi.
Nakili aya na ubandike kwenye kihariri cha maandishi. Soma kwa makosa dhahiri - maneno yaliyoharibika, herufi zilizokosekana, mabadilisho yasiyo na maana.
Angalia nambari kwa uangalifu. Kiasi cha fedha, tarehe, nambari za simu, na nambari za akaunti ni data yenye hatari kubwa. "6" iliyokosewa kama "8" katika kiasi cha muamala ni shida halisi. Injini za OCR wakati mwingine huchanganya tarakimu zinazofanana (0/O, 1/l, 5/S, 6/8).

Rekebisha Makosa na Panga

Ikiwa utapata makosa katika hati muhimu, Adobe Acrobat Pro hukuruhusu kuhariri safu ya maandishi moja kwa moja, au unaweza kuchanganua tena kurasa zenye shida kwa 600 DPI na kukimbiza tena OCR. Kwa sehemu zilizoandikwa kwa mkono, kuandika kwa mikono mara nyingi ni haraka kuliko kurekebisha OCR duni.

Mara tu zinapoweza kutafutwa, PDF zako huunganishwa katika michakato iliyopo. Utafutaji wa kompyuta (Windows Search, Spotlight kwenye Mac) huyaorodhesha kiotomatiki. Mifumo ya usimamizi wa hati (SharePoint, Google Drive, Dropbox) huwezesha utafutaji wa maandishi kamili katika maktaba yako. Majina ya faili mazuri pamoja na yaliyomo yanayoweza kutafutwa ni mchanganyiko bora.

Matumizi Halisi ya OCR

Kuweka Hifadhi za Karatasi Kidijitali

Biashara, kampuni za sheria, na mashirika ya serikali mara nyingi huwa na miongo kadhaa ya hati za karatasi. Kuchanganua tu kuwa PDF huunda faili za picha zinazoweza kutafutwa tu kwa jina la faili. Kuongeza OCR hubadilisha hifadhi tulivu kuwa hifadhidata inayoweza kuulizwa. Mchakato wa kawaida: changanua kwa 300 DPI grayscale, endesha OCR, weka kanuni za majina, na upakie kwenye mfumo wa usimamizi wa hati.

Kufanya Hati za Kisheria Zitegemee Kutafutwa

Wataalamu wa sheria hushughulikia idadi kubwa ya hati wakati wa ugunduzi na ukaguzi wa kina. Mawakili wa upande mwingine wanaweza kutoa maelfu ya kurasa za hati zilizochanganuliwa. Bila OCR, ukaguzi unamaanisha kusoma kila ukurasa kwa mikono. Kwa OCR, mawakili wanaweza kutafuta maneno muhimu, majina, tarehe, na kiasi katika seti nzima - na kufanya ukaguzi uwezekane ndani ya muda unaofaa.

Kufikia Uzingatiaji wa Upatikanaji

Chini ya Sheria ya Wamarekani Wenye Ulemavu (ADA) na Sehemu ya 508, hati za kidijitali kutoka kwa mashirika ya serikali na mashirika yanayofadhiliwa na shirikisho lazima zipatikane. Wasomaji wa skrini hawawezi kutafsiri PDF za picha tu - wanahitaji safu ya maandishi. OCR ni hatua ya kwanza kuelekea utii. Kazi ya ziada (muundo wa kichwa, maandishi mbadala, lebo za mpangilio wa kusoma) inaweza kufuata, lakini bila safu ya maandishi, upatikanaji hauwezekani.

Bima na Usindikaji wa Fedha

Kampuni za bima na benki hupokea mamilioni ya fomu za dai zilizochanganuliwa, rekodi za matibabu, hundi, na maombi ya mkopo. OCR huwezesha utoaji wa data kiotomatiki - ikitoa nambari za sera, kiasi cha dai, tarehe za huduma, na maelezo ya akaunti kutoka kwa hati zilizochanganuliwa hadi mifumo ya usindikaji.

Hifadhi za Taaluma na Utafiti

Vyuo vikuu, maktaba, na hifadhi zinafanya hati za kihistoria, magazeti, na hati za kale kuwa kidijitali. OCR hufanya karne za maarifa ziweze kutafutwa. Miradi kama Google Books na Internet Archive imefanya OCR kwa mabilioni ya kurasa, ikiwezesha utafutaji wa maandishi kamili katika makusanyo ambayo yangechukua maisha kusoma kwa mikono.

Maswali Yanayoulizwa Mara Kwa Mara

Je, ninaweza kutumia OCR kwa PDF nyingi kwa wakati mmoja (usindikaji wa kundi)?

Ndiyo. PDFSub inasaidia kuchakata hati za kurasa nyingi katika operesheni moja. Kwa kazi kubwa za kundi - mamia au maelfu ya faili - unaweza kuzichakata moja baada ya nyingine kupitia zana. Adobe Acrobat Pro pia inatoa OCR ya kundi kupitia kipengele chake cha Action Wizard, ambacho kinaweza kuchakata folda nzima za PDF kiotomatiki.

Je, OCR hubadilisha jinsi PDF yangu inavyoonekana?

Hapana. OCR sahihi huongeza safu ya maandishi isiyoonekana nyuma ya picha ya ukurasa inayoonekana. Muonekano wa kuona wa PDF yako iliyochanganuliwa haubadilika - kurasa sawa, mpangilio sawa, azimio sawa. Safu ya maandishi "inaonekana" tu kwa utendaji wa utafutaji, uteuzi wa maandishi, kunakili-kama-ulivyoweka, na wasomaji wa skrini.

Nini kitatokea nikikimbiza OCR kwenye PDF ambayo tayari ina maandishi yanayoweza kutafutwa?

Zana nyingi za OCR hutambua safu za maandishi zilizopo na ama huruka kurasa hizo au hukupa chaguo la kuzichakata tena. Kuendesha OCR kwenye PDF ambayo tayari inaweza kutafutwa kwa ujumla haina madhara lakini haihitajiki - haitaboresha safu ya maandishi iliyopo na inaweza kuongeza kidogo saizi ya faili kutokana na data ya ziada.

Je, saizi ya faili yangu itaongezeka baada ya OCR?

Kidogo. Tarajia ongezeko la 5-15% kwa hati iliyochanganuliwa kwa kawaida. Safu ya maandishi yenyewe ni ndogo (herufi na data ya nafasi), na ongezeko hilo ni dogo ikilinganishwa na data ya picha inayounda sehemu kubwa ya PDF iliyochanganuliwa.

Je, OCR inaweza kushughulikia PDF ambazo ni mchanganyiko wa kurasa zilizochanganuliwa na za kidijitali?

Ndiyo. Zana nzuri za OCR huchakata kila ukurasa kivyake. Kurasa ambazo tayari zina safu ya maandishi hutambuliwa na zinaweza kurukwa. Kurasa ambazo ni picha tu huchakatwa. Matokeo yake ni PDF inayoweza kutafutwa kikamilifu bila kujali jinsi ya awali ilivyokusanywa.

Ni lugha zipi ambazo OCR inasaidia?

Usaidizi wa lugha hutofautiana kulingana na zana. OCR ya PDFSub inasaidia lugha zaidi ya 130, ikiwa ni pamoja na maandishi ya Kilatini (Kiingereza, Kihispania, Kifaransa, Kijerumani), CJK (Kichina, Kijapani, Kikorea), Cyrillic (Kirusi, Kiukreni), maandishi ya Kiarabu (Kiarabu, Kiajemi, Kiurdu), Devanagari (Kihindi, Kimarathi), na mengine mengi.

Je, OCR inaweza kusoma maandishi yaliyoandikwa kwa mkono?

Sehemu. Uchapishaji mzuri wa vizuizi hufikia usahihi wa 70-80%. Cursive ni ngumu zaidi (60-70% au chini). Kwa data muhimu kutoka kwa hati zilizoandikwa kwa mkono, daima thibitisha matokeo kwa mikono.

Je, OCR ni sawa na kutoa maandishi ya PDF?

Hapana. OCR hubadilisha picha za maandishi kuwa herufi halisi - inahitajika wakati hakuna data ya maandishi, picha tu. Kutoa maandishi ya PDF husoma maandishi ambayo tayari yapo katika mkondo wa yaliyomo wa PDF ya kidijitali - inahitajika wakati maandishi yamenaswa katika umbizo ambalo huwezi kufanya kazi nalo kwa urahisi. Ikiwa PDF yako imeundwa kwa njia ya kidijitali, unahitaji kutoa. Ikiwa imechanganuliwa, unahitaji OCR kwanza.

Je, OCR inafanya kazi kwenye picha zilizopigwa na kamera ya simu?

Ndiyo, lakini usahihi unategemea ubora wa picha. Kwa matokeo bora: shikilia simu ikiwa sambamba na hati, hakikisha mwangaza sawa (hakuna vivuli), jaza fremu, shikilia kwa utulivu, na tumia hali ya kuchanganua hati ya simu yako ikiwa inapatikana. Picha za simu kwa kawaida hutoa usahihi wa 85-95% kwa maandishi yaliyochapishwa safi - chini kuliko uchanganuzi wa tambarare lakini mara nyingi ni mzuri wa kutosha kwa utafutaji.

Je, ninaweza kuhariri maandishi baada ya OCR?

Safu ya maandishi ya OCR haina mwonekano na iko juu ya picha ya uchanganuzi. Unaweza kunakili maandishi na kuyabandika kwenye kihariri chochote, tumia Adobe Acrobat Pro kuhariri safu ya maandishi moja kwa moja, au usafirishe hadi Neno au maandishi wazi kwa ajili ya kuhariri. Ili kubadilisha yaliyomo yanayoonekana ya hati iliyochanganuliwa, utahitaji kuchanganua tena au kutumia kihariri cha PDF kuongeza maelezo juu ya picha.

Kuanza na OCR

Ikiwa una PDF zilizochanganuliwa zinazohitaji kutafutwa, njia ya haraka ni rahisi:

Pima PDF zako - Tumia jaribio la Ctrl+F ili kuthibitisha zinahitaji OCR
Jijaribu zana ya OCR ya PDFSub - Pakia PDF iliyochanganuliwa katika pdfsub.com/tools/ocr na uone matokeo
Thibitisha matokeo - Angalia kwa haraka kurasa chache ili kuthibitisha usahihi unakidhi mahitaji yako
Chakata hati zako zilizobaki - Mara tu utakapokuwa na uhakika na matokeo, fanya kazi kupitia akiba yako

PDFSub inatoa jaribio la bure la siku 7 linalojumuisha ufikiaji wa zana ya OCR na zana zingine zote za PDF kwenye jukwaa. Pakia hati iliyochanganuliwa na uone tofauti ambayo maandishi yanayoweza kutafutwa hufanya. Ghairi wakati wowote.

Mwongozo huu unashughulikia kile OCR ni, jinsi inavyofanya kazi, njia tatu za kutumia OCR kwenye PDF zako zilizochanganuliwa, na jinsi ya kupata matokeo bora zaidi.

How to OCR a scanned PDF - converting image-only pages into searchable, selectable text

Jinsi ya Kujua Kama PDF Yako Inahitaji OCR

Jaribio la Sekunde 5

Fungua PDF yako katika kichunguzi chochote (Adobe Reader, Preview, Chrome, Edge)
Bonyeza Ctrl+F (Windows/Linux) au Cmd+F (Mac)
Andika neno unaloweza kuona kwenye ukurasa
Ikiwa kichunguzi kinasisitiza neno: PDF yako tayari ina maandishi yanayoweza kutafutwa. Hakuna OCR inayohitajika.
Ikiwa hakuna kinachopatikana: PDF yako ni picha tu. Inahitaji OCR.

Jaribio la Kuchagua

Jaribu kubofya na kuburuta ili kuchagua maandishi kwenye ukurasa:

Ikiwa unaweza kuchagua maneno ya kibinafsi na yanaangaziwa kwa rangi ya bluu: PDF ina safu ya maandishi.
Ikiwa ukurasa mzima unachaguliwa kama kizuizi kimoja (kama kuchagua picha): PDF ni uchanganuzi bila safu ya maandishi.
Ikiwa unaweza kuchagua maandishi mengine lakini sio mengine: PDF ina OCR ya sehemu au yaliyomo mchanganyiko - kurasa zingine ni za kidijitali, zingine zimechanganuliwa.

Aina za Kawaida za PDF Zinazohitaji OCR

Aina ya Hati	Kwa kawaida Inahitaji OCR?	Kwa Nini
Hati za karatasi zilizochanganuliwa	Ndiyo	Picha safi, hakuna data ya maandishi
Hati zilizotumwa kwa faksi zilizohifadhiwa kama PDF	Ndiyo	Matokeo ya faksi ni picha ya raster
Picha za hati (kamera ya simu)	Ndiyo	Picha ya kamera = picha
PDF kutoka kwa mashine ya kunakili "changanua kwa barua pepe"	Ndiyo	Mashine nyingi za kunakili hutoa PDF za picha
PDF zilizosafirishwa kutoka Word/Excel	Hapana	Zimeundwa kwa njia ya kidijitali, safu ya maandishi imejumuishwa
PDF kutoka kwa vivinjari vya wavuti (chapisha hadi PDF)	Hapana	Maandishi huhifadhiwa
Fomu za serikali zilizopakuliwa mtandaoni	Kwa kawaida hapana	Nyingi huundwa kwa njia ya kidijitali
Stakabadhi zilizotumwa kwa barua pepe kama viambatisho vya PDF	Kwa kawaida hapana	Hutengenezwa na mifumo ya POS yenye maandishi

OCR ni Nini? Maelezo kwa Lugha Rahisi

Jinsi OCR Imesonga Mbele

Injini za kisasa za OCR hufikia usahihi wa zaidi ya 99% wa herufi kwenye hati zilizochapishwa zilizo wazi na zilizochanganuliwa vizuri.

Jinsi OCR Inavyofanya Kazi: Mchakato wa Kiufundi

OCR sio algorithm moja. Ni mfululizo wa hatua, kila moja ikijenga juu ya ile iliyotangulia.

Hatua ya 1: Uandaaji wa Picha Kabla

Hatua ya 2: Uchanganuzi wa Mpangilio

Hatua ya 3: Ugawanyaji wa Herufi

Hatua ya 4: Utambuzi wa Herufi

Hatua ya 5: Uundaji wa Lugha

Hatua ya 6: Kizazi cha Matokeo

Njia ya 1: Zana ya PDFSub OCR (Inapendekezwa)

How OCR converts a scanned PDF to searchable text - Upload Scan, OCR Analysis, Extract Text, Searchable PDF

Zana ya OCR ya PDFSub huchakata PDF zilizochanganuliwa na kuongeza safu ya maandishi inayoweza kutafutwa huku ikihifadhi mwonekano halisi wa kila ukurasa.

Maelekezo ya Hatua kwa Hatua

Nenda kwenye zana ya OCR - Nenda kwa pdfsub.com/tools/ocr
Pakia PDF yako iliyochanganuliwa - Buruta na udondoshe faili yako au bofya ili kuvinjari. Hakuna haja ya kugawanya hati kubwa - PDF za kurasa nyingi hushughulikiwa kiotomatiki.
OCR huchakata hati yako - Zana huchanganua kila ukurasa, hutambua maandishi, na huunda safu ya maandishi isiyoonekana. Muda wa kuchakata unategemea idadi ya kurasa na ugumu, lakini hati nyingi hukamilika kwa sekunde.
Pakua PDF yako inayoweza kutafutwa - Faili ya matokeo inaonekana sawa na uchanganuzi wako wa awali lakini sasa inasaidia utafutaji wa maandishi, uteuzi wa maandishi, na kunakili-kama-ulivyoweka.

Kwa Nini PDFSub

Hakuna programu ya kusakinisha. Kila kitu huendeshwa katika kivinjari chako au kwenye seva salama. Hakuna cha kupakua, hakuna mahitaji ya mfumo wa kuangalia, na hakuna masuala ya utangamano.

Ubunifu unaozingatia faragha. Hati zilizopakiwa huchakatwa na kisha kufutwa. PDFSub haihifadhi faili zako wala kuitumia kwa mafunzo.

Jijaribu bure. PDFSub inatoa jaribio la bure la siku 7 ili uweze kujaribu OCR kwenye hati zako mwenyewe kabla ya kujitolea.

Njia ya 2: Adobe Acrobat Pro

Adobe Acrobat Pro inajumuisha kipengele cha ndani cha OCR kiitwacho "Recognize Text" ndani ya zana zake za Scan & OCR.

Maelekezo ya Hatua kwa Hatua

Fungua PDF yako iliyochanganuliwa katika Adobe Acrobat Pro
Nenda kwa Tools na uchague Scan & OCR
Bofya Recognize Text na uchague In This File au In Multiple Files
Chini ya Mipangilio, chagua Searchable Image (inaongeza safu ya maandishi isiyoonekana - inapendekezwa)
Bofya Recognize Text ili kuanza kuchakata
Hifadhi faili

Nguvu na Vizuizi

Njia ya 3: Google Drive (Bure, lakini Hupoteza Ubora)

Google Drive inajumuisha kipengele cha msingi cha OCR kinachotoa maandishi kutoka kwa PDF zilizochanganuliwa - lakini kwa gharama kubwa.

Maelekezo ya Hatua kwa Hatua

Pakia PDF yako iliyochanganuliwa kwenye Google Drive
Bofya kulia faili na uchague Open with kisha Google Docs
Google huchakata PDF na kuunda Hati ya Google na maandishi yaliyotolewa
Maandishi sasa yanaweza kutafutwa, kuchaguliwa, na kuhaririwa

Nguvu na Vizuizi

Inafanya kazi vyema zaidi kwenye hati zilizo chini ya kurasa 10. Hati ndefu zinaweza kukatwa.

Bora kwa: Kutoa yaliyomo kwenye maandishi wakati huhitaji mpangilio wa awali. Ikiwa unahitaji PDF inayoweza kutafutwa inayohifadhi mwonekano, tumia Njia ya 1 au Njia ya 2.

Usahihi wa OCR: Nini cha Kutarajia kwa Aina ya Hati

OCR sio uchawi. Usahihi hutofautiana sana kulingana na ubora wa hati, aina ya yaliyomo, na hali ya uchanganuzi. Hapa kuna kile ambacho vipimo vya ulimwengu halisi vinaonyesha.

Hati Zilizochapishwa (Fonti za Kisasa): 95-99%

Hati za Kale Zilizochapishwa kwa Mashine: 85-95%

Maandishi Yaliyoandikwa kwa Mkono: 60-80%

Yaliyomo Mchanganyiko (Maandishi + Meza): 90-97%

Muhtasari wa Jedwali la Usahihi

Aina ya Hati	Usahihi wa Herufi	Inaweza Kutafutwa?	Utoaji wa Data Unaaminika?
Chapisho la kisasa (leza)	95-99%	Bora	Ndiyo
Chapisho la kisasa (inkjet)	93-98%	Bora	Kwa kawaida
Uchapishaji wa zamani kwa mashine	85-95%	Nzuri	Kwa uthibitisho
Uandishi safi wa mkono (block)	70-80%	Sehemu	Hapana - thibitisha kila kitu
Uandishi wa mkono wa cursive	60-70%	Duni	Hapana
Maandishi mchanganyiko + meza	90-97%	Nzuri	Kwa ukaguzi wa kimuundo
Karatasi iliyoharibika/iliyoharibika	70-90%	Inatofautiana	Kwa uthibitisho mzito

Mazoea Bora kwa Kuchanganua Kabla ya OCR

Azimio: 300 DPI Kiwango cha Chini

DPI (dots per inch - nukta kwa inchi) huamua ni maelezo mangapi skana hunasa.

300 DPI: Kiwango cha kawaida kwa hati nyingi. Inatosha kwa utambuzi wa kuaminika wa fonti za kawaida kwa saizi za kawaida za maandishi (10-12pt).
600 DPI: Inapendekezwa kwa maandishi madogo (maandishi madogo, maelezo madogo) au unapohitaji usahihi wa juu zaidi.
150 DPI au chini: Haipendekezwi. Herufi ni ndogo sana kwa utambuzi wa kuaminika. Usahihi hupungua sana.
1200 DPI: Zaidi ya kuhitajika kwa OCR. Hakuna uboreshaji wa usahihi, na saizi za faili huwa kubwa sana.

Hali ya Rangi: Grayscale Kwa Kawaida Ni Bora

Grayscale: Bora kwa hati nyingi. Huhifadhi utofautishaji wa kutosha kwa binarization nzuri huku ikidumisha saizi za faili zinazoweza kudhibitiwa.
Nyeusi na nyeupe: Inaweza kufanya kazi kwa hati safi, zenye utofautishaji wa juu lakini inaweza kuharibu maelezo katika maeneo ya pembeni.
Rangi: Inahitajika tu ikiwa hati ina habari iliyo na rangi unayohitaji kuhifadhi. Kwa madhumuni ya OCR, rangi haitoi faida yoyote juu ya grayscale.

Mpangilio na Mwelekeo

Weka kurasa ziwe sawa. Hata digrii 2-3 za mwelekeo zinaweza kupunguza usahihi wa OCR kwa 5-10%. Tumia viongozi vya karatasi vya skana ili kuweka kurasa ziwe sawa.
Changanua kurasa za upande mmoja chini. Epuka kuruhusu kupenya kutoka upande wa nyuma kuunda maandishi ya kivuli ambayo huchanganya injini ya OCR.
Tumia skana tambarare kwa hati zilizo na vifungo. Skana za karatasi za karatasi zinaweza kuelekeza kurasa kutoka kwa vitabu au ripoti zilizo na vifungo. Kuchanganua kwa tambarare huweka ukurasa tambarare na kuwekwa sawa.

Matengenezo ya Skana na Maandalizi ya Hati

Safisha kioo kabla ya kuchanganua makundi - madoa huunda kasoro kwenye kila ukurasa
Angalia michirizi kwa kuchanganua ukurasa tupu - mistari ya wima inaonyesha rollers chafu
Ondoa stapler na klipu za karatasi ili kuzuia msongamano na mikwaruzo
Nyosha kurasa zilizokunjamana - mikunjo mirefu huunda vivuli ambavyo injini ya OCR inaweza kusoma vibaya
Rekebisha machozi na tepi upande wa nyuma - tepi mbele huunda miale

Baada ya OCR: Nini cha Kufanya Ifuatayo

Kukimbiza OCR ni hatua ya kwanza tu. Hivi ndivyo unavyoweza kupata manufaa zaidi kutoka kwa hati zako mpya zinazoweza kutafutwa.

Thibitisha Matokeo

Daima angalia matokeo ya OCR, hasa kwa hati muhimu:

Tafuta maneno muhimu unayojua yanaonekana kwenye hati. Ikiwa Ctrl+F yanayapata mara kwa mara, OCR inafanya kazi.
Nakili aya na ubandike kwenye kihariri cha maandishi. Soma kwa makosa dhahiri - maneno yaliyoharibika, herufi zilizokosekana, mabadilisho yasiyo na maana.
Angalia nambari kwa uangalifu. Kiasi cha fedha, tarehe, nambari za simu, na nambari za akaunti ni data yenye hatari kubwa. "6" iliyokosewa kama "8" katika kiasi cha muamala ni shida halisi. Injini za OCR wakati mwingine huchanganya tarakimu zinazofanana (0/O, 1/l, 5/S, 6/8).

Pima PDF zako - Tumia jaribio la Ctrl+F ili kuthibitisha zinahitaji OCR
Jijaribu zana ya OCR ya PDFSub - Pakia PDF iliyochanganuliwa katika pdfsub.com/tools/ocr na uone matokeo
Thibitisha matokeo - Angalia kwa haraka kurasa chache ili kuthibitisha usahihi unakidhi mahitaji yako
Chakata hati zako zilizobaki - Mara tu utakapokuwa na uhakika na matokeo, fanya kazi kupitia akiba yako