Jinsi ya Kusafisha PDF Iliyochanganuliwa (Ondoa Kero, Nyosha Kurasa)
PDF zilizochanganuliwa huonekana chafu - kurasa zilizopinda, mandharinyuma yenye madoa, maandishi yaliyofifia. Hivi ndivyo jinsi ya kuisafisha kwa matokeo ya kitaalamu na yanayosomeka.
Ulichanganua rundo la hati, na matokeo yanaonekana... mabaya. Kurasa zimeinama kidogo. Mandharinyuma meupe yana rangi ya njano yenye madoa na vipande. Maandishi ambayo yalikuwa makali kikamilifu kwenye karatasi yanaonekana yamefifia na kuwa na ukungu kwenye skrini. Vivuli vya giza vinaingia kando ambapo ukurasa haukuwa sawa kwenye kioo cha skana. Hili ndilo uhalisia wa kuchanganua. Hata skana nzuri zenye waendeshaji makini hutoa matokeo yasiyo kamili. Karatasi huhamishwa wakati wa kulisha. Skana za gorofa huchukua kila tone la vumbi. Hati za zamani zina karatasi ya njano, wino uliofifia, na uharibifu wa kimwili ambao skana huizalisha kwa uaminifu. Matokeo yake ni PDF ambayo kimsingi inafanya kazi lakini inaonekana si ya kitaalamu na inaweza kuwa ngumu kusoma.
Kusafisha PDF iliyochanganuliwa hubadilisha uchanganuzi huu mbaya kuwa hati safi, za kitaalamu - zenye kurasa zilizonyooka, mandharinyuma meupe, maandishi makali, na hakuna athari za kingo. Bora zaidi, uchanganuzi safi hutoa matokeo bora zaidi ikiwa baadaye utaendesha OCR ili kufanya maandishi yatambulike na kuchaguliwa.
Hivi ndivyo jinsi ya kusafisha PDF zako zilizochanganuliwa, kila hatua ya kusafisha hufanya nini, na lini kuunganisha kusafisha na OCR.

Kwa Nini PDF Zilizochanganuliwa Zinahitaji Kusafishwa
Kuelewa kinachosababisha uchafu hukusaidia kujua ni hatua gani za kusafisha zinazofaa zaidi kwa hati zako.
Upinde (Kurasa Zilizoinama)
Inapofea karatasi kupitia skana ya hati kwa pembe kidogo tu - nusu shahada inatosha kuonekana - picha inayotokana huwa imeinama. Hii hutokea kwa kila kifaa cha kulisha hati kiotomatiki (ADF) kwa kiwango fulani. Jicho la mwanadamu linahisi sana upinde - ukurasa ulioinama kwa shahada moja tu huonekana wazi kuwa umeinama, na kufanya hati ionekane ya kipuuzi na isiyo ya kitaalamu.
Upinde pia husababisha uharibifu mkubwa kwa usahihi wa OCR. Injini za OCR hutegemea maandishi kuendesha kwa mistari mlalo. Wakati ukurasa mzima umegeuzwa, algoriti za utambuzi wa maandishi hupambana na kutambua mipaka ya mistari, na kusababisha maneno yaliyochanganyikiwa, herufi zilizokosekana, na aya zilizovunjika.
Kero (Madoa na Vipande)
Kero ya skana hutoka vyanzo vingi: vumbi kwenye kioo cha skana, umbile la karatasi lililochukuliwa kwa azimio la juu, kero ya umeme kwenye sensa ya skana, na athari kutoka kwa optics za kuchanganua. Matokeo yake ni vipande na madoa nasibu yaliyotawanyika kwenye ukurasa - huonekana zaidi kwenye mandharinyuma meupe lakini yapo kote kwenye picha.
Kero ni tatizo hasa kwenye kingo nyeupe na kati ya mistari ya maandishi, ambapo huunda msongamano wa kuona. Kwa OCR, madoa ya kero yanaweza kutafsiriwa vibaya kama alama za juu, alama za diacritical, au sehemu za herufi - chanzo cha kawaida cha makosa ya OCR.
Maandishi Yaliyofifia
Kwa muda, wino hufifia. Magazeti ya leza hudumu vizuri, lakini magazeti ya inkjet, nakala, na nakala za kaboni hufifia sana. Hata hati za hivi karibuni zinaweza kuwa na msongamano wa uchapishaji usio sawa - giza pale ambapo toner ilikuwa safi, nyepesi pale ambapo ilikuwa karibu kuisha.
Maandishi yaliyofifia ni magumu kusoma kwenye skrini na huchapishwa vibaya. Pia hupunguza usahihi wa OCR kwa sababu algoriti zinahitaji utofauti wazi kati ya maandishi na mandharinyuma ili kutambua herufi kwa uhakika.
Kingo Giza na Vivuli
Wakati ukurasa haufuniki uso mzima wa skana - au wakati uti wa kitabu unapoleta kivuli - uchanganuzi huchukua kingo za giza na maeneo ya kivuli. Hizi ni athari tu za mchakato wa kuchanganua na hazina manufaa yoyote kwenye hati. Zinapoteza toner wakati zinapochapishwa na kufanya hati ionekane kama nakala ya nakala.
Mandharinyuma Isiyo sawa
Karatasi si nyeupe kikamilifu. Hati za zamani zimekuwa za njano. Karatasi iliyosindikwa ina rangi ya kijivu. Baadhi ya hati zina karatasi ya rangi. Zinapochanganuliwa, mabadiliko haya ya mandharinyuma huchukuliwa kama data ya pikseli - ikiongeza megabytes kwenye saizi ya faili huku ikichangia chochote kwenye usomaji.
Hatua Nne za Kusafisha
Zana ya Kusafisha PDF Iliyochanganuliwa ya PDFSub inachakata hati kupitia hatua nne za kusafisha, kila moja ikilenga athari maalum ya kuchanganua.
Hatua ya 1: Kurekebisha Upinde (Nyosha Kurasa)
Kurekebisha upinde hugundua pembe ya maandishi iliyoenea kwenye kila ukurasa na kugeuza picha ili kufanya maandishi kuwa mlalo kikamilifu. Algoriti huchambua usambazaji wa piksili za giza (maandishi) kwenye ukurasa, huamua pembe ya mzunguko unaohitajika, na kuitumia kwa usahihi wa chini ya shahada.
Kurasa nyingi zinahitaji marekebisho ya digrii 0.3 hadi 2. Mchakato ni wa kiotomatiki - huhitaji kutaja pembe. Kila ukurasa huchambuliwa na kurekebishwa kivyake, kwa hivyo hati ambayo ukurasa wa 3 umeinama kushoto na ukurasa wa 7 umeinama kulia hupata marekebisho yote yaliyotumika kwa usahihi.
Utakachoona: Mistari ya maandishi ambayo ilionekana kuwa ya diagonal kidogo huwa mlalo kikamilifu. Uboreshaji unaonekana mara moja na hufanya hati ionekane ya kitaalamu zaidi.
Hatua ya 2: Kuondoa Kero (Ondoa Madoa)
Kuondoa kero hugundua na kuondoa alama ndogo za pekee ambazo si sehemu ya yaliyomo kwenye hati. Algoriti hutofautisha kati ya kero (madoa madogo ya nasibu) na yaliyomo halisi (maandishi, mistari, picha) kulingana na saizi, umbo, na muktadha.
Changamoto kuu ni kuondoa kero bila kuharibu maelezo madogo kama vile vipindi, koma, alama za desimali, na alama za diacritical. Injini ya kusafisha ya PDFSub hutumia kizingiti kinachobadilika ambacho huzingatia muktadha unaozunguka - doadoa ndogo katikati ya kingo nyeupe ni kero, wakati doadoa ndogo mwishoni mwa sentensi ni kipindi.
Utakachoona: Mandharinyuma huwa safi zaidi, kingo huonekana kuwa makali zaidi, na hati nzima huonekana kuwa na 'nafaka' kidogo. Kwenye uchanganuzi wenye kero nyingi, uboreshaji ni mkubwa.
Hatua ya 3: Kuimarisha Tofauti
Uimarishaji wa tofauti huongeza tofauti kati ya maandishi (giza) na mandharinyuma (nyepesi). Hii hufanya maandishi yaliyofifia yasomeke zaidi na huunda utenganisho safi wa kuona kati ya yaliyomo na mandharinyuma.
Uimarishaji hubadilika - hurekebisha kiwango kulingana na sifa za picha za ndani. Sehemu ya ukurasa yenye maandishi mazito hupata uimarishaji mdogo kuliko sehemu yenye maandishi mepesi na yaliyofifia. Hii huzuia maandishi ambayo tayari ni meusi kuwa mabonge huku ikileta maandishi yaliyofifia hadi kiwango kinachosomeka.
Utakachoona: Maandishi huonekana kuwa makali na meusi zaidi. Sehemu zilizofifia huonekana kusomeka. Mandharinyuma huonekana kuwa meupe na yenye umoja zaidi.
Hatua ya 4: Kusafisha Kingo (Ondoa Kingo Giza)
Usafishaji wa kingo hugundua na kuondoa maeneo ya giza karibu na kingo za kurasa zilizochanganuliwa - vivuli kutoka kwa kifuniko cha skana, baa nyeusi kutoka kwa kurasa ndogo kuliko eneo la kuchanganua, na athari za kivuli kutoka kwa uti wa vitabu.
Algoriti hutambua mpaka wa yaliyomo kwenye ukurasa na hubadilisha kila kitu nje yake na nafasi nyeupe safi. Hii huondoa athari za kingo huku ikihifadhi yaliyomo yanayoenda hadi kwenye kingo ya ukurasa (kama vile vichwa, miguu, au madokezo ya kingo).
Utakachoona: Kingo za giza hupotea. Ukurasa una kingo safi, zenye umoja. Matokeo ya uchapishaji hayana tena kingo za kukengeusha.
Jinsi ya Kusafisha PDF Iliyochanganuliwa na PDFSub
Maelekezo Hatua kwa Hatua
Hatua ya 1: Fungua zana. Nenda kwenye pdfsub.com/tools/clean-scan.
Hatua ya 2: Pakia PDF yako iliyochanganuliwa. Buruta na udondoshe faili au bofya ili kuvinjari. PDF hupakiwa kwenye seva salama za usindikaji za PDFSub.
Hatua ya 3: Chagua chaguo za kusafisha. Chagua ni hatua gani za kusafisha utumie. Zote nne zimewashwa kwa chaguo-msingi, lakini unaweza kuzima hatua yoyote ikiwa inahitajika. Kwa hati nyingi zilizochanganuliwa, hatua zote nne hutoa matokeo bora zaidi.
Hatua ya 4: Chakata. Bofya kitufe cha kusafisha. Injini ya PDFSub huchakata kila ukurasa kupitia hatua zilizochaguliwa. Muda wa usindikaji unategemea idadi ya kurasa na azimio lao - tarajia takriban sekunde 2-3 kwa ukurasa.
Hatua ya 5: Kagua na pakua. Tazama kurasa zilizosafishwa ili kuthibitisha matokeo. Pakua PDF safi.
Lini Kurekebisha Hatua za Kusafisha
Zima kurekebisha upinde ikiwa uchanganuzi wako tayari umepangwa kikamilifu (k.m., kutoka kwa skana ya hati ya kitaalamu yenye mpangilio mzuri) au ikiwa hati ina yaliyomo yaliyo na pembe ambayo yanapaswa kubaki na pembe (kama vile alama za maji za diagonal).
Zima kuondoa kero ikiwa hati ina maelezo madogo sana ambayo yanaweza kuchanganywa na kero - sanaa za vipande, picha za halftone, au hati zenye mandharinyuma yenye umbile la makusudi.
Punguza uimarishaji wa tofauti ikiwa uchanganuzi wa asili una tofauti nzuri tayari. Uimarishaji mwingi unaweza kufanya maandishi kuonekana kuwa mazito kuliko ilivyokusudiwa.
Zima usafishaji wa kingo ikiwa hati ina yaliyomo yanayoenda hadi kwenye kingo ya ukurasa, au ikiwa kingo za giza zina habari muhimu (kama vile alama za kukata au alama za usajili).
Kuunganisha Kusafisha na OCR
Moja ya sababu za kuvutia zaidi za kusafisha PDF zilizochanganuliwa ni uboreshaji mkubwa katika usahihi wa OCR. Injini za OCR hufanya kazi kwa kuchambua maumbo ya herufi dhidi ya hifadhidata ya miundo ya herufi inayojulikana. Kila kitu kinachoharibu maumbo ya herufi - kero, upinde, utofauti mdogo, au athari za kingo - huharibu usahihi wa OCR.
Uboreshaji wa Usahihi
Kusafisha PDF iliyochanganuliwa kabla ya kuendesha OCR kwa kawaida huboresha usahihi wa utambuzi wa herufi kwa pointi 5-15 za asilimia. Kwenye uchanganuzi wenye kero nyingi au ulioinama, uboreshaji unaweza kuwa mkubwa zaidi.
- Urekebishaji wa upinde pekee unaweza kuboresha usahihi wa OCR kwa 3-8%. Injini za OCR hutegemea mistari ya maandishi mlalo - hata upinde mdogo husababisha makosa ya mgawanyiko wa maneno.
- Uondoaji wa kero huzuia utambuzi wa herufi bandia. Madoa ya nasibu kwenye kingo hayatafahamika vibaya kama herufi au alama za juu.
- Uimarishaji wa tofauti husaidia injini ya OCR kutofautisha herufi kutoka kwa mandharinyuma, hasa kwa maandishi yaliyofifia au mepesi.
Utaratibu Uliopendekezwa
Kwa matokeo bora, safisha uchanganuzi kwanza, kisha endesha OCR:
- Pakia PDF iliyochanganuliwa kwenye Zana ya Kusafisha PDF Iliyochanganuliwa ya PDFSub
- Pakua toleo lililosafishwa
- Pakia PDF iliyosafishwa kwenye Zana ya OCR ya PDFSub
- Pakua PDF inayotambulika na inayoweza kuchaguliwa
Mchakato huu wa hatua mbili hutoa matokeo bora kuliko kuendesha OCR moja kwa moja kwenye uchanganuzi mbaya.
Hali za Kawaida
Uchanganuzi wa Hati za Ofisi
Kesi ya kawaida zaidi: mikataba, barua, fomu, na ripoti zilizochanganuliwa kwenye printa ya ofisi yenye kazi nyingi. Hizi kwa kawaida zinahitaji hatua zote nne za kusafisha - ADF huleta upinde, skana huongeza kero, na hati zilizochanganuliwa kwa uso chini kwenye gorofa zina vivuli vya kingo.
Kurasa za Vitabu na Magazeti
Kuchanganua vifaa vilivyounganishwa huunda athari za kipekee: ukurasa uliopinda karibu na uti husababisha upotoshaji na kivuli, kurasa zinaweza kuwa zimeinama kidogo kutoka kwa pembe ya kuunganisha, na uti mnene huunda bendi ya giza kando ya moja ya kingo. Usafishaji wa kingo na kurekebisha upinde ni muhimu sana kwa uchanganuzi huu.
Hati za Kihistoria na Hifadhi
Hati za zamani zina karatasi ya njano, wino uliofifia, madoa ya rangi ya kahawia (kutokana na kuzeeka), na uharibifu wa kimwili. Uimarishaji wa tofauti ndio hatua yenye athari kubwa kwa hati hizi - huleta maandishi yaliyofifia tena ili yasomeke. Ondoa kero kwa uangalifu kwenye hati za kihistoria, kwani baadhi ya athari za kuona zinaweza kuwa muhimu kihistoria.
Stakabadhi na Magazeti ya Joto
Karatasi ya joto (inayotumiwa kwenye printa za stakabadhi) hufifia haraka na huchanganua vibaya. Maandishi mara nyingi huwa rangi ya kijivu nyepesi badala ya nyeusi, na karatasi huendeleza mwonekano wa madoa. Uimarishaji mkali wa tofauti na uondoaji wa kero hufanya kazi vizuri kwa magazeti ya joto kwani mara chache huwa na maelezo madogo ya kuhifadhi.
Fomu za Kurasa Nyingi
Fomu za serikali, hati za kodi, na vifurushi vya maombi mara nyingi huwa na masanduku yaliyochapishwa awali, mistari, na vivuli ambavyo hufanya kusafisha kuwa ngumu. Injini ya kusafisha huishughulikia vizuri - vipengele vilivyochapishwa awali ni vikubwa vya kutosha kuishi uondoaji wa kero, na kurekebisha upinde huweka fomu nzima sawa.
Maswali Yanayoulizwa Mara Kwa Mara
Je, kusafisha kutabadilisha yaliyomo kwenye hati yangu?
Hapana. Kusafisha huathiri tu ubora wa kuona wa picha iliyochanganuliwa - huinyesha, huondoa kero, huimarisha tofauti, na husafisha kingo. Haiongezi, haiondoi, wala haibadilishi maandishi au yaliyomo yoyote. Habari iliyo kwenye ukurasa inabaki sawa kabisa.
Je, ninaweza kusafisha PDF ambayo haijachanganuliwa?
Zana ya kusafisha imeundwa kwa ajili ya PDF zilizochanganuliwa - hati ambapo kila ukurasa ni picha ya raster. Haitadhuru PDF isiyo ya kuchanganuliwa, lakini hatua za kusafisha zimeundwa mahususi kwa ajili ya athari za kuchanganua na hazitaboresha kwa maana yoyote PDF iliyoundwa kutoka vyanzo vya kidijitali (kama vile uhamishaji wa Word).
Kusafisha hupunguza saizi ya faili kwa kiasi gani?
Inatofautiana, lakini kusafisha kwa kawaida hupunguza saizi ya faili kwa 20-40%. Uondoaji wa kero huondoa maelfu ya pikseli zisizo za lazima kwa ukurasa. Usafishaji wa kingo huondoa maeneo makubwa ya giza. Uimarishaji wa tofauti unaweza kuboresha ufanisi wa ukandamizaji kwa kuunda mandharinyuma yenye umoja zaidi. Hati ya kurasa 50 iliyochanganuliwa ambayo ilikuwa MB 80 inaweza kushuka hadi MB 50-60 baada ya kusafishwa.
Je, kusafisha hufanya kazi kwenye uchanganuzi wa rangi?
Ndiyo. Hatua zote nne za kusafisha hufanya kazi kwenye uchanganuzi wa rangi, kijivu, na nyeusi na nyeupe. Uchanganuzi wa rangi hunufaika hasa kutokana na urekebishaji wa mandharinyuma na usafishaji wa kingo. Uimarishaji wa tofauti hutumiwa kwa njia ambayo huhifadhi habari ya rangi huku ikiboresha usomaji wa maandishi.
Je, ninaweza kughairi kusafisha ikiwa sipendi matokeo?
Kusafisha hutoa faili mpya - PDF yako ya asili haibadilishwi kamwe. Ikiwa kusafisha hakuridhishi, rudi tu kwenye faili yako ya asili. Kwa sababu hii, kila wakati weka uchanganuzi wa asili kando na toleo lililosafishwa.
Muhtasari
Kusafisha PDF zilizochanganuliwa ni mchakato wa hatua nne unaobadilisha uchanganuzi mbaya kuwa hati za kitaalamu:
| Hatua | Inarekebisha Nini | Athari |
|---|---|---|
| Kurekebisha Upinde | Kurasa Zilizoinama | Muonekano ulionyooka, wa kitaalamu |
| Kuondoa Kero | Madoa na Vipande | Mandharinyuma Safi, maandishi yaliyo wazi |
| Kuimarisha | Maandishi Yaliyofifia, yenye utofauti mdogo | Matokeo Yanayosomeka, Yanayochapishwa |
| Kusafisha Kingo | Kingo Giza na Vivuli | Kingo Zenye Umoja, Hakuna Athari |
Kila hatua ni huru na inaweza kuwashwa au kuzimwa. Kwa hati nyingi zilizochanganuliwa, kuendesha hatua zote nne hutoa matokeo bora zaidi. Matokeo yaliyosafishwa yana saizi ndogo ya faili, yanaonekana ya kitaalamu zaidi, na hutoa matokeo bora zaidi ya OCR ikiwa baadaye unahitaji maandishi yanayotambulika.
Uko tayari kusafisha uchanganuzi wako? Jaribu Zana ya Kusafisha PDF Iliyochanganuliwa ya PDFSub - pakia PDF yako iliyochanganuliwa na upate matokeo safi, ya kitaalamu kwa sekunde.