സ്കാൻ ചെയ്ത PDF എങ്ങനെ വൃത്തിയാക്കാം (നോയിസ് നീക്കം ചെയ്യുക, പേജുകൾ നിവർത്തുക)
സ്കാൻ ചെയ്ത PDF ഫയലുകൾ വൃത്തിഹീനമായി കാണപ്പെടുന്നു - ചരിഞ്ഞ പേജുകൾ, പുള്ളികളുള്ള പശ്ചാത്തലം, മങ്ങിയ അക്ഷരങ്ങൾ. പ്രൊഫഷണലും വായിക്കാൻ എളുപ്പമുള്ളതുമായ ഫലം ലഭിക്കാൻ അവ എങ്ങനെ വൃത്തിയാക്കാമെന്ന് ഇവിടെ വിശദീകരിക്കുന്നു.
നിങ്ങൾ രേഖകളുടെ ഒരു കൂട്ടം സ്കാൻ ചെയ്തു, ഫലം... മോശമായി കാണപ്പെടുന്നു. പേജുകൾ അല്പം ചരിഞ്ഞതാണ്. വെളുത്ത പശ്ചാത്തലങ്ങളിൽ പുള്ളികളും പാടുകളുമുള്ള മഞ്ഞ നിറമുണ്ട്. പേപ്പറിൽ തികച്ചും വ്യക്തമായിരുന്ന ടെക്സ്റ്റ് സ്ക്രീനിൽ മങ്ങിയതും അവ്യക്തവുമായി കാണപ്പെടുന്നു. സ്കാനർ ഗ്ലാസ്സിൽ പേജ് ശരിയായി വെക്കാത്തതിനാൽ ഇരുണ്ട നിഴലുകൾ അരികുകളിൽ നിറയുന്നു.
ഇതാണ് സ്കാനിംഗിന്റെ യാഥാർത്ഥ്യം. നല്ല സ്കാനറുകൾ പോലും ശ്രദ്ധയോടെ ഉപയോഗിക്കുന്ന ഓപ്പറേറ്റർമാർക്ക് പോലും അസംപൂർണ്ണമായ ഫലങ്ങൾ ലഭിക്കും. പേപ്പർ ഫീഡ് ചെയ്യുമ്പോൾ മാറുന്നു. ഫ്ലാറ്റ്ബെഡ് സ്കാനറുകൾ ഓരോ പൊടിപടലവും പിടിച്ചെടുക്കുന്നു. പഴയ രേഖകളിൽ മഞ്ഞനിറമുള്ള പേപ്പറുകൾ, മങ്ങിയ മഷി, സ്കാനർ വിശ്വസ്തതയോടെ പുനരുత్పത്തി ചെയ്യുന്ന ഭൗതിക കേടുപാടുകൾ എന്നിവയുണ്ട്. ഫലം സാങ്കേതികമായി പ്രവർത്തിക്കുന്ന ഒരു PDF ആണ്, പക്ഷേ അത് പ്രൊഫഷണലായി കാണപ്പെടുന്നില്ല, വായിക്കാൻ ബുദ്ധിമുട്ടും അനുഭവപ്പെടാം.
വൃത്തിയാക്കിയ സ്കാൻ ചെയ്ത PDF, ഈ വൃത്തിഹീനമായ സ്കാനുകളെ വൃത്തിയുള്ളതും പ്രൊഫഷണലായതുമായ രേഖകളാക്കി മാറ്റുന്നു - നിവർന്ന പേജുകൾ, വെളുത്ത പശ്ചാത്തലം, വ്യക്തമായ ടെക്സ്റ്റ്, ബോർഡർ ആർട്ടിഫാക്റ്റുകൾ എന്നിവയോടെ. ഇതിലും മികച്ചത്, ടെക്സ്റ്റ് തിരയാനും തിരഞ്ഞെടുക്കാനും കഴിയുന്ന OCR പിന്നീട് പ്രവർത്തിപ്പിക്കുകയാണെങ്കിൽ വൃത്തിയുള്ള സ്കാനുകൾ ഗണ്യമായി മികച്ച ഫലങ്ങൾ നൽകുന്നു.
നിങ്ങളുടെ സ്കാൻ ചെയ്ത PDF-കൾ എങ്ങനെ വൃത്തിയാക്കാം, ഓരോ വൃത്തിയാക്കൽ ഘട്ടവും എന്താണ് ചെയ്യുന്നതെന്ന്, എപ്പോഴാണ് OCR-നൊപ്പം വൃത്തിയാക്കൽ ജോമെയിപ്പിക്കേണ്ടതെന്നും ഇവിടെ വിശദീകരിക്കുന്നു.

എന്തുകൊണ്ട് സ്കാൻ ചെയ്ത PDF-കൾക്ക് വൃത്തിയാക്കൽ ആവശ്യമാണ്?
എന്താണ് ഈ വൃത്തികേടുകൾക്ക് കാരണമാകുന്നതെന്ന് മനസ്സിലാക്കുന്നത് നിങ്ങളുടെ രേഖകൾക്ക് ഏറ്റവും പ്രധാനം ഏത് വൃത്തിയാക്കൽ ഘട്ടങ്ങളാണെന്ന് അറിയാൻ സഹായിക്കും.
ചരിവ് (Tilted Pages)
ഒരു ഡോക്യുമെന്റ് സ്കാനറിലൂടെ പേപ്പർ ഒരു ചെറിയ കോണിൽ കടന്നുപോകുമ്പോൾ - അര ഡിഗ്രി പോലും ശ്രദ്ധേയമാക്കാൻ പര്യാപ്തമാണ് - ഫലമായുണ്ടാകുന്ന ചിത്രം ചരിഞ്ഞതായിരിക്കും. ഇത് ഒരു പരിധി വരെ എല്ലാ ഓട്ടോമാറ്റിക് ഡോക്യുമെന്റ് ഫീഡറുകളിലും (ADF) സംഭവിക്കുന്നു. മനുഷ്യന്റെ കണ്ണ് ചരിവിന് വളരെ സെൻസിറ്റീവ് ആണ് - ഒരു ഡിഗ്രി ചരിഞ്ഞ പേജ് വ്യക്തമായി വളഞ്ഞതായി കാണപ്പെടുന്നു, ഇത് രേഖയെ അലസവും പ്രൊഫഷണലല്ലാത്തതുമായി തോന്നിപ്പിക്കുന്നു.
OCR കൃത്യതയ്ക്കും ചരിവ് വലിയ നാശനഷ്ടങ്ങൾ വരുത്തുന്നു. OCR എഞ്ചിനുകൾ ടെക്സ്റ്റ് തിരശ്ചീനമായ ലൈനുകളിൽ പ്രവർത്തിക്കുമെന്ന് പ്രതീക്ഷിക്കുന്നു. മുഴുവൻ പേജും തിരിയുമ്പോൾ, ടെക്സ്റ്റ് കണ്ടെത്തൽ അൽഗോരിതങ്ങൾക്ക് ലൈൻ അതിരുകൾ തിരിച്ചറിയാൻ ബുദ്ധിമുട്ട് നേരിടുന്നു, ഇത് വാക്കുകൾ കൂട്ടിക്കുഴയ്ക്കാനും അക്ഷരങ്ങൾ നഷ്ടപ്പെടാനും ഖണ്ഡികകൾ തകരാനും ഇടയാക്കുന്നു.
നോയിസ് (Speckles and Dots)
സ്കാനർ നോയിസ് പല സ്രോതസ്സുകളിൽ നിന്നാണ് വരുന്നത്: സ്കാനർ ഗ്ലാസ്സിലെ പൊടി, ഉയർന്ന റെസല്യൂഷനിൽ പിടിച്ചെടുത്ത പേപ്പർ ടെക്സ്ചർ, സ്കാനറിന്റെ സെൻസറിലെ ഇലക്ട്രിക്കൽ നോയിസ്, സ്കാനിംഗ് ഒപ്റ്റിക്സിലെ ആർട്ടിഫാക്റ്റുകൾ. ഫലം പേജിലുടനീളം ചിതറിക്കിടക്കുന്ന ക്രമരഹിതമായ ഡോട്ടുകളും സ്പെക്കിളുകളുമാണ് - വെളുത്ത പശ്ചാത്തലങ്ങളിൽ ഏറ്റവും കൂടുതൽ കാണാം, പക്ഷേ ചിത്രം മുഴുവൻ കാണാം.
വെളുത്ത മാർജിനുകളിലും ടെക്സ്റ്റ് ലൈനുകൾക്കിടയിലും നോയിസ് പ്രത്യേകിച്ച് പ്രശ്നകരമാണ്, അവിടെ ഇത് ദൃശ്യപരമായ അലങ്കോലങ്ങൾ സൃഷ്ടിക്കുന്നു. OCR-ന്, നോയിസ് ഡോട്ടുകൾ വിരാമചിഹ്നങ്ങൾ, ഡയക്രിറ്റിക്കൽ മാർക്കുകൾ, അല്ലെങ്കിൽ അക്ഷരങ്ങളുടെ ഭാഗങ്ങൾ എന്നിവയായി തെറ്റായി വ്യാഖ്യാനിക്കപ്പെടാം - OCR പിശകുകളുടെ ഒരു സാധാരണ സ്രോതസ്സ്.
മങ്ങിയ ടെക്സ്റ്റ്
കാലക്രമേണ, മഷി മങ്ങുന്നു. ലേസർ പ്രിന്റുകൾ നന്നായി നിലനിൽക്കുന്നു, പക്ഷേ ഇങ്ക്ജെറ്റ് പ്രിന്റുകൾ, ഫോട്ടോകോപ്പികൾ, കാർബൺ കോപ്പികൾ എന്നിവ ഗണ്യമായി മങ്ങുന്നു. താരതമ്യേന പുതിയ രേഖകളിൽ പോലും അസമമായ പ്രിന്റ് സാന്ദ്രത ഉണ്ടാകാം - ടോണർ പുതുമയുള്ളിടത്ത് ഇരുണ്ടതും, അത് കുറഞ്ഞുകൊണ്ടിരുന്നിടത്ത് ഇളം നിറവുമാണ്.
മങ്ങിയ ടെക്സ്റ്റ് സ്ക്രീനിൽ വായിക്കാൻ പ്രയാസമാണ്, പ്രിന്റ് ചെയ്യുമ്പോൾ മോശമായി കാണപ്പെടുന്നു. അക്ഷരങ്ങൾ വിശ്വസനീയമായി തിരിച്ചറിയാൻ ടെക്സ്റ്റും പശ്ചാത്തലവും തമ്മിൽ വ്യക്തമായ വ്യത്യാസം ആവശ്യമായതിനാൽ OCR കൃത്യതയും ഇത് കുറയ്ക്കുന്നു.
ഇരുണ്ട ബോർഡറുകളും നിഴലുകളും
ഒരു പേജ് സ്കാനർ ഉപരിതലത്തിന്റെ മുഴുവൻ ഭാഗവും ഉൾക്കൊള്ളുന്നില്ലെങ്കിൽ - അല്ലെങ്കിൽ ഒരു പുസ്തകത്തിന്റെ നടുഭാഗം ഒരു നിഴൽ സൃഷ്ടിക്കുകയാണെങ്കിൽ - സ്കാൻ ഇരുണ്ട ബോർഡറുകളും നിഴൽ പ്രദേശങ്ങളും പിടിച്ചെടുക്കുന്നു. ഇവ സ്കാനിംഗ് പ്രക്രിയയുടെ കേവലം ആർട്ടിഫാക്റ്റുകളാണ്, രേഖയിൽ യാതൊരു പ്രയോജനവുമില്ല. അവ പ്രിന്റ് ചെയ്യുമ്പോൾ ടോണർ പാഴാക്കുന്നു, രേഖയെ ഒരു ഫോട്ടോകോപ്പിയുടെ ഫോട്ടോകോപ്പി പോലെയാക്കുന്നു.
അസമമായ പശ്ചാത്തലം
പേപ്പർ തികച്ചും വെളുത്തതല്ല. പഴയ രേഖകൾക്ക് മഞ്ഞനിറമുണ്ട്. റീസൈക്കിൾ ചെയ്ത പേപ്പറിന് ചാരനിറമുണ്ട്. ചില രേഖകൾക്ക് നിറമുള്ള പേപ്പറാണ്. സ്കാൻ ചെയ്യുമ്പോൾ, ഈ പശ്ചാത്തല വ്യത്യാസങ്ങൾ പിക്സൽ ഡാറ്റയായി പിടിച്ചെടുക്കുന്നു - ഫയൽ വലുപ്പത്തിലേക്ക് മെഗാബൈറ്റുകൾ ചേർക്കുന്നു, അതേസമയം വായനാക്ഷമതയ്ക്ക് യാതൊന്നും സംഭാവന നൽകുന്നില്ല.
നാല് വൃത്തിയാക്കൽ ഘട്ടങ്ങൾ
PDFSub-ന്റെ Clean Scanned PDF ടൂൾ നാല് വൃത്തിയാക്കൽ ഘട്ടങ്ങളിലൂടെ ഡോക്യുമെന്റുകൾ പ്രോസസ്സ് ചെയ്യുന്നു, ഓരോന്നും ഒരു പ്രത്യേക തരം സ്കാനിംഗ് ആർട്ടിഫാക്റ്റിനെ ലക്ഷ്യമിടുന്നു.
ഘട്ടം 1: Deskew (പേജുകൾ നിവർത്തുക)
Deskew ഓരോ പേജിലെയും പ്രധാന ടെക്സ്റ്റ് കോൺ കണ്ടെത്തുകയും ടെക്സ്റ്റ് തികച്ചും തിരശ്ചീനമാക്കാൻ ചിത്രത്തെ തിരിക്കുകയും ചെയ്യുന്നു. അൽഗോരിതം പേജിലുടനീളം ഇരുണ്ട പിക്സലുകളുടെ (ടെക്സ്റ്റ്) വിതരണം വിശകലനം ചെയ്യുന്നു, ആവശ്യമായ തിരിവ് കോൺ നിർണ്ണയിക്കുന്നു, കൂടാതെ സബ്-ഡിഗ്രി കൃത്യതയോടെ അത് പ്രയോഗിക്കുകയും ചെയ്യുന്നു.
മിക്ക പേജുകൾക്കും 0.3 മുതൽ 2 ഡിഗ്രി വരെ തിരുത്തൽ ആവശ്യമാണ്. പ്രക്രിയ ഓട്ടോമാറ്റിക് ആണ് - നിങ്ങൾക്ക് കോൺ വ്യക്തമാക്കേണ്ടതില്ല. ഓരോ പേജും സ്വതന്ത്രമായി വിശകലനം ചെയ്യുകയും തിരുത്തുകയും ചെയ്യുന്നു, അതിനാൽ പേജ് 3 ഇടത്തേക്ക് ചരിഞ്ഞതും പേജ് 7 വലത്തേക്ക് ചരിഞ്ഞതുമായ ഒരു രേഖയ്ക്ക് രണ്ട് തിരുത്തലുകളും ശരിയായി പ്രയോഗിക്കുന്നു.
നിങ്ങൾ ശ്രദ്ധിക്കുന്നത്: അല്പം വികർണ്ണമായി കാണപ്പെട്ട ടെക്സ്റ്റ് ലൈനുകൾ തികച്ചും തിരശ്ചീനമാകും. മെച്ചപ്പെടുത്തൽ ഉടനടി ദൃശ്യമാണ്, ഇത് രേഖയെ ഗണ്യമായി കൂടുതൽ പ്രൊഫഷണലായി കാണിക്കുന്നു.
ഘട്ടം 2: Denoise (പുള്ളികൾ നീക്കം ചെയ്യുക)
Denoising ഡോക്യുമെന്റ് ഉള്ളടക്കത്തിന്റെ ഭാഗമല്ലാത്ത ചെറിയ ഒറ്റപ്പെട്ട അടയാളങ്ങളെ തിരിച്ചറിയുകയും നീക്കം ചെയ്യുകയും ചെയ്യുന്നു. അൽഗോരിതം വലുപ്പം, ആകൃതി, സന്ദർഭം എന്നിവയെ അടിസ്ഥാനമാക്കി നോയിസ് (ക്രമരഹിതമായ ചെറിയ ഡോട്ടുകൾ) യഥാർത്ഥ ഉള്ളടക്കം (ടെക്സ്റ്റ്, ലൈനുകൾ, ചിത്രങ്ങൾ) എന്നിവ തമ്മിൽ വേർതിരിക്കുന്നു.
പുള്ളികൾ, കോമകൾ, ദശാംശ ബിന്ദുക്കൾ, ഡയക്രിറ്റിക്കൽ മാർക്കുകൾ എന്നിവ പോലുള്ള ചെറിയ വിശദാംശങ്ങളെ നശിപ്പിക്കാതെ നോയിസ് നീക്കം ചെയ്യുന്നതാണ് പ്രധാന വെല്ലുവിളി. PDFSub-ന്റെ വൃത്തിയാക്കൽ എഞ്ചിൻ അഡാപ്റ്റീവ് ത്രെഷോൾഡിംഗ് ഉപയോഗിക്കുന്നു, ഇത് ചുറ്റുമുള്ള സന്ദർഭം പരിഗണിക്കുന്നു - ഒരു വെളുത്ത മാർജിനിന്റെ മധ്യത്തിലുള്ള ഒരു ചെറിയ ഡോട്ട് നോയിസ് ആണ്, ഒരു വാക്യത്തിന്റെ അവസാനത്തിലുള്ള ഒരു ചെറിയ ഡോട്ട് ഒരു പിരീഡ് ആണ്.
നിങ്ങൾ ശ്രദ്ധിക്കുന്നത്: പശ്ചാത്തലങ്ങൾ വൃത്തിയുള്ളതായി കാണപ്പെടുന്നു, മാർജിനുകൾ കൂടുതൽ വ്യക്തമായി കാണപ്പെടുന്നു, മൊത്തത്തിലുള്ള രേഖ "ഗ്രെയിനി" ആയി കാണപ്പെടുന്നു. വളരെ നോയിസുള്ള സ്കാനുകളിൽ, മെച്ചപ്പെടുത്തൽ നാടകീയമാണ്.
ഘട്ടം 3: Enhance Contrast
കോൺട്രാസ്റ്റ് മെച്ചപ്പെടുത്തൽ ടെക്സ്റ്റും (ഇരുണ്ട) പശ്ചാത്തലവും (വെളുത്ത) തമ്മിലുള്ള വ്യത്യാസം വർദ്ധിപ്പിക്കുന്നു. ഇത് മങ്ങിയ ടെക്സ്റ്റ് കൂടുതൽ വായിക്കാൻ എളുപ്പമാക്കുന്നു, ഉള്ളടക്കത്തിനും പശ്ചാത്തലത്തിനും ഇടയിൽ വ്യക്തമായ ദൃശ്യ വേർതിരിവ് സൃഷ്ടിക്കുന്നു.
മെച്ചപ്പെടുത്തൽ അഡാപ്റ്റീവ് ആണ് - ഇത് പ്രാദേശിക ചിത്ര സവിശേഷതകളെ അടിസ്ഥാനമാക്കി തീവ്രത ക്രമീകരിക്കുന്നു. കട്ടിയുള്ള ടെക്സ്റ്റ് ഉള്ള ഒരു പേജ് ഭാഗത്തിന് ഇളം, മങ്ങിയ ടെക്സ്റ്റ് ഉള്ള ഭാഗത്തേക്കാൾ കുറഞ്ഞ മെച്ചപ്പെടുത്തൽ ലഭിക്കുന്നു. ഇത് ഇതിനകം ഇരുണ്ട ടെക്സ്റ്റ് വീർത്ത ബ്ലോബുകളാകുന്നത് തടയുന്നു, അതേസമയം മങ്ങിയ ടെക്സ്റ്റ് വായിക്കാൻ കഴിയുന്ന കോൺട്രാസ്റ്റിലേക്ക് കൊണ്ടുവരുന്നു.
നിങ്ങൾ ശ്രദ്ധിക്കുന്നത്: ടെക്സ്റ്റ് കൂടുതൽ വ്യക്തവും കറുപ്പുമായി കാണപ്പെടുന്നു. മങ്ങിയ ഭാഗങ്ങൾ വായിക്കാൻ കഴിയുന്നതായിത്തീരുന്നു. പശ്ചാത്തലം കൂടുതൽ തിളക്കമുള്ളതും ഏകീകൃതവുമായി കാണപ്പെടുന്നു.
ഘട്ടം 4: Clean Borders (ഇരുണ്ട അരികുകൾ നീക്കം ചെയ്യുക)
ബോർഡർ ക്ലീനിംഗ് സ്കാൻ ചെയ്ത പേജുകളുടെ അരികുകളിലുള്ള ഇരുണ്ട പ്രദേശങ്ങളെ കണ്ടെത്തുകയും നീക്കം ചെയ്യുകയും ചെയ്യുന്നു - സ്കാനർ ലിഡ്ഡിൽ നിന്നുള്ള നിഴലുകൾ, പേപ്പറുകൾ സ്കാൻ ഏരിയയേക്കാൾ ചെറുതായതിനാൽ ഉണ്ടാകുന്ന കറുത്ത ബാറുകൾ, പുസ്തകങ്ങളുടെ നടുഭാഗത്തുനിന്നുള്ള നിഴൽ ആർട്ടിഫാക്റ്റുകൾ.
അൽഗോരിതം പേജ് ഉള്ളടക്കത്തിന്റെ അതിർത്തി തിരിച്ചറിയുകയും അതിനു പുറത്തുള്ള എല്ലാം വൃത്തിയുള്ള വെളുത്ത ഇടം കൊണ്ട് മാറ്റിസ്ഥാപിക്കുകയും ചെയ്യുന്നു. ഇത് ബോർഡർ ആർട്ടിഫാക്റ്റുകൾ നീക്കംചെയ്യുന്നു, അതേസമയം പേജിന്റെ അരികുകളിൽ വരെ വ്യാപിച്ചുകിടക്കുന്ന ഉള്ളടക്കം സംരക്ഷിക്കുന്നു (ഹെഡറുകൾ, ഫൂട്ടറുകൾ, അല്ലെങ്കിൽ മാർജിൻ കുറിപ്പുകൾ പോലെ).
നിങ്ങൾ ശ്രദ്ധിക്കുന്നത്: ഇരുണ്ട അരികുകൾ അപ്രത്യക്ഷമാകുന്നു. പേജിന് വൃത്തിയുള്ളതും ഏകീകൃതവുമായ മാർജിനുകൾ ഉണ്ട്. പ്രിന്റ് ചെയ്ത ഔട്ട്പുട്ടിന് ഇനി ശ്രദ്ധ മാറ്റുന്ന ബോർഡറുകൾ ഉണ്ടാകില്ല.
PDFSub ഉപയോഗിച്ച് സ്കാൻ ചെയ്ത PDF എങ്ങനെ വൃത്തിയാക്കാം
ഘട്ടം ഘട്ടമായുള്ള നിർദ്ദേശങ്ങൾ
ഘട്ടം 1: ടൂൾ തുറക്കുക. pdfsub.com/tools/clean-scan സന്ദർശിക്കുക.
ഘട്ടം 2: നിങ്ങളുടെ സ്കാൻ ചെയ്ത PDF അപ്ലോഡ് ചെയ്യുക. ഫയൽ വലിച്ചിടുക അല്ലെങ്കിൽ ബ്രൗസ് ചെയ്യാൻ ക്ലിക്ക് ചെയ്യുക. PDFSub-ന്റെ സുരക്ഷിത പ്രോസസ്സിംഗ് സെർവറുകളിലേക്ക് PDF അപ്ലോഡ് ചെയ്യുന്നു.
ഘട്ടം 3: വൃത്തിയാക്കൽ ഓപ്ഷനുകൾ തിരഞ്ഞെടുക്കുക. ഏത് വൃത്തിയാക്കൽ ഘട്ടങ്ങൾ പ്രയോഗിക്കണമെന്ന് തിരഞ്ഞെടുക്കുക. എല്ലാ നാലും ഡിഫോൾട്ടായി പ്രവർത്തനക്ഷമമാക്കിയിരിക്കുന്നു, പക്ഷേ ആവശ്യമെങ്കിൽ നിങ്ങൾക്ക് ഏതെങ്കിലും ഘട്ടം പ്രവർത്തനരഹിതമാക്കാം. മിക്ക സ്കാൻ ചെയ്ത രേഖകൾക്കും, എല്ലാ നാല് ഘട്ടങ്ങളും മികച്ച ഫലങ്ങൾ നൽകുന്നു.
ഘട്ടം 4: പ്രോസസ്സ് ചെയ്യുക. വൃത്തിയാക്കൽ ബട്ടൺ ക്ലിക്ക് ചെയ്യുക. PDFSub എഞ്ചിൻ തിരഞ്ഞെടുത്ത ഘട്ടങ്ങളിലൂടെ ഓരോ പേജും പ്രോസസ്സ് ചെയ്യുന്നു. പ്രോസസ്സിംഗ് സമയം പേജുകളുടെ എണ്ണത്തെയും അവയുടെ റെസല്യൂഷനെയും ആശ്രയിച്ചിരിക്കുന്നു - ഒരു പേജിന് ഏകദേശം 2-3 സെക്കൻഡ് പ്രതീക്ഷിക്കുക.
ഘട്ടം 5: അവലോകനം ചെയ്ത് ഡൗൺലോഡ് ചെയ്യുക. ഫലങ്ങൾ പരിശോധിക്കാൻ വൃത്തിയാക്കിയ പേജുകൾ പ്രിവ്യൂ ചെയ്യുക. വൃത്തിയുള്ള PDF ഡൗൺലോഡ് ചെയ്യുക.
വൃത്തിയാക്കൽ ഘട്ടങ്ങൾ എപ്പോൾ ഇഷ്ടാനുസൃതമാക്കണം
നിങ്ങളുടെ സ്കാനുകൾ ഇതിനകം തികച്ചും വിന്യസിച്ചിട്ടുണ്ടെങ്കിൽ (ഉദാഹരണത്തിന്, നല്ല വിന്യാസമുള്ള ഒരു പ്രൊഫഷണൽ ഡോക്യുമെന്റ് സ്കാനറിൽ നിന്ന്) അല്ലെങ്കിൽ രേഖയിൽ ചരിഞ്ഞ ഉള്ളടക്കം നിലനിർത്തേണ്ടതുണ്ടെങ്കിൽ (ചരിഞ്ഞ വാട്ടർമാർക്കുകൾ പോലെ) deskew പ്രവർത്തനരഹിതമാക്കുക.
രേഖയിൽ നോയിസായി തെറ്റിദ്ധരിക്കാൻ സാധ്യതയുള്ള വളരെ ചെറിയ വിശദാംശങ്ങൾ അടങ്ങിയിട്ടുണ്ടെങ്കിൽ - സ്റ്റൈപ്പിൾ ചെയ്ത ചിത്രങ്ങൾ, ഹാഫ്ടോൺ ഫോട്ടോഗ്രാഫുകൾ, അല്ലെങ്കിൽ ബോധപൂർവ്വം ടെക്സ്ചർ ചെയ്ത പശ്ചാത്തലങ്ങളുള്ള രേഖകൾ - denoising പ്രവർത്തനരഹിതമാക്കുക.
യഥാർത്ഥ സ്കാനിന് ഇതിനകം നല്ല കോൺട്രാസ്റ്റ് ഉണ്ടെങ്കിൽ കോൺട്രാസ്റ്റ് മെച്ചപ്പെടുത്തൽ കുറയ്ക്കുക. അമിതമായ മെച്ചപ്പെടുത്തൽ ടെക്സ്റ്റ് ഉദ്ദേശിച്ചതിലും കട്ടിയുള്ളതായി കാണപ്പെടാൻ ഇടയാക്കും.
പേജിന്റെ അരികുകളിൽ വരെ ഉള്ളടക്കം വ്യാപിച്ചിട്ടുണ്ടെങ്കിൽ, അല്ലെങ്കിൽ ഇരുണ്ട ബോർഡറുകളിൽ ഉപയോഗപ്രദമായ വിവരങ്ങൾ അടങ്ങിയിട്ടുണ്ടെങ്കിൽ (ക്രോപ്പ് മാർക്കുകൾ അല്ലെങ്കിൽ രജിസ്ട്രേഷൻ മാർക്കുകൾ പോലെ) ബോർഡർ ക്ലീനിംഗ് പ്രവർത്തനരഹിതമാക്കുക.
വൃത്തിയാക്കൽ OCR-നൊപ്പം ജോമെയിപ്പിക്കുന്നത്
സ്കാൻ ചെയ്ത PDF-കൾ വൃത്തിയാക്കുന്നതിനുള്ള ഏറ്റവും ആകർഷകമായ കാരണങ്ങളിലൊന്ന് OCR കൃത്യതയിലെ ഗണ്യമായ മെച്ചപ്പെടുത്തലാണ്. OCR എഞ്ചിനുകൾ അറിയപ്പെടുന്ന അക്ഷര രൂപങ്ങളുടെ ഒരു ഡാറ്റാബേസിനെതിരെ അക്ഷരങ്ങളുടെ ആകൃതികൾ വിശകലനം ചെയ്തുകൊണ്ടാണ് പ്രവർത്തിക്കുന്നത്. അക്ഷര രൂപങ്ങളെ ഏതെങ്കിലും തരത്തിൽ മോശമാക്കുന്ന എന്തും - നോയിസ്, ചരിവ്, കുറഞ്ഞ കോൺട്രാസ്റ്റ്, അല്ലെങ്കിൽ ബോർഡർ ആർട്ടിഫാക്റ്റുകൾ - OCR കൃത്യതയെ മോശമാക്കുന്നു.
കൃത്യത മെച്ചപ്പെടുത്തൽ
OCR പ്രവർത്തിപ്പിക്കുന്നതിന് മുമ്പ് ഒരു സ്കാൻ ചെയ്ത PDF വൃത്തിയാക്കുന്നത് സാധാരണയായി അക്ഷര തിരിച്ചറിയൽ കൃത്യത 5-15 ശതമാനം പോയിന്റുകൾ വർദ്ധിപ്പിക്കുന്നു. വളരെ നോയിസുള്ള അല്ലെങ്കിൽ ചരിഞ്ഞ സ്കാനിൽ, മെച്ചപ്പെടുത്തൽ ഇതിലും നാടകീയമായിരിക്കും.
- Skew correction മാത്രം OCR കൃത്യത 3-8% മെച്ചപ്പെടുത്താൻ കഴിയും. OCR എഞ്ചിനുകൾ തിരശ്ചീന ടെക്സ്റ്റ് ലൈനുകൾ പ്രതീക്ഷിക്കുന്നു - ചെറിയ ചരിവ് പോലും വാക്കുകൾ വിഭജിക്കുന്നതിൽ പിശകുകൾക്ക് കാരണമാകുന്നു.
- Noise removal തെറ്റായ അക്ഷര കണ്ടെത്തൽ തടയുന്നു. മാർജിനുകളിലെ ക്രമരഹിതമായ ഡോട്ടുകൾ അക്ഷരങ്ങളോ വിരാമചിഹ്നങ്ങളോ ആയി തെറ്റായി തിരിച്ചറിയപ്പെടുന്നില്ല.
- Contrast enhancement OCR എഞ്ചിന് പശ്ചാത്തലത്തിൽ നിന്ന് അക്ഷരങ്ങളെ വേർതിരിച്ചറിയാൻ സഹായിക്കുന്നു, പ്രത്യേകിച്ച് മങ്ങിയതോ ഇളം നിറമുള്ളതോ ആയ ടെക്സ്റ്റിൽ.
ശുപാർശ ചെയ്യുന്ന വർക്ക്ഫ്ലോ
മികച്ച ഫലങ്ങൾക്കായി, ആദ്യം സ്കാൻ വൃത്തിയാക്കുക, തുടർന്ന് OCR പ്രവർത്തിപ്പിക്കുക:
- PDFSub-ന്റെ Clean Scanned PDF ടൂളിലേക്ക് സ്കാൻ ചെയ്ത PDF അപ്ലോഡ് ചെയ്യുക
- വൃത്തിയാക്കിയ പതിപ്പ് ഡൗൺലോഡ് ചെയ്യുക
- വൃത്തിയാക്കിയ PDF PDFSub-ന്റെ OCR ടൂളിലേക്ക് അപ്ലോഡ് ചെയ്യുക
- തിരയാനും തിരഞ്ഞെടുക്കാനും കഴിയുന്ന PDF ഡൗൺലോഡ് ചെയ്യുക
ഈ രണ്ട്-ഘട്ട പ്രക്രിയ വൃത്തിഹീനമായ സ്കാനിൽ നേരിട്ട് OCR പ്രവർത്തിപ്പിക്കുന്നതിനേക്കാൾ മികച്ച ഫലങ്ങൾ നൽകുന്നു.
സാധാരണ സാഹചര്യങ്ങൾ
ഓഫീസ് ഡോക്യുമെന്റ് സ്കാനുകൾ
ഏറ്റവും സാധാരണമായ കേസ്: കരാറുകൾ, കത്തുകൾ, ഫോമുകൾ, ഓഫീസ് മൾട്ടിഫങ്ക്ഷൻ പ്രിന്ററിൽ സ്കാൻ ചെയ്ത റിപ്പോർട്ടുകൾ. ഇവയ്ക്ക് സാധാരണയായി നാല് വൃത്തിയാക്കൽ ഘട്ടങ്ങളും ആവശ്യമാണ് - ADF ചരിവ് അവതരിപ്പിക്കുന്നു, സ്കാനർ നോയിസ് ചേർക്കുന്നു, ഫ്ലാറ്റ്ബെഡിൽ മുഖം താഴേക്ക് സ്കാൻ ചെയ്ത രേഖകൾക്ക് ബോർഡർ നിഴലുകൾ ഉണ്ട്.
പുസ്തകങ്ങളുടെയും മാസികകളുടെയും പേജുകൾ
ബൈൻഡ് ചെയ്ത വസ്തുക്കൾ സ്കാൻ ചെയ്യുന്നത് അതുല്യമായ ആർട്ടിഫാക്റ്റുകൾ സൃഷ്ടിക്കുന്നു: നടുഭാഗത്തിനടുത്തുള്ള വളഞ്ഞ പേജ് വികലമാവുകയും നിഴൽ സൃഷ്ടിക്കുകയും ചെയ്യുന്നു, പേജുകൾ ബൈൻഡിംഗ് കോണിൽ നിന്ന് അല്പം ചരിഞ്ഞതായിരിക്കാം, കട്ടിയുള്ള നടുഭാഗം ഒരു വശത്ത് ഒരു ഇരുണ്ട ബാൻഡ് സൃഷ്ടിക്കുന്നു. ഈ സ്കാനുകൾക്ക് ബോർഡർ ക്ലീനിംഗും ഡെസ്ക്യൂവും പ്രത്യേകിച്ച് പ്രധാനമാണ്.
ചരിത്രപരവും ആർക്കൈവൽ രേഖകളും
പഴയ രേഖകളിൽ മഞ്ഞനിറമുള്ള പേപ്പറുകൾ, മങ്ങിയ മഷി, ഫോക്സിംഗ് (പ്രായം കാരണം തവിട്ടുനിറമുള്ള പാടുകൾ), ഭൗതിക കേടുപാടുകൾ എന്നിവയുണ്ട്. ഈ രേഖകൾക്ക് കോൺട്രാസ്റ്റ് മെച്ചപ്പെടുത്തൽ ഏറ്റവും സ്വാധീനം ചെലുത്തുന്ന ഘട്ടമാണ് - ഇത് മങ്ങിയ ടെക്സ്റ്റ് വായിക്കാൻ കഴിയുന്ന നിലയിലേക്ക് തിരികെ കൊണ്ടുവരുന്നു. ചരിത്രപരമായ രേഖകളിൽ ഡീനോയിസ് ശ്രദ്ധയോടെ ചെയ്യുക, കാരണം ചില ദൃശ്യ ആർട്ടിഫാക്റ്റുകൾ ചരിത്രപരമായി പ്രാധാന്യമുള്ളവയായിരിക്കാം.
രസീതുകളും തെർമൽ പ്രിന്റുകളും
തെർമൽ പേപ്പർ (രസീത് പ്രിന്ററുകളിൽ ഉപയോഗിക്കുന്നത്) വേഗത്തിൽ മങ്ങുകയും മോശമായി സ്കാൻ ചെയ്യുകയും ചെയ്യുന്നു. ടെക്സ്റ്റ് കറുപ്പിന് പകരം ഇളം ചാരനിറമായിരിക്കും, പേപ്പർ ഒരു പാടുകളായ രൂപം വികസിപ്പിക്കുന്നു. സംരക്ഷിക്കാൻ വളരെ ചെറിയ വിശദാംശങ്ങൾ ഉണ്ടാകാത്തതിനാൽ തെർമൽ പ്രിന്റുകൾക്ക് കർശനമായ കോൺട്രാസ്റ്റ് മെച്ചപ്പെടുത്തലും ഡീനോയിസിംഗും നന്നായി പ്രവർത്തിക്കുന്നു.
മൾട്ടി-പേജ് ഫോമുകൾ
സർക്കാർ ഫോമുകൾ, നികുതി രേഖകൾ, അപേക്ഷ പാക്കറ്റുകൾ എന്നിവയിൽ പലപ്പോഴും വൃത്തിയാക്കൽ സങ്കീർണ്ണമാക്കുന്ന പ്രീ-പ്രിന്റ് ചെയ്ത ബോക്സുകൾ, ലൈനുകൾ, ഷേഡിംഗ് എന്നിവയുണ്ട്. വൃത്തിയാക്കൽ എഞ്ചിൻ ഇവയെ നന്നായി കൈകാര്യം ചെയ്യുന്നു - പ്രീ-പ്രിന്റ് ചെയ്ത ഘടകങ്ങൾ ഡീനോയിസിംഗ് അതിജീവിക്കാൻ പര്യാപ്തമാണ്, ഡെസ്ക്യൂ മുഴുവൻ ഫോമും ശരിയായി വിന്യസിക്കുന്നു.
പതിവായി ചോദിക്കുന്ന ചോദ്യങ്ങൾ
വൃത്തിയാക്കൽ എന്റെ രേഖയുടെ ഉള്ളടക്കം മാറ്റുമോ?
ഇല്ല. വൃത്തിയാക്കൽ സ്കാൻ ചെയ്ത ചിത്രത്തിന്റെ ദൃശ്യ ഗുണത്തെ മാത്രമേ ബാധിക്കുകയുള്ളൂ - ഇത് നിവർത്തുന്നു, നോയിസ് നീക്കംചെയ്യുന്നു, കോൺട്രാസ്റ്റ് മെച്ചപ്പെടുത്തുന്നു, ബോർഡറുകൾ വൃത്തിയാക്കുന്നു. ഇത് ടെക്സ്റ്റോ ഉള്ളടക്കമോ ചേർക്കുകയോ നീക്കം ചെയ്യുകയോ പരിഷ്ക്കരിക്കുകയോ ചെയ്യുന്നില്ല. പേജിലെ വിവരങ്ങൾ അതേപടി നിലനിൽക്കുന്നു.
സ്കാൻ ചെയ്യാത്ത PDF വൃത്തിയാക്കാൻ കഴിയുമോ?
വൃത്തിയാക്കൽ ടൂൾ സ്കാൻ ചെയ്ത PDF-കൾക്കായി രൂപകൽപ്പന ചെയ്തിട്ടുള്ളതാണ് - ഓരോ പേജും ഒരു റാസ്റ്റർ ചിത്രമായ രേഖകൾ. ഇത് സ്കാൻ ചെയ്യാത്ത PDF-ന് ദോഷം ചെയ്യില്ല, പക്ഷേ വൃത്തിയാക്കൽ ഘട്ടങ്ങൾ സ്കാനിംഗ് ആർട്ടിഫാക്റ്റുകൾക്കായി പ്രത്യേകം രൂപകൽപ്പന ചെയ്തതാണ്, ഡിജിറ്റൽ ഉറവിടങ്ങളിൽ നിന്ന് സൃഷ്ടിച്ച PDF-നെ (വേഡ് എക്സ്പോർട്ട് പോലെ) അർത്ഥവത്തായി മെച്ചപ്പെടുത്തില്ല.
വൃത്തിയാക്കൽ ഫയൽ വലുപ്പം എത്രത്തോളം കുറയ്ക്കും?
ഇത് വ്യത്യാസപ്പെടുന്നു, പക്ഷേ വൃത്തിയാക്കൽ സാധാരണയായി ഫയൽ വലുപ്പം 20-40% കുറയ്ക്കുന്നു. നോയിസ് നീക്കംചെയ്യൽ ഒരു പേജിന് ആയിരക്കണക്കിന് അനാവശ്യ പിക്സലുകൾ നീക്കംചെയ്യുന്നു. ബോർഡർ ക്ലീനിംഗ് വലിയ ഇരുണ്ട പ്രദേശങ്ങൾ നീക്കംചെയ്യുന്നു. കോൺട്രാസ്റ്റ് മെച്ചപ്പെടുത്തൽ കൂടുതൽ ഏകീകൃത പശ്ചാത്തലങ്ങൾ സൃഷ്ടിക്കുന്നതിലൂടെ കംപ്രഷൻ കാര്യക്ഷമത മെച്ചപ്പെടുത്താൻ കഴിയും. 80 MB ആയിരുന്ന 50 പേജുള്ള സ്കാൻ ചെയ്ത രേഖ വൃത്തിയാക്കിയ ശേഷം 50-60 MB ആയി കുറഞ്ഞേക്കാം.
വൃത്തിയാക്കൽ കളർ സ്കാനുകളിൽ പ്രവർത്തിക്കുമോ?
അതെ. നാല് വൃത്തിയാക്കൽ ഘട്ടങ്ങളും കളർ, ഗ്രേസ്കെയിൽ, ബ്ലാക്ക്-ആൻഡ്-വൈറ്റ് സ്കാനുകളിൽ പ്രവർത്തിക്കുന്നു. കളർ സ്കാനുകൾ പശ്ചാത്തല നോർമലൈസേഷനും ബോർഡർ ക്ലീനിംഗും കൊണ്ട് പ്രത്യേകിച്ച് പ്രയോജനപ്പെടുന്നു. ടെക്സ്റ്റ് വായനാക്ഷമത മെച്ചപ്പെടുത്തുമ്പോൾ കളർ വിവരങ്ങൾ സംരക്ഷിക്കുന്ന രീതിയിലാണ് കോൺട്രാസ്റ്റ് മെച്ചപ്പെടുത്തൽ പ്രയോഗിക്കുന്നത്.
ഫലം ഇഷ്ടപ്പെട്ടില്ലെങ്കിൽ വൃത്തിയാക്കൽ റദ്ദാക്കാൻ കഴിയുമോ?
വൃത്തിയാക്കൽ ഒരു പുതിയ ഫയൽ സൃഷ്ടിക്കുന്നു - നിങ്ങളുടെ യഥാർത്ഥ PDF ഒരിക്കലും പരിഷ്ക്കരിക്കപ്പെടുന്നില്ല. വൃത്തിയാക്കൽ തൃപ്തികരമല്ലെങ്കിൽ, നിങ്ങളുടെ യഥാർത്ഥ ഫയലിലേക്ക് തിരികെ പോകുക. ഈ കാരണത്താൽ, എപ്പോഴും വൃത്തിയാക്കിയ പതിപ്പിനൊപ്പം യഥാർത്ഥ സ്കാൻ സൂക്ഷിക്കുക.
സംഗ്രഹം
സ്കാൻ ചെയ്ത PDF-കൾ വൃത്തിയാക്കുന്നത് നാല് ഘട്ടങ്ങളുള്ള ഒരു പ്രക്രിയയാണ്, ഇത് വൃത്തിഹീനമായ സ്കാനുകളെ പ്രൊഫഷണൽ രേഖകളാക്കി മാറ്റുന്നു:
| ഘട്ടം | ഇത് പരിഹരിക്കുന്നത് | സ്വാധീനം |
|---|---|---|
| Deskew | ചരിഞ്ഞ പേജുകൾ | നിവർന്ന, പ്രൊഫഷണൽ രൂപം |
| Denoise | പുള്ളികളും ഡോട്ടുകളും | വൃത്തിയുള്ള പശ്ചാത്തലം, വ്യക്തമായ ടെക്സ്റ്റ് |
| Enhance | മങ്ങിയ, കുറഞ്ഞ കോൺട്രാസ്റ്റ് ടെക്സ്റ്റ് | വായിക്കാൻ കഴിയുന്ന, പ്രിന്റ് ചെയ്യാവുന്ന ഔട്ട്പുട്ട് |
| Clean borders | ഇരുണ്ട അരികുകളും നിഴലുകളും | ഏകീകൃത മാർജിനുകൾ, ആർട്ടിഫാക്റ്റുകൾ ഇല്ല |
ഓരോ ഘട്ടവും സ്വതന്ത്രമാണ്, ഓൺ അല്ലെങ്കിൽ ഓഫ് ടോഗിൾ ചെയ്യാൻ കഴിയും. മിക്ക സ്കാൻ ചെയ്ത രേഖകൾക്കും, എല്ലാ നാല് ഘട്ടങ്ങളും പ്രവർത്തിപ്പിക്കുന്നത് മികച്ച ഫലം നൽകുന്നു. വൃത്തിയാക്കിയ ഔട്ട്പുട്ട് ഫയൽ വലുപ്പത്തിൽ ചെറുതാണ്, രൂപത്തിൽ പ്രൊഫഷണലാണ്, നിങ്ങൾക്ക് തിരയാൻ കഴിയുന്ന ടെക്സ്റ്റ് പിന്നീട് ആവശ്യമുണ്ടെങ്കിൽ ഗണ്യമായി മികച്ച OCR ഫലങ്ങൾ നൽകുന്നു.
നിങ്ങളുടെ സ്കാനുകൾ വൃത്തിയാക്കാൻ തയ്യാറാണോ? PDFSub-ന്റെ Clean Scanned PDF ടൂൾ പരീക്ഷിക്കുക - നിങ്ങളുടെ സ്കാൻ ചെയ്ത PDF അപ്ലോഡ് ചെയ്യുക, സെക്കൻഡുകൾക്കുള്ളിൽ വൃത്തിയുള്ളതും പ്രൊഫഷണലായതുമായ ഫലം നേടുക.