आपने दस्तावेजों का एक ढेर स्कैन किया, और परिणाम... खुरदरा दिखता है। पृष्ठ थोड़े झुके हुए हैं। सफेद पृष्ठभूमि में पीले रंग की झलक के साथ धब्बे और निशान हैं। जो पाठ कागज पर बिल्कुल स्पष्ट था, वह स्क्रीन पर फीका और धुंधला दिखता है। गहरे छाया किनारों के साथ रेंगती हैं जहां पृष्ठ स्कैनर ग्लास पर सपाट नहीं बैठा था।

स्कैनिंग की यही वास्तविकता है। यहां तक कि अच्छे स्कैनर भी सावधान ऑपरेटरों के साथ अपूर्ण परिणाम देते हैं। कागज फीडिंग के दौरान खिसक जाता है। फ्लैटबेड स्कैनर धूल के हर कण को उठाते हैं। पुराने दस्तावेजों में पीले कागज, फीकी स्याही और भौतिक क्षति होती है जिसे स्कैनर निष्ठापूर्वक पुन: उत्पन्न करता है। परिणाम एक PDF है जो तकनीकी रूप से कार्यात्मक है लेकिन अव्यवसायिक दिखती है और पढ़ने में मुश्किल हो सकती है।

स्कैन की गई PDF को साफ़ करने से इन गंदी स्कैन को साफ, पेशेवर दस्तावेजों में बदल दिया जाता है - सीधे पृष्ठों, सफेद पृष्ठभूमि, कुरकुरा पाठ और कोई सीमा कलाकृतियों के साथ। इससे भी बेहतर, यदि आप बाद में पाठ को खोजने योग्य और चयन योग्य बनाने के लिए OCR चलाते हैं तो साफ स्कैन नाटकीय रूप से बेहतर परिणाम देते हैं।

यहां बताया गया है कि आपकी स्कैन की गई PDF को कैसे साफ़ करें, प्रत्येक सफाई चरण क्या करता है, और OCR के साथ सफाई को कब जोड़ा जाए।

How to clean up a scanned PDF - remove noise, straighten pages, and enhance text clarity

स्कैन की गई PDF को सफाई की आवश्यकता क्यों है?

यह समझना कि गंदगी क्या बनाती है, आपको यह जानने में मदद करती है कि आपके दस्तावेजों के लिए कौन से सफाई चरण सबसे अधिक मायने रखते हैं।

तिरछापन (झुके हुए पृष्ठ)

जब कागज एक दस्तावेज़ स्कैनर के माध्यम से थोड़ी सी भी कोण पर फ़ीड होता है - आधा डिग्री ध्यान देने योग्य होने के लिए पर्याप्त है - तो परिणामी छवि झुकी हुई होती है। यह कुछ हद तक हर स्वचालित दस्तावेज़ फीडर (ADF) के साथ होता है। मानव आंख तिरछेपन के प्रति आश्चर्यजनक रूप से संवेदनशील होती है - एक पृष्ठ जो केवल एक डिग्री झुका हुआ है, वह स्पष्ट रूप से टेढ़ा दिखता है, जिससे दस्तावेज़ सुस्त और अव्यवसायिक लगता है।

तिरछापन OCR सटीकता पर भी कहर बरपाता है। OCR इंजन पाठ को क्षैतिज रेखाओं में चलने की उम्मीद करते हैं। जब पूरा पृष्ठ घुमाया जाता है, तो पाठ पहचान एल्गोरिदम को रेखा की सीमाओं की पहचान करने में कठिनाई होती है, जिससे अव्यवस्थित शब्द, छूटे हुए अक्षर और टूटे हुए पैराग्राफ होते हैं।

शोर (धब्बे और बिंदु)

स्कैनर शोर कई स्रोतों से आता है: स्कैनर ग्लास पर धूल, उच्च रिज़ॉल्यूशन पर कैप्चर किया गया कागज बनावट, स्कैनर के सेंसर में विद्युत शोर, और स्कैनिंग ऑप्टिक्स से कलाकृतियाँ। परिणाम पृष्ठ पर बिखरे हुए यादृच्छिक बिंदु और धब्बे हैं - सफेद पृष्ठभूमि पर सबसे अधिक दिखाई देते हैं लेकिन पूरी छवि में मौजूद होते हैं।

शोर विशेष रूप से सफेद मार्जिन और पाठ रेखाओं के बीच समस्याग्रस्त है, जहां यह दृश्य अव्यवस्था पैदा करता है। OCR के लिए, शोर बिंदु विराम चिह्न, डायक्रिटिकल अंक, या वर्णों के भागों के रूप में गलत व्याख्या किए जा सकते हैं - OCR त्रुटियों का एक सामान्य स्रोत।

फीका पाठ

समय के साथ, स्याही फीकी पड़ जाती है। लेजर प्रिंट अच्छी तरह से टिके रहते हैं, लेकिन इंकजेट प्रिंट, फोटोकॉपियां और कार्बन प्रतियां काफी फीकी पड़ जाती हैं। अपेक्षाकृत हाल के दस्तावेजों में भी असमान प्रिंट घनत्व हो सकता है - जहां टोनर ताजा था वहां गहरा, जहां यह कम चल रहा था वहां हल्का।

फीका पाठ स्क्रीन पर पढ़ना मुश्किल है और खराब प्रिंट होता है। यह OCR सटीकता को भी कम करता है क्योंकि एल्गोरिदम को वर्णों को मज़बूती से पहचानने के लिए पाठ और पृष्ठभूमि के बीच स्पष्ट कंट्रास्ट की आवश्यकता होती है।

गहरे बॉर्डर और छाया

जब कोई पृष्ठ स्कैनर की पूरी सतह को कवर नहीं करता है - या जब किसी पुस्तक की रीढ़ छाया बनाती है - तो स्कैन गहरे बॉर्डर और छाया क्षेत्रों को कैप्चर करता है। ये स्कैनिंग प्रक्रिया की केवल कलाकृतियाँ हैं और दस्तावेज़ में कोई उद्देश्य पूरा नहीं करती हैं। वे प्रिंट होने पर टोनर बर्बाद करते हैं और दस्तावेज़ को एक प्रतिलिपि की प्रतिलिपि की तरह दिखाते हैं।

असमान पृष्ठभूमि

कागज पूरी तरह से सफेद नहीं होता है। पुराने दस्तावेज पीले हो गए हैं। पुनर्नवीनीकरण कागज में एक भूरा रंग होता है। कुछ दस्तावेजों में रंगीन कागज होता है। जब स्कैन किया जाता है, तो पृष्ठभूमि के इन विविधताओं को पिक्सेल डेटा के रूप में कैप्चर किया जाता है - फ़ाइल आकार में मेगाबाइट जोड़ते हुए पठनीयता में कुछ भी योगदान नहीं करते हुए।

चार सफाई चरण

PDFSub का साफ़ स्कैन PDF टूल चार सफाई चरणों के माध्यम से दस्तावेजों को संसाधित करता है, प्रत्येक एक विशिष्ट प्रकार की स्कैनिंग कलाकृति को लक्षित करता है।

चरण 1: तिरछापन हटाना (पृष्ठों को सीधा करें)

तिरछापन हटाना प्रत्येक पृष्ठ पर प्रमुख पाठ कोण का पता लगाता है और पाठ को पूरी तरह से क्षैतिज बनाने के लिए छवि को घुमाता है। एल्गोरिदम पृष्ठ पर गहरे पिक्सेल (पाठ) के वितरण का विश्लेषण करता है, आवश्यक रोटेशन के कोण को निर्धारित करता है, और इसे उप-डिग्री परिशुद्धता के साथ लागू करता है।

अधिकांश पृष्ठों को 0.3 से 2 डिग्री के सुधार की आवश्यकता होती है। प्रक्रिया स्वचालित है - आपको कोण निर्दिष्ट करने की आवश्यकता नहीं है। प्रत्येक पृष्ठ का स्वतंत्र रूप से विश्लेषण और सुधार किया जाता है, इसलिए एक दस्तावेज़ जहां पृष्ठ 3 बाईं ओर झुका हुआ है और पृष्ठ 7 दाईं ओर झुका हुआ है, दोनों सुधार सही ढंग से लागू होते हैं।

आप क्या देखेंगे: जो पाठ रेखाएं थोड़ी तिरछी दिखती थीं वे पूरी तरह से क्षैतिज हो जाती हैं। सुधार तुरंत दिखाई देता है और दस्तावेज़ को काफी अधिक पेशेवर बनाता है।

चरण 2: शोर हटाना (धब्बे हटाएँ)

शोर हटाना छोटी अलग-अलग चिह्नों की पहचान करता है और उन्हें हटाता है जो दस्तावेज़ सामग्री का हिस्सा नहीं हैं। एल्गोरिदम शोर (यादृच्छिक छोटे बिंदु) और वास्तविक सामग्री (पाठ, रेखाएं, चित्र) के बीच आकार, आकृति और संदर्भ के आधार पर अंतर करता है।

मुख्य चुनौती अवधि, अल्पविराम, दशमलव बिंदु और डायक्रिटिकल चिह्नों जैसे महीन विवरणों को नुकसान पहुंचाए बिना शोर को हटाना है। PDFSub का सफाई इंजन अनुकूली थ्रेशोल्डिंग का उपयोग करता है जो आसपास के संदर्भ पर विचार करता है - एक सफेद मार्जिन के बीच में एक छोटा बिंदु शोर है, जबकि एक वाक्य के अंत में एक छोटा बिंदु एक अवधि है।

आप क्या देखेंगे: पृष्ठभूमि साफ हो जाती है, मार्जिन कुरकुरा दिखते हैं, और समग्र दस्तावेज़ कम "दानेदार" दिखाई देता है। भारी शोर वाले स्कैन पर, सुधार नाटकीय होता है।

चरण 3: कंट्रास्ट बढ़ाएँ

कंट्रास्ट वृद्धि पाठ (गहरे) और पृष्ठभूमि (हल्के) के बीच अंतर को बढ़ाती है। यह फीके पाठ को अधिक पठनीय बनाता है और सामग्री और पृष्ठभूमि के बीच एक साफ दृश्य अलगाव बनाता है।

वृद्धि अनुकूली है - यह स्थानीय छवि विशेषताओं के आधार पर तीव्रता को समायोजित करती है। बोल्ड पाठ वाले पृष्ठ अनुभाग को हल्के, फीके पाठ वाले अनुभाग की तुलना में कम वृद्धि मिलती है। यह पहले से ही गहरे पाठ को फूले हुए धब्बों में बदलने से रोकता है, जबकि फीके पाठ को पठनीय कंट्रास्ट तक लाता है।

आप क्या देखेंगे: पाठ तेज और काला दिखाई देता है। फीके हिस्से पठनीय हो जाते हैं। पृष्ठभूमि उज्जवल और अधिक समान दिखाई देती है।

चरण 4: बॉर्डर साफ़ करें (गहरे किनारों को हटाएँ)

बॉर्डर सफाई स्कैन किए गए पृष्ठों के किनारों के आसपास के गहरे क्षेत्रों का पता लगाती है और उन्हें हटाती है - स्कैनर ढक्कन से छाया, पृष्ठ क्षेत्र से छोटे पृष्ठों की काली पट्टियाँ, और पुस्तक रीढ़ से छाया कलाकृतियाँ।

एल्गोरिथम पृष्ठ सामग्री की सीमा की पहचान करता है और इसके बाहर की हर चीज़ को साफ सफेद स्थान से बदल देता है। यह सीमा कलाकृतियों को हटाता है जबकि पृष्ठ के किनारे तक फैली सामग्री (जैसे हेडर, फुटर, या मार्जिन नोट्स) को संरक्षित करता है।

आप क्या देखेंगे: गहरे किनारे गायब हो जाते हैं। पृष्ठ में साफ, समान मार्जिन होते हैं। मुद्रित आउटपुट में अब विचलित करने वाले बॉर्डर नहीं होते हैं।

PDFSub के साथ स्कैन की गई PDF को कैसे साफ़ करें

चरण-दर-चरण निर्देश

चरण 1: टूल खोलें। pdfsub.com/tools/clean-scan पर नेविगेट करें।

चरण 2: अपनी स्कैन की गई PDF अपलोड करें। फ़ाइल को ड्रैग और ड्रॉप करें या ब्राउज़ करने के लिए क्लिक करें। PDF PDFSub के सुरक्षित प्रसंस्करण सर्वर पर अपलोड हो जाती है।

चरण 3: सफाई विकल्प चुनें। चुनें कि कौन से सफाई चरण लागू करने हैं। सभी चार डिफ़ॉल्ट रूप से सक्षम हैं, लेकिन यदि आवश्यक हो तो आप किसी भी चरण को अक्षम कर सकते हैं। अधिकांश स्कैन किए गए दस्तावेजों के लिए, सभी चार चरण सर्वोत्तम परिणाम देते हैं।

चरण 4: संसाधित करें। सफाई बटन पर क्लिक करें। PDFSub Engine चयनित चरणों के माध्यम से प्रत्येक पृष्ठ को संसाधित करता है। प्रसंस्करण समय पृष्ठों की संख्या और उनके रिज़ॉल्यूशन पर निर्भर करता है - प्रति पृष्ठ लगभग 2-3 सेकंड की अपेक्षा करें।

चरण 5: समीक्षा करें और डाउनलोड करें। परिणामों को सत्यापित करने के लिए साफ किए गए पृष्ठों का पूर्वावलोकन करें। साफ PDF डाउनलोड करें।

सफाई चरणों को कब अनुकूलित करें

तिरछापन हटाना अक्षम करें यदि आपके स्कैन पहले से ही पूरी तरह से संरेखित हैं (जैसे, अच्छे संरेखण वाले पेशेवर दस्तावेज़ स्कैनर से) या यदि दस्तावेज़ में तिरछी सामग्री है जिसे तिरछा रहना चाहिए (जैसे तिरछे वॉटरमार्क)।

शोर हटाना अक्षम करें यदि दस्तावेज़ में बहुत महीन विवरण है जिसे शोर के रूप में गलत समझा जा सकता है - बिंदीदार कलाकृति, हैफ़टोन तस्वीरें, या जानबूझकर बनावट वाली पृष्ठभूमि वाले दस्तावेज़।

कंट्रास्ट वृद्धि कम करें यदि मूल स्कैन में पहले से ही अच्छा कंट्रास्ट है। अति-वृद्धि पाठ को इच्छित से अधिक मोटा बना सकती है।

बॉर्डर सफाई अक्षम करें यदि दस्तावेज़ में पृष्ठ के बिल्कुल किनारे तक फैली हुई सामग्री है, या यदि गहरे बॉर्डर में उपयोगी जानकारी है (जैसे क्रॉप मार्क या पंजीकरण चिह्न)।

सफाई को OCR के साथ जोड़ना

स्कैन किए गए PDF को साफ करने के सबसे सम्मोहक कारणों में से एक OCR सटीकता में नाटकीय सुधार है। OCR इंजन ज्ञात अक्षर रूपों के डेटाबेस के विरुद्ध वर्णों के आकार का विश्लेषण करके काम करते हैं। कुछ भी जो वर्ण आकृतियों को ख़राब करता है - शोर, तिरछापन, कम कंट्रास्ट, या सीमा कलाकृतियाँ - OCR सटीकता को ख़राब करता है।

सटीकता में सुधार

OCR चलाने से पहले स्कैन की गई PDF को साफ करने से आमतौर पर वर्ण पहचान सटीकता में 5-15 प्रतिशत अंकों का सुधार होता है। भारी शोर या तिरछे स्कैन पर, सुधार और भी नाटकीय हो सकता है।

तिरछापन सुधार अकेले OCR सटीकता में 3-8% सुधार कर सकता है। OCR इंजन क्षैतिज पाठ रेखाओं की उम्मीद करते हैं - यहां तक कि मामूली तिरछापन भी शब्द विभाजन त्रुटियों का कारण बनता है।
शोर हटाना झूठे वर्ण पहचान को रोकता है। मार्जिन में यादृच्छिक बिंदु अक्षरों या विराम चिह्नों के रूप में गलत पहचाने नहीं जाते हैं।
कंट्रास्ट वृद्धि OCR इंजन को पृष्ठभूमि से वर्णों को अलग करने में मदद करती है, खासकर फीके या हल्के पाठ के साथ।

अनुशंसित वर्कफ़्लो

सर्वोत्तम परिणामों के लिए, पहले स्कैन को साफ करें, फिर OCR चलाएं:

स्कैन की गई PDF को PDFSub के साफ़ स्कैन PDF टूल पर अपलोड करें
साफ किया हुआ संस्करण डाउनलोड करें
साफ की गई PDF को PDFSub के OCR टूल पर अपलोड करें
खोजने योग्य, चयन योग्य PDF डाउनलोड करें

यह दो-चरणीय प्रक्रिया एक गंदे स्कैन पर सीधे OCR चलाने की तुलना में बेहतर परिणाम देती है।

सामान्य परिदृश्य

कार्यालय दस्तावेज़ स्कैन

सबसे आम मामला: अनुबंध, पत्र, फॉर्म और रिपोर्ट एक कार्यालय मल्टीफ़ंक्शन प्रिंटर पर स्कैन किए गए। इन सभी को आमतौर पर चारों सफाई चरणों की आवश्यकता होती है - ADF तिरछापन पेश करता है, स्कैनर शोर जोड़ता है, और फ्लैटबेड पर फेस-डाउन स्कैन किए गए दस्तावेजों में बॉर्डर छाया होती है।

पुस्तक और पत्रिका पृष्ठ

बाउंड सामग्री को स्कैन करने से अद्वितीय कलाकृतियाँ बनती हैं: रीढ़ के पास घुमावदार पृष्ठ विकृति और छाया पैदा करता है, पृष्ठ बाइंडिंग कोण से थोड़े तिरछे हो सकते हैं, और मोटी रीढ़ एक किनारे के साथ एक अंधेरा बैंड बनाती है। इन स्कैन के लिए बॉर्डर सफाई और तिरछापन हटाना विशेष रूप से महत्वपूर्ण है।

ऐतिहासिक और पुरालेखीय दस्तावेज़

पुराने दस्तावेजों में पीले कागज, फीकी स्याही, फॉक्सिंग (उम्र बढ़ने से भूरे धब्बे), और भौतिक क्षति होती है। इन दस्तावेजों के लिए कंट्रास्ट वृद्धि सबसे प्रभावशाली कदम है - यह फीके पाठ को पठनीयता तक वापस लाता है। ऐतिहासिक दस्तावेजों पर सावधानी से शोर हटाना, क्योंकि कुछ दृश्य कलाकृतियाँ ऐतिहासिक रूप से महत्वपूर्ण हो सकती हैं।

रसीदें और थर्मल प्रिंट

थर्मल पेपर (रसीद प्रिंटर में प्रयुक्त) तेजी से फीका पड़ता है और खराब स्कैन होता है। पाठ अक्सर काले के बजाय हल्का ग्रे होता है, और कागज एक धब्बेदार रूप विकसित करता है। आक्रामक कंट्रास्ट वृद्धि और शोर हटाना थर्मल प्रिंट के लिए अच्छी तरह से काम करता है क्योंकि संरक्षित करने के लिए शायद ही कभी कोई महीन विवरण होता है।

बहु-पृष्ठ फ़ॉर्म

सरकारी फॉर्म, कर दस्तावेज और आवेदन पैकेट में अक्सर पूर्व-मुद्रित बक्से, रेखाएं और छायांकन होते हैं जो सफाई को जटिल बनाते हैं। सफाई इंजन इन्हें अच्छी तरह से संभालता है - पूर्व-मुद्रित तत्व शोर हटाने से बचने के लिए पर्याप्त बड़े होते हैं, और तिरछापन हटाना पूरे फॉर्म को सही ढंग से संरेखित करता है।

अक्सर पूछे जाने वाले प्रश्न

क्या सफाई मेरे दस्तावेज़ की सामग्री को बदल देगी?

नहीं। सफाई केवल स्कैन की गई छवि की दृश्य गुणवत्ता को प्रभावित करती है - यह सीधा करती है, शोर हटाती है, कंट्रास्ट बढ़ाती है, और बॉर्डर साफ करती है। यह किसी भी पाठ या सामग्री को जोड़ता, हटाता या संशोधित नहीं करता है। पृष्ठ पर जानकारी बिल्कुल वैसी ही रहती है।

क्या मैं एक PDF को साफ़ कर सकता हूँ जो स्कैन नहीं की गई है?

सफाई उपकरण स्कैन किए गए PDF के लिए डिज़ाइन किया गया है - ऐसे दस्तावेज़ जहां प्रत्येक पृष्ठ एक रास्टर छवि है। यह एक गैर-स्कैन की गई PDF को नुकसान नहीं पहुंचाएगा, लेकिन सफाई चरण विशेष रूप से स्कैनिंग कलाकृतियों के लिए डिज़ाइन किए गए हैं और डिजिटल स्रोतों (जैसे वर्ड निर्यात) से बनाई गई PDF में सार्थक रूप से सुधार नहीं करेंगे।

सफाई फ़ाइल आकार को कितना कम करती है?

यह भिन्न होता है, लेकिन सफाई आमतौर पर फ़ाइल आकार को 20-40% तक कम कर देती है। शोर हटाना प्रति पृष्ठ हजारों अनावश्यक पिक्सेल को समाप्त करता है। बॉर्डर सफाई बड़े गहरे क्षेत्रों को हटाती है। कंट्रास्ट वृद्धि अधिक समान पृष्ठभूमि बनाकर संपीड़न दक्षता में सुधार कर सकती है। 80 एमबी वाली 50-पृष्ठ की स्कैन की गई दस्तावेज़ सफाई के बाद 50-60 एमबी तक आ सकती है।

क्या सफाई रंगीन स्कैन पर काम करती है?

हाँ। सभी चार सफाई चरण रंगीन, ग्रेस्केल और काले-सफेद स्कैन पर काम करते हैं। पृष्ठभूमि सामान्यीकरण और बॉर्डर सफाई से रंगीन स्कैन विशेष रूप से लाभान्वित होते हैं। कंट्रास्ट वृद्धि को इस तरह से लागू किया जाता है कि पाठ पठनीयता में सुधार करते हुए रंग की जानकारी को संरक्षित किया जा सके।

यदि मुझे परिणाम पसंद नहीं आया तो क्या मैं सफाई को पूर्ववत कर सकता हूँ?

सफाई एक नई फ़ाइल उत्पन्न करती है - आपकी मूल PDF कभी संशोधित नहीं होती है। यदि सफाई संतोषजनक नहीं है, तो बस अपनी मूल फ़ाइल पर वापस जाएं। इस कारण से, हमेशा साफ किए गए संस्करण के साथ मूल स्कैन रखें।

सारांश

स्कैन की गई PDF को साफ करना एक चार-चरणीय प्रक्रिया है जो गंदी स्कैन को पेशेवर दस्तावेजों में बदल देती है:

चरण	यह क्या ठीक करता है	प्रभाव
तिरछापन हटाना	झुके हुए पृष्ठ	सीधा, पेशेवर रूप
शोर हटाना	धब्बे और बिंदु	साफ पृष्ठभूमि, स्पष्ट पाठ
बढ़ाना	फीका, कम-कंट्रास्ट पाठ	पठनीय, मुद्रण योग्य आउटपुट
बॉर्डर साफ़ करें	गहरे किनारे और छाया	समान मार्जिन, कोई कलाकृतियाँ नहीं

प्रत्येक चरण स्वतंत्र है और इसे चालू या बंद किया जा सकता है। अधिकांश स्कैन किए गए दस्तावेजों के लिए, सभी चार चरणों को चलाने से सर्वोत्तम परिणाम मिलता है। साफ किया हुआ आउटपुट फ़ाइल आकार में छोटा होता है, दिखने में अधिक पेशेवर होता है, और यदि आपको बाद में खोजने योग्य पाठ की आवश्यकता होती है तो नाटकीय रूप से बेहतर OCR परिणाम उत्पन्न करता है।

अपने स्कैन को साफ करने के लिए तैयार हैं? PDFSub के साफ़ स्कैन PDF टूल का प्रयास करें - अपनी स्कैन की गई PDF अपलोड करें और सेकंडों में एक साफ, पेशेवर परिणाम प्राप्त करें।

How to clean up a scanned PDF - remove noise, straighten pages, and enhance text clarity

तिरछापन सुधार अकेले OCR सटीकता में 3-8% सुधार कर सकता है। OCR इंजन क्षैतिज पाठ रेखाओं की उम्मीद करते हैं - यहां तक कि मामूली तिरछापन भी शब्द विभाजन त्रुटियों का कारण बनता है।
शोर हटाना झूठे वर्ण पहचान को रोकता है। मार्जिन में यादृच्छिक बिंदु अक्षरों या विराम चिह्नों के रूप में गलत पहचाने नहीं जाते हैं।
कंट्रास्ट वृद्धि OCR इंजन को पृष्ठभूमि से वर्णों को अलग करने में मदद करती है, खासकर फीके या हल्के पाठ के साथ।

अनुशंसित वर्कफ़्लो

सर्वोत्तम परिणामों के लिए, पहले स्कैन को साफ करें, फिर OCR चलाएं:

स्कैन की गई PDF को PDFSub के साफ़ स्कैन PDF टूल पर अपलोड करें
साफ किया हुआ संस्करण डाउनलोड करें
साफ की गई PDF को PDFSub के OCR टूल पर अपलोड करें
खोजने योग्य, चयन योग्य PDF डाउनलोड करें

चरण	यह क्या ठीक करता है	प्रभाव
तिरछापन हटाना	झुके हुए पृष्ठ	सीधा, पेशेवर रूप
शोर हटाना	धब्बे और बिंदु	साफ पृष्ठभूमि, स्पष्ट पाठ
बढ़ाना	फीका, कम-कंट्रास्ट पाठ	पठनीय, मुद्रण योग्य आउटपुट
बॉर्डर साफ़ करें	गहरे किनारे और छाया	समान मार्जिन, कोई कलाकृतियाँ नहीं