आप पिछले मंगलवार के व्यावसायिक दोपहर के भोजन की एक रसीद स्कैन करते हैं। कुल $114.73 के बजाय $14.73 आता है। एक अंक छूट गया, और आपकी व्यय रिपोर्ट गलत हो गई।

यह रसीद OCR में मुख्य तनाव है: जब तकनीक काम करती है तो यह जादुई लगती है, लेकिन "काफी हद तक सही" और "वास्तव में सही" के बीच का अंतर वह जगह है जहाँ वास्तविक पैसा खो जाता है। 95% कैरेक्टर सटीकता दर प्रभावशाली लगती है जब तक कि आप यह महसूस न करें कि इसका मतलब सौ कैरेक्टर में पाँच त्रुटियाँ हैं - और तीस-लाइन वाले रेस्तरां रसीद पर, यह कुल को भ्रष्ट करने, तारीख को गलत पढ़ने, या विक्रेता के नाम को खराब करने के लिए पर्याप्त है।

पिछले दो वर्षों में रसीद स्कैनिंग में नाटकीय रूप से सुधार हुआ है। लेकिन सटीकता अभी भी आपके द्वारा उपयोग किए जाने वाले टूल, रसीद की स्थिति और आपके द्वारा निकाले जा रहे फ़ील्ड के आधार पर बहुत भिन्न होती है। यह गाइड बताता है कि आप यथार्थवादी रूप से क्या उम्मीद कर सकते हैं - विशिष्ट संख्याओं के साथ, विपणन दावों के साथ नहीं।

Receipt OCR accuracy comparison: traditional OCR vs AI-powered extraction across different receipt conditions

रसीद OCR सामान्य दस्तावेज़ OCR से ज़्यादा कठिन क्यों है

यदि आपने कभी मानक व्यावसायिक पत्र या टाइप की गई रिपोर्ट पर OCR का उपयोग किया है, तो आप मान सकते हैं कि रसीद स्कैनिंग उतनी ही विश्वसनीय होगी। ऐसा नहीं है। रसीदें OCR इंजनों के लिए संसाधित करने के लिए सबसे कठिन दस्तावेजों में से हैं, और इसके कारण तकनीकी के बजाय संरचनात्मक हैं।

थर्मल पेपर का क्षरण

सटीकता का सबसे बड़ा हत्यारा OCR इंजन नहीं है - यह कागज है। लगभग 93% पॉइंट-ऑफ-सेल रसीदें थर्मल पेपर पर मुद्रित होती हैं, जो स्याही के बजाय गर्मी-संवेदनशील रासायनिक कोटिंग्स का उपयोग करती हैं। इससे तीन समस्याएं होती हैं:

फीका पड़ना अनिवार्य है। सामान्य परिस्थितियों (ठंडा, सूखा, कम रोशनी) में, थर्मल रसीदें छह महीने से एक वर्ष के भीतर फीकी पड़ने लगती हैं। कठोर वातावरण में - गर्मियों में कार का दस्ताना डिब्बा, एक नम बटुआ - कुछ हफ्तों के भीतर फीका पड़ना शुरू हो सकता है। मानक-ग्रेड थर्मल पेपर आदर्श भंडारण के तहत पांच से सात साल तक पठनीयता बनाए रखता है, लेकिन "आदर्श" का मतलब 77 डिग्री फ़ारेनहाइट से नीचे, 45-65% सापेक्ष आर्द्रता, और कोई प्रकाश जोखिम नहीं है। यह एक जलवायु-नियंत्रित पुरालेख का वर्णन करता है, न कि एक शू बॉक्स का।
फीका पड़ना एक समान नहीं है। किनारे और मोड़ पहले फीके पड़ते हैं क्योंकि घर्षण और दबाव रासायनिक टूटने को तेज करते हैं। इसका मतलब है कि वे क्षेत्र जहाँ कुल और उप-कुल अक्सर दिखाई देते हैं - रसीद का निचला भाग - सबसे तेज़ी से खराब होते हैं।
BPA संदूषण। अधिकांश थर्मल पेपर में बिस्फेनॉल ए (BPA) या इसके प्रतिस्थापन बिस्फेनॉल एस (BPS) एक रंग डेवलपर के रूप में होता है। व्यक्तिगत रसीदों में BPA की सांद्रता 250 से 1,000 गुना अधिक हो सकती है, जितनी कि डिब्बाबंद भोजन में पाई जाती है। रसायन कागज से रासायनिक रूप से बंधे नहीं होते हैं, इसलिए वे त्वचा, बटुए और पास में रखे अन्य कागजों में आसानी से स्थानांतरित हो जाते हैं। यह सीधे तौर पर OCR समस्या नहीं है, लेकिन यह रसीदों को तुरंत डिजिटाइज़ करने और भौतिक हैंडलिंग को कम करने का एक मजबूत तर्क है।

परिवर्तनशील लेआउट

मानक व्यावसायिक दस्तावेज़ - चालान, बैंक विवरण, कर फॉर्म - अपेक्षाकृत अनुमानित लेआउट का पालन करते हैं। रसीदें ऐसा नहीं करतीं। केवल चार सामान्य रसीद प्रकारों में भिन्नता पर विचार करें:

रसीद प्रकार	लेआउट विशेषताएँ	OCR चुनौती
रेस्तरां	आइटमयुक्त भोजन/पेय, टिप लाइन, एकाधिक उप-कुल, सर्वर का नाम	हस्तलिखित टिप राशि, परिवर्तनशील रिक्ति
खुदरा/किराना	लंबी आइटम सूची, SKU कोड, छूट, लॉयल्टी बचत	50+ लाइन आइटम, मिश्रित अल्फ़ान्यूमेरिक कोड
गैस स्टेशन	पंप संख्या, ईंधन ग्रेड, गैलन, प्रति गैलन मूल्य, ओडोमीटर	संक्षिप्त फ़ील्ड नाम, मौसम का संपर्क
ऑनलाइन/ईमेल	HTML-रेंडर, सुसंगत स्वरूपण, ऑर्डर नंबर	आमतौर पर साफ - लेकिन PDF निर्यात कलाकृतियाँ पेश कर सकते हैं

एक टेम्पलेट-आधारित OCR प्रणाली जिसे खुदरा रसीदों पर प्रशिक्षित किया गया है, वह हस्तलिखित युक्तियों वाली रेस्तरां रसीदों पर विफल हो जाएगी। अंग्रेजी-भाषा रसीदों के लिए अनुकूलित एक इंजन अंतरराष्ट्रीय यात्रा में आम बहुभाषी प्रारूपों के साथ संघर्ष करेगा। और मानक अक्षर-आकार के दस्तावेजों के लिए डिज़ाइन की गई एक प्रणाली थर्मल पेपर के संकीर्ण, निरंतर-रोल प्रारूप को बिल्कुल भी संभाल नहीं सकती है।

छोटे फ़ॉन्ट और कम कंट्रास्ट

रसीद प्रिंटर आमतौर पर 7 से 10 पॉइंट के बीच फ़ॉन्ट का उपयोग करते हैं - अधिकांश दस्तावेजों में मानक बॉडी टेक्स्ट से छोटे। लेजर या इंकजेट प्रिंटिंग की तुलना में थर्मल प्रिंटिंग के स्वाभाविक रूप से कम कंट्रास्ट के साथ मिलकर, यह अत्याधुनिक OCR इंजनों के लिए भी कैरेक्टर पहचान चुनौतियों का सामना करता है। "1" और "l", "0" और "O", "5" और "S" जैसे कैरेक्टर छोटे आकारों में अस्पष्ट हो जाते हैं, खासकर मामूली फीका पड़ने के बाद भी।

भौतिक क्षति

रसीदें जेबों में सिकुड़ जाती हैं, बटुए में मुड़ जाती हैं, और लिफाफों में भर जाती हैं। प्रत्येक क्रीज एक रेखा बनाती है जिसे OCR इंजन कैरेक्टर सीमा, स्ट्राइकथ्रू या शोर के रूप में व्याख्या कर सकता है। बारिश या फैल से पानी का नुकसान कागज को विकृत करता है और स्याही को फैलने का कारण बनता है। भोजन की रसीदों से तेल और ग्रीस पाठ को अस्पष्ट कर देते हैं। इन समस्याओं में से कोई भी तब मौजूद नहीं होती जब लेजर प्रिंटर से एक प्राचीन कार्यालय दस्तावेज़ को स्कैन किया जाता है।

Receipt OCR process: Capture → OCR → Verify → Export, with accuracy benchmarks

सटीकता को समझना: तीन अलग-अलग मेट्रिक्स

जब कोई विक्रेता "99% सटीकता" का दावा करता है, तो आपको पूछना होगा: 95% किसका? OCR सटीकता को मापने के तीन मौलिक रूप से भिन्न तरीके हैं, और प्रत्येक एक बहुत अलग कहानी कहता है।

कैरेक्टर सटीकता (कैरेक्टर त्रुटि दर)

कैरेक्टर सटीकता मापती है कि इंजन कितने व्यक्तिगत कैरेक्टर को सही ढंग से पढ़ता है। इसकी गणना कैरेक्टर त्रुटि दर (CER) का उपयोग करके की जाती है, जो कैरेक्टर स्तर पर सम्मिलन, विलोपन और प्रतिस्थापन की गणना करती है।

उदाहरण: यदि रसीद की एक पंक्ति "COFFEE MEDIUM $4.50" पढ़ती है और OCR "C0FFEE MEDIUN $4.5O" उत्पन्न करता है, तो यह 21 कैरेक्टर में 3 त्रुटियाँ हैं - 85.7% कैरेक्टर सटीकता दर।

कैरेक्टर सटीकता सबसे दानेदार मीट्रिक है और इसे वस्तुनिष्ठ रूप से बेंचमार्क करना सबसे आसान है। यह व्यावहारिक उद्देश्यों के लिए सबसे कम उपयोगी भी है क्योंकि यह सभी त्रुटियों को समान मानता है। विवरण में "MEDIUM" को "MEDIUN" के रूप में गलत पढ़ना कष्टप्रद है। "$4.50" को "$4.5O" (शून्य के बजाय अक्षर O) के रूप में गलत पढ़ना एक डेटा भ्रष्टाचार त्रुटि है।

फ़ील्ड सटीकता (फ़ील्ड-स्तरीय F1 स्कोर)

फ़ील्ड सटीकता मापती है कि क्या विशिष्ट डेटा फ़ील्ड को पूर्ण इकाइयों के रूप में सही ढंग से निकाला गया है। क्या सिस्टम ने कुल राशि को सही ढंग से पहचाना और निकाला? तारीख? विक्रेता का नाम? कर राशि?

उदाहरण: यदि OCR सिस्टम रसीद पढ़ता है और लौटाता है:

कुल: $47.83 (सही)
तारीख: 02/28/2026 (सही)
विक्रेता: "STARBCUKS" (गलत - "STARBUCKS" होना चाहिए)
कर: $3.42 (सही)

यह 4 फ़ील्ड में से 3 सही हैं - 75% फ़ील्ड सटीकता।

फ़ील्ड सटीकता व्यय प्रबंधन और लेखांकन वर्कफ़्लो के लिए मायने रखती है। विवरण में एक कैरेक्टर त्रुटि सहन करने योग्य है। कुल राशि में एक फ़ील्ड त्रुटि पूरी रसीद को अमान्य कर देती है।

दस्तावेज़ सटीकता (एंड-टू-एंड सफलता दर)

दस्तावेज़ सटीकता मापती है कि क्या पूरी रसीद को सही ढंग से संसाधित किया गया था - सभी फ़ील्ड, सभी लाइन आइटम, कहीं भी कोई त्रुटि नहीं। यह सबसे सख्त मीट्रिक है और उत्पादन वर्कफ़्लो के लिए सबसे यथार्थवादी है।

यदि किसी रसीद में 8 निकालने योग्य फ़ील्ड हैं और सिस्टम 7 को सही प्राप्त करता है लेकिन एक लाइन आइटम मात्रा को गलत पढ़ता है, तो दस्तावेज़ सटीकता 0% है - कहीं भी एक त्रुटि का मतलब है कि पूरे दस्तावेज़ की समीक्षा की आवश्यकता है।

एक नज़र में उद्योग बेंचमार्क:

मीट्रिक	पारंपरिक OCR	AI-संचालित एक्सट्रैक्शन
कैरेक्टर सटीकता	85-92%	95-99%
फ़ील्ड सटीकता (महत्वपूर्ण फ़ील्ड)	70-85%	93-99%
दस्तावेज़ सटीकता (सभी फ़ील्ड सही)	40-60%	75-92%

कैरेक्टर सटीकता और दस्तावेज़ सटीकता के बीच का अंतर बताता है कि कोई टूल "95% सटीकता" का दावा क्यों कर सकता है और फिर भी उन परिणामों का उत्पादन कर सकता है जिन्हें सभी रसीदों के आधे हिस्से पर मैन्युअल सुधार की आवश्यकता होती है।

रसीदों पर पारंपरिक OCR सटीकता: आधार रेखा

पारंपरिक OCR - नियम-आधारित इंजन जो पैटर्न मिलान और विभाजन के माध्यम से कैरेक्टर की पहचान करते हैं - दशकों से उपलब्ध है। इस क्षेत्र में दो सिस्टम हावी हैं।

Tesseract (ओपन सोर्स)

Tesseract, मूल रूप से 1980 के दशक में HP Labs द्वारा विकसित और बाद में Google द्वारा बनाए रखा गया, सबसे व्यापक रूप से इस्तेमाल किया जाने वाला ओपन-सोर्स OCR इंजन है। मानक दस्तावेजों पर (टाइप किए गए पृष्ठों के साफ स्कैन), Tesseract 95-99% कैरेक्टर सटीकता प्राप्त करता है। रसीदों पर, तस्वीर बहुत कम गुलाबी है।

स्वतंत्र बेंचमार्क रसीदों पर Tesseract की 50-80% कैरेक्टर सटीकता प्राप्त करने का प्रदर्शन करते हैं, जो छवि गुणवत्ता और रसीद की स्थिति पर निर्भर करता है। इंजन को मानक दस्तावेजों में शब्दों के वाक्यों को पहचानने के लिए डिज़ाइन और अनुकूलित किया गया था - न कि रसीदों पर पाए जाने वाले संक्षिप्त, मिश्रित-प्रारूप पाठ के लिए। सामान्य विफलता मोड में शामिल हैं:

SKU कोड और आइटम नंबर गलत पढ़े जाते हैं क्योंकि वे अंग्रेजी पाठ पर प्रशिक्षित भाषा मॉडल के लिए यादृच्छिक कैरेक्टर स्ट्रिंग की तरह दिखते हैं
मूल्य कॉलम रिक्ति पहचान विफल होने पर दशमलव संरेखण खो देते हैं
छोटे थर्मल फ़ॉन्ट कम-आत्मविश्वास वाले कैरेक्टर मिलान उत्पन्न करते हैं
घुमाई गई या तिरछी छवियां फोन कैमरों से सटीकता को काफी कम कर देती हैं

Tesseract को स्वीकार्य सटीकता प्राप्त करने के लिए पर्याप्त प्रीप्रोसेसिंग - डेस्केविंग, बाइनराइजेशन, शोर हटाना, कंट्रास्ट वृद्धि - की आवश्यकता होती है। अनुकूलित प्रीप्रोसेसिंग के साथ भी, कुल और तिथियों जैसे महत्वपूर्ण फ़ील्ड पर फ़ील्ड-स्तरीय सटीकता आमतौर पर 60-75% तक होती है।

ABBYY FineReader (वाणिज्यिक)

ABBYY पारंपरिक OCR के उच्च अंत का प्रतिनिधित्व करता है। साफ, संरचित दस्तावेजों पर, ABBYY 99.8% कैरेक्टर सटीकता तक प्राप्त करता है - पारंपरिक OCR श्रेणी में सर्वश्रेष्ठ। रसीदों पर, ABBYY Tesseract से काफी बेहतर प्रदर्शन करता है, आमतौर पर उचित रूप से साफ रसीदों पर 88-93% कैरेक्टर सटीकता प्राप्त करता है।

ABBYY का लाभ दशकों के प्रशिक्षण डेटा, बेहतर प्रीप्रोसेसिंग एल्गोरिदम, और व्यापक भाषा और फ़ॉन्ट कवरेज से आता है। हालांकि, यह अभी भी मौलिक रूप से दस्तावेज़ संरचना की शब्दार्थ समझ के बिना कैरेक्टर-स्तरीय पहचान पर निर्भर करता है। यह रसीद पर क्या है उसे सटीक रूप से पढ़ सकता है, लेकिन यह नहीं समझता कि नीचे का नंबर कुल है और शीर्ष की तारीख वह है जब लेनदेन हुआ था।

टेम्पलेट की समस्या

पारंपरिक OCR सिस्टम जो कच्चे कैरेक्टर पहचान से फ़ील्ड एक्सट्रैक्शन तक जाते हैं, वे आम तौर पर टेम्पलेट्स पर निर्भर करते हैं - पूर्वनिर्धारित समन्वय मानचित्र जो सिस्टम को बताते हैं "कुल पृष्ठ पर X,Y स्थिति पर है।" यह दृष्टिकोण मानकीकृत रूपों (कर दस्तावेज, बीमा दावे) के लिए अच्छी तरह से काम करता है लेकिन रसीदों के लिए विफल रहता है क्योंकि:

विक्रेताओं, पीओएस सिस्टम और देशों में हजारों अद्वितीय रसीद प्रारूप हैं
एक ही स्टोर श्रृंखला भी पीओएस हार्डवेयर को अपग्रेड करते समय अपने रसीद लेआउट को बदल सकती है
टेम्पलेट निर्माण और रखरखाव श्रम-गहन है - प्रत्येक नए लेआउट के लिए मैन्युअल कॉन्फ़िगरेशन की आवश्यकता होती है
रसीद की लंबाई भिन्न होती है (50 आइटम वाली किराने की रसीद 2 आइटम वाली कॉफी शॉप रसीद से शारीरिक रूप से भिन्न होती है)

टेम्पलेट-आधारित सिस्टम आमतौर पर 50-200 रसीद लेआउट का समर्थन करते हैं। यह एक देश में प्रमुख खुदरा विक्रेताओं को कवर करता है। यह छोटे व्यवसायों, अंतरराष्ट्रीय रसीदों, या रेस्तरां की लंबी पूंछ को कवर नहीं करता है।

AI-संचालित एक्सट्रैक्शन: एक अलग दृष्टिकोण

आधुनिक AI रसीद एक्सट्रैक्शन पारंपरिक OCR की तरह बिल्कुल भी काम नहीं करता है। व्यक्तिगत कैरेक्टर को पैटर्न-मिलान करने और टेम्पलेट्स पर निर्देशांक मैप करने के बजाय, AI सिस्टम बड़े भाषा मॉडल और विजन मॉडल का उपयोग करते हैं जो दस्तावेज़ संदर्भ को समझते हैं।

AI एक्सट्रैक्शन कैसे काम करता है

प्रक्रिया आम तौर पर तीन चरणों का पालन करती है:

दृश्य समझ। AI मॉडल रसीद छवि (या PDF) को एक दृश्य इनपुट के रूप में संसाधित करता है, पाठ क्षेत्रों, लेआउट संरचना और स्थानिक संबंधों की पहचान करता है। यह पारंपरिक OCR से मौलिक रूप से भिन्न है, जो अलग-अलग कैरेक्टर को संसाधित करता है।
प्रासंगिक एक्सट्रैक्शन। "X,Y स्थिति पर कौन सा कैरेक्टर है?" पूछने के बजाय, मॉडल पूछता है "इस रसीद पर कुल राशि क्या है?" यह समझता है कि कुल आमतौर पर नीचे के पास होता है, जिसके पहले "Total," "Amount Due," या "Grand Total" जैसा शब्द होता है, और मुद्रा मान के रूप में स्वरूपित होता है। यह प्रासंगिक समझ वह है जो AI एक्सट्रैक्शन को प्रारूप-अज्ञेय बनाती है - किसी टेम्पलेट की आवश्यकता नहीं है।
संरचित आउटपुट। मॉडल लेबल वाले फ़ील्ड के साथ एक संरचित डेटा ऑब्जेक्ट लौटाता है: विक्रेता का नाम, तारीख, लाइन आइटम, उप-कुल, कर, कुल, भुगतान विधि। इनपुट रसीद के लेआउट के बावजूद आउटपुट प्रारूप सुसंगत है।

स्थिति के अनुसार AI सटीकता

AI-संचालित एक्सट्रैक्शन पारंपरिक OCR की तुलना में काफी अधिक सटीकता प्राप्त करता है, लेकिन संख्याएं रसीद की स्थिति के अनुसार काफी भिन्न होती हैं:

रसीद की स्थिति	फ़ील्ड सटीकता (महत्वपूर्ण फ़ील्ड)	फ़ील्ड सटीकता (सभी फ़ील्ड)	नोट्स
साफ डिजिटल रसीद (PDF/ईमेल)	98-99%+	95-98%	लगभग पूर्ण; स्वरूपण सुसंगत है
ताज़ी थर्मल रसीद (0-3 महीने)	96-99%	92-96%	उच्च कंट्रास्ट, स्पष्ट पाठ
पुरानी थर्मल रसीद (3-12 महीने)	90-95%	82-90%	कुछ फीका पड़ना, खासकर किनारे
फीकी थर्मल रसीद (1-3 साल)	75-88%	65-80%	महत्वपूर्ण कैरेक्टर हानि; संदर्भ मदद करता है
गंभीर रूप से खराब (3+ साल, गर्मी का संपर्क)	50-70%	40-60%	लापता पाठ क्षेत्र; आंशिक एक्सट्रैक्शन
सिकुड़ा हुआ/झुर्रीदार	85-93%	78-88%	क्रीज लाइन पहचान में हस्तक्षेप करते हैं
निम्न-गुणवत्ता वाली तस्वीर (मोशन ब्लर, छाया)	80-90%	70-85%	छवि गुणवत्ता बाधा है

मुख्य अंतर्दृष्टि यह है कि AI पारंपरिक OCR की तुलना में उच्च सटीकता बनाए रखता है, भले ही स्थितियां खराब हो जाएं, क्योंकि यह अंतराल को भरने के लिए संदर्भ का उपयोग कर सकता है। यदि इंजन "Tot" के बाद "$47.8_" (जहां अंतिम अंक अस्पष्ट है) पढ़ सकता है, तो यह संदर्भ से जानता है कि यह एक कुल फ़ील्ड है और लापता अंक ऊपर की लाइन आइटम के आधार पर "3" होने की संभावना है। पारंपरिक OCR बस एक प्रश्न चिह्न या अपना सर्वश्रेष्ठ एकल-कैरेक्टर अनुमान आउटपुट करेगा।

महत्वपूर्ण फ़ील्ड पर सटीकता का अंतर

सभी फ़ील्ड समान रूप से महत्वपूर्ण नहीं हैं। व्यय प्रबंधन और कर अनुपालन के लिए, एक स्पष्ट पदानुक्रम है:

फ़ील्ड	प्राथमिकता	यह क्यों मायने रखता है	AI सटीकता (साफ रसीद)
कुल राशि	महत्वपूर्ण	व्यय मूल्य और कटौती राशि निर्धारित करता है	98-99%
तारीख	महत्वपूर्ण	कर वर्ष और अवधि असाइनमेंट निर्धारित करता है	97-99%
विक्रेता का नाम	उच्च	वर्गीकरण और ऑडिट ट्रेल के लिए आवश्यक	95-98%
कर राशि	उच्च	कर रिपोर्टिंग और इनपुट कर क्रेडिट के लिए आवश्यक	96-98%
भुगतान विधि	मध्यम	कार्ड स्टेटमेंट के साथ सुलह के लिए उपयोगी	93-96%
लाइन आइटम	मध्यम	विस्तृत व्यय वर्गीकरण के लिए आवश्यक	88-95%
टिप राशि	मध्यम	भोजन व्यय के लिए प्रासंगिक, अक्सर हस्तलिखित	85-92%
पता/फोन	निम्न	व्यय प्रसंस्करण के लिए शायद ही कभी आवश्यक हो	90-95%

AI एक्सट्रैक्शन टूल लगातार उन फ़ील्ड पर अपनी उच्चतम सटीकता प्राप्त करते हैं जो सबसे अधिक मायने रखते हैं - कुल राशि और तारीख - क्योंकि इन फ़ील्ड में मजबूत प्रासंगिक संकेत (स्थिति, स्वरूपण, आसपास का पाठ) होते हैं जिनका मॉडल व्यक्तिगत कैरेक्टर अस्पष्ट होने पर भी लाभ उठा सकता है।

सटीकता को प्रभावित करने वाले कारक

सटीकता को क्या खराब करता है, यह समझना आपको यह तय करने में बेहतर निर्णय लेने में मदद करता है कि स्वचालित एक्सट्रैक्शन पर कब भरोसा करना है और कब मैन्युअल रूप से सत्यापित करना है।

छवि गुणवत्ता

छवि गुणवत्ता OCR सटीकता में सबसे बड़ा नियंत्रणीय कारक है। सावधानीपूर्वक कैप्चर की गई छवि और जल्दबाजी में ली गई तस्वीर के बीच का अंतर फ़ील्ड सटीकता को 15-20 प्रतिशत अंक तक बढ़ा सकता है।

कारक	सटीकता पर प्रभाव	क्या करें
रिज़ॉल्यूशन	200 DPI से नीचे, सटीकता तेजी से गिरती है	कम से कम 300 DPI का उपयोग करें; अधिकांश फोन कैमरे इससे अधिक होते हैं
प्रकाश व्यवस्था	असमान प्रकाश व्यवस्था कंट्रास्ट समस्याएं पैदा करती है	प्राकृतिक, विसरित प्रकाश का उपयोग करें; सीधी ओवरहेड लाइट से बचें
छाया	हाथ/फोन की छाया पाठ को अस्पष्ट करती है	प्रकाश स्रोत को बगल में रखें; यदि आवश्यक हो तो लैंप का उपयोग करें
फ्लैश	थर्मल पेपर परावर्तक होता है; फ्लैश व्हाइटआउट स्पॉट बनाता है	फ्लैश अक्षम करें; इसके बजाय परिवेश प्रकाश का उपयोग करें
फोकस	धुंधला पाठ किसी भी रिज़ॉल्यूशन पर अपठनीय होता है	पाठ पर ध्यान केंद्रित करने के लिए टैप करें; फोन को स्थिर रखें
कोण	परिप्रेक्ष्य विकृति कैरेक्टर को विकृत करती है	कैमरे को सीधे रसीद के ऊपर, सतह के समानांतर रखें
क्रॉपिंग	अत्यधिक पृष्ठभूमि किनारे का पता लगाने में भ्रमित करती है	फ्रेम का 80% रसीद से भरें

कागज की स्थिति

कागज की स्थिति सबसे बड़ा अनियंत्रित कारक है। आप तकनीक से छवि गुणवत्ता में सुधार कर सकते हैं; आप फीके पड़े रसीद को वापस नहीं ला सकते।

थर्मल रसीदों के लिए फीका पड़ने का समय भंडारण की स्थिति पर बहुत अधिक निर्भर करता है:

आदर्श भंडारण (अंधेरा, ठंडा, 45-65% आर्द्रता): मानक ग्रेड के लिए 5-7 साल की पठनीयता, शीर्ष-कोटेड थर्मल पेपर के लिए 25 साल तक
सामान्य स्थितियां (डेस्क दराज, फ़ाइल फ़ोल्डर): 1-3 साल
बटुआ या जेब: 3-12 महीने
कार डैशबोर्ड या दस्ताना डिब्बा: हफ्तों से महीनों तक, जलवायु पर निर्भर करता है
सीधी धूप का संपर्क: दिन से सप्ताह

व्यावहारिक निष्कर्ष स्पष्ट है: रसीदें प्राप्त होने के 48 घंटों के भीतर डिजिटाइज़ करें। देरी का प्रत्येक दिन अधिकतम प्राप्त करने योग्य OCR सटीकता को कम करता है। खरीद के दिन स्कैन की गई रसीद लगभग पूर्ण परिणाम उत्पन्न करेगी। छह महीने बाद स्कैन की गई उसी रसीद ने पाठ स्पष्टता का 10-20% खो दिया हो सकता है।

रसीद की लंबाई और जटिलता

अधिक लाइन आइटम वाली लंबी रसीदों में केवल त्रुटियों के अधिक अवसर होने के कारण दस्तावेज़-स्तर की सटीकता कम होती है। 5-आइटम वाली कॉफी शॉप रसीद में 60-आइटम वाली किराने की रसीद की तुलना में 100% सही होने की संभावना बहुत अधिक होती है।

रसीद की लंबाई	औसत लाइन आइटम	दस्तावेज़ सटीकता (AI)	त्रुटि की सबसे अधिक संभावना वाले फ़ील्ड
छोटी (1-5 आइटम)	8-15 पंक्तियाँ	90-95%	विक्रेता का नाम (संक्षिप्त नाम)
मध्यम (6-20 आइटम)	16-40 पंक्तियाँ	80-90%	लाइन आइटम विवरण
लंबी (21-50 आइटम)	41-80 पंक्तियाँ	70-82%	आइटम मात्रा, इकाई मूल्य
बहुत लंबी (50+ आइटम)	80+ पंक्तियाँ	55-70%	एकाधिक फ़ील्ड; संचयी त्रुटियाँ

फ़ॉन्ट और स्वरूपण

कुछ पीओएस सिस्टम कस्टम या संकीर्ण फ़ॉन्ट का उपयोग करते हैं जो OCR के लिए विशेष रूप से चुनौतीपूर्ण होते हैं। डॉट-मैट्रिक्स रसीद प्रिंटर - अभी भी कुछ गैस स्टेशनों और पुराने खुदरा स्थानों पर आम हैं - थर्मल प्रिंटर की तुलना में निम्न-गुणवत्ता वाले कैरेक्टर उत्पन्न करते हैं। सभी-कैप्स स्वरूपण, जबकि मनुष्यों के लिए पढ़ने में कठिन है, वास्तव में OCR इंजनों के लिए आसान है क्योंकि ऊपरी अक्षर के अधिक विशिष्ट आकार होते हैं।

रसीद प्रकार के अनुसार सटीकता

विभिन्न रसीद श्रेणियां अनूठी चुनौतियां पेश करती हैं और विभिन्न सटीकता प्रोफाइल उत्पन्न करती हैं।

रेस्तरां रसीदें

रेस्तरां रसीदें OCR के लिए सबसे चुनौतीपूर्ण में से हैं क्योंकि उनमें अक्सर हस्तलिखित तत्व शामिल होते हैं - टिप राशि, कुल, और हस्ताक्षर। AI एक्सट्रैक्शन मुद्रित भागों (विक्रेता, तारीख, उप-कुल के लिए 95-98% फ़ील्ड सटीकता) को अच्छी तरह से संभालता है लेकिन टिप लाइनों पर लिखावट पहचान के साथ संघर्ष करता है (70-85% सटीकता)। टिप राशि अक्सर सबसे वित्तीय रूप से महत्वपूर्ण हस्तलिखित फ़ील्ड होती है।

सर्वोत्तम अभ्यास: यदि टिप सटीकता आपके वर्कफ़्लो के लिए मायने रखती है, तो टिप और कुल को मैन्युअल रूप से सत्यापित करें। उप-कुल, कर, और विक्रेता फ़ील्ड आमतौर पर समीक्षा के बिना विश्वसनीय होते हैं।

खुदरा और किराना रसीदें

खुदरा रसीदें मात्रा के साथ OCR को चुनौती देती हैं। एक विशिष्ट किराने की रसीद में 30-60 लाइन आइटम होते हैं, प्रत्येक में एक विवरण, मात्रा और मूल्य होता है। लाइन आइटम विवरण अक्सर संक्षिप्त होते हैं (जैसे, "Organic Boneless Chicken" के लिए "ORG BNS CHKN") और इसमें आंतरिक SKU कोड शामिल हो सकते हैं जो OCR इंजन के लिए दूषित पाठ की तरह दिखते हैं।

महत्वपूर्ण फ़ील्ड सटीकता (कुल, तारीख, विक्रेता) 96-99% पर उच्च है। संक्षिप्त नामों और स्वरूपण असंगतियों के कारण लाइन आइटम सटीकता 85-92% पर कम है। व्यय वर्गीकरण उद्देश्यों के लिए, कुल और विक्रेता आमतौर पर पर्याप्त होते हैं - आपको शायद ही कभी हर लाइन आइटम को पूरी तरह से ट्रांसक्रिप्ट करने की आवश्यकता होती है।

गैस स्टेशन रसीदें

गैस स्टेशन रसीदें छोटी होती हैं लेकिन अक्सर खराब हो जाती हैं। वे बाहरी पंपों पर वितरित की जाती हैं जो मौसम के संपर्क में आते हैं, दस्ताने या चिकनाई वाले हाथों से संभाले जाते हैं, और अक्सर तुरंत सिकुड़ जाती हैं। थर्मल पेपर इनडोर उपयोग किए जाने वाले पेपर की तुलना में कम गुणवत्ता वाला हो सकता है। राशि और तारीख के लिए फ़ील्ड सटीकता ताज़ी रसीदों के लिए आमतौर पर 90-96% होती है लेकिन पर्यावरणीय जोखिम के कारण अन्य रसीद प्रकारों की तुलना में तेज़ी से गिरती है।

ऑनलाइन और ईमेल रसीदें

डिजिटल रसीदें - ईमेल की गई पुष्टिकरण, ऑनलाइन खरीद से PDF डाउनलोड, डिजिटल पीओएस सिस्टम से ई-रसीदें - OCR के लिए सबसे आसान श्रेणी हैं। उनमें सुसंगत स्वरूपण, उच्च कंट्रास्ट, कोई कागज क्षरण नहीं, और अनुमानित फ़ील्ड स्थितियां होती हैं। सभी फ़ील्ड के लिए फ़ील्ड सटीकता आम तौर पर 98% से अधिक होती है, और दस्तावेज़ सटीकता 92-97% तक पहुंच जाती है।

यदि आपके पास डिजिटल रसीदें प्राप्त करने का विकल्प है, तो उन्हें हमेशा चुनें। वे पूरी तरह से थर्मल पेपर समस्या को समाप्त करते हैं और उच्चतम एक्सट्रैक्शन सटीकता उत्पन्न करते हैं।

रसीद प्रकारों में तुलना

रसीद प्रकार	कुल सटीकता	तारीख सटीकता	विक्रेता सटीकता	लाइन आइटम सटीकता	समग्र फ़ील्ड औसत
ऑनलाइन/ईमेल (PDF)	99%	99%	98%	96%	98%
ताज़ी खुदरा	98%	98%	96%	90%	95%
ताज़ी रेस्तरां	97%	97%	95%	92%	93%
गैस स्टेशन	95%	94%	92%	88%	91%
पुरानी थर्मल (6+ माह)	88%	87%	82%	72%	82%
फीकी/क्षतिग्रस्त	72%	70%	65%	50%	64%

PDFSub रसीद स्कैनिंग को कैसे संभालता है

PDFSub का रसीद स्कैनर किसी भी प्रारूप में रसीदों को संसाधित करने के लिए AI-संचालित एक्सट्रैक्शन का उपयोग करता है - थर्मल पेपर स्कैन, फोन फोटो, PDF डाउनलोड और ईमेल रसीद अटैचमेंट।

यह क्या निकालता है

रसीद स्कैनर हर रसीद से संरचित डेटा की पहचान करता है और निकालता है:

विक्रेता का नाम और पता - स्टोर नंबर और स्थान सहित जब उपलब्ध हो
लेनदेन की तारीख और समय - स्वचालित तिथि प्रारूप पहचान के साथ (MM/DD, DD/MM, YYYY-MM-DD)
लाइन आइटम - प्रत्येक आइटम के लिए विवरण, मात्रा, इकाई मूल्य और लाइन कुल
उप-कुल, कर, और कुल - लेखांकन सटीकता के लिए अलग-अलग फ़ील्ड में विभाजित
भुगतान विधि - नकद, क्रेडिट कार्ड (अंतिम चार अंक), डेबिट, मोबाइल भुगतान
मुद्रा - प्रतीकों और स्वरूपण से स्वतः पता लगाया गया

यह परिवर्तनशील लेआउट को कैसे संभालता है

PDFSub टेम्पलेट्स का उपयोग नहीं करता है। AI इंजन प्रत्येक रसीद का स्वतंत्र रूप से विश्लेषण करता है, समन्वय मैपिंग के बजाय संदर्भ के माध्यम से दस्तावेज़ संरचना को समझता है। इसका मतलब है कि यह किसी भी विक्रेता, किसी भी देश से किसी भी रसीद लेआउट के साथ काम करता है, बिना पूर्व कॉन्फ़िगरेशन की आवश्यकता के। चाहे आप ब्रुकलिन से कॉफी शॉप रसीद अपलोड करें, म्यूनिख से फार्मेसी रसीद, या टोक्यो से टैक्सी रसीद, एक्सट्रैक्शन प्रक्रिया समान है।

प्रसंस्करण और गोपनीयता

डिजिटल PDF रसीदों के लिए, प्रारंभिक पाठ एक्सट्रैक्शन आपके ब्राउज़र में होता है - कोई अपलोड आवश्यक नहीं है। स्कैन की गई छवियों या AI प्रसंस्करण की आवश्यकता वाली रसीदों के लिए, फ़ाइल को एक्सट्रैक्शन इंजन में भेजा जाता है, संसाधित किया जाता है, और एक्सट्रैक्शन पूरा होने के बाद मूल को बनाए नहीं रखा जाता है।

आप 7-दिवसीय निःशुल्क परीक्षण के साथ रसीद स्कैनर आज़मा सकते हैं - कुछ रसीदें अपलोड करें और अपने विशिष्ट रसीद प्रकारों के लिए सटीकता का मूल्यांकन करने के लिए मूल के मुकाबले एक्सट्रैक्शन परिणामों की जांच करें। कभी भी रद्द करें।

बेहतर रसीद स्कैनिंग के लिए युक्तियाँ

आप रसीदों को कैप्चर करते समय कुछ सरल प्रथाओं का पालन करके एक्सट्रैक्शन सटीकता में काफी सुधार कर सकते हैं।

कैप्चर तकनीक

प्राकृतिक, विसरित प्रकाश का उपयोग करें। दिन के दौरान खिड़की के पास स्कैनिंग कृत्रिम ओवरहेड प्रकाश व्यवस्था की तुलना में बेहतर परिणाम देती है। लक्ष्य बिना किसी कठोर छाया के समान रोशनी है।
रसीद को एक सपाट, अंधेरी सतह पर रखें। एक अंधेरा डेस्क या काउंटरटॉप कंट्रास्ट बनाता है जो किनारे का पता लगाने और पाठ पहचान में मदद करता है। सफेद सतहों पर रसीदें स्कैन करने से बचें - किनारे अदृश्य हो जाते हैं।
अपने कैमरे को सीधे ऊपर रखें। परिप्रेक्ष्य विकृति से बचने के लिए कैमरे को रसीद के समानांतर रखें। एक मामूली कोण भी कैरेक्टर को इतना विकृत कर सकता है कि सटीकता कम हो जाए।
फ्लैश अक्षम करें। थर्मल पेपर परावर्तक होता है। कैमरा फ्लैश सफेद धब्बे बनाता है जो OCR इंजन के लिए खाली सफेद क्षेत्रों के रूप में दिखाई देते हैं, अक्सर सबसे महत्वपूर्ण पाठ पर।
फ्रेम भरें। रसीद छवि का लगभग 80% हिस्सा लेनी चाहिए। बहुत अधिक पृष्ठभूमि रिज़ॉल्यूशन बर्बाद करती है। बहुत तंग क्रॉप करने से किनारे के पाठ कटने का खतरा होता है।
पाठ पर ध्यान केंद्रित करने के लिए टैप करें। ऑटो-फोकस अक्सर मुद्रित पाठ के बजाय कागज की सतह पर लॉक हो जाता है। तेज कैरेक्टर रेंडरिंग सुनिश्चित करने के लिए पाठ क्षेत्र पर टैप करें।
क्रीज और झुर्रियों को समतल करें। स्कैन करने से पहले रसीद को सपाट दबाएं। मोड़ छाया बनाते हैं जिन्हें OCR इंजन कैरेक्टर या लाइन ब्रेक के रूप में व्याख्या कर सकता है। यदि रसीद बुरी तरह से सिकुड़ी हुई है, तो पहले इसे कुछ मिनटों के लिए एक भारी किताब के नीचे दबाने का प्रयास करें।

समय

48 घंटों के भीतर स्कैन करें। थर्मल रसीदें तुरंत खराब होने लगती हैं। आप उन्हें जितनी जल्दी कैप्चर करेंगे, सटीकता उतनी ही अधिक होगी। रसीद स्कैनिंग को मासिक बैच प्रक्रिया के बजाय दैनिक या दिन के अंत की आदत बनाएं।
बैच दिवस की प्रतीक्षा न करें। रसीदों को एक महीने तक सहेजने और फिर उन सभी को एक साथ स्कैन करने की आम प्रथा निम्न सटीकता की गारंटी देती है। उन रसीदों में से कुछ ने बटुए, जेब या कार में चार सप्ताह बिताए होंगे - इस दौरान फीका पड़ रहा होगा।

फ़ाइल प्रबंधन

मूल छवि रखें। एक्सट्रैक्शन के बाद भी, मूल स्कैन या फोटो को बनाए रखें। यदि आपको बाद में एक बेहतर टूल के साथ फिर से एक्सट्रैक्ट करने की आवश्यकता है, तो मूल छवि आपका सत्य का स्रोत है।
जब संभव हो PDF प्रारूप का उपयोग करें। यदि आपका स्कैनर ऐप या फोन PDF आउटपुट प्रदान करता है, तो इसे JPEG पर प्राथमिकता दें। PDF उच्च गुणवत्ता बनाए रखता है और बहु-पृष्ठ रसीदों (जैसे लंबी किराने की रसीदें जिन्हें दो भागों में स्कैन किया गया था) को संभालता है।

मैन्युअल रूप से कब सत्यापित करें

AI एक्सट्रैक्शन कम जोखिम वाली रसीदों के लिए अंधाधुंध भरोसा करने के लिए पर्याप्त अच्छा है - $4.50 की कॉफी, $12 का पार्किंग टिकट। लेकिन कुछ स्थितियां मैन्युअल सत्यापन की मांग करती हैं।

इन्हें हमेशा सत्यापित करें

$500 से अधिक की रसीदें। उच्च-मूल्य वाली रसीद पर एक्सट्रैक्शन त्रुटि का वित्तीय प्रभाव 30 सेकंड की मैन्युअल जांच के लायक है।
कर-महत्वपूर्ण रसीदें। कोई भी रसीद जिसे आप कर कटौती के रूप में उपयोग करने की योजना बना रहे हैं, उसे सत्यापित किया जाना चाहिए। IRS $75 से अधिक के व्यक्तिगत खर्चों के लिए दस्तावेज़ीकरण की आवश्यकता होती है, और कटौती पर एक गलत राशि ऑडिट प्रश्न को ट्रिगर कर सकती है।
हस्तलिखित तत्वों वाली रसीदें। टिप राशि, मैन्युअल मूल्य समायोजन, और हस्तलिखित नोट्स अभी भी AI एक्सट्रैक्शन के लिए सबसे कमजोर बिंदु हैं। यदि रसीद में लिखावट शामिल है, तो उन फ़ील्ड की जांच करें।
फीकी या क्षतिग्रस्त रसीदें। यदि आप अपनी आंखों से रसीद को मुश्किल से पढ़ सकते हैं, तो सत्यापन के बिना AI एक्सट्रैक्शन पर भरोसा न करें। गंभीर रूप से खराब रसीदों को आधिकारिक के बजाय अनुमानित माना जाना चाहिए।
विदेशी मुद्रा रसीदें। मुद्रा रूपांतरण और अपरिचित संख्या प्रारूप (अवधि बनाम अल्पविराम दशमलव विभाजक के रूप में) एक्सट्रैक्शन त्रुटियों का कारण बन सकते हैं। अंतरराष्ट्रीय रसीदों पर राशि और मुद्रा सत्यापित करें।

इन्हें स्पॉट-चेक करें

20+ आइटम वाली किराना रसीदें। 3-5 लाइन आइटम को स्पॉट-चेक करें और सत्यापित करें कि कुल योग का योग मेल खाता है। यदि कुल सही है, तो व्यक्तिगत लाइन आइटम त्रुटियों से आपके व्यय रिपोर्टिंग पर असर पड़ने की संभावना नहीं है।
अपिरिचित विक्रेताओं से रसीदें। किसी नए विक्रेता से पहली रसीद कम सटीकता उत्पन्न कर सकती है क्योंकि AI ने पहले उस विशेष लेआउट को नहीं देखा है। पहले वाले को सत्यापित करने के बाद, उसी विक्रेता से बाद की रसीदें आमतौर पर अधिक विश्वसनीय होती हैं।
बैच-संसाधित रसीदें। यदि आप एक बार में 50+ रसीदें संसाधित कर रहे हैं, तो उनमें से 10-15% को स्पॉट-चेक करें। यदि सटीकता लगातार अधिक है, तो आप बाकी पर भरोसा कर सकते हैं।

बिना जांच के भरोसा करें

डिजिटल/ईमेल रसीदें साफ स्वरूपण और मानक लेआउट के साथ।
प्रमुख खुदरा विक्रेताओं से ताज़ी रसीदें जहां कुल एक गोल संख्या है या आपके बैंक स्टेटमेंट से मेल खाती है।
$25 से कम की रसीदें जहां सत्यापन की लागत संभावित त्रुटि की लागत से अधिक है।

रसीदों को तुरंत डिजिटाइज़ करने का व्यावसायिक मामला

सटीकता डेटा एक भारी निष्कर्ष की ओर इशारा करता है: एक रसीद को स्कैन करने का सबसे अच्छा समय तुरंत है। देरी का प्रत्येक दिन सटीकता की लागत है, और थर्मल फीका पड़ने से खोई हुई सटीकता को कभी भी पुनर्प्राप्त नहीं किया जा सकता है।

अर्थशास्त्र पर विचार करें:

औसत कटौती योग्य रसीद मूल्य: $35-75
1 वर्ष के भीतर OCR पठनीयता से परे फीका पड़ने की संभावना: 30-50% (बटुआ भंडारण)
स्कैनिंग से पहले हानि की संभावना: प्रति माह 15-25%
प्रति रसीद औसत कर बचत (25% सीमांत दर पर): $8.75-18.75
एक रसीद को फोन से स्कैन करने का समय: 5-10 सेकंड

गणित सरल है। 10-सेकंड का स्कैन जो $12 कर कटौती को संरक्षित करता है, वह प्रति घंटे $4,320 के बराबर उत्पादकता के लायक है। भले ही आप केवल उच्च-मूल्य वाली रसीदों को स्कैन करें, निवेशित समय पर रिटर्न भारी है।

बीपीए जोखिम को समीकरण में जोड़ें - थर्मल रसीदों को संभालने से त्वचा संपर्क के माध्यम से बिस्फेनॉल यौगिकों की मापने योग्य मात्रा स्थानांतरित होती है - और तत्काल डिजिटलीकरण का मामला वित्तीय और स्वास्थ्य-संबंधी दोनों बन जाता है। यूरोपीय संघ ने पहले ही थर्मल पेपर में BPA को चरणबद्ध तरीके से समाप्त करना शुरू कर दिया है, और कई अमेरिकी राज्यों ने इसी तरह के प्रतिबंधों को लागू या प्रस्तावित किया है।

आगे क्या उम्मीद करें

पिछले पांच वर्षों में रसीद OCR सटीकता प्रति वर्ष लगभग 2-3 प्रतिशत अंक सुधरी है, जो मुख्य रूप से पारंपरिक OCR इंजीनियरिंग के बजाय विजन-भाषा मॉडल में प्रगति से प्रेरित है। AI एक्सट्रैक्शन टूल की वर्तमान पीढ़ी एक सार्थक सटीकता सीमा का प्रतिनिधित्व करती है: पहली बार, साफ रसीदों पर महत्वपूर्ण फ़ील्ड सटीकता लगातार 97% से अधिक है, जिससे अधिकांश व्यावसायिक वर्कफ़्लो के लिए पूरी तरह से स्वचालित रसीद प्रसंस्करण व्यवहार्य हो गया है।

शेष सटीकता अंतराल - हस्तलिखित टिप, गंभीर रूप से फीका थर्मल पेपर, विदेशी पीओएस प्रारूप - संकीर्ण होते रहेंगे। लेकिन थर्मल पेपर की समस्या भौतिक है, कम्प्यूटेशनल नहीं। कोई भी AI उन्नति उस पाठ को पुनर्प्राप्त नहीं करेगी जो कागज की सतह से रासायनिक रूप से गायब हो गया है।

व्यावहारिक समाधान वही रहता है: जल्दी कैप्चर करें, अच्छी रोशनी में कैप्चर करें, और AI को एक्सट्रैक्शन संभालने दें। सबसे महत्वपूर्ण रसीदों के लिए, कुल सत्यापित करें। बाकी सब के लिए, संख्याओं पर भरोसा करें और आगे बढ़ें।

PDFSub का रसीद स्कैनर किसी भी विक्रेता, किसी भी भाषा से, किसी भी प्रारूप में रसीदों को संसाधित करता है। अपनी खुद की रसीदों के मुकाबले इसका परीक्षण करने के लिए 7-दिवसीय निःशुल्क परीक्षण शुरू करें - इस लेख में सटीकता संख्याएं उद्योग बेंचमार्क हैं, और केवल वही संख्याएं मायने रखती हैं जो आप अपने स्वयं के दस्तावेजों पर देखते हैं।