اسکین شدہ پی ڈی ایف (PDF) کو OCR کیسے کریں (اسے قابل تلاش بنائیں؟)۔

OCR سے پہلے سکیننگ کے بہترین طریقے

OCR کی درستگی میں سب سے بڑا عنصر OCR سافٹ ویئر نہیں ہے — یہ سکین کا معیار ہے۔ ایک بہترین OCR انجن جو ناقص سکین پر کام کر رہا ہو، وہ ایک اوسط درجے کے انجن کے مقابلے میں بدتر نتائج دے گا جو بہترین سکین پر کام کر رہا ہو۔

ریزولوشن: کم از کم 300 DPI

DPI (ڈاٹس فی انچ) اس بات کا تعین کرتا ہے کہ سکینر کتنی تفصیل کیپچر کرتا ہے۔

300 DPI: زیادہ تر دستاویزات کے لیے معیاری۔ عام فونٹ سائز (10-12pt) میں معیاری فونٹ کی قابل اعتماد شناخت کے لیے کافی ہے۔
600 DPI: چھوٹے متن (فوٹ نوٹ، باریک پرنٹ) کے لیے تجویز کردہ یا جب آپ کو زیادہ سے زیادہ درستگی کی ضرورت ہو۔
150 DPI یا اس سے کم: تجویز کردہ نہیں۔ حروف قابل اعتماد شناخت کے لیے بہت چھوٹے ہیں۔ درستگی نمایاں طور پر کم ہو جاتی ہے۔
1200 DPI: OCR کے لیے ضرورت سے زیادہ۔ درستگی میں کوئی بہتری نہیں، اور فائل کا سائز بہت بڑا ہو جاتا ہے۔

کلر موڈ: گرے اسکیل عام طور پر بہترین ہوتا ہے

گرے اسکیل: زیادہ تر دستاویزات کے لیے بہترین۔ اچھی بائنریائزیشن کے لیے کافی کنٹراسٹ کو محفوظ رکھتا ہے جبکہ فائل کے سائز کو قابل انتظام رکھتا ہے۔
سیاہ اور سفید: صاف، زیادہ کنٹراسٹ والی دستاویزات کے لیے کام کر سکتا ہے لیکن معمولی علاقوں میں تفصیلات کو ضائع کر سکتا ہے۔
رنگین: صرف اس صورت میں ضروری ہے جب دستاویز میں رنگین کوڈ شدہ معلومات ہو جسے آپ محفوظ رکھنا چاہتے ہیں۔ OCR مقاصد کے لیے، رنگ گرے اسکیل کے مقابلے میں کوئی فائدہ نہیں دیتا۔

سیدھ اور سمت

صفحات کو سیدھا رکھیں۔ یہاں تک کہ 2-3 ڈگری کا جھکاؤ بھی OCR کی درستگی کو 5-10% تک کم کر سکتا ہے۔ صفحات کو سیدھ میں رکھنے کے لیے سکینر کے پیپر گائیڈز کا استعمال کریں۔
ایک طرفہ صفحات کو چہرے کے بل نیچے سکین کریں۔ پچھلی طرف سے آنے والے بہاؤ کو سایہ دار متن بنانے سے گریز کریں جو OCR انجن کو الجھا سکتا ہے۔
باندھی ہوئی دستاویزات کے لیے فلیٹ بیڈ سکینر استعمال کریں۔ شیٹ فیڈ سکینر کتابوں یا باندھے ہوئے رپورٹس کے صفحات کو ترچھا کر سکتے ہیں۔ فلیٹ بیڈ سکیننگ صفحہ کو چپٹا اور مناسب طریقے سے سیدھ میں رکھتی ہے۔

سکینر کی دیکھ بھال اور دستاویز کی تیاری

بیچوں کو سکین کرنے سے پہلے شیشے کو صاف کریں — داغ ہر صفحے پر آرٹیفیکٹس بناتے ہیں
سٹریكس کے لیے چیک کریں ایک خالی صفحہ سکین کر کے — عمودی لکیریں گندے رولرس کی نشاندہی کرتی ہیں
جام اور خروںچ کو روکنے کے لیے اسٹیپل اور پیپر کلپس ہٹا دیں
جھکے ہوئے صفحات کو سیدھا کریں — گہری دراڑیں سائے بناتی ہیں جنہیں OCR انجن غلط پڑھ سکتا ہے
ٹوٹے ہوئے حصوں کو پچھلی طرف ٹیپ سے ٹھیک کریں — سامنے کی طرف ٹیپ عکاسی پیدا کرتی ہے

OCR کے بعد: آگے کیا کرنا ہے

OCR چلانا صرف پہلا قدم ہے۔ یہاں بتایا گیا ہے کہ آپ اپنی نئی قابل تلاش دستاویزات سے زیادہ سے زیادہ فائدہ کیسے اٹھا سکتے ہیں۔

نتائج کی تصدیق کریں

خاص طور پر اہم دستاویزات کے لیے، OCR کے آؤٹ پٹ کو ہمیشہ جانچیں:

کلیدی الفاظ کے لیے تلاش کریں جو آپ جانتے ہیں کہ دستاویز میں موجود ہیں۔ اگر Ctrl+F انہیں مسلسل تلاش کرتا ہے، تو OCR کام کر رہا ہے۔
ایک پیراگراف کاپی کریں اور اسے ٹیکسٹ ایڈیٹر میں پیسٹ کریں۔ واضح غلطیوں کے لیے پڑھیں — بگڑے ہوئے الفاظ، غائب حروف، بے معنی متبادلات۔
اعداد کو احتیاط سے چیک کریں۔ مالی رقم، تاریخیں، فون نمبر، اور اکاؤنٹ نمبر اعلیٰ داؤ پر لگے ہوئے ڈیٹا ہیں۔ لین دین کی رقم میں "6" کو "8" کے طور پر غلط پڑھنا ایک حقیقی مسئلہ ہے۔ OCR انجن کبھی کبھار ملتے جلتے ہندسوں (0/O, 1/l, 5/S, 6/8) کو الجھا دیتے ہیں۔

غلطیوں کو درست کریں اور منظم کریں

اگر آپ کو اہم دستاویزات میں غلطیاں ملتی ہیں، تو Adobe Acrobat Pro آپ کو براہ راست ٹیکسٹ لیئر میں ترمیم کرنے کی اجازت دیتا ہے، یا آپ پریشان کن صفحات کو 600 DPI پر دوبارہ سکین کر کے OCR کو دوبارہ چلا سکتے ہیں۔ ہینڈ رائٹنگ والے حصوں کے لیے، دستی ٹرانسکرپشن اکثر خراب OCR کو درست کرنے سے تیز ہوتی ہے۔

قابل تلاش ہونے کے بعد، آپ کے پی ڈی ایف موجودہ ورک فلو میں ضم ہو جاتے ہیں۔ ڈیسک ٹاپ سرچ (ونڈوز سرچ، میک پر اسپاٹ لائٹ) خود بخود انہیں انڈیکس کرتا ہے۔ دستاویز مینجمنٹ سسٹم (SharePoint, Google Drive, Dropbox) آپ کی لائبریری میں مکمل متن کی تلاش کو فعال کرتے ہیں۔ اچھے فائل نام کے ساتھ قابل تلاش مواد کا امتزاج بہترین ہے۔