কিভাবে একটি স্ক্যান করা PDF OCR করবেন (সার্চযোগ্য করে তুলুন)
স্ক্যান করা PDF গুলি কেবল পৃষ্ঠার ছবি — আপনি টেক্সট সার্চ, কপি বা সম্পাদনা করতে পারবেন না। OCR একটি অদৃশ্য টেক্সট স্তর যুক্ত করে এটি ঠিক করে। এখানে তিনটি ভিন্ন পদ্ধতির মাধ্যমে এটি কীভাবে করবেন তা দেখানো হলো।
আপনি ডকুমেন্টগুলির একটি স্ট্যাক PDF-এ স্ক্যান করেছেন। এগুলি স্ক্রিনে দেখতে ভালো লাগছে — স্পষ্ট, পাঠযোগ্য, পেশাদার। কিন্তু একটি শব্দ খুঁজতে, একটি অনুচ্ছেদ কপি করতে, বা একটি ফোন নম্বর নির্বাচন করতে চেষ্টা করুন, এবং কিছুই হবে না। আপনার কার্সার কেবল পৃষ্ঠার উপর একটি নীল আয়তক্ষেত্র টেনে আনবে যেন আপনি একটি ছবি নির্বাচন করছেন। কারণ আপনি ঠিক এটাই করছেন।
স্ক্যান করা PDF গুলি আসলে ছবি। প্রতিটি পৃষ্ঠা একটি একক ছবি — পিক্সেলের একটি সমতল গ্রিড যার অক্ষর, শব্দ বা বাক্য সম্পর্কে কোনও ধারণা নেই। আপনার কম্পিউটার একটি স্ক্যান করা PDF-এ ঠিক ততটাই টেক্সট দেখতে পায় যতটা একটি সূর্যাস্তের JPEG ছবিতে দেখতে পায়: কিছুই না।
OCR (অপটিক্যাল ক্যারেক্টার রিকগনিশন) এটি সমাধান করে। এটি প্রতিটি পৃষ্ঠার ছবি বিশ্লেষণ করে, অক্ষরগুলি সনাক্ত করে এবং মূল স্ক্যানের উপরে একটি অদৃশ্য টেক্সট স্তর যুক্ত করে। দৃশ্যমান চেহারা একই থাকে, কিন্তু এখন আপনি টেক্সট সার্চ, কপি, নির্বাচন করতে পারবেন এবং স্ক্রিন রিডারগুলি এটি অ্যাক্সেস করতে পারবে।
এই গাইডটি OCR কী, এটি কীভাবে কাজ করে, আপনার স্ক্যান করা PDF গুলি OCR করার তিনটি পদ্ধতি এবং সেরা ফলাফল কীভাবে পাবেন তা কভার করে।
আপনার PDF-এর OCR প্রয়োজন কিনা তা কীভাবে বুঝবেন
OCR-এ সময় বিনিয়োগ করার আগে, আপনার PDF-এর আসলে এটি প্রয়োজন কিনা তা পরীক্ষা করুন। অনেক PDF "ডিজিটালভাবে তৈরি" — ওয়ার্ড ডকুমেন্ট, এক্সেল স্প্রেডশীট, বা ওয়েব পৃষ্ঠা থেকে তৈরি — এবং ইতিমধ্যেই একটি আসল টেক্সট স্তর ধারণ করে।
৫-সেকেন্ডের পরীক্ষা
১. যেকোনো ভিউয়ারে আপনার PDF খুলুন (Adobe Reader, Preview, Chrome, Edge) ২. Ctrl+F (Windows/Linux) বা Cmd+F (Mac) চাপুন ৩. পৃষ্ঠায় দৃশ্যমান একটি শব্দ টাইপ করুন ৪. যদি ভিউয়ার শব্দটি হাইলাইট করে: আপনার PDF-এ ইতিমধ্যেই সার্চযোগ্য টেক্সট আছে। OCR-এর প্রয়োজন নেই। ৫. যদি কিছুই খুঁজে না পাওয়া যায়: আপনার PDF শুধুমাত্র ছবি-ভিত্তিক। এটির OCR প্রয়োজন।
সিলেকশন পরীক্ষা
পৃষ্ঠায় টেক্সট নির্বাচন করার চেষ্টা করুন:
- যদি আপনি পৃথক শব্দ নির্বাচন করতে পারেন এবং সেগুলি নীল রঙে হাইলাইট হয়: PDF-এ একটি টেক্সট স্তর আছে।
- যদি পুরো পৃষ্ঠাটি একটি ব্লক হিসাবে নির্বাচিত হয় (ছবির মতো নির্বাচন): PDF একটি স্ক্যান যার কোনো টেক্সট স্তর নেই।
- যদি আপনি কিছু টেক্সট নির্বাচন করতে পারেন কিন্তু অন্য টেক্সট নয়: PDF-এর আংশিক OCR বা মিশ্রিত বিষয়বস্তু রয়েছে — কিছু পৃষ্ঠা ডিজিটাল, অন্যগুলি স্ক্যান করা।
OCR-এর প্রয়োজন হতে পারে এমন সাধারণ PDF প্রকারভেদ
| ডকুমেন্টের প্রকার | সাধারণত OCR প্রয়োজন? | কারণ |
|---|---|---|
| স্ক্যান করা কাগজের নথি | হ্যাঁ | শুধুমাত্র ছবি, কোনো টেক্সট ডেটা নেই |
| ফ্যাক্স করা নথি PDF হিসাবে সংরক্ষিত | হ্যাঁ | ফ্যাক্স আউটপুট একটি রাস্টার ছবি |
| ডকুমেন্টের ছবি (মোবাইল ক্যামেরা) | হ্যাঁ | ক্যামেরা ক্যাপচার = ছবি |
| "ইমেইলে স্ক্যান" থেকে তৈরি PDF | হ্যাঁ | বেশিরভাগ কপিয়ার ছবি PDF তৈরি করে |
| Word/Excel থেকে এক্সপোর্ট করা PDF | না | ডিজিটালভাবে তৈরি, টেক্সট স্তর অন্তর্ভুক্ত |
| ওয়েব ব্রাউজার থেকে PDF (প্রিন্ট টু PDF) | না | টেক্সট সংরক্ষিত থাকে |
| অনলাইন থেকে ডাউনলোড করা সরকারি ফর্ম | সাধারণত না | বেশিরভাগই ডিজিটালভাবে তৈরি |
| ইমেইল অ্যাটাচমেন্ট হিসাবে প্রাপ্ত রসিদ | সাধারণত না | টেক্সট সহ POS সিস্টেম দ্বারা তৈরি |
OCR কী? সহজ ভাষায় ব্যাখ্যা
OCR এর পূর্ণরূপ হলো অপটিক্যাল ক্যারেক্টার রিকগনিশন (Optical Character Recognition)। এটি এমন একটি প্রযুক্তি যা ছবি থেকে টেক্সট পড়ে — পিক্সেলের প্যাটার্ন বিশ্লেষণ করে অক্ষর, সংখ্যা এবং প্রতীক সনাক্ত করে, অনেকটা আপনার চোখের মতো পৃষ্ঠার শব্দ পড়ার মতো।
যখন আপনি একটি নথি স্ক্যান করেন, স্ক্যানার একটি ছবি তৈরি করে। সেই ছবিতে পিক্সেল থাকে — যেখানে কালি ছিল সেখানে গাঢ়, যেখানে কাগজ ছিল সেখানে হালকা — কিন্তু কোনো আসল টেক্সট ডেটা থাকে না। স্ক্যানার জানে না যে পিক্সেলের একটি বিন্যাস "Invoice" শব্দ তৈরি করে। এটি কেবল ছবিটি রেকর্ড করে।
OCR সেই ছবিটি নেয়, আকারগুলি বিশ্লেষণ করে, পরিচিত অক্ষর প্যাটার্নের সাথে তুলনা করে এবং সেই আকারগুলি যে টেক্সট উপস্থাপন করে তা আউটপুট করে। ফলাফল হলো একটি PDF যা মূল স্ক্যানের মতোই দেখতে লাগে কিন্তু একটি অদৃশ্য টেক্সট স্তর ধারণ করে। যখন আপনি Ctrl+F চাপেন এবং "December" অনুসন্ধান করেন, তখন PDF ভিউয়ার টেক্সট স্তরটি পরীক্ষা করে, মিল খুঁজে পায় এবং সেই শব্দটি যেখানে উপস্থিত আছে সেই ছবির অঞ্চলটি হাইলাইট করে।
OCR কতটা উন্নত হয়েছে
OCR ১৯৫০-এর দশক থেকে বিদ্যমান, যখন প্রাথমিক সিস্টেমগুলি কেবল নিয়ন্ত্রিত পরিবেশে নির্দিষ্ট ফন্ট পরিচালনা করতে পারত। প্রযুক্তিটি টেমপ্লেট ম্যাচিং (১৯৭০-৮০ দশক), ফিচার এক্সট্র্যাকশন (১৯৯০-২০০০ দশক) এবং মেশিন লার্নিং (২০১০ দশক) এর মাধ্যমে বিকশিত হয়েছে। আজকের OCR অক্ষর সনাক্তকরণের জন্য ডিপ নিউরাল নেটওয়ার্ক এবং প্রসঙ্গ ব্যবহার করে অস্পষ্টতা সমাধান করার জন্য ভাষা মডেলগুলিকে একত্রিত করে — যদি সিস্টেমটি নিশ্চিত না হয় যে একটি অক্ষর "l" নাকি "1", তবে চারপাশের শব্দগুলি এটিকে সিদ্ধান্ত নিতে সহায়তা করে।
আধুনিক OCR ইঞ্জিনগুলি পরিষ্কার, ভালোভাবে স্ক্যান করা মুদ্রিত নথিগুলিতে ৯৯% এর বেশি অক্ষর নির্ভুলতা অর্জন করে।
OCR কিভাবে কাজ করে: প্রযুক্তিগত প্রক্রিয়া
OCR কোনো একক অ্যালগরিদম নয়। এটি ধাপগুলির একটি পাইপলাইন, প্রতিটি পূর্ববর্তীটির উপর ভিত্তি করে তৈরি হয়।
ধাপ ১: ইমেজ প্রিপ্রসেসিং
কোনো অক্ষর সনাক্তকরণ হওয়ার আগে, OCR ইঞ্জিন ছবিটি পরিষ্কার করে। এর মধ্যে রয়েছে বাইনারাইজেশন (সর্বোচ্চ বৈসাদৃশ্যের জন্য কালো এবং সাদাতে রূপান্তর), ডেস্কিউইং (সামান্য পৃষ্ঠার ঘূর্ণন সংশোধন করা — ১-২ ডিগ্রি কাত হওয়া নির্ভুলতা উল্লেখযোগ্যভাবে কমাতে পারে), নয়েজ রিমুভাল (স্ক্যানার আর্টিফ্যাক্ট এবং স্পেকগুলি দূর করা), এবং বর্ডার রিমুভাল (কালো প্রান্ত এবং বাইন্ডিং ছায়াগুলি সরানো)।
ধাপ ২: লেআউট বিশ্লেষণ
ইঞ্জিন পৃষ্ঠার কাঠামো সনাক্ত করে — টেক্সট ব্লক, কলাম, ছবি, হেডার, ফুটার, টেবিল এবং পড়ার ক্রম। এই ধাপ ছাড়া, একটি দুই-কলামের নথি জট পাকানো আউটপুট তৈরি করতে পারে যা একই সাথে উভয় কলাম জুড়ে পড়ে।
ধাপ ৩: ক্যারেক্টার সেগমেন্টেশন
প্রতিটি টেক্সট ব্লকের মধ্যে, পৃথক অক্ষরগুলি বিচ্ছিন্ন করা হয়। লাইনগুলি উল্লম্ব ব্যবধান দ্বারা, শব্দগুলি অনুভূমিক ফাঁক দ্বারা এবং শব্দগুলির মধ্যে অক্ষরগুলি তাদের সীমানা দ্বারা পৃথক করা হয়। এটি যতটা মনে হয় তার চেয়ে কঠিন — অনেক ফন্টের অক্ষরগুলি ওভারল্যাপ করে বা স্পর্শ করে, এবং আরবি এবং দেবনাগরীর মতো স্ক্রিপ্টে, অক্ষরগুলি জটিল উপায়ে সংযুক্ত হয়।
ধাপ ৪: ক্যারেক্টার রিকগনিশন
প্রতিটি সেগমেন্টেড অক্ষর চিত্র লক্ষ লক্ষ লেবেলযুক্ত অক্ষর চিত্রের উপর প্রশিক্ষিত ডিপ নিউরাল নেটওয়ার্ক ব্যবহার করে শ্রেণীবদ্ধ করা হয়। নেটওয়ার্ক একটি একক উত্তরের পরিবর্তে প্রার্থীদের একটি কনফিডেন্স-র্যাঙ্কড তালিকা আউটপুট করে। একটি পরিষ্কার "A" ৯৯.৮% কনফিডেন্স পেতে পারে। একটি ক্ষতিগ্রস্ত অক্ষর অনেক ফ্ল্যাট ডিস্ট্রিবিউশন তৈরি করতে পারে।
ধাপ ৫: ভাষা মডেলিং
কাঁচা অক্ষর সনাক্তকরণ ত্রুটিপূর্ণ। প্রসঙ্গ অস্পষ্টতা সমাধান করে। "lnvoice" কি একটি শব্দ? না — "l" আসলে "I" ছিল, এটিকে "Invoice" তৈরি করে। পরিসংখ্যানগত ভাষা মডেলগুলি সম্ভাব্য অক্ষর ক্রমগুলির পূর্বাভাস দেয় এবং বিন্যাস বৈধতা তারিখ এবং সংখ্যার মতো প্যাটার্নগুলিতে নিয়ম প্রয়োগ করে।
ধাপ ৬: আউটপুট জেনারেশন
শনাক্তকৃত টেক্সটটি মূল চিত্রের স্থানাঙ্কগুলিতে ম্যাপ করা হয় এবং একটি অদৃশ্য টেক্সট স্তর হিসাবে PDF-এ লেখা হয়। প্রতিটি শব্দ তার দৃশ্যমান প্রতিরূপের সাথে নির্ভুলভাবে সারিবদ্ধ হয়, যা অনুসন্ধান এবং হাইলাইট কার্যকারিতা সক্ষম করে।
পদ্ধতি ১: PDFSub OCR টুল (প্রস্তাবিত)
PDFSub-এর OCR টুল স্ক্যান করা PDF গুলি প্রক্রিয়া করে এবং প্রতিটি পৃষ্ঠার মূল দৃশ্যমান চেহারা সংরক্ষণ করার সময় একটি সার্চযোগ্য টেক্সট স্তর যুক্ত করে।
ধাপে ধাপে নির্দেশাবলী
১. OCR টুলে যান — pdfsub.com/tools/ocr এ নেভিগেট করুন ২. আপনার স্ক্যান করা PDF আপলোড করুন — আপনার ফাইলটি ড্র্যাগ এবং ড্রপ করুন বা ব্রাউজ করতে ক্লিক করুন। বড় নথিগুলি বিভক্ত করার প্রয়োজন নেই — মাল্টি-পেজ PDF স্বয়ংক্রিয়ভাবে পরিচালনা করা হয়। ৩. OCR আপনার নথি প্রক্রিয়া করে — টুলটি প্রতিটি পৃষ্ঠা বিশ্লেষণ করে, টেক্সট সনাক্ত করে এবং অদৃশ্য টেক্সট স্তর তৈরি করে। প্রক্রিয়াকরণের সময় পৃষ্ঠার সংখ্যা এবং জটিলতার উপর নির্ভর করে, তবে বেশিরভাগ নথি কয়েক সেকেন্ডে সম্পন্ন হয়। ৪. আপনার সার্চযোগ্য PDF ডাউনলোড করুন — আউটপুট ফাইলটি আপনার মূল স্ক্যানের মতোই দেখতে লাগে কিন্তু এখন টেক্সট সার্চ, টেক্সট নির্বাচন এবং কপি-পেস্ট সমর্থন করে।
কেন PDFSub
১৩০+ ভাষার সমর্থন। OCR ইংরেজি, স্প্যানিশ, ফ্রেঞ্চ, জার্মান, চাইনিজ, জাপানিজ, কোরিয়ান, আরবি, হিন্দি, রাশিয়ান, পর্তুগিজ এবং ১২০টিরও বেশি অতিরিক্ত ভাষায় নথিগুলির সাথে কাজ করে। বহুভাষিক নথিগুলি স্বয়ংক্রিয়ভাবে পরিচালনা করা হয় — আপনাকে আগে থেকে ভাষা নির্দিষ্ট করার প্রয়োজন নেই।
মূল চেহারা সংরক্ষিত। OCR প্রক্রিয়াটি দৃশ্যমান বিষয়বস্তু পরিবর্তন না করে টেক্সট ডেটা যুক্ত করে। আপনার স্ক্যান করা পৃষ্ঠাগুলি ঠিক একই রকম দেখায়। ফন্ট, লেআউট, স্ট্যাম্প, স্বাক্ষর এবং হাতে লেখা টীকা সবই অপরিবর্তিত থাকে।
ইনস্টল করার জন্য কোনো সফ্টওয়্যার নেই। সবকিছু আপনার ব্রাউজারে বা সুরক্ষিত সার্ভারে চলে। ডাউনলোড করার মতো কিছুই নেই, সিস্টেমের প্রয়োজনীয়তা পরীক্ষা করার কিছু নেই, এবং কোনো সামঞ্জস্যতার সমস্যা নেই।
গোপনীয়তা-সচেতন ডিজাইন। আপলোড করা নথিগুলি প্রক্রিয়া করা হয় এবং তারপরে মুছে ফেলা হয়। PDFSub আপনার ফাইলগুলি সংরক্ষণ করে না বা প্রশিক্ষণের জন্য ব্যবহার করে না।
বিনামূল্যে চেষ্টা করুন। PDFSub একটি ৭-দিনের বিনামূল্যে ট্রায়াল অফার করে যাতে আপনি প্রতিশ্রুতিবদ্ধ হওয়ার আগে আপনার নিজের নথিগুলিতে OCR পরীক্ষা করতে পারেন।
পদ্ধতি ২: Adobe Acrobat Pro
Adobe Acrobat Pro-তে "Scan & OCR" টুলসেটের মধ্যে "Recognize Text" নামে একটি বিল্ট-ইন OCR বৈশিষ্ট্য রয়েছে।
ধাপে ধাপে নির্দেশাবলী
১. Adobe Acrobat Pro-তে আপনার স্ক্যান করা PDF খুলুন ২. Tools-এ যান এবং Scan & OCR নির্বাচন করুন ৩. Recognize Text ক্লিক করুন এবং In This File বা In Multiple Files নির্বাচন করুন ৪. Settings-এর অধীনে, Searchable Image নির্বাচন করুন (অদৃশ্য টেক্সট স্তর যুক্ত করে — প্রস্তাবিত) ৫. প্রক্রিয়া শুরু করতে Recognize Text ক্লিক করুন ৬. ফাইলটি সেভ করুন
সুবিধা এবং সীমাবদ্ধতা
Adobe পরিষ্কার ইংরেজি স্ক্যানগুলিতে উচ্চ নির্ভুলতা প্রদান করে, ব্যাচ প্রক্রিয়াকরণ সমর্থন করে এবং আপনাকে সরাসরি OCR ত্রুটিগুলি সংশোধন করতে দেয়। তবে, Acrobat Pro-এর খরচ $১৯.৯৯/মাস একটি বার্ষিক প্ল্যানে ($২৩৯.৮৮/বছর), ডেস্কটপ ইনস্টলেশন প্রয়োজন (কোনো ব্রাউজার-ভিত্তিক OCR নেই), প্রায় ২০টি ভাষা সমর্থন করে, এবং ৫০ পৃষ্ঠার বেশি নথিতে ধীর হতে পারে।
পদ্ধতি ৩: Google Drive (বিনামূল্যে, কিন্তু ক্ষতিকর)
Google Drive একটি মৌলিক OCR বৈশিষ্ট্য অন্তর্ভুক্ত করে যা স্ক্যান করা PDF থেকে টেক্সট বের করে — তবে একটি উল্লেখযোগ্য ট্রেড-অফ সহ।
ধাপে ধাপে নির্দেশাবলী
১. আপনার স্ক্যান করা PDF Google Drive-এ আপলোড করুন ২. ফাইলটিতে রাইট-ক্লিক করুন এবং Open with তারপর Google Docs নির্বাচন করুন ৩. Google PDF প্রক্রিয়া করে এবং এক্সট্র্যাক্ট করা টেক্সট সহ একটি Google Doc তৈরি করে ৪. টেক্সট এখন সার্চযোগ্য, নির্বাচনযোগ্য এবং সম্পাদনাযোগ্য
সুবিধা এবং সীমাবদ্ধতা
Google Drive OCR সম্পূর্ণ বিনামূল্যে, পরিষ্কার টাইপ করা নথিগুলিতে ভাল নির্ভুলতা প্রদান করে এবং স্বয়ংক্রিয়ভাবে ভাষা সনাক্ত করে। তবে, একটি গুরুতর ট্রেড-অফ রয়েছে: এটি ফরম্যাটিং নষ্ট করে দেয়। Google আপনার PDF-এ একটি টেক্সট স্তর যুক্ত করে না — এটি একটি Google Doc-এ টেক্সট বের করে। টেবিলগুলি সাধারণ টেক্সটে পরিণত হয়, কলামগুলি ভেঙে পড়ে এবং মূল লেআউট হারিয়ে যায়। আপনি একটি সার্চযোগ্য PDF এর পরিবর্তে একটি Google Doc পান।
এটি ১০ পৃষ্ঠার কম নথির জন্য সবচেয়ে ভালো কাজ করে। দীর্ঘ নথিগুলি ছোট হয়ে যেতে পারে।
সেরা জন্য: যখন আপনি মূল লেআউট চান না তখন টেক্সট বিষয়বস্তু বের করার জন্য। যদি আপনার একটি সার্চযোগ্য PDF প্রয়োজন হয় যা চেহারা সংরক্ষণ করে, তবে পদ্ধতি ১ বা পদ্ধতি ২ ব্যবহার করুন।
OCR নির্ভুলতা: ডকুমেন্টের প্রকারভেদে কী আশা করবেন
OCR কোনো জাদু নয়। নির্ভুলতা ডকুমেন্ট গুণমান, বিষয়বস্তুর প্রকার এবং স্ক্যানিং অবস্থার উপর নির্ভর করে নাটকীয়ভাবে পরিবর্তিত হয়। এখানে বাস্তব-বিশ্বের পরীক্ষাগুলি কী দেখায় তা রয়েছে।
টাইপ করা নথি (আধুনিক ফন্ট): ৯৫-৯৯%
আধুনিক মুদ্রিত নথি — চালান, চুক্তি, লেজার প্রিন্টারে মুদ্রিত প্রতিবেদন — সেরা পরিস্থিতি। স্ট্যান্ডার্ড ফন্টগুলি OCR প্রশিক্ষণ ডেটাতে ভালোভাবে উপস্থাপিত হয় এবং সাদা কাগজে পরিষ্কার প্রিন্টগুলি উচ্চ-কন্ট্রাস্ট ছবি তৈরি করে। ২৫০-শব্দের পৃষ্ঠায় ৯৯% নির্ভুলতায় (প্রায় ১,৫০০ অক্ষর), আপনি প্রায় ১৫টি অক্ষর ত্রুটির আশা করতে পারেন — বেশিরভাগই গুরুত্বহীন, যেমন একটি পিরিয়ডকে কমা হিসাবে ভুল পড়া বা একটি ছোট হাতের "l" কে "1" হিসাবে বিভ্রান্ত করা।
পুরানো টাইপরাইটার নথি: ৮৫-৯৫%
মেকানিক্যাল টাইপরাইটারগুলি চ্যালেঞ্জ উপস্থাপন করে: অসঙ্গত অক্ষর বিন্যাস, রিবন ক্ষয়ের কারণে ভিন্ন কালি ঘনত্ব, এবং অভিন্ন অক্ষর প্রস্থ যা সেগমেন্টেশন বিভ্রান্তি সৃষ্টি করে। তবুও, টাইপ করা টেক্সট স্বতন্ত্রভাবে গঠিত এবং অনুভূমিকভাবে সারিবদ্ধ থাকে, তাই বেশিরভাগ OCR ইঞ্জিন সার্চের উদ্দেশ্যে এটি ভালোভাবে পরিচালনা করে।
হাতে লেখা টেক্সট: ৬০-৮০%
হাতে লেখা OCR-এর সবচেয়ে কঠিন চ্যালেঞ্জ রয়ে গেছে। পরিবর্তনশীলতা বিশাল — কেবল মানুষের মধ্যে নয়, একটি পৃষ্ঠায় একজন ব্যক্তির লেখার মধ্যেও। পরিষ্কার ব্লক প্রিন্টিং ৮০-৮৫% পর্যন্ত পৌঁছাতে পারে। লাইনের কাগজে পেন্সিলে লেখা কার্সিভ ৬০% এর নিচে নেমে যেতে পারে। হাতে লেখা নথি থেকে গুরুত্বপূর্ণ ডেটা সর্বদা ম্যানুয়ালি যাচাই করুন।
মিশ্র বিষয়বস্তু (টেক্সট + টেবিল): ৯০-৯৭%
টেক্সট এবং সারণী ডেটা সমন্বিত নথিগুলি একটি লেআউট বিশ্লেষণ চ্যালেঞ্জ যোগ করে। কোষের মধ্যে অক্ষর সনাক্তকরণ সাধারণত নির্ভুল হয়, তবে কাঠামোগত ত্রুটি — ভুলভাবে সনাক্ত করা কোষের সীমানা, ভুলভাবে নির্ধারিত কলাম, বহু-লাইন কোষগুলি সারিতে বিভক্ত করা — ডেটা সম্পর্কগুলিকে নষ্ট করে এবং পৃথক অক্ষর ত্রুটির চেয়ে বেশি গুরুত্বপূর্ণ।
নির্ভুলতা সারসংক্ষেপ টেবিল
| ডকুমেন্টের প্রকার | অক্ষর নির্ভুলতা | সার্চযোগ্য? | ডেটা এক্সট্রাকশন নির্ভরযোগ্য? |
|---|---|---|---|
| আধুনিক মুদ্রিত (লেজার) | ৯৫-৯৯% | চমৎকার | হ্যাঁ |
| আধুনিক মুদ্রিত (ইঙ্কজেট) | ৯৩-৯৮% | চমৎকার | সাধারণত |
| পুরানো টাইপরাইটার | ৮৫-৯৫% | ভালো | যাচাই সহ |
| পরিষ্কার হাতে লেখা (ব্লক) | ৭০-৮০% | আংশিক | না — সবকিছু যাচাই করুন |
| কার্সিভ হাতে লেখা | ৬০-৭০% | দুর্বল | না |
| মিশ্র টেক্সট + টেবিল | ৯০-৯৭% | ভালো | কাঠামোগত পর্যালোচনার সাথে |
| ক্ষতিগ্রস্ত/ক্ষতিগ্রস্ত কাগজ | ৭০-৯০% | পরিবর্তিত হয় | ভারী যাচাই সহ |
OCR এর আগে স্ক্যান করার জন্য সেরা অনুশীলন
OCR নির্ভুলতার একক বৃহত্তম কারণ OCR সফ্টওয়্যার নয় — এটি স্ক্যান গুণমান। একটি দুর্দান্ত OCR ইঞ্জিন একটি দুর্বল স্ক্যানে কাজ করলে একটি মাঝারি ইঞ্জিনের চেয়ে খারাপ ফলাফল দেবে যা একটি দুর্দান্ত স্ক্যানে কাজ করে।
রেজোলিউশন: ৩০০ DPI ন্যূনতম
DPI (ডটস প্রতি ইঞ্চি) নির্ধারণ করে স্ক্যানার কতটা বিশদ ক্যাপচার করে।
- ৩০০ DPI: বেশিরভাগ নথির জন্য মান। সাধারণ টেক্সট আকারের (১০-১২pt) স্ট্যান্ডার্ড ফন্টগুলির নির্ভরযোগ্য স্বীকৃতির জন্য যথেষ্ট।
- ৬০০ DPI: ছোট টেক্সট (ফুটনোট, সূক্ষ্ম প্রিন্ট) বা যখন আপনার সর্বোচ্চ নির্ভুলতা প্রয়োজন তখন প্রস্তাবিত।
- ১৫০ DPI বা কম: প্রস্তাবিত নয়। অক্ষরগুলি নির্ভরযোগ্য স্বীকৃতির জন্য খুব ছোট। নির্ভুলতা উল্লেখযোগ্যভাবে হ্রাস পায়।
- ১২০০ DPI: OCR এর জন্য অতিরিক্ত। কোনো নির্ভুলতা উন্নতি নেই, এবং ফাইলের আকার বিশাল হয়ে যায়।
কালার মোড: গ্রেস্কেল সাধারণত সেরা
- গ্রেস্কেল: বেশিরভাগ নথির জন্য সেরা। ফাইল আকার পরিচালনাযোগ্য রেখে ভাল বাইনারাইজেশনের জন্য যথেষ্ট বৈসাদৃশ্য সংরক্ষণ করে।
- কালো এবং সাদা: পরিষ্কার, উচ্চ-কন্ট্রাস্ট নথির জন্য কাজ করতে পারে তবে প্রান্তিক অঞ্চলে বিশদ নষ্ট করতে পারে।
- কালার: শুধুমাত্র তখনই প্রয়োজন যদি নথিতে রঙের কোডেড তথ্য থাকে যা আপনি সংরক্ষণ করতে চান। OCR উদ্দেশ্যে, কালার গ্রেস্কেলের চেয়ে কোনো সুবিধা যোগ করে না।
অ্যালাইনমেন্ট এবং ওরিয়েন্টেশন
- পৃষ্ঠাগুলি সোজা রাখুন। এমনকি ২-৩ ডিগ্রি স্কিউও OCR নির্ভুলতা ৫-১০% কমাতে পারে। পৃষ্ঠাগুলি সারিবদ্ধ রাখতে স্ক্যানারের কাগজের গাইড ব্যবহার করুন।
- একমুখী পৃষ্ঠাগুলি মুখ নিচে স্ক্যান করুন। বিপরীত দিক থেকে আসা ব্লিড-থ্রু OCR ইঞ্জিনকে বিভ্রান্ত করতে পারে এমন ছায়া টেক্সট তৈরি করা এড়িয়ে চলুন।
- বাঁধাই করা নথির জন্য ফ্ল্যাটবেড স্ক্যানার ব্যবহার করুন। শীট-ফিড স্ক্যানারগুলি বই বা বাঁধাই করা প্রতিবেদন থেকে পৃষ্ঠাগুলি স্কিউ করতে পারে। ফ্ল্যাটবেড স্ক্যানিং পৃষ্ঠাটিকে সমতল এবং সঠিকভাবে সারিবদ্ধ রাখে।
স্ক্যানার রক্ষণাবেক্ষণ এবং ডকুমেন্ট প্রস্তুতি
- ব্যাচ স্ক্যান করার আগে কাঁচ পরিষ্কার করুন — দাগ প্রতিটি পৃষ্ঠায় আর্টিফ্যাক্ট তৈরি করে
- একটি খালি পৃষ্ঠা স্ক্যান করে স্ট্রাইকের জন্য পরীক্ষা করুন — উল্লম্ব রেখাগুলি নোংরা রোলার নির্দেশ করে
- জ্যাম এবং স্ক্র্যাচ প্রতিরোধ করার জন্য স্ট্যাপল এবং পেপার ক্লিপগুলি সরান
- ভাঁজ করা পৃষ্ঠাগুলি সমতল করুন — গভীর ভাঁজগুলি ছায়া তৈরি করে যা OCR ইঞ্জিন ভুল পড়তে পারে
- পিঠের দিকে টেপ দিয়ে ছেঁড়া মেরামত করুন — সামনের দিকে টেপ প্রতিফলন তৈরি করে
OCR এর পরে: পরবর্তী কী করবেন
OCR চালানো কেবল প্রথম ধাপ। আপনার নতুন সার্চযোগ্য নথিগুলি থেকে সর্বাধিক সুবিধা পেতে এখানে কিছু উপায় রয়েছে।
ফলাফল যাচাই করুন
বিশেষ করে গুরুত্বপূর্ণ নথিগুলির জন্য সর্বদা OCR আউটপুট স্পট-চেক করুন:
- মূল পদগুলি অনুসন্ধান করুন যা আপনি জানেন নথিতে উপস্থিত রয়েছে। যদি Ctrl+F সেগুলি ধারাবাহিকভাবে খুঁজে পায়, তবে OCR কাজ করছে।
- একটি অনুচ্ছেদ কপি করুন এবং একটি টেক্সট এডিটরে পেস্ট করুন। স্পষ্ট ত্রুটিগুলির জন্য পড়ুন — বিকৃত শব্দ, অনুপস্থিত অক্ষর, অর্থহীন প্রতিস্থাপন।
- সংখ্যাগুলি সাবধানে পরীক্ষা করুন। আর্থিক পরিমাণ, তারিখ, ফোন নম্বর এবং অ্যাকাউন্ট নম্বরগুলি উচ্চ-ঝুঁকিপূর্ণ ডেটা। লেনদেনের পরিমাণে "8" হিসাবে ভুল পড়া "6" একটি বাস্তব সমস্যা। OCR ইঞ্জিনগুলি মাঝে মাঝে অনুরূপ অঙ্কগুলিকে বিভ্রান্ত করে (0/O, 1/l, 5/S, 6/8)।
ত্রুটি সংশোধন এবং সংগঠিত করুন
যদি আপনি গুরুত্বপূর্ণ নথিগুলিতে ত্রুটি খুঁজে পান, Adobe Acrobat Pro আপনাকে সরাসরি টেক্সট স্তর সম্পাদনা করতে দেয়, অথবা আপনি সমস্যাযুক্ত পৃষ্ঠাগুলি ৬০০ DPI তে পুনরায় স্ক্যান করতে এবং OCR পুনরায় চালাতে পারেন। হাতে লেখা অংশগুলির জন্য, ম্যানুয়াল ট্রান্সক্রিপশন প্রায়শই খারাপ OCR সংশোধন করার চেয়ে দ্রুত হয়।
একবার সার্চযোগ্য হয়ে গেলে, আপনার PDF গুলি বিদ্যমান ওয়ার্কফ্লোতে একীভূত হয়। ডেস্কটপ অনুসন্ধান (Windows Search, Mac-এ Spotlight) স্বয়ংক্রিয়ভাবে সেগুলিকে ইন্ডেক্স করে। ডকুমেন্ট ম্যানেজমেন্ট সিস্টেমগুলি (SharePoint, Google Drive, Dropbox) আপনার লাইব্রেরি জুড়ে সম্পূর্ণ-টেক্সট অনুসন্ধান সক্ষম করে। ভাল ফাইলের নাম এবং সার্চযোগ্য বিষয়বস্তু আদর্শ সমন্বয়।
OCR এর জন্য বাস্তব-বিশ্বের ব্যবহারিক উদাহরণ
কাগজের আর্কাইভ ডিজিটাইজ করা
ব্যবসা, আইন সংস্থা এবং সরকারি সংস্থাগুলিতে প্রায়শই কয়েক দশকের কাগজের নথি থাকে। কেবল PDF-এ স্ক্যান করলে ছবি ফাইল তৈরি হয় যা কেবল ফাইলের নাম দ্বারা অনুসন্ধানযোগ্য। OCR যোগ করলে একটি নিষ্ক্রিয় আর্কাইভ একটি কোয়েরিযোগ্য ডেটাবেসে পরিণত হয়। সাধারণ ওয়ার্কফ্লো: ৩০০ DPI গ্রেস্কেলে স্ক্যান করুন, OCR চালান, নামকরণের নিয়ম প্রয়োগ করুন এবং একটি ডকুমেন্ট ম্যানেজমেন্ট সিস্টেমে আপলোড করুন।
আইনি নথি সার্চযোগ্য করা
আইনি পেশাদাররা আবিষ্কার এবং যথাযথ অধ্যবসায়ের সময় বিপুল পরিমাণ নথি নিয়ে কাজ করেন। বিপরীত আইনজীবী স্ক্যান করা নথির হাজার হাজার পৃষ্ঠা তৈরি করতে পারেন। OCR ছাড়া, পর্যালোচনা মানে ম্যানুয়ালি প্রতিটি পৃষ্ঠা পড়া। OCR সহ, আইনজীবীরা পুরো সেট জুড়ে মূল পদ, নাম, তারিখ এবং পরিমাণের জন্য অনুসন্ধান করতে পারেন — পর্যালোচনার কাজ বাস্তবসম্মত সময়সীমার মধ্যে সম্ভব করে তোলে।
অ্যাক্সেসিবিলিটি কমপ্লায়েন্স
আমেরিকানস উইথ ডিসএবিলিটিস অ্যাক্ট (ADA) এবং সেকশন ৫০৮ এর অধীনে, সরকারি সংস্থা এবং ফেডারেলভাবে অর্থায়ন করা সংস্থাগুলির ডিজিটাল নথিগুলি অ্যাক্সেসযোগ্য হতে হবে। স্ক্রিন রিডারগুলি কেবল ছবি-ভিত্তিক PDF গুলি ব্যাখ্যা করতে পারে না — তাদের একটি টেক্সট স্তর প্রয়োজন। OCR হল কমপ্লায়েন্সের দিকে প্রথম ধাপ। অতিরিক্ত কাজ (হেডিং কাঠামো, অল্টার টেক্সট, পড়ার ক্রম ট্যাগ) অনুসরণ করতে পারে, তবে টেক্সট স্তর ছাড়া অ্যাক্সেসিবিলিটি অসম্ভব।
বীমা এবং আর্থিক প্রক্রিয়াকরণ
বীমা কোম্পানি এবং ব্যাংকগুলি লক্ষ লক্ষ স্ক্যান করা দাবির ফর্ম, চিকিৎসা রেকর্ড, চেক এবং ঋণ আবেদন গ্রহণ করে। OCR স্বয়ংক্রিয় ডেটা এক্সট্রাকশন সক্ষম করে — নীতি নম্বর, দাবির পরিমাণ, পরিষেবার তারিখ এবং অ্যাকাউন্ট বিবরণ স্ক্যান করা নথি থেকে প্রক্রিয়াকরণ সিস্টেমে নিয়ে আসে।
একাডেমিক এবং গবেষণা আর্কাইভ
বিশ্ববিদ্যালয়, লাইব্রেরি এবং আর্কাইভগুলি ঐতিহাসিক নথি, সংবাদপত্র এবং পাণ্ডুলিপি ডিজিটাইজ করছে। OCR জ্ঞান শতাব্দীর পর শতাব্দী ধরে সার্চযোগ্য করে তোলে। Google Books এবং Internet Archive-এর মতো প্রকল্পগুলি বিলিয়ন বিলিয়ন পৃষ্ঠা OCR করেছে, যা ম্যানুয়ালি পড়তে জীবনকাল সময় লাগা সংগ্রহ জুড়ে সম্পূর্ণ-টেক্সট অনুসন্ধান সক্ষম করে।
প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী
আমি কি একসাথে একাধিক PDF OCR করতে পারি (ব্যাচ প্রক্রিয়াকরণ)?
হ্যাঁ। PDFSub একটি একক অপারেশনে মাল্টি-পেজ নথি প্রক্রিয়াকরণ সমর্থন করে। বড় ব্যাচ কাজের জন্য — শত শত বা হাজার হাজার ফাইল — আপনি টুলটির মাধ্যমে সেগুলি ক্রমানুসারে প্রক্রিয়া করবেন। Adobe Acrobat Pro তার Action Wizard বৈশিষ্ট্যের মাধ্যমে স্বয়ংক্রিয়ভাবে PDF-এর সম্পূর্ণ ফোল্ডারগুলি প্রক্রিয়া করতে পারে এমন ব্যাচ OCR-ও সরবরাহ করে।
OCR কি আমার PDF-এর চেহারা পরিবর্তন করে?
না। সঠিক OCR দৃশ্যমান পৃষ্ঠার ছবির পিছনে একটি অদৃশ্য টেক্সট স্তর যুক্ত করে। আপনার স্ক্যান করা PDF-এর দৃশ্যমান চেহারা অপরিবর্তিত থাকে — একই পৃষ্ঠা, একই লেআউট, একই রেজোলিউশন। টেক্সট স্তরটি কেবল অনুসন্ধান ফাংশন, টেক্সট নির্বাচন, কপি-পেস্ট এবং স্ক্রিন রিডারগুলির জন্য "দৃশ্যমান"।
যদি আমি ইতিমধ্যে সার্চযোগ্য টেক্সট সহ একটি PDF-এ OCR চালাই তবে কী হবে?
বেশিরভাগ OCR টুল বিদ্যমান টেক্সট স্তরগুলি সনাক্ত করে এবং হয় সেই পৃষ্ঠাগুলি এড়িয়ে যায় বা আপনাকে সেগুলি পুনরায় প্রক্রিয়া করার বিকল্প দেয়। ইতিমধ্যে সার্চযোগ্য একটি PDF-এ OCR চালানো সাধারণত ক্ষতিকারক কিন্তু অপ্রয়োজনীয় — এটি বিদ্যমান টেক্সট স্তর উন্নত করবে না এবং অপ্রয়োজনীয় ডেটার কারণে ফাইলের আকার সামান্য বাড়িয়ে দিতে পারে।
OCR এর পরে কি আমার ফাইলের আকার বাড়বে?
সামান্য। একটি সাধারণ স্ক্যান করা নথির জন্য ৫-১৫% বৃদ্ধির আশা করুন। টেক্সট স্তরটি নিজেই ছোট (অক্ষর এবং অবস্থান ডেটা), এবং স্ক্যান করা PDF-এর বেশিরভাগ অংশ গঠনকারী চিত্র ডেটার তুলনায় বৃদ্ধি নগণ্য।
OCR কি স্ক্যান করা এবং ডিজিটাল পৃষ্ঠাগুলির মিশ্রণ সহ PDF-গুলিতে কাজ করে?
হ্যাঁ। ভাল OCR টুলগুলি প্রতিটি পৃষ্ঠা স্বাধীনভাবে প্রক্রিয়া করে। যে পৃষ্ঠাগুলিতে ইতিমধ্যে একটি টেক্সট স্তর রয়েছে সেগুলি সনাক্ত করা হয় এবং এড়িয়ে যাওয়া যেতে পারে। যে পৃষ্ঠাগুলি কেবল ছবি-ভিত্তিক সেগুলি প্রক্রিয়া করা হয়। ফলাফল হল একটি সম্পূর্ণ সার্চযোগ্য PDF, আসলটি কীভাবে একত্রিত হয়েছিল তা নির্বিশেষে।
OCR কোন ভাষা সমর্থন করে?
ভাষা সমর্থন সরঞ্জাম অনুসারে পরিবর্তিত হয়। PDFSub-এর OCR ১৩০ টিরও বেশি ভাষা সমর্থন করে, যার মধ্যে ল্যাটিন-স্ক্রিপ্ট (ইংরেজি, স্প্যানিশ, ফ্রেঞ্চ, জার্মান), CJK (চীনা, জাপানিজ, কোরিয়ান), সিরিলিক (রাশিয়ান, ইউক্রেনীয়), আরবি-স্ক্রিপ্ট (আরবি, ফার্সি, উর্দু), দেবনাগরী (হিন্দি, মারাঠি), এবং আরও অনেক কিছু রয়েছে।
OCR কি হাতে লেখা পড়তে পারে?
আংশিকভাবে। পরিষ্কার ব্লক প্রিন্টিং ৭০-৮০% নির্ভুলতায় পৌঁছায়। কার্সিভ উল্লেখযোগ্যভাবে কঠিন (৬০-৭০% বা তার কম)। হাতে লেখা নথি থেকে গুরুত্বপূর্ণ ডেটার জন্য, সর্বদা ফলাফল ম্যানুয়ালি যাচাই করুন।
OCR কি PDF টেক্সট এক্সট্রাকশনের মতোই?
না। OCR টেক্সটের ছবিগুলিকে আসল অক্ষরে রূপান্তরিত করে — যখন কোনো টেক্সট ডেটা থাকে না, কেবল পিক্সেল থাকে তখন এটি প্রয়োজন। PDF টেক্সট এক্সট্রাকশন একটি ডিজিটাল PDF-এর কন্টেন্ট স্ট্রিমের মধ্যে ইতিমধ্যে বিদ্যমান টেক্সট পড়ে — যখন টেক্সট এমন একটি ফর্ম্যাটে আটকে থাকে যা আপনি সহজে কাজ করতে পারেন না তখন এটি প্রয়োজন। যদি আপনার PDF ডিজিটালভাবে তৈরি হয়, আপনার এক্সট্রাকশন প্রয়োজন। যদি এটি স্ক্যান করা হয়, আপনার প্রথমে OCR প্রয়োজন।
OCR কি মোবাইল ফোনের ক্যামেরা দিয়ে তোলা ছবিতে কাজ করে?
হ্যাঁ, তবে নির্ভুলতা ছবির গুণমানের উপর নির্ভর করে। সেরা ফলাফলের জন্য: ফোনটিকে নথির সমান্তরাল রাখুন, সমান আলো নিশ্চিত করুন (কোনো ছায়া নেই), ফ্রেমটি পূরণ করুন, স্থির রাখুন এবং উপলব্ধ থাকলে আপনার ফোনের ডকুমেন্ট স্ক্যানিং মোড ব্যবহার করুন। ফোন ছবিগুলি পরিষ্কার মুদ্রিত টেক্সটের জন্য সাধারণত ৮৫-৯৫% নির্ভুলতা তৈরি করে — ফ্ল্যাটবেড স্ক্যানের চেয়ে কম তবে সার্চযোগ্যতার জন্য প্রায়শই যথেষ্ট।
OCR এর পরে কি আমি টেক্সট সম্পাদনা করতে পারি?
OCR টেক্সট স্তরটি অদৃশ্য এবং স্ক্যান ছবির উপরে স্থাপন করা হয়। আপনি যেকোনো এডিটরে টেক্সট কপি এবং পেস্ট করতে পারেন, সরাসরি টেক্সট স্তর সম্পাদনা করতে Adobe Acrobat Pro ব্যবহার করতে পারেন, বা সম্পাদনার জন্য Word বা প্লেইন টেক্সটে এক্সপোর্ট করতে পারেন। একটি স্ক্যান করা নথির দৃশ্যমান বিষয়বস্তু পরিবর্তন করতে, আপনাকে পুনরায় স্ক্যান করতে হবে বা ছবির উপরে টীকা যুক্ত করতে একটি PDF সম্পাদক ব্যবহার করতে হবে।
OCR দিয়ে শুরু করা
যদি আপনার স্ক্যান করা PDF থাকে যা সার্চযোগ্য হওয়া দরকার, তবে দ্রুততম পথটি সহজ:
১. আপনার PDF পরীক্ষা করুন — তারা OCR প্রয়োজন কিনা তা নিশ্চিত করতে Ctrl+F পরীক্ষা ব্যবহার করুন ২. PDFSub-এর OCR টুল চেষ্টা করুন — pdfsub.com/tools/ocr এ একটি স্ক্যান করা PDF আপলোড করুন এবং ফলাফল দেখুন ৩. আউটপুট যাচাই করুন — নির্ভুলতা আপনার প্রয়োজন মেটায় কিনা তা নিশ্চিত করতে কয়েকটি পৃষ্ঠা স্পট-চেক করুন ৪. আপনার বাকি নথিগুলি প্রক্রিয়া করুন — একবার আপনি ফলাফলে আত্মবিশ্বাসী হলে, আপনার ব্যাকলগটি নিয়ে কাজ করুন।
PDFSub একটি ৭-দিনের বিনামূল্যে ট্রায়াল অফার করে যাতে প্ল্যাটফর্মের OCR টুল এবং অন্যান্য সমস্ত PDF টুলে অ্যাক্সেস অন্তর্ভুক্ত। একটি স্ক্যান করা নথি আপলোড করুন এবং সার্চযোগ্য টেক্সট কী পার্থক্য তৈরি করে তা দেখুন। যেকোনো সময় বাতিল করুন।