কীভাবে PDF থেকে টেক্সট কনভার্ট করবেন (সব টেক্সট এক্সট্র্যাক্ট করুন)
একটি PDF থেকে শুধু টেক্সট দরকার — কোনো ফরম্যাটিং বা ছবি ছাড়া? যেকোনো PDF থেকে প্লেইন টেক্সট এক্সট্র্যাক্ট করার নিয়ম এখানে জানুন।
কখনও কখনও আপনার ফন্ট, লেআউট, রঙ বা ছবির প্রয়োজন হয় না। আপনার শুধু শব্দগুলোর প্রয়োজন হয়। PDF-কে প্লেইন টেক্সটে কনভার্ট করলে সমস্ত ভিজ্যুয়াল এলিমেন্ট বাদ যায় এবং আপনি র (raw) টেক্সট পান — প্যারাগ্রাফ, হেডিং এবং ডেটা তাদের সহজতম রূপে।
এটি অন্যতম সাধারণ PDF অপারেশন এবং অন্যতম ভুল বোঝা একটি বিষয়। মানুষ আশা করে যে কোনো PDF থেকে নিখুঁত টেক্সট পাওয়া যাবে, কিন্তু বাস্তবতা নির্ভর করে PDF-টি কীভাবে তৈরি করা হয়েছে তার ওপর। আসল টেক্সট কন্টেন্ট সহ ডিজিটাল PDF-গুলো চমৎকার ফলাফল দেয়। কোনো এমবেডেড টেক্সট ছাড়া স্ক্যান করা ডকুমেন্ট থেকে কিছুই পাওয়া যায় না — কারণ সেখানে এক্সট্র্যাক্ট করার মতো কোনো টেক্সট নেই।
এই গাইডে আলোচনা করা হয়েছে কখন টেক্সট এক্সট্র্যাকশন কাজ করে, কখন করে না এবং এই কাজের জন্য সেরা টুলগুলো কী কী।
কেন PDF থেকে টেক্সট এক্সট্র্যাক্ট করবেন?
ডেটা অ্যানালাইসিস
আপনার কাছে একটি PDF রিপোর্ট আছে যার সংখ্যাগুলো আপনাকে স্প্রেডশীট বা স্ক্রিপ্টে অ্যানালাইসিস করতে হবে। টেক্সট এক্সট্র্যাক্ট করলে আপনি র ডেটা পাবেন যা আপনি পার্স, ফিল্টার এবং প্রসেস করতে পারবেন। গবেষক, বিশ্লেষক এবং ডেটা সায়েন্টিস্টরা প্রায়ই তাদের কাজের প্রথম ধাপ হিসেবে PDF পেপার এবং রিপোর্ট থেকে টেক্সট এক্সট্র্যাক্ট করেন।
ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (NLP)
আপনি যদি কোনো NLP মডেল তৈরি বা ট্রেনিং দেন, কাস্টমার ফিডব্যাক প্রসেস করেন বা সেন্টিমেন্ট অ্যানালাইসিস করেন, তবে আপনার প্লেইন টেক্সট ইনপুট প্রয়োজন। ডকুমেন্টের জন্য PDF একটি সাধারণ সোর্স ফরম্যাট হলেও NLP পাইপলাইনের জন্য .txt ফাইল প্রয়োজন। টেক্সট এক্সট্র্যাকশন এই ব্যবধান পূরণ করে।
কন্টেন্ট মাইগ্রেশন
এক সিস্টেম থেকে অন্য সিস্টেমে কন্টেন্ট সরানো — যেমন CMS, নলেজ বেস বা ডেটাবেস — প্রায়ই বিদ্যমান PDF থেকে টেক্সট এক্সট্র্যাক্ট করার মাধ্যমে শুরু হয়। আপনার লেআউটের প্রয়োজন নেই; আপনার শুধু শব্দগুলো এমন একটি ফরম্যাটে দরকার যা আপনার গন্তব্য সিস্টেম ইমপোর্ট করতে পারে।
সার্চ এবং ইনডেক্সিং
PDF ডকুমেন্টের একটি সার্চযোগ্য আর্কাইভ তৈরি করার জন্য টেক্সট কন্টেন্ট এক্সট্র্যাক্ট করা প্রয়োজন। সার্চ ইঞ্জিন এবং ফুল-টেক্সট সার্চ সিস্টেমগুলো প্লেইন টেক্সট ইনডেক্স করে। আপনার PDF থেকে টেক্সট এক্সট্র্যাক্ট করলে প্রতিটি ফাইল আলাদাভাবে না খুলেই সেগুলো সার্চযোগ্য হয়ে ওঠে।
অ্যাক্সেসিবিলিটি
PDF-কে প্লেইন টেক্সটে কনভার্ট করলে কন্টেন্ট আরও অ্যাক্সেসযোগ্য হতে পারে। স্ক্রিন রিডারগুলো প্লেইন টেক্সটের সাথে নির্ভরযোগ্যভাবে কাজ করে। ব্রেইল ডিসপ্লে সরাসরি প্লেইন টেক্সট রেন্ডার করে। অ্যাক্সেসিবিলিটি ওয়ার্কফ্লোর জন্য, একটি ডকুমেন্ট থেকে শুধুমাত্র টেক্সট কন্টেন্ট রাখলে ভিজ্যুয়াল বাধাগুলো দূর হয়।
দ্রুত কপি-পেস্ট
কখনও কখনও আপনি কেবল একটি PDF থেকে কয়েকটি প্যারাগ্রাফ নিয়ে ইমেল, ডকুমেন্ট বা চ্যাট মেসেজে পেস্ট করতে চান। টেক্সট এক্সট্র্যাকশন আপনাকে ক্লিন টেক্সট দেয়, যেখানে সরাসরি PDF ভিউয়ার থেকে কপি করার সময় আসা ফরম্যাটিং সমস্যাগুলো থাকে না।
পদ্ধতি ১: PDFSub দিয়ে অনলাইনে কনভার্ট করুন (সুপারিশকৃত)
একটি PDF আপলোড করুন এবং সব এক্সট্র্যাক্ট করা টেক্সট সহ একটি .txt ফাইল ডাউনলোড করুন।
ধাপে ধাপে:
১. PDFSub-এর PDF to Text টুলে যান ২. আপনার PDF ফাইলটি আপলোড করুন — ড্র্যাগ অ্যান্ড ড্রপ করুন অথবা ব্রাউজ করতে ক্লিক করুন ৩. ফাইলটি একটি সুরক্ষিত এবং আইসোলেটেড পরিবেশে PDFSub Engine দ্বারা প্রসেস করা হয় ৪. এক্সট্র্যাক্ট করা টেক্সট ফাইলটি ডাউনলোড করুন
কী আশা করবেন:
- প্রতিটি পৃষ্ঠার সমস্ত টেক্সট কন্টেন্ট এক্সট্র্যাক্ট করা হয়
- পেজ ব্রেকগুলো লাইন ব্রেক বা পেজ মার্কার দ্বারা নির্দেশিত হয়
- টেক্সট PDF-এর রিডিং অর্ডার অনুসরণ করে
- টেবিলগুলো ট্যাব বা স্পেস-সেপারেটেড ভ্যালু হিসেবে এক্সট্র্যাক্ট করা হয়
- ছবিগুলো বাদ দেওয়া হয় (কোনো অল্ট টেক্সট বা বর্ণনা থাকে না)
- আউটপুটে হেডার এবং ফুটার অন্তর্ভুক্ত থাকে
সেরা ব্যবহার: যখন আপনার কোনো সফটওয়্যার ইনস্টল না করেই দ্রুত একটি PDF থেকে সমস্ত টেক্সট প্রয়োজন।
পদ্ধতি ২: আপনার PDF ভিউয়ার থেকে কপি করুন
অল্প পরিমাণ টেক্সটের জন্য এটি সহজতম পদ্ধতি।
ধাপে ধাপে:
১. যেকোনো PDF ভিউয়ারে (ব্রাউজার, প্রিভিউ, অ্যাডোবি রিডার) PDF-টি খুলুন ২. আপনার কাঙ্ক্ষিত টেক্সট সিলেক্ট করুন (ক্লিক করে ড্র্যাগ করুন, অথবা সব টেক্সটের জন্য Ctrl/Cmd+A চাপুন) ৩. কপি করুন (Ctrl/Cmd+C) ৪. আপনার টেক্সট এডিটরে পেস্ট করুন
সীমাবদ্ধতা:
- মাল্টি-কলাম লেআউট টেক্সটকে এলোমেলো করে দিতে পারে (কলামগুলো একে অপরের সাথে মিশে যায়)
- টেবিলগুলো অসংগঠিত টেক্সট হিসেবে কপি হয়
- হেডার এবং ফুটার মূল টেক্সটের সাথে মিশে যায়
- স্পেশাল ক্যারেক্টারগুলো সঠিকভাবে কপি নাও হতে পারে
- স্ক্যান করা বা ইমেজ-ভিত্তিক PDF-এর ক্ষেত্রে এটি কাজ করে না
সেরা ব্যবহার: একটি সাধারণ, সিঙ্গেল-কলাম PDF থেকে এক বা দুই প্যারাগ্রাফ নেওয়ার জন্য।
পদ্ধতি ৩: কমান্ড-লাইন টুল ব্যবহার করুন
ডেভেলপার এবং টেকনিক্যাল ইউজারদের জন্য যাদের প্রোগ্রাম্যাটিকভাবে বা ব্যাচ আকারে টেক্সট এক্সট্র্যাক্ট করতে হয়।
বিকল্পসমূহ:
- macOS বা Linux-এ বিভিন্ন কমান্ড-লাইন PDF টুল টেক্সট এক্সট্র্যাক্ট করতে পারে
- PDF পার্সিং লাইব্রেরি সহ Python স্ক্রিপ্ট
- ব্যাচ প্রসেসিংয়ের জন্য শেল স্ক্রিপ্ট
সেরা ব্যবহার: ডেভেলপার যারা অটোমেটেড ওয়ার্কফ্লোতে টেক্সট এক্সট্র্যাকশন যুক্ত করতে চান।
ডিজিটাল PDF বনাম স্ক্যান করা PDF
টেক্সট এক্সট্র্যাকশনের ক্ষেত্রে এটিই সবচেয়ে গুরুত্বপূর্ণ পার্থক্য।
ডিজিটাল (টেক্সট-ভিত্তিক) PDF
এগুলো ডিজিটাল সোর্স থেকে তৈরি করা PDF — যেমন Word থেকে এক্সপোর্ট করা, সফটওয়্যার দ্বারা জেনারেট করা বা ওয়েব পেজ থেকে সেভ করা। এই PDF-গুলোর টেক্সট প্রকৃত ক্যারেক্টার ডেটা হিসেবে সংরক্ষিত থাকে। আপনি এটি সিলেক্ট করতে পারেন, সার্চ করতে পারেন এবং এক্সট্র্যাক্ট করতে পারেন।
চেনার উপায়: PDF-টি খুলুন এবং টেক্সট সিলেক্ট করতে ক্লিক করে ড্র্যাগ করার চেষ্টা করুন। যদি টেক্সট হাইলাইট হয় এবং আপনি কপি করতে পারেন, তবে এটি একটি ডিজিটাল PDF। টেক্সট এক্সট্র্যাকশন এখানে নিখুঁতভাবে কাজ করবে।
স্ক্যান করা (ইমেজ-ভিত্তিক) PDF
এগুলো কাগজের ডকুমেন্ট স্ক্যান করে তৈরি করা PDF। প্রতিটি পৃষ্ঠা কাগজের একটি ছবি মাত্র — কোনো টেক্সট নয়। এখানে এক্সট্র্যাক্ট করার মতো কোনো ক্যারেক্টার নেই কারণ PDF-টিতে শুধুমাত্র পিক্সেল ডেটা থাকে।
চেনার উপায়: টেক্সট সিলেক্ট করার চেষ্টা করুন। যদি কিছুই হাইলাইট না হয়, অথবা ক্লিক করলে পুরো পৃষ্ঠাটি একটি ছবি হিসেবে সিলেক্ট হয়, তবে এটি একটি স্ক্যান করা PDF। সাধারণ টেক্সট এক্সট্র্যাকশন করলে একটি খালি ফাইল তৈরি হবে।
স্ক্যান করা PDF-এর ক্ষেত্রে কী করবেন?
স্ক্যান করা PDF থেকে টেক্সট পেতে আপনার OCR (Optical Character Recognition) প্রয়োজন। OCR ছবি বিশ্লেষণ করে, অক্ষরের আকৃতি শনাক্ত করে এবং সেগুলোকে টেক্সট ক্যারেক্টারে রূপান্তর করে। এটি টেক্সট এক্সট্র্যাকশন থেকে আলাদা একটি প্রক্রিয়া — এবং এতে ভুলের সম্ভাবনা থাকে, কারণ সফটওয়্যারটি সংরক্ষিত টেক্সট পড়ার বদলে ছবি থেকে অর্থ উদ্ধার করার চেষ্টা করে।
PDFSub-এর টেক্সট এক্সট্র্যাকশন ডিজিটাল PDF হ্যান্ডেল করে। স্ক্যান করা ডকুমেন্টের জন্য যাদের OCR প্রয়োজন, তারা বিশেষভাবে OCR প্রসেসিংয়ের জন্য ডিজাইন করা টুলগুলো খুঁজুন।
টেক্সট এক্সট্র্যাকশন কোয়ালিটি
এক্সট্র্যাক্ট করা টেক্সটের মান বেশ কিছু বিষয়ের ওপর নির্ভর করে।
রিডিং অর্ডার
PDF-এ টেক্সট রিডিং অর্ডারে সংরক্ষিত থাকে না। টেক্সট এলিমেন্টগুলো নির্দিষ্ট কোঅর্ডিনেটে অবস্থান করে — ভিউয়ার সেগুলোকে ভিজ্যুয়ালি সাজিয়ে দেখায়। এক্সট্র্যাক্টরকে স্থানিক অবস্থান থেকে রিডিং অর্ডার পুনর্গঠন করতে হয়। সাধারণ সিঙ্গেল-কলাম ডকুমেন্ট সহজে পুনর্গঠন করা যায়। মাল্টি-কলাম লেআউট, সাইডবার এবং টেক্সট বক্স আউটপুটকে বিভ্রান্তিকর করে তুলতে পারে।
টেবিল
PDF-এ টেবিলগুলো স্বাধীনভাবে অবস্থান করা টেক্সট এলিমেন্টের একটি সংগ্রহ — কোনো সেম্যান্টিক টেবিল স্ট্রাকচার নয়। এক্সট্র্যাক্টর টেবিলের প্যাটার্ন শনাক্ত করার এবং ট্যাব বা স্পেস দিয়ে কলাম আলাদা করার চেষ্টা করে। সাধারণ টেবিলগুলো ভালো কাজ করে। মার্জ করা সেল, রোটেটেড টেক্সট বা নেস্টেড স্ট্রাকচার সহ জটিল টেবিলগুলো অগোছালো আউটপুট তৈরি করতে পারে।
স্পেশাল ক্যারেক্টার
গাণিতিক চিহ্ন, ডায়াক্রিটিকস, লিগ্যাচার এবং নন-ল্যাটিন স্ক্রিপ্টগুলো PDF কীভাবে এনকোড করেছে তার ওপর ভিত্তি করে সঠিকভাবে এক্সট্র্যাক্ট হতেও পারে বা নাও হতে পারে। সঠিক Unicode ম্যাপিং সহ সুগঠিত PDF-গুলো ক্লিন আউটপুট দেয়। কাস্টম ফন্ট এনকোডিং সহ PDF-গুলো বিকৃত ক্যারেক্টার তৈরি করতে পারে।
হাইফেনেশন
PDF-এ প্রায়ই লাইন ব্রেকে শব্দগুলো হাইফেন দিয়ে ভাগ করা থাকে। কিছু এক্সট্র্যাক্টর হাইফেনযুক্ত শব্দগুলোকে আবার জোড়া লাগিয়ে দেয়; অন্যরা হাইফেন এবং লাইন ব্রেক বজায় রাখে। আপনি যদি প্রোগ্রাম্যাটিকভাবে টেক্সট প্রসেস করেন, তবে আপনার পাইপলাইনে হাইফেন জোড়া লাগানোর বিষয়টি হ্যান্ডেল করার প্রয়োজন হতে পারে।
সেরা ফলাফলের জন্য টিপস
১. প্রথমে একটি ছোট PDF দিয়ে পরীক্ষা করুন। ৫০০ পৃষ্ঠার ডকুমেন্ট প্রসেস করার আগে কয়েক পৃষ্ঠার টেক্সট এক্সট্র্যাক্ট করে মান যাচাই করে নিন। ২. স্ক্যান করা কন্টেন্ট আছে কি না চেক করুন। আপনার PDF যদি ডিজিটাল টেক্সট এবং স্ক্যান করা পৃষ্ঠার মিশ্রণ হয়, তবে এক্সট্র্যাকশন ডিজিটাল পৃষ্ঠা থেকে টেক্সট এবং স্ক্যান করা পৃষ্ঠা থেকে খালি আউটপুট দেবে। ৩. আউটপুট পোস্ট-প্রসেস করুন। ডেটা অ্যানালাইসিস বা NLP কাজের জন্য, এক্সট্র্যাক্ট করা টেক্সট পরিষ্কার করুন — হেডার/ফুটার সরান, হাইফেনেশন ঠিক করুন এবং এনকোডিং সমস্যাগুলো সমাধান করুন। ৪. কাজের জন্য সঠিক টুল ব্যবহার করুন। আপনার যদি টেবিল থেকে স্ট্রাকচার্ড ডেটা প্রয়োজন হয়, তবে প্লেইন টেক্সট এক্সট্র্যাকশনের বদলে টেবিল এক্সট্র্যাকশন টুল ব্যবহারের কথা ভাবুন। স্ক্যান করা ডকুমেন্ট থেকে টেক্সট প্রয়োজন হলে OCR ব্যবহার করুন।
FAQ
PDF to Text এবং OCR-এর মধ্যে পার্থক্য কী?
PDF to Text সেই টেক্সট এক্সট্র্যাক্ট করে যা ইতিমধ্যে PDF-এ ক্যারেক্টার ডেটা হিসেবে সংরক্ষিত আছে। এটি যা আছে তা-ই পড়ে। OCR টেক্সটের ছবি দেখে এবং সেগুলোকে ক্যারেক্টার হিসেবে ব্যাখ্যা করে। আপনার PDF-এ যদি সিলেক্টযোগ্য টেক্সট থাকে, তবে আপনার টেক্সট এক্সট্র্যাকশন প্রয়োজন। আপনার PDF যদি স্ক্যান করা ছবি হয়, তবে আপনার OCR প্রয়োজন।
আমি কি পাসওয়ার্ড-সুরক্ষিত PDF থেকে টেক্সট এক্সট্র্যাক্ট করতে পারি?
যদি PDF-এ এমন কোনো পারমিশন পাসওয়ার্ড থাকে যা কপি করা সীমাবদ্ধ করে (কিন্তু দেখার অনুমতি দেয়), তবে কিছু টুল তবুও টেক্সট এক্সট্র্যাক্ট করতে পারে। যদি PDF-এ এমন কোনো ওপেন পাসওয়ার্ড থাকে যা দেখা পুরোপুরি বন্ধ করে দেয়, তবে আপনাকে প্রথমে পাসওয়ার্ডটি দিতে হবে।
টেক্সট এক্সট্র্যাকশন কি ফরম্যাটিং বজায় রাখে?
না — এটাই এর মূল উদ্দেশ্য। প্লেইন টেক্সট এক্সট্র্যাকশন আপনাকে ফরম্যাটিং ছাড়াই শব্দগুলো দেয়। যদি আপনার ফরম্যাটিং বজায় রাখা প্রয়োজন হয়, তবে পরিবর্তে DOCX বা RTF-এ কনভার্ট করুন। টেক্সট এক্সট্র্যাকশন বিশেষভাবে তখনই করা হয় যখন আপনি র, আনফরম্যাটেড কন্টেন্ট চান।
আমি কীভাবে মাল্টি-কলাম PDF হ্যান্ডেল করব?
টেক্সট এক্সট্র্যাকশনের জন্য মাল্টি-কলাম PDF সবচেয়ে জটিল। এক্সট্র্যাক্টর কলামগুলোকে মিশিয়ে ফেলতে পারে অথবা সঠিকভাবে প্রসেস করতে পারে — এটি টুল এবং PDF-এর অভ্যন্তরীণ কাঠামোর ওপর নির্ভর করে। যদি আপনি এলোমেলো আউটপুট পান, তবে অন্য কোনো এক্সট্র্যাকশন টুল ব্যবহার করে দেখুন অথবা এমন কোনো ফরম্যাটে কনভার্ট করুন যা কলামগুলো ভালো হ্যান্ডেল করে (যেমন DOCX)।
আমি কি কেবল নির্দিষ্ট পৃষ্ঠা থেকে টেক্সট এক্সট্র্যাক্ট করতে পারি?
কিছু টুল আপনাকে এক্সট্র্যাকশনের জন্য পেজ রেঞ্জ নির্দিষ্ট করতে দেয়। যদি টুলটি পেজ সিলেকশন সাপোর্ট না করে, তবে সব টেক্সট এক্সট্র্যাক্ট করুন এবং তারপর আপনার প্রয়োজনীয় পৃষ্ঠাগুলো কেটে নিন। আউটপুটে থাকা পেজ মার্কারগুলো প্রতিটি পৃষ্ঠা কোথায় শুরু হয়েছে তা শনাক্ত করতে সাহায্য করে।
উপসংহার
PDF to text এক্সট্র্যাকশন দ্রুত, সহজ এবং বিভিন্ন কাজের জন্য উপযোগী — যেমন ডেটা অ্যানালাইসিস, NLP, কন্টেন্ট মাইগ্রেশন, সার্চ ইনডেক্সিং এবং সাধারণ কপি-পেস্ট। মূল বিষয় হলো আসল টেক্সট কন্টেন্ট আছে এমন একটি ডিজিটাল PDF দিয়ে শুরু করা।
স্ক্যান করা ডকুমেন্টের জন্য আপনার OCR প্রয়োজন। ডিজিটাল PDF-এর জন্য, টেক্সট এক্সট্র্যাকশন আপনাকে কয়েক সেকেন্ডের মধ্যে ক্লিন আউটপুট দেয়।
PDFSub-এর PDF to Text টুলটি ব্যবহার করে দেখুন — আপনার PDF আপলোড করুন এবং তাৎক্ষণিকভাবে এক্সট্র্যাক্ট করা টেক্সট ডাউনলোড করুন।