কখনও কখনও আপনার ফন্ট, লেআউট, রং বা ছবির প্রয়োজন হয় না। আপনার শুধু শব্দ দরকার। PDF কে প্লেইন টেক্সটে কনভার্ট করলে সবকিছু ভিজ্যুয়াল বাদ দিয়ে দেয় এবং আপনাকে কাঁচা টেক্সট দেয় - প্যারাগ্রাফ, হেডিং এবং ডেটা তাদের সরলতম রূপে।

এটি PDF অপারেশনের সবচেয়ে সাধারণ একটি এবং সবচেয়ে ভুল বোঝা একটি। মানুষ যেকোনো PDF থেকে নিখুঁত টেক্সট পাওয়ার আশা করে, কিন্তু বাস্তবতা নির্ভর করে PDF কিভাবে তৈরি করা হয়েছিল তার উপর। আসল টেক্সট কন্টেন্ট সহ ডিজিটাল PDF চমৎকার ফলাফল দেয়। এমবেডেড টেক্সট ছাড়া স্ক্যান করা ডকুমেন্ট কিছুই দেয় না - কারণ এক্সট্র্যাক্ট করার মতো কোনো টেক্সট নেই।

এই গাইডটি কভার করে কখন টেক্সট এক্সট্র্যাকশন কাজ করে, কখন করে না এবং কাজের জন্য সেরা টুলগুলি কী কী।

How to convert PDF to text - extract all text

কেন PDF থেকে টেক্সট এক্সট্র্যাক্ট করবেন?

ডেটা বিশ্লেষণ

আপনার কাছে একটি PDF রিপোর্ট আছে যেখানে সংখ্যা আছে যা আপনি একটি স্প্রেডশীট বা স্ক্রিপ্টে বিশ্লেষণ করতে চান। টেক্সট এক্সট্র্যাক্ট করলে আপনি কাঁচা ডেটা পাবেন যা আপনি পার্স, ফিল্টার এবং প্রসেস করতে পারবেন। গবেষক, বিশ্লেষক এবং ডেটা বিজ্ঞানীরা প্রায়শই তাদের ওয়ার্কফ্লোর প্রথম ধাপ হিসেবে PDF পেপার এবং রিপোর্ট থেকে টেক্সট এক্সট্র্যাক্ট করেন।

ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (NLP)

আপনি যদি একটি NLP মডেল তৈরি বা প্রশিক্ষণ দিচ্ছেন, গ্রাহকের প্রতিক্রিয়া প্রক্রিয়া করছেন, বা সেন্টিমেন্ট বিশ্লেষণ চালাচ্ছেন, আপনার প্লেইন টেক্সট ইনপুট প্রয়োজন। PDF ডকুমেন্টের জন্য একটি সাধারণ সোর্স ফরম্যাট, কিন্তু NLP পাইপলাইনের জন্য .txt ফাইল প্রয়োজন। টেক্সট এক্সট্র্যাকশন এই ব্যবধান পূরণ করে।

কন্টেন্ট মাইগ্রেশন

এক সিস্টেম থেকে অন্য সিস্টেমে কন্টেন্ট সরানো - একটি CMS, একটি নলেজ বেস, একটি ডেটাবেস - প্রায়শই বিদ্যমান PDF থেকে টেক্সট এক্সট্র্যাক্ট করার মাধ্যমে শুরু হয়। আপনার লেআউট দরকার নেই; আপনার গন্তব্য সিস্টেম আমদানি করতে পারে এমন ফরম্যাটে আপনার শব্দ দরকার।

সার্চ এবং ইনডেক্সিং

PDF ডকুমেন্টের একটি সার্চেবল আর্কাইভ তৈরি করার জন্য টেক্সট কন্টেন্ট এক্সট্র্যাক্ট করা প্রয়োজন। সার্চ ইঞ্জিন এবং ফুল-টেক্সট সার্চ সিস্টেম প্লেইন টেক্সট ইনডেক্স করে। আপনার PDF থেকে টেক্সট এক্সট্র্যাক্ট করলে প্রতিটি ফাইল আলাদাভাবে না খুলেই সেগুলি সার্চেবল হয়।

অ্যাক্সেসিবিলিটি

PDF কে প্লেইন টেক্সটে কনভার্ট করলে কন্টেন্ট আরও অ্যাক্সেসযোগ্য হতে পারে। স্ক্রিন রিডার প্লেইন টেক্সটের সাথে নির্ভরযোগ্যভাবে কাজ করে। ব্রেইল ডিসপ্লে সরাসরি প্লেইন টেক্সট রেন্ডার করে। অ্যাক্সেসিবিলিটি ওয়ার্কফ্লোর জন্য, একটি ডকুমেন্টকে তার টেক্সট কন্টেন্টে ডাউনগ্রেড করলে ভিজ্যুয়াল বাধা দূর হয়।

দ্রুত কপি-পেস্ট

কখনও কখনও আপনি কেবল একটি PDF থেকে কয়েকটি প্যারাগ্রাফ নিতে চান এবং সেগুলিকে একটি ইমেল, একটি ডকুমেন্ট বা একটি চ্যাট মেসেজে পেস্ট করতে চান। টেক্সট এক্সট্র্যাকশন আপনাকে ফরম্যাটিং আর্টিফ্যাক্ট ছাড়াই পরিষ্কার টেক্সট দেয় যা প্রায়শই একটি PDF ভিউয়ার থেকে সরাসরি কপি করার সময় আসে।

পদ্ধতি ১: PDFSub দিয়ে অনলাইনে কনভার্ট করুন (প্রস্তাবিত)

একটি PDF আপলোড করুন, সমস্ত এক্সট্র্যাক্ট করা টেক্সট সহ একটি .txt ফাইল ডাউনলোড করুন।

ধাপে ধাপে:

১. PDFSub-এর PDF to Text টুল এ যান ২. আপনার PDF ফাইল আপলোড করুন - ড্র্যাগ এবং ড্রপ করুন বা ব্রাউজ করতে ক্লিক করুন ৩. ফাইলটি PDFSub Engine দ্বারা একটি সুরক্ষিত, বিচ্ছিন্ন পরিবেশে প্রসেস করা হয় ৪. এক্সট্র্যাক্ট করা টেক্সট ফাইল ডাউনলোড করুন

কী আশা করবেন:

প্রতিটি পৃষ্ঠা থেকে সমস্ত টেক্সট কন্টেন্ট এক্সট্র্যাক্ট করা হয়
পৃষ্ঠার ব্রেকগুলি লাইন ব্রেক বা পৃষ্ঠা মার্কার দ্বারা নির্দেশিত হয়
টেক্সট PDF-এর পড়ার ক্রম অনুসরণ করে
টেবিলগুলি ট্যাব বা স্পেস-সেপারেটেড ভ্যালু হিসাবে এক্সট্র্যাক্ট করা হয়
ছবিগুলি এড়িয়ে যাওয়া হয় (কোনো অল্টার টেক্সট বা বর্ণনা নেই)
হেডার এবং ফুটার আউটপুটে অন্তর্ভুক্ত করা হয়

সেরা: সফটওয়্যার ইনস্টল না করে PDF থেকে সমস্ত টেক্সট প্রয়োজন হলে দ্রুত এক্সট্র্যাকশনের জন্য।

পদ্ধতি ২: আপনার PDF ভিউয়ার থেকে কপি করুন

অল্প পরিমাণে টেক্সটের জন্য সবচেয়ে সহজ পদ্ধতি।

ধাপে ধাপে:

১. যেকোনো PDF ভিউয়ারে (ব্রাউজার, প্রিভিউ, অ্যাডোবি রিডার) PDF খুলুন ২. আপনি যে টেক্সট চান তা নির্বাচন করুন (ক্লিক করে ড্র্যাগ করুন, বা সমস্ত টেক্সটের জন্য Ctrl/Cmd+A) ৩. কপি করুন (Ctrl/Cmd+C) ৪. আপনার টেক্সট এডিটরে পেস্ট করুন

সীমাবদ্ধতা:

মাল্টি-কলাম লেআউট জumbled টেক্সট তৈরি করে (কলামগুলি ইন্টারলিভ হয়)
টেবিলগুলি আনস্ট্রাকচার্ড টেক্সট হিসাবে কপি হয়
হেডার এবং ফুটার বডি টেক্সটের সাথে মিশে যায়
বিশেষ অক্ষর সঠিকভাবে কপি নাও হতে পারে
স্ক্যান করা/ইমেজ PDF-এর সাথে কাজ করে না

সেরা: একটি সাধারণ, সিঙ্গেল-কলাম PDF থেকে এক বা দুটি প্যারাগ্রাফ নেওয়ার জন্য।

পদ্ধতি ৩: কমান্ড-লাইন টুল ব্যবহার করুন

ডেভেলপার এবং প্রযুক্তিগত ব্যবহারকারীদের জন্য যারা প্রোগ্রাম্যাটিকভাবে বা ব্যাচে টেক্সট এক্সট্র্যাক্ট করতে চান।

বিকল্প:

macOS বা Linux-এ, বিভিন্ন কমান্ড-লাইন PDF টুল টেক্সট এক্সট্র্যাক্ট করতে পারে
PDF পার্সিং লাইব্রেরি সহ পাইথন স্ক্রিপ্ট
ব্যাচ প্রসেসিংয়ের জন্য শেল স্ক্রিপ্ট

সেরা: স্বয়ংক্রিয় ওয়ার্কফ্লোতে টেক্সট এক্সট্র্যাকশন তৈরি করা ডেভেলপারদের জন্য।

ডিজিটাল PDF বনাম স্ক্যান করা PDF

টেক্সট এক্সট্র্যাকশনের জন্য এটি একটি গুরুত্বপূর্ণ পার্থক্য।

ডিজিটাল (টেক্সট-ভিত্তিক) PDF

এগুলি ডিজিটাল উৎস থেকে তৈরি PDF - Word থেকে এক্সপোর্ট করা, সফটওয়্যার দ্বারা তৈরি, একটি ওয়েব পেজ থেকে সেভ করা। এই PDF-এর টেক্সট আসল ক্যারেক্টার ডেটা হিসাবে সংরক্ষিত থাকে। আপনি এটি নির্বাচন করতে, সার্চ করতে এবং এক্সট্র্যাক্ট করতে পারেন।

কিভাবে বুঝবেন: PDF খুলুন এবং টেক্সট নির্বাচন করতে ক্লিক করে ড্র্যাগ করার চেষ্টা করুন। যদি টেক্সট হাইলাইট হয় এবং আপনি এটি কপি করতে পারেন, তবে এটি একটি ডিজিটাল PDF। টেক্সট এক্সট্র্যাকশন নিখুঁতভাবে কাজ করবে।

স্ক্যান করা (ইমেজ-ভিত্তিক) PDF

এগুলি কাগজের ডকুমেন্ট স্ক্যান করে তৈরি করা PDF। প্রতিটি পৃষ্ঠা কাগজের একটি ছবি - একটি ছবি, টেক্সট নয়। এক্সট্র্যাক্ট করার মতো কোনো ক্যারেক্টার নেই কারণ PDF-এ শুধুমাত্র পিক্সেল ডেটা রয়েছে।

কিভাবে বুঝবেন: টেক্সট নির্বাচন করার চেষ্টা করুন। যদি কিছুই হাইলাইট না হয়, বা ক্লিক করলে পুরো পৃষ্ঠাটি একটি ছবি হিসাবে নির্বাচিত হয়, তবে এটি একটি স্ক্যান করা PDF। স্ট্যান্ডার্ড টেক্সট এক্সট্র্যাকশন একটি খালি ফাইল তৈরি করবে।

স্ক্যান করা PDF-এর কী হবে?

স্ক্যান করা PDF থেকে টেক্সট পেতে, আপনার OCR (অপটিক্যাল ক্যারেক্টার রিকগনিশন) প্রয়োজন। OCR ছবিটি বিশ্লেষণ করে, অক্ষরের আকার সনাক্ত করে এবং সেগুলিকে টেক্সট ক্যারেক্টারে রূপান্তর করে। এটি টেক্সট এক্সট্র্যাকশন থেকে একটি পৃথক প্রক্রিয়া - এবং এতে ত্রুটির সম্ভাবনা থাকে, কারণ সফটওয়্যারটি সংরক্ষিত টেক্সট পড়ার পরিবর্তে ছবি ব্যাখ্যা করছে।

PDFSub-এর টেক্সট এক্সট্র্যাকশন ডিজিটাল PDF পরিচালনা করে। স্ক্যান করা ডকুমেন্টের জন্য যা OCR প্রয়োজন, OCR প্রক্রিয়াকরণের জন্য বিশেষভাবে ডিজাইন করা টুলগুলি সন্ধান করুন।

টেক্সট এক্সট্র্যাকশনের গুণমান

এক্সট্র্যাক্ট করা টেক্সটের গুণমান কয়েকটি কারণের উপর নির্ভর করে।

পড়ার ক্রম

PDF টেক্সট পড়ার ক্রমে সংরক্ষণ করে না। টেক্সট এলিমেন্টগুলি নির্দিষ্ট স্থানাঙ্কে অবস্থান করে - ভিউয়ার সেগুলিকে দৃশ্যমানভাবে একত্রিত করে। এক্সট্র্যাক্টরকে স্থানিক অবস্থান থেকে পড়ার ক্রম পুনর্গঠন করতে হয়। সাধারণ সিঙ্গেল-কলাম ডকুমেন্টগুলি সহজে পুনর্গঠিত হয়। মাল্টি-কলাম লেআউট, সাইডবার এবং টেক্সট বক্স বিভ্রান্তিকর আউটপুট তৈরি করতে পারে।

টেবিল

PDF-এর টেবিলগুলি স্বাধীনভাবে অবস্থিত টেক্সট এলিমেন্টের একটি সংগ্রহ - সিমেন্টিক টেবিল স্ট্রাকচার নয়। এক্সট্র্যাক্টর টেবিলের প্যাটার্ন সনাক্ত করার এবং ট্যাব বা স্পেস দিয়ে কলামগুলি আলাদা করার চেষ্টা করে। সাধারণ টেবিলগুলি ভাল কাজ করে। মার্জ করা সেল, ঘোরানো টেক্সট বা নেস্টেড স্ট্রাকচার সহ জটিল টেবিলগুলি বিশৃঙ্খল আউটপুট তৈরি করতে পারে।

বিশেষ অক্ষর

গাণিতিক প্রতীক, ডায়াক্রিটিক্স, লিগ্যাচার এবং নন-ল্যাটিন স্ক্রিপ্টগুলি PDF কিভাবে এনকোড করে তার উপর নির্ভর করে সঠিকভাবে এক্সট্র্যাক্ট হতে পারে বা নাও হতে পারে। সঠিক ইউনিকোড ম্যাপিং সহ ভাল-গঠিত PDF গুলি পরিষ্কার আউটপুট তৈরি করে। কাস্টম ফন্ট এনকোডিং সহ PDF গুলি বিকৃত অক্ষর তৈরি করতে পারে।

হাইফেনেশন

PDF প্রায়শই লাইন ব্রেকগুলিতে শব্দ হাইফেন করে। কিছু এক্সট্র্যাক্টর হাইফেনযুক্ত শব্দগুলি পুনরায় যুক্ত করে; অন্যরা হাইফেন এবং লাইন ব্রেক সংরক্ষণ করে। আপনি যদি প্রোগ্রাম্যাটিকভাবে টেক্সট প্রসেস করেন, তবে আপনার পাইপলাইনে হাইফেন পুনরায় যুক্ত করার প্রয়োজন হতে পারে।

সেরা ফলাফলের জন্য টিপস

১. প্রথমে একটি ছোট PDF দিয়ে পরীক্ষা করুন। কয়েকটি পৃষ্ঠার টেক্সট এক্সট্র্যাক্ট করুন এবং একটি ৫০০ পৃষ্ঠার ডকুমেন্ট প্রসেস করার আগে গুণমান যাচাই করুন। ২. স্ক্যান করা কন্টেন্ট আছে কিনা তা পরীক্ষা করুন। যদি আপনার PDF ডিজিটাল টেক্সট এবং স্ক্যান করা পৃষ্ঠার মিশ্রণ হয়, তবে এক্সট্র্যাকশন ডিজিটাল পৃষ্ঠাগুলি থেকে টেক্সট তৈরি করবে এবং স্ক্যান করা পৃষ্ঠাগুলি থেকে খালি আউটপুট দেবে। ৩. আউটপুট পোস্ট-প্রসেস করুন। ডেটা বিশ্লেষণ বা NLP কাজের জন্য, এক্সট্র্যাক্ট করা টেক্সট পরিষ্কার করুন - হেডার/ফুটার সরান, হাইফেনেশন ঠিক করুন, এনকোডিং সমস্যাগুলি পরিচালনা করুন। ৪. কাজের জন্য সঠিক টুল ব্যবহার করুন। যদি আপনার টেবিল থেকে স্ট্রাকচার্ড ডেটা প্রয়োজন হয়, তবে প্লেইন টেক্সট এক্সট্র্যাকশনের পরিবর্তে একটি টেবিল এক্সট্র্যাকশন টুল বিবেচনা করুন। যদি আপনার স্ক্যান করা ডকুমেন্ট থেকে টেক্সট প্রয়োজন হয়, তবে OCR ব্যবহার করুন।

প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী (FAQ)

PDF to Text এবং OCR-এর মধ্যে পার্থক্য কী?

PDF to Text টেক্সট এক্সট্র্যাক্ট করে যা ইতিমধ্যেই PDF-এ ক্যারেক্টার ডেটা হিসাবে সংরক্ষিত আছে। এটি যা আছে তা পড়ে। OCR টেক্সটের ছবি দেখে এবং সেগুলিকে ক্যারেক্টার হিসাবে ব্যাখ্যা করে। যদি আপনার PDF-এ সিলেক্টেবল টেক্সট থাকে, তবে আপনার টেক্সট এক্সট্র্যাকশন প্রয়োজন। যদি আপনার PDF স্ক্যান করা ছবি হয়, তবে আপনার OCR প্রয়োজন।

আমি কি একটি পাসওয়ার্ড-সুরক্ষিত PDF থেকে টেক্সট এক্সট্র্যাক্ট করতে পারি?

যদি PDF-এ একটি পারমিশন পাসওয়ার্ড থাকে যা কপি করা সীমাবদ্ধ করে (কিন্তু দেখা অনুমোদন করে), তবে কিছু টুল এখনও টেক্সট এক্সট্র্যাক্ট করতে পারে। যদি PDF-এ একটি ওপেন পাসওয়ার্ড থাকে যা দেখা সম্পূর্ণভাবে প্রতিরোধ করে, তবে আপনাকে প্রথমে পাসওয়ার্ড প্রবেশ করতে হবে।

টেক্সট এক্সট্র্যাকশন কি ফরম্যাটিং সংরক্ষণ করে?

না - এটাই উদ্দেশ্য। প্লেইন টেক্সট এক্সট্র্যাকশন আপনাকে ফরম্যাটিং ছাড়াই শব্দ দেয়। যদি আপনার ফরম্যাটিং সংরক্ষণ করার প্রয়োজন হয়, তবে পরিবর্তে DOCX বা RTF-এ কনভার্ট করুন। টেক্সট এক্সট্র্যাকশন বিশেষভাবে তখনই করা হয় যখন আপনি কাঁচা, আনফরম্যাটেড কন্টেন্ট চান।

আমি কিভাবে মাল্টি-কলাম PDF পরিচালনা করব?

মাল্টি-কলাম PDF টেক্সট এক্সট্র্যাকশনের জন্য সবচেয়ে কঠিন কেস। এক্সট্র্যাক্টর কলামগুলি ইন্টারলিভ করতে পারে বা সেগুলিকে সঠিকভাবে প্রসেস করতে পারে - এটি টুলের উপর এবং PDF-এর অভ্যন্তরীণ কাঠামোর উপর নির্ভর করে। যদি আপনি জumbled আউটপুট পান, তবে একটি ভিন্ন এক্সট্র্যাকশন টুল চেষ্টা করুন বা এমন একটি ফরম্যাটে কনভার্ট করুন যা কলামগুলি ভালভাবে পরিচালনা করে (যেমন DOCX)।

আমি কি শুধু নির্দিষ্ট পৃষ্ঠাগুলি থেকে টেক্সট এক্সট্র্যাক্ট করতে পারি?

কিছু টুল আপনাকে এক্সট্র্যাকশনের জন্য একটি পৃষ্ঠা পরিসীমা নির্দিষ্ট করতে দেয়। যদি টুলটি পৃষ্ঠা নির্বাচন সমর্থন না করে, তবে সমস্ত টেক্সট এক্সট্র্যাক্ট করুন এবং তারপরে আউটপুটটি আপনার প্রয়োজনীয় পৃষ্ঠাগুলিতে কাটুন। আউটপুটে পৃষ্ঠা মার্কারগুলি প্রতিটি পৃষ্ঠা কোথায় শুরু হয় তা সনাক্ত করতে সহায়তা করে।

শেষ কথা

PDF থেকে টেক্সট এক্সট্র্যাকশন দ্রুত, সহজ এবং বিভিন্ন ওয়ার্কফ্লোর জন্য দরকারী - ডেটা বিশ্লেষণ, NLP, কন্টেন্ট মাইগ্রেশন, সার্চ ইনডেক্সিং এবং সাধারণ কপি-পেস্ট। মূল বিষয় হলো একটি ডিজিটাল PDF দিয়ে শুরু করা যাতে আসল টেক্সট কন্টেন্ট থাকে।

স্ক্যান করা ডকুমেন্টের জন্য, আপনার OCR প্রয়োজন। ডিজিটাল PDF-এর জন্য, টেক্সট এক্সট্র্যাকশন আপনাকে সেকেন্ডের মধ্যে পরিষ্কার আউটপুট দেয়।

PDFSub-এর PDF to Text টুল চেষ্টা করুন - আপনার PDF আপলোড করুন এবং তাৎক্ষণিকভাবে এক্সট্র্যাক্ট করা টেক্সট ডাউনলোড করুন।

How to convert PDF to text - extract all text

প্রতিটি পৃষ্ঠা থেকে সমস্ত টেক্সট কন্টেন্ট এক্সট্র্যাক্ট করা হয়
পৃষ্ঠার ব্রেকগুলি লাইন ব্রেক বা পৃষ্ঠা মার্কার দ্বারা নির্দেশিত হয়
টেক্সট PDF-এর পড়ার ক্রম অনুসরণ করে
টেবিলগুলি ট্যাব বা স্পেস-সেপারেটেড ভ্যালু হিসাবে এক্সট্র্যাক্ট করা হয়
ছবিগুলি এড়িয়ে যাওয়া হয় (কোনো অল্টার টেক্সট বা বর্ণনা নেই)
হেডার এবং ফুটার আউটপুটে অন্তর্ভুক্ত করা হয়

পদ্ধতি ২: আপনার PDF ভিউয়ার থেকে কপি করুন

অল্প পরিমাণে টেক্সটের জন্য সবচেয়ে সহজ পদ্ধতি।

ধাপে ধাপে:

সীমাবদ্ধতা:

মাল্টি-কলাম লেআউট জumbled টেক্সট তৈরি করে (কলামগুলি ইন্টারলিভ হয়)
টেবিলগুলি আনস্ট্রাকচার্ড টেক্সট হিসাবে কপি হয়
হেডার এবং ফুটার বডি টেক্সটের সাথে মিশে যায়
বিশেষ অক্ষর সঠিকভাবে কপি নাও হতে পারে
স্ক্যান করা/ইমেজ PDF-এর সাথে কাজ করে না

পদ্ধতি ৩: কমান্ড-লাইন টুল ব্যবহার করুন

বিকল্প:

macOS বা Linux-এ, বিভিন্ন কমান্ড-লাইন PDF টুল টেক্সট এক্সট্র্যাক্ট করতে পারে
PDF পার্সিং লাইব্রেরি সহ পাইথন স্ক্রিপ্ট
ব্যাচ প্রসেসিংয়ের জন্য শেল স্ক্রিপ্ট