কিভাবে PDF থেকে Excel-এ রূপান্তর করবেন: ৬টি কার্যকরী পদ্ধতি (২০২৬)
প্রতি বছর ২৯০ বিলিয়নেরও বেশি PDF তৈরি হয়, অথচ এই ফরম্যাটে সারি, কলাম বা সেলের কোনো ধারণা নেই। এখানে আপনার ডেটা Excel-এ আনার উপায় রয়েছে - বিনামূল্যের বিল্ট-ইন টুল থেকে শুরু করে AI-চালিত এক্সট্রাকশন পর্যন্ত।
আপনার ডেটা একটি PDF-এ আটকে আছে এবং আপনার এটি Excel-এ প্রয়োজন। এটি একটি আর্থিক প্রতিবেদন, কোনও বিক্রেতার চালান, একটি ব্যাংক স্টেটমেন্ট, বা একটি লিগ্যাসি সিস্টেম থেকে এক্সপোর্ট করা পণ্যের ডেটার একটি টেবিল হতে পারে। সমস্যাটি কী? PDF গুলি প্রতিটি স্ক্রিনে অভিন্ন দেখানোর জন্য ডিজাইন করা হয়েছে - কাঠামোগত ডেটা স্থানান্তরের জন্য নয়।
আনুমানিক প্রতি বছর ২৯০+ বিলিয়ন PDF তৈরি হয়, যা বার্ষিক প্রায় ১২% হারে বৃদ্ধি পাচ্ছে। অ্যাডোবির রিপোর্ট অনুসারে বিশ্বব্যাপী ৪০০ বিলিয়নের বেশি PDF খোলা হয় এবং ১০০ মিলিয়ন দৈনিক Acrobat ব্যবহারকারী রয়েছে। আর্থিক নথি, আইনি চুক্তি, সরকারি ফর্ম এবং ব্যবসায়িক প্রতিবেদন শেয়ার করার জন্য PDF গুলি ডিফল্ট ফরম্যাটে পরিণত হয়েছে। তবুও "একটি PDF দেখা" এবং "এর ডেটা নিয়ে কাজ করার" মধ্যেকার ব্যবধান Parseur/QuestionPro-এর একটি ২০২৫ সালের সমীক্ষা অনুসারে মার্কিন কোম্পানিগুলির জন্য ম্যানুয়াল ডেটা এন্ট্রিতে প্রতি কর্মচারী প্রতি বছরে গড়ে $২৮,৫০০ খরচ করে - যেখানে কর্মীরা নথি থেকে স্প্রেডশীটে ডেটা স্থানান্তরে প্রতি সপ্তাহে ৯ ঘন্টার বেশি সময় ব্যয় করে।
এই গাইডটি ২০২৬ সালে উপলব্ধ প্রতিটি পদ্ধতি কভার করে, বিনামূল্যে বিল্ট-ইন টুল থেকে শুরু করে AI-চালিত এক্সট্রাকশন পর্যন্ত, কী কাজ করে এবং কী করে না তার সৎ মূল্যায়ন সহ।

PDF থেকে Excel রূপান্তর মৌলিকভাবে কঠিন কেন?
পদ্ধতিগুলিতে ঝাঁপিয়ে পড়ার আগে, এই সমস্যাটি কেন বিদ্যমান তা বোঝা সহায়ক। PDF এবং Excel স্প্রেডশীট স্থাপত্যগতভাবে বেমানান - কেবল ভিন্ন নয়, বরং বিপরীত লক্ষ্য নিয়ে ডিজাইন করা হয়েছে।
PDF আসলে ডেটা কিভাবে সংরক্ষণ করে?
একটি PDF পৃষ্ঠা একটি "টেবিল" ধারণ করে না। এটি একটি কন্টেন্ট স্ট্রিম ধারণ করে - পোস্টস্ক্রিপ্টের উপর ভিত্তি করে বাইনারি অপারেটরগুলির একটি ক্রম যা একটি ক্যানভাসে সুনির্দিষ্ট x,y স্থানাঙ্কে পৃথক অক্ষরগুলিকে স্থাপন করে। PDF স্পেসিফিকেশন (ISO 32000-2:2020) অপারেটরগুলির মাধ্যমে টেক্সট রেন্ডারিং সংজ্ঞায়িত করে যেমন:
- BT / ET: একটি টেক্সট অবজেক্ট শুরু এবং শেষ করুন
- Tf: ফন্ট এবং ফন্ট সাইজ সেট করুন
- Tm: ছয়-সংখ্যার ম্যাট্রিক্স ব্যবহার করে পরম অবস্থান সেট করুন
- Tj / TJ: একটি টেক্সট স্ট্রিং রেন্ডার করুন (TJ প্রতি-গ্লিফ কার্নিং সমন্বয় অন্তর্ভুক্ত করে)
যা আপনার চোখে একটি টেবিলের মতো দেখায় - সুন্দর সারি এবং কলামগুলি সারিবদ্ধ সংখ্যা সহ - তা আসলে শত শত পৃথক টেক্সট পজিশনিং কমান্ড। কোনও <table>, <tr>, বা <td> ট্যাগ নেই। কোনও সারি বা কলাম শনাক্তকারী নেই। কোনও সেল সীমানা নেই। কনভার্টারকে অক্ষরের মধ্যে স্থানিক সম্পর্ক বিশ্লেষণ করে টেবিলের কাঠামো বিপরীত-প্রকৌশল করতে হয় - কোন অক্ষরগুলি উল্লম্বভাবে সারিবদ্ধ (একটি কলাম নির্দেশ করে), কোনগুলি একই অনুভূমিক লাইনে রয়েছে (একটি সারি নির্দেশ করে), এবং যেখানে ফাঁকগুলি সেলের সীমানা নির্দেশ করে।
এ কারণেই সরাসরি রূপান্তর প্রায়শই বিশৃঙ্খল ফলাফল তৈরি করে: অক্ষরগুলি সামান্য মিসলাইনড হওয়ার কারণে কলামগুলি একত্রিত হয়ে যায়, মুদ্রার প্রতীকগুলি পৃথক পজিশন করা উপাদান হওয়ায় সংখ্যাগুলি টেক্সট স্ট্রিং হয়ে যায় এবং মাল্টি-লাইন বিবরণগুলি ফ্যান্টম সারিতে বিভক্ত হয়ে যায়।
ট্যাগ করা বনাম আনট্যাগ করা PDF
PDF স্পেসিফিকেশনে অ্যাক্সেসিবিলিটির জন্য একটি ঐচ্ছিক "স্ট্রাকচার ট্রি" অন্তর্ভুক্ত রয়েছে - ট্যাগ করা PDF যা স্ক্রিন রিডারের জন্য হেডিং, প্যারাগ্রাফ এবং টেবিল সেল সনাক্ত করে। যদি উপস্থিত থাকে, এই মেটাডেটা এক্সট্রাকশনকে নাটকীয়ভাবে সহজ করে তোলে। বাস্তবতা: বেশিরভাগ PDF আনট্যাগ করা। বেশিরভাগ PDF জেনারেটর ট্যাগিং ধাপটি এড়িয়ে যায় কারণ এটি ঐচ্ছিক এবং জটিলতা বাড়ায়। ব্যাংক স্টেটমেন্ট, চালান এবং আর্থিক প্রতিবেদন প্রায় কখনই ট্যাগ করা হয় না।
ফন্ট এনকোডিং এবং ইউনিকোড সমস্যা
PDF গুলি প্রতিটি অক্ষরের জন্য দুটি পৃথক লুকআপ পাথ ব্যবহার করে: একটি গ্লিফ আউটলাইনের জন্য (এটি কেমন দেখায়) এবং অন্যটি ইউনিকোড ম্যাপিংয়ের জন্য (এর অর্থ কী)। যখন ToUnicode CMap টেবিলটি অনুপস্থিত, অসম্পূর্ণ, বা ইচ্ছাকৃতভাবে এলোমেলো থাকে - যেমন কিছু PDF জেনারেটর এবং সুরক্ষা সরঞ্জামগুলির সাথে ঘটে - তখন টেক্সট এক্সট্রাকশন বিকৃত আউটপুট তৈরি করে যদিও PDF টি স্ক্রিনে পুরোপুরি রেন্ডার হয়। আপনি দৃশ্যত সঠিক অক্ষর দেখতে পান, কিন্তু কপি-পেস্ট বা প্রোগ্রাম্যাটিক এক্সট্রাকশন অর্থহীন ফলাফল তৈরি করে।
পদ্ধতি ১: PDFSub (ব্রাউজার-ভিত্তিক, সমস্ত PDF প্রকারের জন্য কাজ করে)
PDFSub PDF থেকে Excel রূপান্তরের সম্পূর্ণ পরিসর পরিচালনা করে - সাধারণ একক-পৃষ্ঠার টেবিল থেকে শুরু করে মার্জ করা সেল, মাল্টি-লাইন বিবরণ এবং আন্তর্জাতিক সংখ্যা ফরম্যাট সহ জটিল মাল্টি-পেজ আর্থিক নথি পর্যন্ত।
এটি কিভাবে কাজ করে
১. আপনার PDF আপলোড করুন - যেকোনো PDF ফাইল ড্র্যাগ এবং ড্রপ করুন। PDFSub স্বয়ংক্রিয়ভাবে নথির প্রকার এবং কাঠামো সনাক্ত করে। ২. স্বয়ংক্রিয় এক্সট্রাকশন - টেবিলগুলি সনাক্ত করা হয় এবং ডেটা কাঠামোগত সারি এবং কলামগুলিতে এক্সট্রাক্ট করা হয়। ডিজিটাল PDF গুলির জন্য, এটি সম্পূর্ণরূপে আপনার ব্রাউজারে ঘটে - ফাইলটি আপনার ডিভাইস ছেড়ে যায় না। ৩. প্রিভিউ পর্যালোচনা করুন - ডাউনলোড করার আগে এক্সট্রাক্ট করা ডেটা পরীক্ষা করুন। কলাম হেডার, ডেটা টাইপ এবং সারি অ্যালাইনমেন্ট প্রিভিউতে দৃশ্যমান। ৪. ডাউনলোড করুন - Excel (.xlsx), CSV, বা অন্যান্য ফরম্যাটে এক্সপোর্ট করুন।
কেন এটি কাজ করে
ব্রাউজার-ফার্স্ট গোপনীয়তা। ডিজিটাল PDF গুলি ক্লায়েন্ট-সাইড জাভাস্ক্রিপ্ট ব্যবহার করে সম্পূর্ণরূপে আপনার ব্রাউজারে প্রক্রিয়া করা হয়। কোনও ফাইল আপলোড নেই, কোনও সার্ভার এক্সপোজার নেই, কোনও ডেটা ধরে রাখা নেই। এটি আর্থিক নথি, ট্যাক্স রেকর্ড এবং সংবেদনশীল তথ্য ধারণকারী যেকোনো কিছুর জন্য গুরুত্বপূর্ণ। GDPR এর অধীনে, ক্লায়েন্ট-সাইড প্রক্রিয়াকরণ কোনও ডেটা প্রসেসর হিসাবে শ্রেণীবদ্ধকরণ এড়িয়ে যায় কারণ কোনও ব্যক্তিগত ডেটা সংগ্রহ বা প্রেরণ করা হয় না।
স্ক্যান করা নথি পরিচালনা করে। যদি PDF একটি স্ক্যান করা চিত্র হয় (কোনও নির্বাচনযোগ্য টেক্সট নেই), PDFSub স্বয়ংক্রিয় পরিচ্ছন্নতার সাথে সার্ভার-সাইড OCR-এ ফিরে আসে। দ্বি-স্তরীয় পদ্ধতির অর্থ হল ডিজিটাল এবং স্ক্যান করা উভয় PDF ব্যবহারযোগ্য ফলাফল তৈরি করে।
আর্থিক নথির দক্ষতা। এক্সট্রাকশন ইঞ্জিন আর্থিক বিন্যাস বোঝে: বন্ধনীতে নেতিবাচক সংখ্যা, পৃথক উপাদান হিসাবে মুদ্রার প্রতীক, ডেবিট/ক্রেডিট কলাম বিভাজন, চলমান ব্যালেন্স বৈধতা এবং আন্তর্জাতিক সংখ্যা বিন্যাস (1.234,56 বনাম 1,234.56)।
১৩০+ ভাষা। যেকোনো ভাষার PDF এর সাথে কাজ করে - CJK (চীনা, জাপানি, কোরিয়ান) জটিল অক্ষর এনকোডিং সহ, ডান-থেকে-বাম আরবি এবং হিব্রু, এবং অ্যাকসেন্টেড অক্ষর সহ ইউরোপীয় ভাষাগুলি সহ।
পদ্ধতি ২: Microsoft Excel Power Query (শুধুমাত্র উইন্ডোজ)
Excel 2019 এবং Microsoft 365 (Windows) Power Query এর মাধ্যমে একটি বিল্ট-ইন PDF আমদানি বৈশিষ্ট্য অন্তর্ভুক্ত করে। যারা ইতিমধ্যে Excel ইনস্টল করেছেন তাদের জন্য এটি সবচেয়ে সহজলভ্য বিকল্প।

কিভাবে এটি করবেন
১. Excel খুলুন এবং Data → Get Data → From File → From PDF এ যান ২. আপনার PDF ফাইল নির্বাচন করুন ৩. Power Query সনাক্ত করা টেবিলগুলি দেখানো একটি Navigator প্যানেল প্রদর্শন করে - প্রতিটি টেবিল আলাদাভাবে তালিকাভুক্ত করা হয়, এবং আপনি কাঁচা পৃষ্ঠার টেক্সটও দেখতে পারেন ৪. আপনার প্রয়োজনীয় টেবিলটি নির্বাচন করুন এবং লোড করার আগে কলাম হেডার, ডেটা টাইপ এবং বিন্যাস পরিষ্কার করতে Transform Data ক্লিক করুন - অথবা আপনার স্প্রেডশীটে সরাসরি আনতে Load ক্লিক করুন
Power Query কি ভাল করে
- সরল, সুগঠিত টেবিল যা স্পষ্ট সীমানা বা সামঞ্জস্যপূর্ণ ব্যবধান সহ নির্ভরযোগ্যভাবে রূপান্তরিত হয়
- মাল্টি-পেজ টেবিল প্রায়শই সনাক্ত করা হয় এবং বিন্যাস সামঞ্জস্যপূর্ণ হলে সঠিকভাবে একত্রিত করা হয়
- পুনরাবৃত্ত আমদানি রিফ্রেশযোগ্য সংযোগ হিসাবে সেট আপ করা যেতে পারে - নিয়মিত একই রিপোর্ট ফরম্যাট পেলে দরকারী
- কোনও খরচ নেই আপনার বিদ্যমান Microsoft 365 বা Excel 2019 লাইসেন্সের বাইরে
Power Query কি নিয়ে সংগ্রাম করে
- Mac-এ উপলব্ধ নয়। PDF সংযোগকারী Excel for Mac থেকে সম্পূর্ণরূপে অনুপস্থিত। Microsoft এটি যুক্ত করার কোনও পরিকল্পনা ঘোষণা করেনি। Mac ওয়ার্কঅ্যারাউন্ড: Microsoft Word-এ PDF খুলুন (যা এটিকে সম্পাদনাযোগ্য টেক্সটে রূপান্তর করে), তারপরে টেবিলগুলি Excel-এ কপি করুন।
- কোনও OCR ক্ষমতা নেই। যদি PDF একটি স্ক্যান করা চিত্র হয় যার কোনও এমবেডেড টেক্সট স্তর নেই, Power Query কিছুই দেখতে পায় না - এটির জন্য নির্বাচনযোগ্য টেক্সট প্রয়োজন।
- জটিল বিন্যাস ভেঙে যায়। মার্জ করা সেল, মাল্টি-লেভেল হেডার, নেস্টেড টেবিল এবং অনিয়মিত কলাম কাঠামো বিশৃঙ্খল ফলাফল তৈরি করে। একটি মার্জ করা বিবরণ সেল সহ একটি "Total" সারি পরবর্তী সমস্ত সারিগুলির মিসলাইনমেন্টের কারণ হতে পারে।
- হেডার এবং ফুটার পুনরাবৃত্তি হয়। মাল্টি-পেজ টেবিল যেখানে প্রতিটি পৃষ্ঠায় হেডার সারি পুনরাবৃত্তি হয় তার ফলে ডেটা সারির সাথে হেডার টেক্সট মিশ্রিত হয়। আপনাকে এগুলি ম্যানুয়ালি ফিল্টার করতে হবে।
- মুদ্রা এবং সংখ্যা বিন্যাস। মুদ্রার প্রতীক, বন্ধনীতে নেতিবাচক সংখ্যা, বা নন-ইউএস হাজার বিভাজক উপস্থিত থাকলে Power Query সংখ্যাগুলিকে টেক্সট স্ট্রিং হিসাবে আমদানি করতে পারে। আমদানির পরে ম্যানুয়াল টাইপ রূপান্তর প্রয়োজন।
Mac ব্যবহারকারীদের জন্য Power Query (ওয়ার্কঅ্যারাউন্ড)
জানুয়ারী ২০২৬ হিসাবে, Microsoft Power Query কে Excel for the web-এ এনেছে, যা সম্ভাব্যভাবে PDF আমদানি অ্যাক্সেস প্রসারিত করে। তবে, নির্দিষ্টভাবে PDF সংযোগকারী এখনও শুধুমাত্র উইন্ডোজ-কেন্দ্রিক হতে পারে। সবচেয়ে নির্ভরযোগ্য Mac ওয়ার্কঅ্যারাউন্ড হল:
১. Microsoft Word-এ PDF খুলুন (File → Open → PDF নির্বাচন করুন) ২. Word PDF টিকে সম্পাদনাযোগ্য নথিতে রূপান্তর করে (অসম্পূর্ণভাবে) ৩. Word থেকে টেবিল কপি করুন এবং Excel-এ পেস্ট করুন ৪. ডেটা পরিষ্কার করার জন্য Text to Columns এবং ডেটা টাইপ রূপান্তর ব্যবহার করুন
পদ্ধতি ৩: Adobe Acrobat Pro
Adobe Acrobat Pro PDF গুলিকে Excel ফরম্যাটে এক্সপোর্ট করতে পারে। PDF ফরম্যাটের নির্মাতা হিসাবে, Adobe-এর টুলের PDF ইন্টারনালগুলির গভীর জ্ঞান রয়েছে - তবে তা সবসময় পরিষ্কার Excel আউটপুটে অনুবাদ করে না।
মূল্য
- Acrobat Pro: $১৯.৯৯/মাস (বার্ষিক প্রতিশ্রুতি) বা $২৯.৯৯/মাস (মাসিক)। মোট: $২৩৯.৮৮–$৩৫৯.৮৮/বছর।
- Acrobat Export PDF (শুধুমাত্র রূপান্তর): $১.৯৯/মাস ($২৩.৮৮/বছর)। PDF গুলিকে Word, Excel, বা RTF-এ রূপান্তর করে।
- বিনামূল্যে অনলাইন টুল: adobe.com-এ উপলব্ধ সীমিত দৈনিক রূপান্তর সহ। অ্যাকাউন্ট তৈরি প্রয়োজন।
- ফাইল সীমা: ক্লাউড পরিষেবার জন্য ১০০ এমবি ফাইল আকার, ৬০০ পৃষ্ঠা সর্বাধিক।
কিভাবে এটি করবেন
১. Acrobat Pro-তে আপনার PDF খুলুন ২. File → Export To → Spreadsheet → Microsoft Excel Workbook এ যান ৩. আপনার সেভ করার স্থান নির্বাচন করুন ৪. স্ক্যান করা PDF গুলির জন্য, এক্সপোর্টের আগে Acrobat স্বয়ংক্রিয়ভাবে OCR প্রয়োগ করে
Adobe কি ভাল করে
- স্ক্যান করা নথির জন্য স্বয়ংক্রিয় OCR - চিত্র-ভিত্তিক PDF গুলি সনাক্ত এবং প্রক্রিয়া করে
- একাধিক ভাষার জন্য OCR সমর্থন (ইংরেজি, জার্মান, স্প্যানিশ, ফরাসি, পর্তুগিজ এবং অন্যান্য)
- ফর্ম ফিল্ড সনাক্তকরণ - কাঠামোগত PDF ফর্মগুলি ফিল্ডের নাম এবং মান সহ এক্সপোর্ট হয়
Adobe কি নিয়ে সংগ্রাম করে
- মার্জ করা সেলগুলি অতিরিক্ত কলাম তৈরি করে। ব্যবহারকারীরা সাধারণত রিপোর্ট করেন যে কলাম এবং ট্যাবগুলি Excel আউটপুটে অনেক খালি কলাম তৈরি করে - Adobe-এর সহায়তা ফোরামে এটি একটি সুপরিচিত সমস্যা।
- মাল্টি-লাইন টেক্সট একাধিক সারিতে বিভক্ত হয়ে যায়। একটি মোড়ানো বিবরণ ধারণকারী একটি একক সেল দুটি বা তিনটি পৃথক সারিতে পরিণত হয়, পুরো টেবিলের অ্যালাইনমেন্ট ভেঙে দেয়।
- মাঝে মাঝে ব্যবহারের জন্য ব্যয়বহুল। বছরে $২৪০–$৩৬০ মূল্যে, যদি আপনার কেবল মাঝে মাঝে PDF রূপান্তর করার প্রয়োজন হয় তবে এটি অতিরিক্ত। স্বতন্ত্র Export PDF বছরে $২৪ মূল্যে আরও যুক্তিসঙ্গত তবে সম্পূর্ণ Acrobat টুলসেট নেই।
- সার্ভার-সাইড প্রক্রিয়াকরণ। ফাইলগুলি রূপান্তরের জন্য Adobe-এর ক্লাউডে আপলোড করা হয়, যা সংবেদনশীল আর্থিক নথিগুলির জন্য উদ্বেগের কারণ হতে পারে।
পদ্ধতি ৪: Google Sheets (বিনামূল্যে, তবে সীমিত)
Google Sheets-এর কোনও নেটিভ PDF আমদানি বৈশিষ্ট্য নেই। মেনুতে "Import PDF" বিকল্পটি কোথাও নেই। তবে, ওয়ার্কঅ্যারাউন্ড রয়েছে।
Google Docs পদ্ধতি (বিনামূল্যে)
১. PDF টি Google Drive-এ আপলোড করুন ২. ফাইলটিতে রাইট-ক্লিক করুন → Open with → Google Docs ৩. Google PDF টিকে সম্পাদনাযোগ্য নথিতে রূপান্তর করে ৪. Google Doc থেকে টেবিলগুলি কপি করুন এবং Google Sheets-এ পেস্ট করুন ৫. বিন্যাস, কলাম অ্যালাইনমেন্ট এবং ডেটা টাইপগুলি পরিষ্কার করুন
এটি কখন কাজ করে: সাধারণ টেবিল এবং ন্যূনতম বিন্যাস সহ সরল PDF।
এটি কখন ব্যর্থ হয়: জটিল টেবিল, মাল্টি-কলাম লেআউট, স্ক্যান করা নথি। রূপান্তর প্রায়শই টেবিলের কাঠামো নষ্ট করে দেয় - সেলগুলি মার্জ হয়, কলামগুলি সরে যায় এবং সারিগুলি বিভক্ত হয়।
বিকল্প: প্রথমে রূপান্তর করুন, তারপর আপলোড করুন
আরও নির্ভরযোগ্য পদ্ধতি হল অন্য কোনও টুল (PDFSub, Adobe, ইত্যাদি) ব্যবহার করে PDF কে Excel বা CSV তে রূপান্তর করা, তারপরে ফলাফল ফাইলটি Google Sheets-এ আপলোড করা। এই দ্বি-স্তরীয় প্রক্রিয়াটি Google-এর অসঙ্গত PDF পার্সিং এড়িয়ে যায়।
পদ্ধতি ৫: অনলাইন কনভার্টার (দ্রুত কিন্তু গোপনীয়তার সাথে আপস)
বেশ কয়েকটি বিনামূল্যের অনলাইন টুল সফ্টওয়্যার ইনস্টল করার প্রয়োজন ছাড়াই PDF কে Excel-এ রূপান্তর করে।
জনপ্রিয় বিকল্প
| টুল | ফ্রি টায়ার | ফাইল সীমা | OCR |
|---|---|---|---|
| Smallpdf | প্রতিদিন ২ টাস্ক | ৫ জিবি | হ্যাঁ (পেইড) |
| iLovePDF | সীমিত | ১০০ এমবি | হ্যাঁ (পেইড) |
| PDF2Go | সীমিত | পরিবর্তিত হয় | বেসিক |
| Zamzar | প্রতিদিন ২ ফাইল | ৫০ এমবি | না |
গোপনীয়তার সমস্যা
কোনও অনলাইন কনভার্টার ব্যবহার করার সময়, আপনার ফাইলটি প্রক্রিয়াকরণের জন্য তাদের সার্ভারে আপলোড করা হয়। পরিষেবা প্রদানকারীর প্রক্রিয়াকরণের সময় নথিতে সম্পূর্ণ অ্যাক্সেস থাকে - টেক্সট বিষয়বস্তু, মেটাডেটা, এমবেডেড ছবি, সবকিছু। এমনকি যদি প্রদানকারী দাবি করে যে তারা প্রক্রিয়াকরণের পরে ফাইলগুলি মুছে ফেলে, সিস্টেম-স্তরের স্ন্যাপশট, লগ বা তৃতীয় পক্ষের ইন্টিগ্রেশন অংশগুলি ধরে রাখতে পারে।
ব্যাংক স্টেটমেন্ট, ট্যাক্স নথি, চালান, চিকিৎসা রেকর্ড, বা আর্থিক ডেটা, ব্যক্তিগতভাবে সনাক্তযোগ্য তথ্য, বা গোপনীয় ব্যবসায়িক ডেটা ধারণকারী কোনও নথির জন্য, সার্ভার-সাইড প্রক্রিয়াকরণ পরিমাপযোগ্য ঝুঁকি তৈরি করে। GDPR এর অধীনে, যে মুহূর্তে কোনও পরিষেবা তাদের সার্ভারে আপনার নথি সংরক্ষণ করে, তারা একটি ডেটা প্রসেসর হয়ে ওঠে যার সম্মতি বাধ্যবাধকতা রয়েছে। ২০২৫ সাল পর্যন্ত, প্রায় ৫.৬৫ বিলিয়ন ইউরো মোট €২,২৪৫ টিরও বেশি GDPR জরিমানা রেকর্ড করা হয়েছে।
অনলাইন কনভার্টার কখন অর্থপূর্ণ: অ-সংবেদনশীল নথি যেখানে সুবিধা গোপনীয়তার চেয়ে বেশি গুরুত্বপূর্ণ। পাবলিক ডেটার দ্রুত এককালীন রূপান্তর। এমন নথি যা আপনি কোনও অপরিচিত ব্যক্তিকে ইমেল করতে স্বাচ্ছন্দ্য বোধ করবেন।
কখন এগুলি এড়িয়ে চলবেন: আর্থিক বিবৃতি, ট্যাক্স রিটার্ন, চিকিৎসা নথি, আইনি নথি, এসএসএন বা অ্যাকাউন্ট নম্বর সহ কিছু, মালিকানাধীন ব্যবসায়িক ডেটা।
পদ্ধতি ৬: পাইথন লাইব্রেরি (ডেভেলপারদের জন্য)
আপনি যদি একজন ডেভেলপার বা ডেটা বিশ্লেষক হন যিনি প্রোগ্রাম্যাটিকভাবে PDF গুলি প্রক্রিয়া করেন, তবে বেশ কয়েকটি ওপেন-সোর্স পাইথন লাইব্রেরি PDF টেবিল এক্সট্রাকশন পরিচালনা করে।
লাইব্রেরি তুলনা
| লাইব্রেরি | লাইসেন্স | OCR | টেবিল সনাক্তকরণ | সেরা |
|---|---|---|---|---|
| pdfplumber | MIT | না | ম্যানুয়াল + কনফিগারযোগ্য | জটিল টেবিল, ফাইন-গ্রেইনড নিয়ন্ত্রণ |
| Tabula-py | MIT | না | স্বয়ংক্রিয় সনাক্তকরণ | বর্ডারযুক্ত টেবিলগুলির দ্রুত এক্সট্রাকশন |
| Camelot | MIT | না | ল্যাটিস + স্ট্রিম মোড | বর্ডারযুক্ত টেবিল (ল্যাটিস মোড শ্রেষ্ঠ) |
| PyMuPDF | AGPL | না | বেসিক | দ্রুত টেক্সট এক্সট্রাকশন (SaaS এর জন্য লাইসেন্সিং সমস্যা) |
pdfplumber
pdfminer.six এর উপর নির্মিত। পৃষ্ঠায় প্রতিটি অক্ষর, লাইন, আয়তক্ষেত্র এবং বক্ররেখার সুনির্দিষ্ট স্থানাঙ্ক সহ অ্যাক্সেস সরবরাহ করে। টেবিল এক্সট্রাকশন সেলের সীমানা সনাক্ত করার জন্য কনফিগারযোগ্য কৌশল ব্যবহার করে। ভিজ্যুয়াল ডিবাগিং সরবরাহ করে - আপনি সনাক্ত করা টেবিলগুলি পৃষ্ঠার ছবিতে আঁকতে পারেন। সাধারণ ক্ষেত্রে Tabula-এর চেয়ে বেশি কনফিগারেশন প্রয়োজন তবে অন্য কোনও ওপেন-সোর্স লাইব্রেরির চেয়ে ভাল জটিল টেবিলগুলি পরিচালনা করে।
Tabula-py
Tabula-java এর পাইথন র্যাপার (JVM ইনস্টল করা প্রয়োজন)। টেবিলের সীমানা স্বয়ংক্রিয়ভাবে সনাক্ত করতে ভাল। সরাসরি pandas DataFrames-এ আউটপুট করে। JVM নির্ভরতা স্থাপনাকে কঠিন করে তোলে এবং এটি জটিল মাল্টি-লেভেল হেডারগুলির সাথে লড়াই করে।
Camelot
দুটি মোড: ল্যাটিস মোড ইমেজ প্রসেসিং (OpenCV মরফোলজিক্যাল ট্রান্সফর্ম) ব্যবহার করে রুলড লাইন সনাক্ত করতে এবং লাইন ইন্টারসেকশন থেকে সেলের সীমানা খুঁজে বের করতে - বর্ডারযুক্ত টেবিলগুলির জন্য অত্যন্ত নির্ভুল। স্ট্রিম মোড কলাম অনুমান করতে হোয়াইটস্পেস নৈকট্য দ্বারা অক্ষর গোষ্ঠীভুক্ত করে। প্রতি টেবিলের জন্য নির্ভুলতা/মানের মেট্রিক্স সরবরাহ করে। ল্যাটিস মোড ICDAR বেঞ্চমার্কগুলিতে ০.৮৫ এর বেশি F1 স্কোর অর্জন করে তবে পাতলা বা ফ্যাকাশে লাইন সহ টেবিলগুলিতে ব্যর্থ হয়।
কখন পাইথন ব্যবহার করবেন
- শত শত বা হাজার হাজার অনুরূপ নথিগুলির ব্যাচ প্রক্রিয়াকরণ
- পুনরাবৃত্ত প্রতিবেদনগুলির জন্য স্বয়ংক্রিয় পাইপলাইন তৈরি করা
- যখন আপনি এক্সট্রাকশন লজিক এবং পোস্ট-প্রসেসিংয়ের উপর সম্পূর্ণ নিয়ন্ত্রণ চান
- যখন নথির বিন্যাস পরিচিত এবং সামঞ্জস্যপূর্ণ হয়
- গবেষণা এবং ডেটা সাংবাদিকতা প্রকল্প
কখন পাইথন ব্যবহার করবেন না
- এককালীন রূপান্তর (সেটআপ সময় সঞ্চিত সময়ের চেয়ে বেশি)
- অ-প্রযুক্তিগত ব্যবহারকারী
- স্ক্যান করা PDF (এই লাইব্রেরিগুলিতে OCR অন্তর্ভুক্ত নয় - আপনার প্রথমে একটি পৃথক OCR ধাপ প্রয়োজন)
- যখন দ্রুত ডেলিভারি কাস্টমাইজেশনের চেয়ে বেশি গুরুত্বপূর্ণ
সাধারণ রূপান্তর সমস্যা এবং সেগুলি সমাধানের উপায়

প্রতিটি রূপান্তর পদ্ধতি কিছু নথিতে অসম্পূর্ণ ফলাফল তৈরি করে। এখানে সবচেয়ে সাধারণ ব্যর্থতা এবং ব্যবহারিক সমাধানগুলি রয়েছে।
সংখ্যাগুলি টেক্সট হিসাবে আমদানি করা হয়
সমস্যা: Excel এক্সট্রাক্ট করা সংখ্যাগুলিকে টেক্সট স্ট্রিং হিসাবে বিবেচনা করে, যা SUM, AVERAGE, এবং সমস্ত গণনা ভেঙে দেয়। এটি ঘটে কারণ PDF গুলি সংখ্যা এবং টেক্সটের মধ্যে পার্থক্য করে না - একটি মুদ্রার প্রতীক, একটি নেতিবাচক চিহ্ন, বা একটি হাজার বিভাজক পুরো সেলটিকে একটি টেক্সট স্ট্রিং করে তোলে।
শনাক্তকরণ: সেলগুলির উপরের-বাম কোণে একটি সবুজ ত্রিভুজ খুঁজুন, অথবা একটি কলামে SUM চেষ্টা করুন - যদি এটি ০ প্রদান করে, তবে মানগুলি টেক্সট।
সমাধান:
- কলাম নির্বাচন করুন → Data → Text to Columns → Finish ক্লিক করুন (এটি Excel কে ডেটা পুনরায় পার্স করতে বাধ্য করে)
- ১ দিয়ে গুণ করুন: একটি সহায়ক কলামে, সাংখ্যিক রূপান্তর জোর করতে
=A1*1ব্যবহার করুন - NUMBERVALUE ব্যবহার করুন:
=NUMBERVALUE(A1, ".", ",")ইউরোপীয় বিন্যাস পরিচালনা করে - মুদ্রার প্রতীকগুলি সরাতে খুঁজুন এবং প্রতিস্থাপন করুন: "$" কে কিছুই দিয়ে প্রতিস্থাপন করুন, "(" কে "-" দিয়ে প্রতিস্থাপন করুন, ")" কে কিছুই দিয়ে প্রতিস্থাপন করুন।
বন্ধনীতে নেতিবাচক সংখ্যা
সমস্যা: অ্যাকাউন্টিং কনভেনশন নেতিবাচক সংখ্যাগুলিকে -২০০.০০ এর পরিবর্তে (২০০.০০) হিসাবে প্রদর্শন করে। প্রতিটি PDF কনভার্টার আক্ষরিক স্ট্রিং "(২০০.০০)" আউটপুট করে যা Excel টেক্সট হিসাবে বিবেচনা করে।
সমাধান: দুটি ধাপে খুঁজুন এবং প্রতিস্থাপন করুন: "(" কে "-" দিয়ে প্রতিস্থাপন করুন এবং ")" কে কিছুই দিয়ে প্রতিস্থাপন করুন। তারপরে কলামটিকে সংখ্যা ফরম্যাটে রূপান্তর করুন। অথবা ব্যবহার করুন: =IF(LEFT(A1,1)="(",-VALUE(SUBSTITUTE(SUBSTITUTE(A1,"(",""),")","")) ,VALUE(A1))
কলামগুলি একসাথে মার্জ করা হয়েছে
সমস্যা: একাধিক কলামের ডেটা একটি একক সেলে শেষ হয় - "০১/১৫/২০২৬ ডিরেক্ট ডিপোজিট $৩,৫০০.০০" সবকিছু কলাম A তে।
সমাধান: Data → Text to Columns একটি ডিলিমিটার (স্পেস, কমা, ট্যাব, বা নির্দিষ্ট প্রস্থ) সহ। নির্দিষ্ট প্রস্থের জন্য, Power Query-এর কলাম বিভাজন আরও নির্ভরযোগ্য কারণ আপনি দৃশ্যমানভাবে ব্রেক পয়েন্টগুলি সামঞ্জস্য করতে পারেন।
মাল্টি-লাইন বিবরণ অতিরিক্ত সারিতে বিভক্ত হয়ে গেছে
সমস্যা: দুই লাইনের বিবরণ সহ একটি একক লেনদেন Excel-এ দুটি সারি হয়ে যায়, যেখানে দ্বিতীয় লাইনে খালি তারিখ, পরিমাণ এবং ব্যালেন্স ক্ষেত্র থাকে। এটি পুরো স্প্রেডশীটের জন্য সারি অ্যালাইনমেন্ট ভেঙে দেয়।
সমাধান: এটি ম্যানুয়ালি ঠিক করার সবচেয়ে কঠিন সমস্যা। যে সারিগুলিতে তারিখ কলাম খালি থাকে সেগুলি খুঁজুন - এগুলি সম্ভবত কন্টিনিউয়েশন লাইন। উপরের সারির সাথে একটি সহায়ক সূত্র ব্যবহার করে সেগুলিকে সংযুক্ত করুন, তারপরে খালি সারিগুলি মুছুন। বিশেষভাবে ব্যাংক স্টেটমেন্টগুলির জন্য, PDFSub-এর ব্যাংক স্টেটমেন্ট কনভার্টার এর মতো একটি বিশেষায়িত কনভার্টার মাল্টি-লাইন বিবরণগুলি স্বয়ংক্রিয়ভাবে পরিচালনা করে কন্টিনিউয়েশন প্যাটার্নগুলি সনাক্ত করে।
হেডার এবং ফুটার ডেটার সাথে মিশ্রিত
সমস্যা: মাল্টি-পেজ PDF গুলি প্রতিটি পৃষ্ঠায় হেডার সারি, পৃষ্ঠা নম্বর, তারিখ এবং নথির শিরোনাম পুনরাবৃত্তি করে। জেনেরিক কনভার্টারগুলি এগুলিকে ডেটা সারি হিসাবে এক্সট্রাক্ট করে, প্রকৃত ডেটার সাথে মিশ্রিত।
সমাধান: রূপান্তরের পরে, তারিখ কলাম দ্বারা সাজান বা ফিল্টার করুন। হেডার সারি এবং পৃষ্ঠা ফুটারগুলিতে সাধারণত বৈধ তারিখ থাকে না এবং সেগুলি উপরে বা নীচে সাজানো হবে। ম্যানুয়ালি মুছুন। একই ফরম্যাটের পুনরাবৃত্ত প্রতিবেদনগুলির জন্য, পরিষ্কারকরণ স্বয়ংক্রিয় করতে একটি ম্যাক্রো রেকর্ড করুন।
তারিখের অস্পষ্টতা (MM/DD বনাম DD/MM)
সমস্যা: ০৩/০৪/২০২৬ তারিখটি মার্চ ৪ (ইউএস ফরম্যাট) বা এপ্রিল ৩ (ইউরোপীয় ফরম্যাট) হতে পারে। যখন কোনও নথির সমস্ত তারিখে দিনের মান ১২ বা তার কম থাকে, তখন সঠিক বিন্যাস নির্ধারণের কোনও অ্যালগরিদমিক উপায় নেই। কনভার্টারগুলি সাধারণত MM/DD/YYYY ডিফল্ট করে তবে এটি অ-ইউএস নথিগুলির জন্য নীরবে ভুল তারিখ তৈরি করে।
সমাধান: মূল নথির স্থানীয়তা পরীক্ষা করুন। এটি যদি ইউরোপীয়, এশিয়ান বা ল্যাটিন আমেরিকান উত্স থেকে হয় তবে বিন্যাসটি প্রায় নিশ্চিতভাবে DD/MM/YYYY। Excel-এ, তারিখ কলাম নির্বাচন করুন, রাইট-ক্লিক করুন → Format Cells → Number → Date, এবং সঠিক স্থানীয়তা নির্বাচন করুন। যদি তারিখগুলি ইতিমধ্যে ভুলভাবে ব্যাখ্যা করা হয়ে থাকে, তবে আপনাকে =DATE(YEAR(A1), DAY(A1), MONTH(A1)) ব্যবহার করে দিন এবং মাস অদলবদল করতে হতে পারে।
অনুপস্থিত ডেটা
সমস্যা: কিছু বিষয়বস্তু রূপান্তরে একেবারেই উপস্থিত হয় না - সাধারণত ওয়াটারমার্ক, ছবিতে ডেটা, বা অনুপস্থিত ইউনিকোড ম্যাপিং সহ ফন্ট ব্যবহার করে টেক্সট।
সমাধান: মূল PDF খুলুন এবং অনুপস্থিত টেক্সট নির্বাচন করার চেষ্টা করুন। যদি আপনি এটি নির্বাচন করতে না পারেন, তবে এটি একটি চিত্র - আপনার OCR ক্ষমতা প্রয়োজন। যদি আপনি এটি নির্বাচন করতে পারেন তবে এটি বিকৃত অক্ষর হিসাবে কপি হয়, তবে PDF-এ একটি ফন্ট এনকোডিং সমস্যা রয়েছে। একটি ভিন্ন কনভার্টার চেষ্টা করুন - প্রতিটি ফন্ট ম্যাপিং ভিন্নভাবে পরিচালনা করে। PDFSub উভয় পরিস্থিতি পরিচালনা করে: এমবেডেড টেক্সটের জন্য ব্রাউজার-সাইড এক্সট্রাকশন এবং স্ক্যান করা বিষয়বস্তুর জন্য সার্ভার-সাইড OCR।
আপনার নথির প্রকারের জন্য কোন পদ্ধতি ব্যবহার করবেন
বিভিন্ন PDF এর জন্য বিভিন্ন পদ্ধতির প্রয়োজন। এখানে একটি সিদ্ধান্ত ম্যাট্রিক্স রয়েছে:
| নথির প্রকার | সেরা পদ্ধতি | কেন |
|---|---|---|
| ব্যাংক স্টেটমেন্ট | PDFSub বা বিশেষায়িত কনভার্টার | মাল্টি-লাইন বিবরণ, চলমান ব্যালেন্স বৈধতা, ডেবিট/ক্রেডিট কলামগুলির জন্য আর্থিক-সচেতন এক্সট্রাকশন প্রয়োজন |
| চালান | PDFSub বা Adobe Acrobat | অনিয়মিত বিন্যাস, ট্যাক্স গণনা সহ লাইন আইটেম, মুদ্রার বিন্যাস |
| আর্থিক প্রতিবেদন (10-K, ত্রৈমাসিক) | Power Query বা pdfplumber | নেস্টেড লাইন আইটেম সহ ঘন মাল্টি-কলাম টেবিল; Power Query পুনরাবৃত্ত কাঠামো ভালভাবে পরিচালনা করে |
| সরল ডেটা টেবিল | Power Query (বিনামূল্যে) | ব্যবসায়িক প্রতিবেদন থেকে পরিষ্কার বর্ডারযুক্ত টেবিলগুলি নির্ভরযোগ্যভাবে রূপান্তরিত হয় |
| স্ক্যান করা কাগজের নথি | PDFSub বা Adobe Acrobat (OCR) | OCR ক্ষমতা থাকতে হবে - Power Query এবং পাইথন লাইব্রেরি চিত্রগুলি প্রক্রিয়া করতে পারে না |
| সরকারি ফর্ম | Adobe Acrobat বা PDFSub | নির্দিষ্ট-অবস্থানের ক্ষেত্র, প্রাক-মুদ্রিত কাঠামো এবং পূরণ করা ডেটার মিশ্রণ |
| পুনরাবৃত্ত ব্যাচ প্রতিবেদন | পাইথন (Tabula/Camelot) | নিয়মিতভাবে প্রক্রিয়া করা অভিন্ন বিন্যাস নথির জন্য প্রোগ্রামযোগ্য পাইপলাইন |
| আন্তর্জাতিক নথি | PDFSub | ১৩০+ ভাষা, নন-ইউএস সংখ্যা/তারিখ বিন্যাস, CJK অক্ষর এনকোডিং পরিচালনা করে |
OCR বনাম নেটিভ PDF: কেন এটি গুরুত্বপূর্ণ
রূপান্তর নির্ভুলতার একক বৃহত্তম কারণ হল আপনার PDF-এ এমবেডেড টেক্সট আছে কিনা বা এটি একটি স্ক্যান করা চিত্র কিনা।
নেটিভ (ডিজিটাল) PDF
সফ্টওয়্যার দ্বারা ডিজিটালভাবে তৈরি - আপনার ব্যাংকের অনলাইন পোর্টাল, অ্যাকাউন্টিং সফ্টওয়্যার এক্সপোর্ট, Word-to-PDF রূপান্তর। আপনি PDF দেখার সময় পৃথক শব্দ নির্বাচন এবং কপি করতে পারেন।
- নির্ভুলতা: অক্ষর এক্সট্রাকশনের জন্য কার্যকরভাবে ১০০% (কোনও সনাক্তকরণ ত্রুটি নেই)। ব্যর্থতা ফন্ট এনকোডিং সমস্যা বা বিন্যাস ভুল ব্যাখ্যার কারণে হয়, অক্ষর সনাক্তকরণের কারণে নয়।
- গতি: দ্রুত - কোনও চিত্র প্রক্রিয়াকরণের প্রয়োজন নেই
- গোপনীয়তা: সম্পূর্ণরূপে ব্রাউজারে প্রক্রিয়া করা যেতে পারে (কোনও সার্ভার আপলোড প্রয়োজন নেই)
স্ক্যান করা PDF
স্ক্যানার, ফোন ক্যামেরা বা ফ্যাক্স-টু-PDF দ্বারা তৈরি কাগজের নথিগুলির চিত্র। আপনি টেক্সট নির্বাচন করতে পারবেন না - এটি একটি ছবি।
- নির্ভুলতা: ইঞ্জিন এবং স্ক্যান মানের উপর নির্ভর করে নাটকীয়ভাবে পরিবর্তিত হয়
| OCR ইঞ্জিন | টাইপ করা টেক্সট নির্ভুলতা | খরচ |
|---|---|---|
| ABBYY FineReader | ৯৯.৩–৯৯.৮% | $১৬/মাস থেকে |
| Google Cloud Vision | ~৯৮% | প্রতি মাসে ১,০০০ পৃষ্ঠার জন্য বিনামূল্যে; পরে $১.৫০/১,০০০ |
| AWS Textract | ৯৫–৯৯% | ~$১.৫০/১,০০০ পৃষ্ঠা (টেক্সট); $১৫/১,০০০ (টেবিল) |
| Tesseract (ওপেন সোর্স) | <৯৫% | বিনামূল্যে |
স্ক্যান করা আর্থিক প্রতিবেদনগুলির একটি সমীক্ষায় দেখা গেছে যে Tesseract (সবচেয়ে সাধারণ ওপেন-সোর্স OCR) একটি অক্ষর ত্রুটির হার ৪৬% তৈরি করেছে - যার অর্থ প্রায় অর্ধেক অক্ষর ভুল ছিল। বাণিজ্যিক বিকল্পগুলি নাটকীয়ভাবে ভাল তবে এর জন্য অর্থ প্রয়োজন।
মূল কথা: সর্বদা উপলব্ধ হলে নেটিভ ডিজিটাল PDF ব্যবহার করুন। কাগজ স্ক্যান করার পরিবর্তে আপনার ব্যাংকের ওয়েবসাইট থেকে স্টেটমেন্ট ডাউনলোড করুন। যদি আপনাকে স্ক্যান করতে হয়, তবে সর্বোচ্চ রেজোলিউশন (৩০০+ DPI) ব্যবহার করুন এবং নিশ্চিত করুন যে পৃষ্ঠাটি সমতল এবং সমানভাবে আলোকিত।
AI-চালিত PDF এক্সট্রাকশন (২০২৫–২০২৬)
লার্জ ল্যাঙ্গুয়েজ মডেলগুলি PDF এক্সট্রাকশন ল্যান্ডস্কেপ পরিবর্তন করছে। নিয়ম-ভিত্তিক পার্সিংয়ের পরিবর্তে, AI মডেলগুলি প্রাসঙ্গিকভাবে নথির কাঠামো "বুঝতে" পারে।
AI যা নিয়ম পারে না তা কি করতে পারে
- পূর্বনির্ধারিত টেমপ্লেট ছাড়াই বিভিন্ন বিন্যাস পরিচালনা করুন - AI ভিজ্যুয়াল প্রসঙ্গ থেকে টেবিলের কাঠামো অনুমান করে
- ডোমেইন-নির্দিষ্ট পরিভাষা ব্যাখ্যা করুন - অ্যাকাউন্টিংয়ে "(২০০.০০)" মানে নেতিবাচক $২০০, বা "Cr" মানে ক্রেডিট তা বোঝা
- ভাষা-নির্দিষ্ট নিয়ম ছাড়াই বহুভাষিক নথি প্রক্রিয়া করুন
- মাল্টি-লাইন বিবরণ একত্রিত করুন ধারাবাহিক লাইন পূর্ববর্তী লেনদেনের অন্তর্গত তা বুঝে
বর্তমান সীমাবদ্ধতা
- হ্যালুসিনেশন ঝুঁকি - AI আসল নথিতে নেই এমন বিশ্বাসযোগ্য ডেটা তৈরি করতে পারে। সর্বদা মূল নথির সাথে আউটপুট যাচাই করুন।
- টোকেন সীমা - খুব বড় PDF (শত শত পৃষ্ঠা) মডেলের কনটেক্সট উইন্ডো অতিক্রম করতে পারে, যার জন্য পেজিনেশন প্রয়োজন
- খরচ - AI এক্সট্রাকশনের খরচ নিয়ম-ভিত্তিক এক্সট্রাকশনের চেয়ে প্রতি পৃষ্ঠায় উল্লেখযোগ্যভাবে বেশি
- লেটেন্সি - প্রক্রিয়াকরণে সরাসরি টেক্সট এক্সট্রাকশনের চেয়ে বেশি সময় লাগে
হাইব্রিড পদ্ধতি
সবচেয়ে কার্যকর আধুনিক সরঞ্জামগুলি একটি হাইব্রিড কৌশল ব্যবহার করে: পরিষ্কার ডিজিটাল PDF গুলির জন্য দ্রুত নিয়ম-ভিত্তিক এক্সট্রাকশন (৮০%+ নথি পরিচালনা করে), প্রয়োজনে জটিল বিন্যাস, স্ক্যান করা নথি এবং প্রান্তিক ক্ষেত্রগুলির জন্য AI ফলব্যাক সহ। এটি আপনাকে ডিটারমিনিস্টিক পার্সিংয়ের গতি এবং নির্ভুলতা সরবরাহ করে যখন প্রয়োজন তখন AI এর নমনীয়তা সহ।
ভাল ফলাফলের জন্য টিপস (পদ্ধতি নির্বিশেষে)
রূপান্তরের আগে
সম্ভব হলে নেটিভ PDF ব্যবহার করুন। কাগজ স্ক্যান করার পরিবর্তে উৎস সিস্টেম থেকে স্টেটমেন্ট এবং প্রতিবেদন ডাউনলোড করুন। আপনি একটি PDF নেটিভ কিনা তা বলতে পারেন যদি আপনি আপনার PDF ভিউয়ারে পৃথক শব্দ হাইলাইট করতে পারেন।
পাসওয়ার্ড সুরক্ষার জন্য পরীক্ষা করুন। কিছু ব্যাংক এবং প্রতিষ্ঠান PDF গুলিকে পাসওয়ার্ড-সুরক্ষিত করে। পাসওয়ার্ডটি সাধারণত আপনার অ্যাকাউন্ট নম্বরের শেষ ৪ সংখ্যা, আপনার জন্ম তারিখ, বা আপনার SSN হয়। রূপান্তরের আগে সুরক্ষা সরান - বেশিরভাগ পদ্ধতি এনক্রিপ্ট করা PDF গুলিতে নীরবে ব্যর্থ হয়।
পৃষ্ঠা ক্রম পরীক্ষা করুন। মাল্টি-পেজ নথিগুলিতে মাঝে মাঝে পৃষ্ঠাগুলি ভুল ক্রমে থাকে, বিশেষ করে স্ক্যান করা PDF। একটি কনভার্টার পৃষ্ঠাগুলি ক্রমানুসারে এক্সট্রাক্ট করবে, তাই ভুল ক্রমে পৃষ্ঠাগুলি ভুল ক্রমে ডেটা তৈরি করবে।
রূপান্তরের পরে
সর্বদা আউটপুট যাচাই করুন। কোনও কনভার্টার প্রতিটি নথিতে ১০০% নির্ভুল নয়। পরীক্ষা করুন যে:
- সারির সংখ্যা মূলের সাথে মেলে (PDF-এ লেনদেনের সংখ্যা বনাম Excel-এ সারি)
- খোলা এবং বন্ধ ব্যালেন্স মেলে (আর্থিক নথিগুলির জন্য)
- মূলের সাথে তুলনা করে ৩-৫ টি পৃথক মান স্পট-চেক করুন
- কলাম হেডারগুলি সঠিকভাবে সনাক্ত করা হয়েছে
- তারিখগুলি প্রত্যাশিত বিন্যাসে আছে
এটি ৬০ সেকেন্ড সময় নেয় এবং এমন ত্রুটিগুলি ধরে ফেলে যা ঘন্টার পর ঘন্টা ব্যয় করতে পারে বা ভুল আর্থিক প্রতিবেদন তৈরি করতে পারে।
মূল এবং রূপান্তরিত উভয় ফাইল সংরক্ষণ করুন। আপনার Excel এক্সপোর্টের পাশাপাশি মূল PDF টি রাখুন। যদি কোনও মান নিয়ে প্রশ্ন তোলা হয়, আপনি মূল থেকে যাচাই করতে পারেন। আর্থিক নথিগুলির জন্য, অনেক নিয়ম (ট্যাক্স আইন, নিরীক্ষা প্রয়োজনীয়তা) মূল রেকর্ডগুলি ধরে রাখার বাধ্যবাধকতা আরোপ করে।
প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী
আমি কি একটি পাসওয়ার্ড-সুরক্ষিত PDF কে Excel-এ রূপান্তর করতে পারি?
আপনাকে প্রথমে পাসওয়ার্ড সুরক্ষা সরাতে হবে। যদি আপনি পাসওয়ার্ড জানেন, তবে PDF টি Adobe Reader বা অন্য কোনও PDF ভিউয়ারে খুলুন, সুরক্ষা ছাড়াই একটি নতুন PDF এ প্রিন্ট করুন, তারপরে রূপান্তর করুন। বেশিরভাগ ব্যাংক স্টেটমেন্ট পাসওয়ার্ডগুলি আপনার অ্যাকাউন্ট নম্বরের শেষ ৪ সংখ্যা। যদি আপনি পাসওয়ার্ড না জানেন, তবে যিনি নথিটি তৈরি করেছেন তার সাথে যোগাযোগ করুন।
রূপান্তরের পরে আমার সংখ্যাগুলি Excel-এ টেক্সট হিসাবে কেন দেখাচ্ছে?
PDF গুলি সংখ্যা এবং টেক্সটের মধ্যে পার্থক্য করে না - তারা সবই একটি পৃষ্ঠায় পজিশন করা অক্ষর। যখন Excel ডেটা আমদানি করে, মুদ্রার প্রতীক ($, EUR), বন্ধনীতে নেতিবাচক যেমন (২০০), হাজার বিভাজক, বা নন-স্ট্যান্ডার্ড ডেসিমাল মার্কগুলি Excel কে টেক্সট ফরম্যাটিং ডিফল্ট করতে কারণ করে। কলাম নির্বাচন করুন → Data → Text to Columns → Finish, অথবা সাংখ্যিক রূপান্তর জোর করতে ১ দিয়ে গুণ করুন।
PDF থেকে Excel রূপান্তর স্বয়ংক্রিয় করার কোনও উপায় আছে কি?
হ্যাঁ। Power Query সংযোগগুলি স্বয়ংক্রিয়ভাবে রিফ্রেশ হতে পারে। পাইথন লাইব্রেরিগুলি (Tabula-py, pdfplumber, Camelot) পুনরাবৃত্ত নথির জন্য সম্পূর্ণ স্বয়ংক্রিয় পাইপলাইন সক্ষম করে। PDFSub একাধিক ফাইল প্রক্রিয়াকরণের জন্য বাল্ক আপলোড সমর্থন করে। এন্টারপ্রাইজ-স্কেল অটোমেশনের জন্য, Adobe, AWS Textract, এবং Google Document AI থেকে API গুলি প্রোগ্রাম্যাটিকভাবে PDF গুলি প্রক্রিয়া করে।
কোন পদ্ধতি সবচেয়ে নির্ভুল ফলাফল দেয়?
এটি সম্পূর্ণরূপে আপনার নথির উপর নির্ভর করে। সাধারণ বর্ডারযুক্ত টেবিল সহ পরিষ্কার নেটিভ PDF গুলির জন্য, Power Query প্রায়শই ভাল কাজ করে এবং এটি বিনামূল্যে। আর্থিক নথিগুলির (ব্যাংক স্টেটমেন্ট, চালান, প্রতিবেদন) জন্য, আর্থিক বিন্যাস বোঝা বিশেষায়িত সরঞ্জাম যেমন PDFSub উল্লেখযোগ্যভাবে ভাল ফলাফল তৈরি করে। স্ক্যান করা নথিগুলির জন্য, আপনার OCR ক্ষমতা প্রয়োজন - Power Query এবং পাইথন লাইব্রেরিগুলি মোটেও চিত্রগুলি প্রক্রিয়া করতে পারে না।
আমি কি একসাথে একাধিক PDF রূপান্তর করতে পারি?
কিছু অনলাইন টুল ব্যাচ রূপান্তর সমর্থন করে। PDFSub একাধিক ফাইল আপলোড সমর্থন করে যা ক্রমানুসারে প্রক্রিয়া করা হয়। Power Query কিছু সেটআপ সহ একাধিক ফাইল থেকে আমদানি করতে পারে। নিয়মিত ব্যাচ প্রক্রিয়াকরণের জন্য, পাইথন স্ক্রিপ্টগুলি বড় পরিমাণের জন্য সর্বাধিক নমনীয়তা সরবরাহ করে।
Excel-এর বিনামূল্যের সংস্করণ কি PDF আমদানি সমর্থন করে?
Power Query PDF আমদানি Excel 2019 বা Microsoft 365 (শুধুমাত্র Windows) প্রয়োজন। Excel-এর বিনামূল্যের ওয়েব সংস্করণ এবং Excel for Mac-এ PDF সংযোগকারী অন্তর্ভুক্ত নেই। যদি আপনার একটি বিনামূল্যের বিকল্পের প্রয়োজন হয় Excel 2019 ছাড়া, PDFSub-এর ব্রাউজার-ভিত্তিক কনভার্টার বা একটি অনলাইন টুল ব্যবহার করুন।
আমি কি একটি PDF টেবিলকে Google Sheets-এ রূপান্তর করতে পারি?
Google Sheets-এর কোনও নেটিভ PDF আমদানি নেই। ওয়ার্কঅ্যারাউন্ড হল অন্য কোনও টুল ব্যবহার করে প্রথমে PDF কে Excel বা CSV তে রূপান্তর করা, তারপরে ফাইলটি Google Sheets-এ আপলোড করা। বিকল্পভাবে, PDF টি Google Drive-এ আপলোড করুন এবং Google Docs দিয়ে খুলুন - তবে এই পদ্ধতিটি প্রায়শই টেবিলের কাঠামো নষ্ট করে দেয় এবং মাল্টি-কলাম ডেটার জন্য এটি নির্ভরযোগ্য নয়।
আমি কিভাবে একাধিক ভাষায় টেবিল সহ PDF গুলি পরিচালনা করব?
বেশিরভাগ কনভার্টার ইংরেজি বিন্যাস (MM/DD/YYYY তারিখ, কমা হাজার বিভাজক) ধরে নেয়। অন্যান্য ভাষার নথিগুলির জন্য, আপনার একটি কনভার্টার প্রয়োজন যা আন্তর্জাতিক বিন্যাস সমর্থন করে। PDFSub ১৩০+ ভাষা পরিচালনা করে স্বয়ংক্রিয়ভাবে তারিখ বিন্যাস (DD/MM/YYYY, YYYY-MM-DD), সংখ্যা বিন্যাস (1.234,56 বনাম 1,234.56), এবং অক্ষর এনকোডিং (UTF-8, GBK, Shift_JIS, ISO 8859) সনাক্ত করে।
সারসংক্ষেপ
PDF থেকে Excel রূপান্তর সবসময় সহজ নয়, তবে আপনার নথির প্রকারের জন্য সঠিক পদ্ধতি একটি উল্লেখযোগ্য পার্থক্য তৈরি করে:
| পদ্ধতি | খরচ | OCR | সেরা |
|---|---|---|---|
| PDFSub | ৭ দিনের বিনামূল্যে ট্রায়াল | হ্যাঁ | আর্থিক নথি, আন্তর্জাতিক PDF, গোপনীয়তা-সংবেদনশীল ডেটা |
| Power Query | বিনামূল্যে (Excel 2019/365 সহ) | না | সরল টেবিল, Windows ব্যবহারকারী |
| Adobe Acrobat | $২০–$৩০/মাস | হ্যাঁ | নেটিভ PDF, ফর্ম এক্সপোর্ট |
| Google Docs | বিনামূল্যে | না | শুধুমাত্র খুব সাধারণ টেবিল |
| অনলাইন কনভার্টার | বিনামূল্যে (সীমিত) | পরিবর্তিত হয় | অ-সংবেদনশীল, মাঝে মাঝে ব্যবহার |
| পাইথন লাইব্রেরি | বিনামূল্যে (ওপেন সোর্স) | না | ডেভেলপার, ব্যাচ প্রক্রিয়াকরণ |
মূল নীতি: আপনার নথির প্রকার এবং সংবেদনশীলতার স্তরের সাথে আপনার পদ্ধতিটি মেলান। ডিজিটাল PDF থেকে সরল টেবিলগুলি বিনামূল্যে সরঞ্জামগুলির সাথে ভালভাবে রূপান্তরিত হয়। আর্থিক নথি, স্ক্যান করা PDF এবং আন্তর্জাতিক নথিগুলি বিশেষায়িত এক্সট্রাকশন থেকে উপকৃত হয়। এবং সংবেদনশীল ডেটা ধারণকারী যে কোনও কিছুর জন্য, তৃতীয় পক্ষের সার্ভারে আপলোড করার পরিবর্তে আপনার ব্রাউজারে ফাইলগুলি প্রক্রিয়া করে এমন সরঞ্জামগুলিকে অগ্রাধিকার দিন।