পিডিএফ থেকে এক্সেলে টেবিল এক্সট্র্যাক্ট করার উপায়: ৫টি পদ্ধতির তুলনা
পিডিএফ টেবিলকে x,y কোঅর্ডিনেটে ছড়িয়ে থাকা টেক্সট ফ্র্যাগমেন্ট হিসেবে সংরক্ষণ করে — কোনো সারি, কোনো কলাম, কোনো সেল নেই। ব্রাউজার-ভিত্তিক টুল থেকে পাইথন স্ক্রিপ্টিং পর্যন্ত, ডেটা স্প্রেডশীটে আনার উপায় এখানে দেওয়া হলো।

আপনার কাছে একটি পিডিএফ আছে যাতে একটি টেবিল আছে যা আপনার এক্সেলে প্রয়োজন। এটি হতে পারে একটি আর্থিক প্রতিবেদন, ব্যাংক স্টেটমেন্ট, চালান, বা গবেষণাপত্র। ডেটা সেখানেই আছে - স্ক্রিনে সারি এবং কলামে সুন্দরভাবে সাজানো। কিন্তু যখন আপনি এটি বের করার চেষ্টা করেন, তখন সবকিছু ভেঙে যায়।
এটি ঘটে কারণ পিডিএফ ডেটা ফরম্যাট নয়। এটি একটি ডিসপ্লে ফরম্যাট। পিডিএফ স্পেসিফিকেশনে "টেবিল", "সারি", বা "কলাম" এর কোনো ধারণা নেই। যা একটি স্ট্রাকচার্ড টেবিলের মতো দেখায় তা আসলে একটি ক্যানভাসে নির্দিষ্ট x,y কোঅর্ডিনেটে রাখা অসংখ্য টেক্সট ফ্র্যাগমেন্ট। সেই স্ট্রাকচারটিকে একটি স্প্রেডশীটে ফিরিয়ে আনা একটি রিভার্স-ইঞ্জিনিয়ারিং সমস্যা - এবং বিভিন্ন টুল বিভিন্ন মাত্রার সাফল্যের সাথে এটি পরিচালনা করে।
এই গাইডটি পিডিএফ থেকে টেবিল এক্সট্র্যাক্ট করার ৫টি পদ্ধতি, কখন কোনটি সবচেয়ে ভালো কাজ করে এবং সমস্যা হলে কী করতে হবে তা আলোচনা করে।
পিডিএফ থেকে টেবিল এক্সট্র্যাক্ট করা কেন কঠিন

পিডিএফ ফরম্যাটে কোনো টেবিল নেই
পিডিএফ স্পেসিফিকেশন (ISO 32000-2:2020) একটি কন্টেন্ট স্ট্রিম সংজ্ঞায়িত করে - অপারেটরগুলির একটি ক্রম যা নির্দিষ্ট কোঅর্ডিনেটে স্বতন্ত্র অক্ষর স্থাপন করে। "তারিখ | বিবরণ | পরিমাণ" এর মতো একটি সাধারণ টেবিল সারি এভাবে সংরক্ষিত হতে পারে:
BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Office Supplies) Tj 180 0 Td (125.00) Tj ETকোনো <table>, <tr>, বা <td> ট্যাগ নেই। কোনো সারি শনাক্তকারী নেই। কোনো কলামের সীমানা নেই। সেলের চারপাশে আপনি যে ভিজ্যুয়াল লাইনগুলি দেখেন তা পৃথক অঙ্কন অপারেশন যা টেক্সট থেকে সম্পূর্ণভাবে বিচ্ছিন্ন। একটি এক্সট্র্যাকশন টুলকে স্থানিক সম্পর্ক থেকে সম্পূর্ণ স্ট্রাকচার অনুমান করতে হবে।
তিন ধরনের টেবিল বর্ডার
বর্ডারযুক্ত (ল্যাটিস) টেবিলগুলিতে প্রতিটি সেলের চারপাশে দৃশ্যমান লাইন থাকে। এগুলি এক্সট্র্যাক্ট করা সবচেয়ে সহজ কারণ লাইনগুলি স্পষ্টভাবে সেলের সীমানা নির্ধারণ করে। সাধারণত আনুষ্ঠানিক আর্থিক বিবৃতি, সরকারি ফর্ম এবং প্রমিত প্রতিবেদনে দেখা যায়।
বর্ডারবিহীন (স্ট্রিম) টেবিলগুলিতে কোনো লাইন থাকে না। স্ট্রাকচার সম্পূর্ণরূপে হোয়াইটস্পেস অ্যালাইনমেন্ট দ্বারা সংজ্ঞায়িত হয় - সারি জুড়ে সামঞ্জস্যপূর্ণ x-কোঅর্ডিনেট ভাগ করে নেওয়া টেক্সট আইটেমগুলি অন্তর্নিহিত কলাম তৈরি করে। গবেষণাপত্র, চালান এবং পণ্য ক্যাটালগে সাধারণ।
আধা-বর্ডারযুক্ত টেবিলগুলিতে কেবল আংশিক বর্ডার থাকে - সাধারণত অনুভূমিক নিয়ম বিভাগগুলির মধ্যে কিন্তু উল্লম্ব বিভাজক নয়। ব্যাংক স্টেটমেন্ট, ব্রোকারেজ রিপোর্ট এবং ইউটিলিটি বিলগুলিতে অত্যন্ত সাধারণ। এগুলি এক্সট্র্যাক্ট করা সবচেয়ে কঠিন কারণ আংশিক বর্ডারগুলি ল্যাটিস-মোড পার্সারকে বিভ্রান্ত করে যখন অনুপস্থিত বর্ডারগুলি স্ট্রিম-মোডের আত্মবিশ্বাস হ্রাস করে।
ট্যাগযুক্ত বনাম আনট্যাগযুক্ত পিডিএফ
ট্যাগযুক্ত পিডিএফগুলিতে স্ট্রাকচারাল মেটাডেটা অন্তর্ভুক্ত থাকে যা হেডিং, প্যারাগ্রাফ এবং টেবিল সেল শনাক্ত করে। আনট্যাগযুক্ত পিডিএফগুলিতে এগুলির কোনোটিই থাকে না - এক্সট্র্যাকশন টুল কেবল কাঁচা কোঅর্ডিনেট পায়। বেশিরভাগ পিডিএফ আনট্যাগযুক্ত, যার মধ্যে কার্যত সমস্ত ব্যাংক স্টেটমেন্ট, চালান এবং আর্থিক প্রতিবেদন অন্তর্ভুক্ত।
পদ্ধতি ১: পিডিএফসাব এক্সট্র্যাক্ট টেবিল (ফ্রি + এআই ফলব্যাক)
PDFSub-এর এক্সট্র্যাক্ট টেবিল টুল নির্ভুলতা সর্বাধিক করার সময় খরচ কমানোর জন্য একটি তিন-স্তরীয় পদ্ধতি ব্যবহার করে:
স্তর ১: কোঅর্ডিনেট-ভিত্তিক সনাক্তকরণ (ব্রাউজার, ফ্রি)
টুলটি প্রথমে আপনার ব্রাউজারে সম্পূর্ণ এক্সট্র্যাকশন করার চেষ্টা করে:
- প্রতিটি টেক্সট আইটেম তার x,y কোঅর্ডিনেট সহ এক্সট্র্যাক্ট করতে পিডিএফ কন্টেন্ট স্ট্রিম পার্স করে
- y-কোঅর্ডিনেট নৈকট্যের উপর ভিত্তি করে টেক্সট আইটেমগুলিকে লাইনে গ্রুপ করে
- কলামের সীমানা সনাক্ত করতে লাইনের মধ্যে x-কোঅর্ডিনেট অ্যালাইনমেন্ট প্যাটার্ন বিশ্লেষণ করে
- ন্যূনতম ৩টি সারি, ২টি কলাম এবং ৭০%+ আত্মবিশ্বাস প্রয়োজন
যদি ভাল টেবিল পাওয়া যায়, আপনি অবিলম্বে স্ট্রাকচার্ড ডেটা পাবেন - কোনো সার্ভার আপলোড নেই, কোনো এআই ক্রেডিট খরচ নেই, এবং আপনার ফাইল আপনার ডিভাইস ছেড়ে যায় না।
স্তর ২: সার্ভার-সাইড এক্সট্র্যাকশন (pdfplumber, ফ্রি)
যদি কোঅর্ডিনেট-ভিত্তিক সনাক্তকরণ কোনো টেবিল খুঁজে না পায়, টুলটি সার্ভারে pdfplumber (MIT লাইসেন্স) ব্যবহার করে। এটি সুস্পষ্ট লাইন (অঙ্কিত বর্ডার) এবং অন্তর্নিহিত লাইন (শব্দ অ্যালাইনমেন্ট প্যাটার্ন) উভয়ই সনাক্ত করে, ছেদ খুঁজে বের করে, আয়তক্ষেত্র সনাক্ত করে এবং টেক্সটকে সেলের সাথে ম্যাপ করে।
স্তর ৩: এআই এক্সট্র্যাকশন (ক্রেডিট ব্যবহার করে)
স্ক্যান করা পিডিএফ, জটিল লেআউট বা টেবিলের জন্য যা রুল-ভিত্তিক পদ্ধতি পার্স করতে পারে না, টুলটি এআই-চালিত ভিশন এক্সট্র্যাকশনে ফলব্যাক করে। আপনি যখন জানেন যে টেবিলটি জটিল তখন সরাসরি এই স্তরে এড়িয়ে যেতে "ফোর্স এআই এক্সট্র্যাকশন" টগল করতে পারেন।
আউটপুট ফরম্যাট: এক্সেল (.xlsx), CSV, JSON।
সেরা: সফটওয়্যার ইনস্টল না করে দ্রুত এক্সট্র্যাকশনের জন্য। ডিজিটাল পিডিএফগুলি সর্বাধিক গোপনীয়তার জন্য আপনার ব্রাউজারে সম্পূর্ণভাবে প্রক্রিয়া করা হয়।
পদ্ধতি ২: এক্সেলের পাওয়ার কোয়েরি (শুধুমাত্র উইন্ডোজ)
উইন্ডোজে এক্সেল ২০১৯+ এবং মাইক্রোসফট ৩৬৫-এ উপলব্ধ: ডেটা → ডেটা পান → ফাইল থেকে → পিডিএফ থেকে।
এটি কিভাবে কাজ করে
১. ডেটা → ডেটা পান → ফাইল থেকে → পিডিএফ থেকে ক্লিক করুন ২. আপনার পিডিএফ ফাইল নির্বাচন করুন ৩. পাওয়ার কোয়েরি সনাক্ত করা টেবিলগুলির একটি ন্যাভিগেটর প্যানেল প্রদর্শন করে প্রতি পৃষ্ঠায় ৪. আপনি যে টেবিলগুলি চান তা নির্বাচন করুন, পরিষ্কার করার জন্য ট্রান্সফর্ম ডেটা ক্লিক করুন, তারপর লোড করুন
সুবিধা
- এক্সেলে বিল্ট-ইন - মাইক্রোসফট ৩৬৫ সাবস্ক্রাইবারদের জন্য অতিরিক্ত খরচ নেই
- পাওয়ার কোয়েরির ট্রান্সফরমেশন ইঞ্জিন পোস্ট-প্রসেসিং ভালভাবে পরিচালনা করে (ফিল ডাউন, পিভট, কলাম মার্জ করুন)
- যদি সোর্স পিডিএফ আপডেট করা হয় তবে ডেটা রিফ্রেশ করতে পারে
- একই পিডিএফ থেকে একাধিক টেবিল সংযোগ সমর্থন করে
সীমাবদ্ধতা
- শুধুমাত্র উইন্ডোজ - ম্যাক, এক্সেল অনলাইন বা মোবাইলের জন্য এক্সেলে উপলব্ধ নয়
- বর্ডারবিহীন টেবিলের সাথে সমস্যা - স্পষ্টভাবে বর্ডারযুক্ত টেবিলগুলির সাথে সবচেয়ে ভাল কাজ করে
- কোনো ওসিআর নেই - স্ক্যান করা/ছবি পিডিএফ থেকে এক্সট্র্যাক্ট করতে পারে না
- মাল্টি-পেজ টেবিল সমস্যাযুক্ত - প্রতিটি পৃষ্ঠা প্রায়শই একটি পৃথক টেবিল হিসাবে আমদানি হয়, ম্যানুয়াল সেলাইয়ের প্রয়োজন হয়
- মাল্টি-লাইন সারি - সেলের মধ্যে মোড়ানো টেক্সট প্রায়শই একাধিক সারিতে বিভক্ত হয়, যার জন্য পরিষ্কারের প্রয়োজন হয়
সেরা: উইন্ডোজ ব্যবহারকারীদের জন্য মাইক্রোসফট ৩৬৫ সহ যারা সাধারণ, বর্ডারযুক্ত টেবিল ব্যবহার করেন।
পদ্ধতি ৩: অ্যাডোবি অ্যাক্রোব্যাট (পেইড)
ফাইল → পিডিএফ এক্সপোর্ট করুন → স্প্রেডশীট → মাইক্রোসফট এক্সেল ওয়ার্কবুক
মূল্য (২০২৬)
- অ্যাক্রোব্যাট স্ট্যান্ডার্ড: $১২.৯৯/মাস (বার্ষিক পরিকল্পনা)
- অ্যাক্রোব্যাট প্রো: $১৯.৯৯/মাস (বার্ষিক পরিকল্পনা)
- এক্সপোর্ট পিডিএফ (স্ট্যান্ডঅ্যালোন): নিম্ন-স্তরের রূপান্তর-শুধুমাত্র পরিকল্পনা
সুবিধা
- স্ক্যান করা ডকুমেন্টের জন্য বিল্ট-ইন ওসিআর
- সাধারণত সাধারণ বর্ডারযুক্ত টেবিলগুলির জন্য ফরম্যাটিং সংরক্ষণ করে
- ব্যাচ প্রসেসিং প্রো-তে উপলব্ধ
সীমাবদ্ধতা
- শুধুমাত্র টেবিল এক্সট্র্যাকশনের জন্য ব্যয়বহুল - $১৫৬–$২৪০/বছর
- মার্জ করা সেল এবং মাল্টি-পেজ স্প্যান সহ জটিল টেবিলগুলি এখনও ভুলভাবে সাজানো আউটপুট তৈরি করে
- প্রসেসিংয়ের জন্য ফাইলগুলি অ্যাডোবির ক্লাউডে আপলোড করা হতে পারে - সংবেদনশীল আর্থিক ডেটার জন্য সমস্যাযুক্ত
- ডেস্কটপ ইনস্টলেশন প্রয়োজন
সেরা: যারা ইতিমধ্যে অ্যাক্রোব্যাট প্রো-এর জন্য অর্থ প্রদান করেন এবং ওসিআর সহ মাঝে মাঝে টেবিল এক্সপোর্ট করার প্রয়োজন হয়।
পদ্ধতি ৪: কপি-পেস্ট (ম্যানুয়াল)
সবচেয়ে স্বজ্ঞাত পদ্ধতি - এবং যেটি প্রায়শই টেবিলের জন্য ব্যর্থ হয়।
সাধারণ সমস্যা
- সমস্ত ডেটা একটি কলামে - পুরো টেবিলটি কলাম বিরতি ছাড়াই পেস্ট হয়
- সংখ্যাগুলি টেক্সট হয়ে যায় - মুদ্রা প্রতীক, বন্ধনী এবং বিভাজক সাংখ্যিক ফরম্যাটিং ভেঙে দেয়
- সেলের মধ্যে মাল্টি-লাইন কন্টেন্ট ফ্যান্টম সারি তৈরি করে - একটি সেলের মধ্যে দুটি লাইনে মোড়ানো একটি বিবরণ দুটি পৃথক সারি হিসাবে পরিণত হয়
- হেডারগুলি ডেটা থেকে পৃথক - হেডার সারিটি সংযোগ বিচ্ছিন্ন হয়ে যায়
- কলামগুলি ভুলভাবে সাজানো - ডেটা স্থানান্তরিত হয় কারণ অক্ষরের ব্যবধান ট্যাবগুলিতে অনুবাদ হয় না
আংশিক সমাধান
এক্সেলে পেস্ট করুন, তারপর স্পেস বা ফিক্সড-উইথ ডিলিমিটার ব্যবহার করে ডেটা → টেক্সট টু কলাম ব্যবহার করুন। "ট্রিট কনসিকিউটিভ ডিলিমিটার অ্যাজ ওয়ান" সক্রিয় করুন। এটি খুব সাধারণ, ভাল-ব্যবধানযুক্ত টেবিলগুলির জন্য কাজ করে তবে মাল্টি-ওয়ার্ড সেল কন্টেন্ট সহ যেকোনো কিছুর জন্য ব্যর্থ হয়।
সেরা: শেষ অবলম্বন হিসাবে একটি একক ছোট, সাধারণ টেবিল এক্সট্র্যাক্ট করার জন্য।
পদ্ধতি ৫: পাইথন লাইব্রেরি (ডেভেলপারদের জন্য)
তিনটি এমআইটি-লাইসেন্সযুক্ত লাইব্রেরি প্রোগ্রাম্যাটিকভাবে পিডিএফ টেবিল এক্সট্র্যাকশন পরিচালনা করে:
Tabula-py
Tabula (Java)-এর চারপাশে পাইথন র্যাপার। জাভা রানটাইম প্রয়োজন।
- বর্ডারযুক্ত টেবিলের জন্য ল্যাটিস মোড (লাইন এবং ছেদ খুঁজে বের করে)
- টেক্সট অ্যালাইনমেন্ট ব্যবহার করে বর্ডারবিহীন টেবিলের জন্য স্ট্রিম মোড
- স্ক্রিপ্টে ব্যাচ প্রসেসিংয়ের জন্য ভাল
- কোনো ওসিআর সমর্থন নেই
Camelot
ল্যাটিস এবং স্ট্রিম মোডও সরবরাহ করে।
- বর্ডারযুক্ত টেবিলের জন্য ট্যাবুলার চেয়ে সাধারণত ভাল পারফর্ম করে
- স্ট্রিম মোডে ফাইন-টিউনিংয়ের জন্য আরও কনফিগারেশন প্যারামিটার রয়েছে
- প্রতিটি এক্সট্র্যাকশনের সাথে নির্ভুলতার রিপোর্ট সরবরাহ করে
- ঘোস্টস্ক্রিপ্ট নির্ভরতা প্রয়োজন। কোনো ওসিআর সমর্থন নেই
pdfplumber
কোঅর্ডিনেট-ভিত্তিক পদ্ধতি: প্রতিটি অক্ষর তার সঠিক অবস্থান সহ এক্সট্র্যাক্ট করে, তারপর স্ট্রাকচার অনুমান করে।
- টেবিলের বিস্তৃত পরিসর পরিচালনা করে
- সবচেয়ে বেশি নিয়ন্ত্রণ দেয় তবে আরও কনফিগারেশন প্রয়োজন
- এটি পিডিএফসাব সার্ভার-সাইডে যে লাইব্রেরি ব্যবহার করে
- কোনো ওসিআর সমর্থন নেই
সেরা: ডেভেলপাররা পুনরাবৃত্ত টেবিল এক্সট্র্যাকশন ওয়ার্কফ্লো স্বয়ংক্রিয় করে, একই ধরনের ডকুমেন্টের বড় ব্যাচ প্রক্রিয়া করে।
সাধারণ সমস্যা এবং সেগুলি সমাধানের উপায়
মার্জ করা সেল
যখন সেলগুলি একাধিক সারি বা কলাম জুড়ে বিস্তৃত হয়, তখন বেশিরভাগ টুল হয় উপরের-বাম সেলে বিষয়বস্তু রাখে এবং অন্যগুলিকে খালি রাখে, অথবা পরবর্তী সমস্ত কলামকে ভুলভাবে সাজায়। কোনো সার্বজনীন সমাধান নেই - CSV ফরম্যাটে মার্জের কোনো ধারণা নেই, তাই মার্জের তথ্য সবসময় হারিয়ে যায়।
সমাধান: টেবিলটি এক্সট্র্যাক্ট করুন, তারপর এক্সেলে ম্যানুয়ালি মার্জের আর্টিফ্যাক্টগুলি ঠিক করুন। একই মার্জ প্যাটার্ন সহ পুনরাবৃত্ত টেবিলগুলির জন্য, একটি পোস্ট-প্রসেসিং স্ক্রিপ্ট বিবেচনা করুন।
সেলের মধ্যে মাল্টি-লাইন কন্টেন্ট
সেলের মধ্যে মোড়ানো দীর্ঘ বিবরণগুলি আউটপুটে একাধিক সারি হয়ে যায়, যা সমস্ত পরবর্তী ডেটাকে ভুলভাবে সাজিয়ে দেয়। আর্থিক নথিপত্রের জন্য এটি একক সবচেয়ে সাধারণ এক্সট্র্যাকশন ত্রুটি।
সমাধান: এক্সট্র্যাকশনের পরে, যে সারিগুলিতে তারিখ এবং পরিমাণ অনুপস্থিত রয়েছে সেগুলি সন্ধান করুন - এগুলি সম্ভবত উপরের সারির সাথে সম্পর্কিত কন্টিনিউয়েশন লাইন। এক্সেলে, সেগুলি ম্যানুয়ালি মার্জ করুন বা একটি সহায়ক সূত্র ব্যবহার করুন।
একাধিক পৃষ্ঠা জুড়ে বিস্তৃত টেবিল
টুলগুলিকে অবশ্যই নির্ধারণ করতে হবে টেবিলটি কোথায় অব্যাহত থাকে, পুনরাবৃত্ত হেডারগুলি সরিয়ে ফেলতে হবে কিনা এবং পৃষ্ঠা ফুটারগুলি কীভাবে ফিল্টার করতে হবে। অনেক টুল প্রতিটি পৃষ্ঠা স্বাধীনভাবে বিবেচনা করে।
সমাধান: যদি আপনার টুল প্রতি-পৃষ্ঠা ফলাফল দেয়, শিটগুলি একত্রিত করুন এবং পুনরাবৃত্ত হেডার সারিগুলি সরান। পৃষ্ঠা N-এর শেষ সারি পৃষ্ঠা N+1-এর প্রথম সারির সাথে সঠিকভাবে সংযুক্ত হয়েছে কিনা তা পরীক্ষা করুন।
মুদ্রা ফরম্যাটিং সমস্যা
বন্ধনীতে থাকা নেতিবাচক সংখ্যাগুলি ((১,২৩৪.৫০)) টেক্সট হিসাবে পেস্ট হয়, সংখ্যা হিসাবে নয়। মুদ্রা প্রতীক এবং হাজার বিভাজকও সাংখ্যিক ফরম্যাটিং ভেঙে দেয়।
সমাধান: এক্সট্র্যাকশনের পরে, পরিমাণ কলামটি নির্বাচন করুন এবং $, ( , ) অক্ষরগুলি সরাতে ফাইন্ড ও রিপ্লেস ব্যবহার করুন। তারপর কলামটি নাম্বার হিসাবে ফরম্যাট করুন। বন্ধনীযুক্ত নেতিবাচকগুলির জন্য, ( কে - দিয়ে প্রতিস্থাপন করুন এবং ) সরান, তারপর নাম্বার ফরম্যাটে রূপান্তর করুন।
তারিখের অস্পষ্টতা
০১/০২/২০২৬ - এটি কি জানুয়ারী ২ নাকি ফেব্রুয়ারী ১? এক্সট্র্যাকশন টুল স্ট্রিংটি যেমন আছে তেমনই সংরক্ষণ করে, তবে এক্সেল আপনার স্থানীয় সেটিংসের উপর ভিত্তি করে এটিকে পুনরায় ব্যাখ্যা করতে পারে।
সমাধান: তারিখ ফরম্যাটের ক্লুগুলির জন্য সোর্স পিডিএফ পরীক্ষা করুন (১২ এর বেশি দিনের মান সহ তারিখগুলি সন্ধান করুন)। আমদানি করার আগে এক্সেলের তারিখ ফরম্যাটটি সোর্সের সাথে মেলে সেট করুন।
নির্ভুলতার তুলনা
| পদ্ধতি | সাধারণ বর্ডারযুক্ত | বর্ডারবিহীন | আধা-বর্ডারযুক্ত | স্ক্যান করা পিডিএফ |
|---|---|---|---|---|
| পিডিএফসাব (কোঅর্ডিনেট + এআই) | ৯০–৯৯% | ৭৫–৯৫% | ৭০–৯৫% | ৮৫–৯৫% (এআই) |
| পাওয়ার কোয়েরি | ৮৫–৯৫% | ৪০–৬০% | ৫০–৭০% | সমর্থিত নয় |
| অ্যাডোবি অ্যাক্রোব্যাট | ৯০–৯৫% | ৭০–৮০% | ৭০–৮৫% | ৮০–৯০% |
| ট্যাবুলা | ~৬৮% | ৫৫–৭০% | ৫০–৬৫% | সমর্থিত নয় |
| ক্যামেলট | ~৭৩% | ৬৫–৭৫% | ৬০–৭০% | সমর্থিত নয় |
| কপি-পেস্ট | ৩০–৫০% | ১০–৩০% | ১০–৩০% | সম্ভব নয় |
পরিসীমাগুলি ডকুমেন্টের জটিলতার উপর ভিত্তি করে ভিন্নতা প্রতিফলিত করে। প্রোসিওনস ২০২৫ পিডিএফ এক্সট্র্যাকশন বেঞ্চমার্ক এবং ক্যামেলট তুলনা অধ্যয়ন থেকে বেঞ্চমার্ক ডেটা।
আপনার কোন পদ্ধতি ব্যবহার করা উচিত?
| পরিস্থিতি | সেরা পদ্ধতি | কারণ |
|---|---|---|
| দ্রুত এককালীন এক্সট্র্যাকশন | পিডিএফসাব | ইনস্টল করার প্রয়োজন নেই, ব্রাউজার-ভিত্তিক, ফ্রি কোঅর্ডিনেট এক্সট্র্যাকশন |
| সাধারণ বর্ডারযুক্ত টেবিল, উইন্ডোজ | পাওয়ার কোয়েরি | এক্সেলে বিল্ট-ইন, অতিরিক্ত খরচ নেই |
| স্ক্যান করা পিডিএফ | পিডিএফসাব (এআই) বা অ্যাডোবি অ্যাক্রোব্যাট | ওসিআর ক্ষমতা প্রয়োজন |
| সংবেদনশীল আর্থিক ডেটা | পিডিএফসাব | ব্রাউজার-ভিত্তিক প্রসেসিং, ফাইল কখনো আপলোড হয় না |
| পুনরাবৃত্ত ব্যাচ প্রসেসিং | পাইথন (pdfplumber) | স্ক্রিপ্টেবল, স্বয়ংক্রিয় করা যায় |
| ইতিমধ্যে অ্যাক্রোব্যাট প্রো আছে | অ্যাডোবি অ্যাক্রোব্যাট | ইতিমধ্যে অর্থ প্রদান করছেন, সাধারণ টেবিলগুলি ভাল কাজ করে |
| একটি ছোট টেবিল, কোনো টুল নেই | কপি-পেস্ট | শেষ অবলম্বন, সবকিছু যাচাই করুন |
সেরা ফলাফলের জন্য টিপস
নেটিভ পিডিএফ ব্যবহার করুন। কাগজ স্ক্যান করার পরিবর্তে তাদের উৎস থেকে ডকুমেন্ট ডাউনলোড করুন। নেটিভ পিডিএফগুলিতে নিখুঁত টেক্সট থাকে, যা এক্সট্র্যাকশনকে নাটকীয়ভাবে আরও নির্ভুল করে তোলে।
প্রথমে টেবিলের ধরন শনাক্ত করুন। বর্ডারযুক্ত টেবিলগুলি প্রায় যেকোনো টুলের সাথে কাজ করে। বর্ডারবিহীন টেবিলের জন্য স্ট্রিম-মোড বা এআই এক্সট্র্যাকশন প্রয়োজন। ধরন জানা আপনাকে সঠিক পদ্ধতি বেছে নিতে সাহায্য করে।
ফ্রি, রুল-ভিত্তিক পদ্ধতি দিয়ে শুরু করুন। প্রথমে কোঅর্ডিনেট-ভিত্তিক এক্সট্র্যাকশন চেষ্টা করুন। শুধুমাত্র যখন রুল-ভিত্তিক পদ্ধতিগুলি খারাপ ফলাফল দেয় তখন এআই-তে যান - এটি সময় এবং ক্রেডিট বাঁচায়।
সর্বদা আউটপুট যাচাই করুন। সারির সংখ্যা, কলাম অ্যালাইনমেন্ট, সাংখ্যিক মান এবং মোটগুলি পরীক্ষা করুন। এক্সট্র্যাকশন আউটপুটকে অন্ধভাবে বিশ্বাস করবেন না।
নাম্বার ফরম্যাটিংয়ের দিকে খেয়াল রাখুন। এক্সট্র্যাকশনের পরে, যাচাই করুন সংখ্যাগুলি এক্সেলে আসলে সংখ্যা (ডানদিকে সারিবদ্ধ), টেক্সট স্ট্রিং (বামদিকে সারিবদ্ধ) নয়। মুদ্রা প্রতীক এবং বন্ধনীযুক্ত নেতিবাচকগুলি সাধারণ অপরাধী।
সংবেদনশীল ডেটার জন্য, ব্রাউজার-ভিত্তিক টুল পছন্দ করুন। আর্থিক প্রতিবেদন, ব্যাংক স্টেটমেন্ট এবং ট্যাক্স ডকুমেন্টে সংবেদনশীল তথ্য থাকে। যে টুলগুলি আপনার ব্রাউজারে পিডিএফ প্রক্রিয়া করে তারা আপনার ফাইল আপলোড করে না, ডেটা এক্সপোজারের ঝুঁকি দূর করে।
বিনামূল্যে চেষ্টা করুন
আপনার পিডিএফ থেকে টেবিল এক্সট্র্যাক্ট করতে প্রস্তুত? এখন একটি ফাইল আপলোড করুন - পিডিএফসাব প্রথমে ফ্রি কোঅর্ডিনেট-ভিত্তিক এক্সট্র্যাকশন চেষ্টা করে, জটিল টেবিলগুলির জন্য এআই ফলব্যাক সহ। ডিজিটাল পিডিএফগুলি সম্পূর্ণভাবে আপনার ব্রাউজারে প্রক্রিয়া করা হয়। ৭ দিনের ফ্রি ট্রায়াল শুরু করুন।