How to Extract Tables from PDF to Excel: 5 Methods Compared

আপনার কাছে একটি পিডিএফ আছে যাতে একটি টেবিল আছে যা আপনার এক্সেলে প্রয়োজন। এটি হতে পারে একটি আর্থিক প্রতিবেদন, ব্যাংক স্টেটমেন্ট, চালান, বা গবেষণাপত্র। ডেটা সেখানেই আছে - স্ক্রিনে সারি এবং কলামে সুন্দরভাবে সাজানো। কিন্তু যখন আপনি এটি বের করার চেষ্টা করেন, তখন সবকিছু ভেঙে যায়।

এটি ঘটে কারণ পিডিএফ ডেটা ফরম্যাট নয়। এটি একটি ডিসপ্লে ফরম্যাট। পিডিএফ স্পেসিফিকেশনে "টেবিল", "সারি", বা "কলাম" এর কোনো ধারণা নেই। যা একটি স্ট্রাকচার্ড টেবিলের মতো দেখায় তা আসলে একটি ক্যানভাসে নির্দিষ্ট x,y কোঅর্ডিনেটে রাখা অসংখ্য টেক্সট ফ্র্যাগমেন্ট। সেই স্ট্রাকচারটিকে একটি স্প্রেডশীটে ফিরিয়ে আনা একটি রিভার্স-ইঞ্জিনিয়ারিং সমস্যা - এবং বিভিন্ন টুল বিভিন্ন মাত্রার সাফল্যের সাথে এটি পরিচালনা করে।

এই গাইডটি পিডিএফ থেকে টেবিল এক্সট্র্যাক্ট করার ৫টি পদ্ধতি, কখন কোনটি সবচেয়ে ভালো কাজ করে এবং সমস্যা হলে কী করতে হবে তা আলোচনা করে।

পিডিএফ থেকে টেবিল এক্সট্র্যাক্ট করা কেন কঠিন

5 Methods for Extracting PDF Tables to Excel - Accuracy Comparison

পিডিএফ ফরম্যাটে কোনো টেবিল নেই

পিডিএফ স্পেসিফিকেশন (ISO 32000-2:2020) একটি কন্টেন্ট স্ট্রিম সংজ্ঞায়িত করে - অপারেটরগুলির একটি ক্রম যা নির্দিষ্ট কোঅর্ডিনেটে স্বতন্ত্র অক্ষর স্থাপন করে। "তারিখ | বিবরণ | পরিমাণ" এর মতো একটি সাধারণ টেবিল সারি এভাবে সংরক্ষিত হতে পারে:

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Office Supplies) Tj 180 0 Td (125.00) Tj ET

কোনো <table>, <tr>, বা <td> ট্যাগ নেই। কোনো সারি শনাক্তকারী নেই। কোনো কলামের সীমানা নেই। সেলের চারপাশে আপনি যে ভিজ্যুয়াল লাইনগুলি দেখেন তা পৃথক অঙ্কন অপারেশন যা টেক্সট থেকে সম্পূর্ণভাবে বিচ্ছিন্ন। একটি এক্সট্র্যাকশন টুলকে স্থানিক সম্পর্ক থেকে সম্পূর্ণ স্ট্রাকচার অনুমান করতে হবে।

তিন ধরনের টেবিল বর্ডার

বর্ডারযুক্ত (ল্যাটিস) টেবিলগুলিতে প্রতিটি সেলের চারপাশে দৃশ্যমান লাইন থাকে। এগুলি এক্সট্র্যাক্ট করা সবচেয়ে সহজ কারণ লাইনগুলি স্পষ্টভাবে সেলের সীমানা নির্ধারণ করে। সাধারণত আনুষ্ঠানিক আর্থিক বিবৃতি, সরকারি ফর্ম এবং প্রমিত প্রতিবেদনে দেখা যায়।

বর্ডারবিহীন (স্ট্রিম) টেবিলগুলিতে কোনো লাইন থাকে না। স্ট্রাকচার সম্পূর্ণরূপে হোয়াইটস্পেস অ্যালাইনমেন্ট দ্বারা সংজ্ঞায়িত হয় - সারি জুড়ে সামঞ্জস্যপূর্ণ x-কোঅর্ডিনেট ভাগ করে নেওয়া টেক্সট আইটেমগুলি অন্তর্নিহিত কলাম তৈরি করে। গবেষণাপত্র, চালান এবং পণ্য ক্যাটালগে সাধারণ।

আধা-বর্ডারযুক্ত টেবিলগুলিতে কেবল আংশিক বর্ডার থাকে - সাধারণত অনুভূমিক নিয়ম বিভাগগুলির মধ্যে কিন্তু উল্লম্ব বিভাজক নয়। ব্যাংক স্টেটমেন্ট, ব্রোকারেজ রিপোর্ট এবং ইউটিলিটি বিলগুলিতে অত্যন্ত সাধারণ। এগুলি এক্সট্র্যাক্ট করা সবচেয়ে কঠিন কারণ আংশিক বর্ডারগুলি ল্যাটিস-মোড পার্সারকে বিভ্রান্ত করে যখন অনুপস্থিত বর্ডারগুলি স্ট্রিম-মোডের আত্মবিশ্বাস হ্রাস করে।

ট্যাগযুক্ত বনাম আনট্যাগযুক্ত পিডিএফ

ট্যাগযুক্ত পিডিএফগুলিতে স্ট্রাকচারাল মেটাডেটা অন্তর্ভুক্ত থাকে যা হেডিং, প্যারাগ্রাফ এবং টেবিল সেল শনাক্ত করে। আনট্যাগযুক্ত পিডিএফগুলিতে এগুলির কোনোটিই থাকে না - এক্সট্র্যাকশন টুল কেবল কাঁচা কোঅর্ডিনেট পায়। বেশিরভাগ পিডিএফ আনট্যাগযুক্ত, যার মধ্যে কার্যত সমস্ত ব্যাংক স্টেটমেন্ট, চালান এবং আর্থিক প্রতিবেদন অন্তর্ভুক্ত।

পদ্ধতি ১: পিডিএফসাব এক্সট্র্যাক্ট টেবিল (ফ্রি + এআই ফলব্যাক)

PDFSub-এর এক্সট্র্যাক্ট টেবিল টুল নির্ভুলতা সর্বাধিক করার সময় খরচ কমানোর জন্য একটি তিন-স্তরীয় পদ্ধতি ব্যবহার করে:

স্তর ১: কোঅর্ডিনেট-ভিত্তিক সনাক্তকরণ (ব্রাউজার, ফ্রি)

টুলটি প্রথমে আপনার ব্রাউজারে সম্পূর্ণ এক্সট্র্যাকশন করার চেষ্টা করে:

প্রতিটি টেক্সট আইটেম তার x,y কোঅর্ডিনেট সহ এক্সট্র্যাক্ট করতে পিডিএফ কন্টেন্ট স্ট্রিম পার্স করে
y-কোঅর্ডিনেট নৈকট্যের উপর ভিত্তি করে টেক্সট আইটেমগুলিকে লাইনে গ্রুপ করে
কলামের সীমানা সনাক্ত করতে লাইনের মধ্যে x-কোঅর্ডিনেট অ্যালাইনমেন্ট প্যাটার্ন বিশ্লেষণ করে
ন্যূনতম ৩টি সারি, ২টি কলাম এবং ৭০%+ আত্মবিশ্বাস প্রয়োজন

যদি ভাল টেবিল পাওয়া যায়, আপনি অবিলম্বে স্ট্রাকচার্ড ডেটা পাবেন - কোনো সার্ভার আপলোড নেই, কোনো এআই ক্রেডিট খরচ নেই, এবং আপনার ফাইল আপনার ডিভাইস ছেড়ে যায় না।

স্তর ২: সার্ভার-সাইড এক্সট্র্যাকশন (pdfplumber, ফ্রি)

যদি কোঅর্ডিনেট-ভিত্তিক সনাক্তকরণ কোনো টেবিল খুঁজে না পায়, টুলটি সার্ভারে pdfplumber (MIT লাইসেন্স) ব্যবহার করে। এটি সুস্পষ্ট লাইন (অঙ্কিত বর্ডার) এবং অন্তর্নিহিত লাইন (শব্দ অ্যালাইনমেন্ট প্যাটার্ন) উভয়ই সনাক্ত করে, ছেদ খুঁজে বের করে, আয়তক্ষেত্র সনাক্ত করে এবং টেক্সটকে সেলের সাথে ম্যাপ করে।

স্তর ৩: এআই এক্সট্র্যাকশন (ক্রেডিট ব্যবহার করে)

স্ক্যান করা পিডিএফ, জটিল লেআউট বা টেবিলের জন্য যা রুল-ভিত্তিক পদ্ধতি পার্স করতে পারে না, টুলটি এআই-চালিত ভিশন এক্সট্র্যাকশনে ফলব্যাক করে। আপনি যখন জানেন যে টেবিলটি জটিল তখন সরাসরি এই স্তরে এড়িয়ে যেতে "ফোর্স এআই এক্সট্র্যাকশন" টগল করতে পারেন।

আউটপুট ফরম্যাট: এক্সেল (.xlsx), CSV, JSON।

সেরা: সফটওয়্যার ইনস্টল না করে দ্রুত এক্সট্র্যাকশনের জন্য। ডিজিটাল পিডিএফগুলি সর্বাধিক গোপনীয়তার জন্য আপনার ব্রাউজারে সম্পূর্ণভাবে প্রক্রিয়া করা হয়।

পদ্ধতি ২: এক্সেলের পাওয়ার কোয়েরি (শুধুমাত্র উইন্ডোজ)

উইন্ডোজে এক্সেল ২০১৯+ এবং মাইক্রোসফট ৩৬৫-এ উপলব্ধ: ডেটা → ডেটা পান → ফাইল থেকে → পিডিএফ থেকে।

এটি কিভাবে কাজ করে

১. ডেটা → ডেটা পান → ফাইল থেকে → পিডিএফ থেকে ক্লিক করুন ২. আপনার পিডিএফ ফাইল নির্বাচন করুন ৩. পাওয়ার কোয়েরি সনাক্ত করা টেবিলগুলির একটি ন্যাভিগেটর প্যানেল প্রদর্শন করে প্রতি পৃষ্ঠায় ৪. আপনি যে টেবিলগুলি চান তা নির্বাচন করুন, পরিষ্কার করার জন্য ট্রান্সফর্ম ডেটা ক্লিক করুন, তারপর লোড করুন

সুবিধা

এক্সেলে বিল্ট-ইন - মাইক্রোসফট ৩৬৫ সাবস্ক্রাইবারদের জন্য অতিরিক্ত খরচ নেই
পাওয়ার কোয়েরির ট্রান্সফরমেশন ইঞ্জিন পোস্ট-প্রসেসিং ভালভাবে পরিচালনা করে (ফিল ডাউন, পিভট, কলাম মার্জ করুন)
যদি সোর্স পিডিএফ আপডেট করা হয় তবে ডেটা রিফ্রেশ করতে পারে
একই পিডিএফ থেকে একাধিক টেবিল সংযোগ সমর্থন করে

সীমাবদ্ধতা

শুধুমাত্র উইন্ডোজ - ম্যাক, এক্সেল অনলাইন বা মোবাইলের জন্য এক্সেলে উপলব্ধ নয়
বর্ডারবিহীন টেবিলের সাথে সমস্যা - স্পষ্টভাবে বর্ডারযুক্ত টেবিলগুলির সাথে সবচেয়ে ভাল কাজ করে
কোনো ওসিআর নেই - স্ক্যান করা/ছবি পিডিএফ থেকে এক্সট্র্যাক্ট করতে পারে না
মাল্টি-পেজ টেবিল সমস্যাযুক্ত - প্রতিটি পৃষ্ঠা প্রায়শই একটি পৃথক টেবিল হিসাবে আমদানি হয়, ম্যানুয়াল সেলাইয়ের প্রয়োজন হয়
মাল্টি-লাইন সারি - সেলের মধ্যে মোড়ানো টেক্সট প্রায়শই একাধিক সারিতে বিভক্ত হয়, যার জন্য পরিষ্কারের প্রয়োজন হয়

সেরা: উইন্ডোজ ব্যবহারকারীদের জন্য মাইক্রোসফট ৩৬৫ সহ যারা সাধারণ, বর্ডারযুক্ত টেবিল ব্যবহার করেন।

পদ্ধতি ৩: অ্যাডোবি অ্যাক্রোব্যাট (পেইড)

ফাইল → পিডিএফ এক্সপোর্ট করুন → স্প্রেডশীট → মাইক্রোসফট এক্সেল ওয়ার্কবুক

মূল্য (২০২৬)

অ্যাক্রোব্যাট স্ট্যান্ডার্ড: $১২.৯৯/মাস (বার্ষিক পরিকল্পনা)
অ্যাক্রোব্যাট প্রো: $১৯.৯৯/মাস (বার্ষিক পরিকল্পনা)
এক্সপোর্ট পিডিএফ (স্ট্যান্ডঅ্যালোন): নিম্ন-স্তরের রূপান্তর-শুধুমাত্র পরিকল্পনা

সুবিধা

স্ক্যান করা ডকুমেন্টের জন্য বিল্ট-ইন ওসিআর
সাধারণত সাধারণ বর্ডারযুক্ত টেবিলগুলির জন্য ফরম্যাটিং সংরক্ষণ করে
ব্যাচ প্রসেসিং প্রো-তে উপলব্ধ

সীমাবদ্ধতা

শুধুমাত্র টেবিল এক্সট্র্যাকশনের জন্য ব্যয়বহুল - $১৫৬–$২৪০/বছর
মার্জ করা সেল এবং মাল্টি-পেজ স্প্যান সহ জটিল টেবিলগুলি এখনও ভুলভাবে সাজানো আউটপুট তৈরি করে
প্রসেসিংয়ের জন্য ফাইলগুলি অ্যাডোবির ক্লাউডে আপলোড করা হতে পারে - সংবেদনশীল আর্থিক ডেটার জন্য সমস্যাযুক্ত
ডেস্কটপ ইনস্টলেশন প্রয়োজন

সেরা: যারা ইতিমধ্যে অ্যাক্রোব্যাট প্রো-এর জন্য অর্থ প্রদান করেন এবং ওসিআর সহ মাঝে মাঝে টেবিল এক্সপোর্ট করার প্রয়োজন হয়।

পদ্ধতি ৪: কপি-পেস্ট (ম্যানুয়াল)

সবচেয়ে স্বজ্ঞাত পদ্ধতি - এবং যেটি প্রায়শই টেবিলের জন্য ব্যর্থ হয়।

সাধারণ সমস্যা

সমস্ত ডেটা একটি কলামে - পুরো টেবিলটি কলাম বিরতি ছাড়াই পেস্ট হয়
সংখ্যাগুলি টেক্সট হয়ে যায় - মুদ্রা প্রতীক, বন্ধনী এবং বিভাজক সাংখ্যিক ফরম্যাটিং ভেঙে দেয়
সেলের মধ্যে মাল্টি-লাইন কন্টেন্ট ফ্যান্টম সারি তৈরি করে - একটি সেলের মধ্যে দুটি লাইনে মোড়ানো একটি বিবরণ দুটি পৃথক সারি হিসাবে পরিণত হয়
হেডারগুলি ডেটা থেকে পৃথক - হেডার সারিটি সংযোগ বিচ্ছিন্ন হয়ে যায়
কলামগুলি ভুলভাবে সাজানো - ডেটা স্থানান্তরিত হয় কারণ অক্ষরের ব্যবধান ট্যাবগুলিতে অনুবাদ হয় না

আংশিক সমাধান

এক্সেলে পেস্ট করুন, তারপর স্পেস বা ফিক্সড-উইথ ডিলিমিটার ব্যবহার করে ডেটা → টেক্সট টু কলাম ব্যবহার করুন। "ট্রিট কনসিকিউটিভ ডিলিমিটার অ্যাজ ওয়ান" সক্রিয় করুন। এটি খুব সাধারণ, ভাল-ব্যবধানযুক্ত টেবিলগুলির জন্য কাজ করে তবে মাল্টি-ওয়ার্ড সেল কন্টেন্ট সহ যেকোনো কিছুর জন্য ব্যর্থ হয়।

সেরা: শেষ অবলম্বন হিসাবে একটি একক ছোট, সাধারণ টেবিল এক্সট্র্যাক্ট করার জন্য।

পদ্ধতি ৫: পাইথন লাইব্রেরি (ডেভেলপারদের জন্য)

তিনটি এমআইটি-লাইসেন্সযুক্ত লাইব্রেরি প্রোগ্রাম্যাটিকভাবে পিডিএফ টেবিল এক্সট্র্যাকশন পরিচালনা করে:

Tabula-py

Tabula (Java)-এর চারপাশে পাইথন র‍্যাপার। জাভা রানটাইম প্রয়োজন।

বর্ডারযুক্ত টেবিলের জন্য ল্যাটিস মোড (লাইন এবং ছেদ খুঁজে বের করে)
টেক্সট অ্যালাইনমেন্ট ব্যবহার করে বর্ডারবিহীন টেবিলের জন্য স্ট্রিম মোড
স্ক্রিপ্টে ব্যাচ প্রসেসিংয়ের জন্য ভাল
কোনো ওসিআর সমর্থন নেই

Camelot

ল্যাটিস এবং স্ট্রিম মোডও সরবরাহ করে।

বর্ডারযুক্ত টেবিলের জন্য ট্যাবুলার চেয়ে সাধারণত ভাল পারফর্ম করে
স্ট্রিম মোডে ফাইন-টিউনিংয়ের জন্য আরও কনফিগারেশন প্যারামিটার রয়েছে
প্রতিটি এক্সট্র্যাকশনের সাথে নির্ভুলতার রিপোর্ট সরবরাহ করে
ঘোস্টস্ক্রিপ্ট নির্ভরতা প্রয়োজন। কোনো ওসিআর সমর্থন নেই

pdfplumber

কোঅর্ডিনেট-ভিত্তিক পদ্ধতি: প্রতিটি অক্ষর তার সঠিক অবস্থান সহ এক্সট্র্যাক্ট করে, তারপর স্ট্রাকচার অনুমান করে।

টেবিলের বিস্তৃত পরিসর পরিচালনা করে
সবচেয়ে বেশি নিয়ন্ত্রণ দেয় তবে আরও কনফিগারেশন প্রয়োজন
এটি পিডিএফসাব সার্ভার-সাইডে যে লাইব্রেরি ব্যবহার করে
কোনো ওসিআর সমর্থন নেই

সেরা: ডেভেলপাররা পুনরাবৃত্ত টেবিল এক্সট্র্যাকশন ওয়ার্কফ্লো স্বয়ংক্রিয় করে, একই ধরনের ডকুমেন্টের বড় ব্যাচ প্রক্রিয়া করে।

সাধারণ সমস্যা এবং সেগুলি সমাধানের উপায়

মার্জ করা সেল

যখন সেলগুলি একাধিক সারি বা কলাম জুড়ে বিস্তৃত হয়, তখন বেশিরভাগ টুল হয় উপরের-বাম সেলে বিষয়বস্তু রাখে এবং অন্যগুলিকে খালি রাখে, অথবা পরবর্তী সমস্ত কলামকে ভুলভাবে সাজায়। কোনো সার্বজনীন সমাধান নেই - CSV ফরম্যাটে মার্জের কোনো ধারণা নেই, তাই মার্জের তথ্য সবসময় হারিয়ে যায়।

সমাধান: টেবিলটি এক্সট্র্যাক্ট করুন, তারপর এক্সেলে ম্যানুয়ালি মার্জের আর্টিফ্যাক্টগুলি ঠিক করুন। একই মার্জ প্যাটার্ন সহ পুনরাবৃত্ত টেবিলগুলির জন্য, একটি পোস্ট-প্রসেসিং স্ক্রিপ্ট বিবেচনা করুন।

সেলের মধ্যে মাল্টি-লাইন কন্টেন্ট

সেলের মধ্যে মোড়ানো দীর্ঘ বিবরণগুলি আউটপুটে একাধিক সারি হয়ে যায়, যা সমস্ত পরবর্তী ডেটাকে ভুলভাবে সাজিয়ে দেয়। আর্থিক নথিপত্রের জন্য এটি একক সবচেয়ে সাধারণ এক্সট্র্যাকশন ত্রুটি।

সমাধান: এক্সট্র্যাকশনের পরে, যে সারিগুলিতে তারিখ এবং পরিমাণ অনুপস্থিত রয়েছে সেগুলি সন্ধান করুন - এগুলি সম্ভবত উপরের সারির সাথে সম্পর্কিত কন্টিনিউয়েশন লাইন। এক্সেলে, সেগুলি ম্যানুয়ালি মার্জ করুন বা একটি সহায়ক সূত্র ব্যবহার করুন।

একাধিক পৃষ্ঠা জুড়ে বিস্তৃত টেবিল

টুলগুলিকে অবশ্যই নির্ধারণ করতে হবে টেবিলটি কোথায় অব্যাহত থাকে, পুনরাবৃত্ত হেডারগুলি সরিয়ে ফেলতে হবে কিনা এবং পৃষ্ঠা ফুটারগুলি কীভাবে ফিল্টার করতে হবে। অনেক টুল প্রতিটি পৃষ্ঠা স্বাধীনভাবে বিবেচনা করে।

সমাধান: যদি আপনার টুল প্রতি-পৃষ্ঠা ফলাফল দেয়, শিটগুলি একত্রিত করুন এবং পুনরাবৃত্ত হেডার সারিগুলি সরান। পৃষ্ঠা N-এর শেষ সারি পৃষ্ঠা N+1-এর প্রথম সারির সাথে সঠিকভাবে সংযুক্ত হয়েছে কিনা তা পরীক্ষা করুন।

মুদ্রা ফরম্যাটিং সমস্যা

বন্ধনীতে থাকা নেতিবাচক সংখ্যাগুলি ((১,২৩৪.৫০)) টেক্সট হিসাবে পেস্ট হয়, সংখ্যা হিসাবে নয়। মুদ্রা প্রতীক এবং হাজার বিভাজকও সাংখ্যিক ফরম্যাটিং ভেঙে দেয়।

সমাধান: এক্সট্র্যাকশনের পরে, পরিমাণ কলামটি নির্বাচন করুন এবং $, ( , ) অক্ষরগুলি সরাতে ফাইন্ড ও রিপ্লেস ব্যবহার করুন। তারপর কলামটি নাম্বার হিসাবে ফরম্যাট করুন। বন্ধনীযুক্ত নেতিবাচকগুলির জন্য, ( কে - দিয়ে প্রতিস্থাপন করুন এবং ) সরান, তারপর নাম্বার ফরম্যাটে রূপান্তর করুন।

তারিখের অস্পষ্টতা

০১/০২/২০২৬ - এটি কি জানুয়ারী ২ নাকি ফেব্রুয়ারী ১? এক্সট্র্যাকশন টুল স্ট্রিংটি যেমন আছে তেমনই সংরক্ষণ করে, তবে এক্সেল আপনার স্থানীয় সেটিংসের উপর ভিত্তি করে এটিকে পুনরায় ব্যাখ্যা করতে পারে।

সমাধান: তারিখ ফরম্যাটের ক্লুগুলির জন্য সোর্স পিডিএফ পরীক্ষা করুন (১২ এর বেশি দিনের মান সহ তারিখগুলি সন্ধান করুন)। আমদানি করার আগে এক্সেলের তারিখ ফরম্যাটটি সোর্সের সাথে মেলে সেট করুন।

নির্ভুলতার তুলনা

পদ্ধতি	সাধারণ বর্ডারযুক্ত	বর্ডারবিহীন	আধা-বর্ডারযুক্ত	স্ক্যান করা পিডিএফ
পিডিএফসাব (কোঅর্ডিনেট + এআই)	৯০–৯৯%	৭৫–৯৫%	৭০–৯৫%	৮৫–৯৫% (এআই)
পাওয়ার কোয়েরি	৮৫–৯৫%	৪০–৬০%	৫০–৭০%	সমর্থিত নয়
অ্যাডোবি অ্যাক্রোব্যাট	৯০–৯৫%	৭০–৮০%	৭০–৮৫%	৮০–৯০%
ট্যাবুলা	~৬৮%	৫৫–৭০%	৫০–৬৫%	সমর্থিত নয়
ক্যামেলট	~৭৩%	৬৫–৭৫%	৬০–৭০%	সমর্থিত নয়
কপি-পেস্ট	৩০–৫০%	১০–৩০%	১০–৩০%	সম্ভব নয়

পরিসীমাগুলি ডকুমেন্টের জটিলতার উপর ভিত্তি করে ভিন্নতা প্রতিফলিত করে। প্রোসিওনস ২০২৫ পিডিএফ এক্সট্র্যাকশন বেঞ্চমার্ক এবং ক্যামেলট তুলনা অধ্যয়ন থেকে বেঞ্চমার্ক ডেটা।

আপনার কোন পদ্ধতি ব্যবহার করা উচিত?

পরিস্থিতি	সেরা পদ্ধতি	কারণ
দ্রুত এককালীন এক্সট্র্যাকশন	পিডিএফসাব	ইনস্টল করার প্রয়োজন নেই, ব্রাউজার-ভিত্তিক, ফ্রি কোঅর্ডিনেট এক্সট্র্যাকশন
সাধারণ বর্ডারযুক্ত টেবিল, উইন্ডোজ	পাওয়ার কোয়েরি	এক্সেলে বিল্ট-ইন, অতিরিক্ত খরচ নেই
স্ক্যান করা পিডিএফ	পিডিএফসাব (এআই) বা অ্যাডোবি অ্যাক্রোব্যাট	ওসিআর ক্ষমতা প্রয়োজন
সংবেদনশীল আর্থিক ডেটা	পিডিএফসাব	ব্রাউজার-ভিত্তিক প্রসেসিং, ফাইল কখনো আপলোড হয় না
পুনরাবৃত্ত ব্যাচ প্রসেসিং	পাইথন (pdfplumber)	স্ক্রিপ্টেবল, স্বয়ংক্রিয় করা যায়
ইতিমধ্যে অ্যাক্রোব্যাট প্রো আছে	অ্যাডোবি অ্যাক্রোব্যাট	ইতিমধ্যে অর্থ প্রদান করছেন, সাধারণ টেবিলগুলি ভাল কাজ করে
একটি ছোট টেবিল, কোনো টুল নেই	কপি-পেস্ট	শেষ অবলম্বন, সবকিছু যাচাই করুন

সেরা ফলাফলের জন্য টিপস

নেটিভ পিডিএফ ব্যবহার করুন। কাগজ স্ক্যান করার পরিবর্তে তাদের উৎস থেকে ডকুমেন্ট ডাউনলোড করুন। নেটিভ পিডিএফগুলিতে নিখুঁত টেক্সট থাকে, যা এক্সট্র্যাকশনকে নাটকীয়ভাবে আরও নির্ভুল করে তোলে।

প্রথমে টেবিলের ধরন শনাক্ত করুন। বর্ডারযুক্ত টেবিলগুলি প্রায় যেকোনো টুলের সাথে কাজ করে। বর্ডারবিহীন টেবিলের জন্য স্ট্রিম-মোড বা এআই এক্সট্র্যাকশন প্রয়োজন। ধরন জানা আপনাকে সঠিক পদ্ধতি বেছে নিতে সাহায্য করে।

ফ্রি, রুল-ভিত্তিক পদ্ধতি দিয়ে শুরু করুন। প্রথমে কোঅর্ডিনেট-ভিত্তিক এক্সট্র্যাকশন চেষ্টা করুন। শুধুমাত্র যখন রুল-ভিত্তিক পদ্ধতিগুলি খারাপ ফলাফল দেয় তখন এআই-তে যান - এটি সময় এবং ক্রেডিট বাঁচায়।

সর্বদা আউটপুট যাচাই করুন। সারির সংখ্যা, কলাম অ্যালাইনমেন্ট, সাংখ্যিক মান এবং মোটগুলি পরীক্ষা করুন। এক্সট্র্যাকশন আউটপুটকে অন্ধভাবে বিশ্বাস করবেন না।

নাম্বার ফরম্যাটিংয়ের দিকে খেয়াল রাখুন। এক্সট্র্যাকশনের পরে, যাচাই করুন সংখ্যাগুলি এক্সেলে আসলে সংখ্যা (ডানদিকে সারিবদ্ধ), টেক্সট স্ট্রিং (বামদিকে সারিবদ্ধ) নয়। মুদ্রা প্রতীক এবং বন্ধনীযুক্ত নেতিবাচকগুলি সাধারণ অপরাধী।

সংবেদনশীল ডেটার জন্য, ব্রাউজার-ভিত্তিক টুল পছন্দ করুন। আর্থিক প্রতিবেদন, ব্যাংক স্টেটমেন্ট এবং ট্যাক্স ডকুমেন্টে সংবেদনশীল তথ্য থাকে। যে টুলগুলি আপনার ব্রাউজারে পিডিএফ প্রক্রিয়া করে তারা আপনার ফাইল আপলোড করে না, ডেটা এক্সপোজারের ঝুঁকি দূর করে।

বিনামূল্যে চেষ্টা করুন

আপনার পিডিএফ থেকে টেবিল এক্সট্র্যাক্ট করতে প্রস্তুত? এখন একটি ফাইল আপলোড করুন - পিডিএফসাব প্রথমে ফ্রি কোঅর্ডিনেট-ভিত্তিক এক্সট্র্যাকশন চেষ্টা করে, জটিল টেবিলগুলির জন্য এআই ফলব্যাক সহ। ডিজিটাল পিডিএফগুলি সম্পূর্ণভাবে আপনার ব্রাউজারে প্রক্রিয়া করা হয়। ৭ দিনের ফ্রি ট্রায়াল শুরু করুন।

How to Extract Tables from PDF to Excel: 5 Methods Compared

পিডিএফ থেকে টেবিল এক্সট্র্যাক্ট করা কেন কঠিন

5 Methods for Extracting PDF Tables to Excel - Accuracy Comparison

পিডিএফ ফরম্যাটে কোনো টেবিল নেই

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Office Supplies) Tj 180 0 Td (125.00) Tj ET

প্রতিটি টেক্সট আইটেম তার x,y কোঅর্ডিনেট সহ এক্সট্র্যাক্ট করতে পিডিএফ কন্টেন্ট স্ট্রিম পার্স করে
y-কোঅর্ডিনেট নৈকট্যের উপর ভিত্তি করে টেক্সট আইটেমগুলিকে লাইনে গ্রুপ করে
কলামের সীমানা সনাক্ত করতে লাইনের মধ্যে x-কোঅর্ডিনেট অ্যালাইনমেন্ট প্যাটার্ন বিশ্লেষণ করে
ন্যূনতম ৩টি সারি, ২টি কলাম এবং ৭০%+ আত্মবিশ্বাস প্রয়োজন

এক্সেলে বিল্ট-ইন - মাইক্রোসফট ৩৬৫ সাবস্ক্রাইবারদের জন্য অতিরিক্ত খরচ নেই
পাওয়ার কোয়েরির ট্রান্সফরমেশন ইঞ্জিন পোস্ট-প্রসেসিং ভালভাবে পরিচালনা করে (ফিল ডাউন, পিভট, কলাম মার্জ করুন)
যদি সোর্স পিডিএফ আপডেট করা হয় তবে ডেটা রিফ্রেশ করতে পারে
একই পিডিএফ থেকে একাধিক টেবিল সংযোগ সমর্থন করে

সীমাবদ্ধতা

শুধুমাত্র উইন্ডোজ - ম্যাক, এক্সেল অনলাইন বা মোবাইলের জন্য এক্সেলে উপলব্ধ নয়
বর্ডারবিহীন টেবিলের সাথে সমস্যা - স্পষ্টভাবে বর্ডারযুক্ত টেবিলগুলির সাথে সবচেয়ে ভাল কাজ করে
কোনো ওসিআর নেই - স্ক্যান করা/ছবি পিডিএফ থেকে এক্সট্র্যাক্ট করতে পারে না
মাল্টি-পেজ টেবিল সমস্যাযুক্ত - প্রতিটি পৃষ্ঠা প্রায়শই একটি পৃথক টেবিল হিসাবে আমদানি হয়, ম্যানুয়াল সেলাইয়ের প্রয়োজন হয়
মাল্টি-লাইন সারি - সেলের মধ্যে মোড়ানো টেক্সট প্রায়শই একাধিক সারিতে বিভক্ত হয়, যার জন্য পরিষ্কারের প্রয়োজন হয়

পদ্ধতি ৩: অ্যাডোবি অ্যাক্রোব্যাট (পেইড)

ফাইল → পিডিএফ এক্সপোর্ট করুন → স্প্রেডশীট → মাইক্রোসফট এক্সেল ওয়ার্কবুক

মূল্য (২০২৬)

অ্যাক্রোব্যাট স্ট্যান্ডার্ড: $১২.৯৯/মাস (বার্ষিক পরিকল্পনা)
অ্যাক্রোব্যাট প্রো: $১৯.৯৯/মাস (বার্ষিক পরিকল্পনা)
এক্সপোর্ট পিডিএফ (স্ট্যান্ডঅ্যালোন): নিম্ন-স্তরের রূপান্তর-শুধুমাত্র পরিকল্পনা

সুবিধা

স্ক্যান করা ডকুমেন্টের জন্য বিল্ট-ইন ওসিআর
সাধারণত সাধারণ বর্ডারযুক্ত টেবিলগুলির জন্য ফরম্যাটিং সংরক্ষণ করে
ব্যাচ প্রসেসিং প্রো-তে উপলব্ধ

সীমাবদ্ধতা

শুধুমাত্র টেবিল এক্সট্র্যাকশনের জন্য ব্যয়বহুল - $১৫৬–$২৪০/বছর
মার্জ করা সেল এবং মাল্টি-পেজ স্প্যান সহ জটিল টেবিলগুলি এখনও ভুলভাবে সাজানো আউটপুট তৈরি করে
প্রসেসিংয়ের জন্য ফাইলগুলি অ্যাডোবির ক্লাউডে আপলোড করা হতে পারে - সংবেদনশীল আর্থিক ডেটার জন্য সমস্যাযুক্ত
ডেস্কটপ ইনস্টলেশন প্রয়োজন

পদ্ধতি ৪: কপি-পেস্ট (ম্যানুয়াল)

সবচেয়ে স্বজ্ঞাত পদ্ধতি - এবং যেটি প্রায়শই টেবিলের জন্য ব্যর্থ হয়।

সাধারণ সমস্যা

সমস্ত ডেটা একটি কলামে - পুরো টেবিলটি কলাম বিরতি ছাড়াই পেস্ট হয়
সংখ্যাগুলি টেক্সট হয়ে যায় - মুদ্রা প্রতীক, বন্ধনী এবং বিভাজক সাংখ্যিক ফরম্যাটিং ভেঙে দেয়
সেলের মধ্যে মাল্টি-লাইন কন্টেন্ট ফ্যান্টম সারি তৈরি করে - একটি সেলের মধ্যে দুটি লাইনে মোড়ানো একটি বিবরণ দুটি পৃথক সারি হিসাবে পরিণত হয়
হেডারগুলি ডেটা থেকে পৃথক - হেডার সারিটি সংযোগ বিচ্ছিন্ন হয়ে যায়
কলামগুলি ভুলভাবে সাজানো - ডেটা স্থানান্তরিত হয় কারণ অক্ষরের ব্যবধান ট্যাবগুলিতে অনুবাদ হয় না

বর্ডারযুক্ত টেবিলের জন্য ল্যাটিস মোড (লাইন এবং ছেদ খুঁজে বের করে)
টেক্সট অ্যালাইনমেন্ট ব্যবহার করে বর্ডারবিহীন টেবিলের জন্য স্ট্রিম মোড
স্ক্রিপ্টে ব্যাচ প্রসেসিংয়ের জন্য ভাল
কোনো ওসিআর সমর্থন নেই

Camelot

ল্যাটিস এবং স্ট্রিম মোডও সরবরাহ করে।

বর্ডারযুক্ত টেবিলের জন্য ট্যাবুলার চেয়ে সাধারণত ভাল পারফর্ম করে
স্ট্রিম মোডে ফাইন-টিউনিংয়ের জন্য আরও কনফিগারেশন প্যারামিটার রয়েছে
প্রতিটি এক্সট্র্যাকশনের সাথে নির্ভুলতার রিপোর্ট সরবরাহ করে
ঘোস্টস্ক্রিপ্ট নির্ভরতা প্রয়োজন। কোনো ওসিআর সমর্থন নেই

pdfplumber

টেবিলের বিস্তৃত পরিসর পরিচালনা করে
সবচেয়ে বেশি নিয়ন্ত্রণ দেয় তবে আরও কনফিগারেশন প্রয়োজন
এটি পিডিএফসাব সার্ভার-সাইডে যে লাইব্রেরি ব্যবহার করে
কোনো ওসিআর সমর্থন নেই

পদ্ধতি	সাধারণ বর্ডারযুক্ত	বর্ডারবিহীন	আধা-বর্ডারযুক্ত	স্ক্যান করা পিডিএফ
পিডিএফসাব (কোঅর্ডিনেট + এআই)	৯০–৯৯%	৭৫–৯৫%	৭০–৯৫%	৮৫–৯৫% (এআই)
পাওয়ার কোয়েরি	৮৫–৯৫%	৪০–৬০%	৫০–৭০%	সমর্থিত নয়
অ্যাডোবি অ্যাক্রোব্যাট	৯০–৯৫%	৭০–৮০%	৭০–৮৫%	৮০–৯০%
ট্যাবুলা	~৬৮%	৫৫–৭০%	৫০–৬৫%	সমর্থিত নয়
ক্যামেলট	~৭৩%	৬৫–৭৫%	৬০–৭০%	সমর্থিত নয়
কপি-পেস্ট	৩০–৫০%	১০–৩০%	১০–৩০%	সম্ভব নয়

আপনার কোন পদ্ধতি ব্যবহার করা উচিত?

পরিস্থিতি	সেরা পদ্ধতি	কারণ
দ্রুত এককালীন এক্সট্র্যাকশন	পিডিএফসাব	ইনস্টল করার প্রয়োজন নেই, ব্রাউজার-ভিত্তিক, ফ্রি কোঅর্ডিনেট এক্সট্র্যাকশন
সাধারণ বর্ডারযুক্ত টেবিল, উইন্ডোজ	পাওয়ার কোয়েরি	এক্সেলে বিল্ট-ইন, অতিরিক্ত খরচ নেই
স্ক্যান করা পিডিএফ	পিডিএফসাব (এআই) বা অ্যাডোবি অ্যাক্রোব্যাট	ওসিআর ক্ষমতা প্রয়োজন
সংবেদনশীল আর্থিক ডেটা	পিডিএফসাব	ব্রাউজার-ভিত্তিক প্রসেসিং, ফাইল কখনো আপলোড হয় না
পুনরাবৃত্ত ব্যাচ প্রসেসিং	পাইথন (pdfplumber)	স্ক্রিপ্টেবল, স্বয়ংক্রিয় করা যায়
ইতিমধ্যে অ্যাক্রোব্যাট প্রো আছে	অ্যাডোবি অ্যাক্রোব্যাট	ইতিমধ্যে অর্থ প্রদান করছেন, সাধারণ টেবিলগুলি ভাল কাজ করে
একটি ছোট টেবিল, কোনো টুল নেই	কপি-পেস্ট	শেষ অবলম্বন, সবকিছু যাচাই করুন