পিডিএফ থেকে এক্সেলে টেবিল এক্সট্র্যাক্ট করার উপায়: ৫টি পদ্ধতির তুলনা
পিডিএফ টেবিলকে x,y কোঅর্ডিনেটে ছড়িয়ে থাকা টেক্সট ফ্র্যাগমেন্ট হিসেবে সংরক্ষণ করে — কোনো সারি, কলাম বা সেল থাকে না। এখানে দেওয়া হলো কিভাবে ডেটা স্প্রেডশীটে পাওয়া যায়, ফ্রি ব্রাউজার-ভিত্তিক টুল থেকে পাইথন স্ক্রিপ্টিং পর্যন্ত।
আপনার কাছে একটি পিডিএফ আছে যাতে একটি টেবিল আছে যা আপনার এক্সেলে প্রয়োজন। এটি একটি আর্থিক প্রতিবেদন, ব্যাংক স্টেটমেন্ট, চালান বা একটি গবেষণা পত্র হতে পারে। ডেটা সেখানেই আছে — স্ক্রিনে সারি এবং কলামে সুন্দরভাবে সাজানো। কিন্তু যখন আপনি এটি বের করার চেষ্টা করেন, তখন সবকিছু ভেঙে পড়ে।
এটি ঘটে কারণ পিডিএফ একটি ডেটা ফরম্যাট নয়। এটি একটি ডিসপ্লে ফরম্যাট। পিডিএফ স্পেসিফিকেশনে "টেবিল", "সারি" বা "কলাম" এর কোনো ধারণা নেই। যা একটি কাঠামোগত টেবিলের মতো দেখায় তা আসলে একটি ক্যানভাসে নির্দিষ্ট x,y কোঅর্ডিনেটে স্থাপন করা কয়েক ডজন টেক্সট ফ্র্যাগমেন্ট। সেই কাঠামোকে একটি স্প্রেডশীটে ফিরিয়ে আনা একটি রিভার্স-ইঞ্জিনিয়ারিং সমস্যা — এবং বিভিন্ন টুল বিভিন্ন মাত্রার সাফল্যের সাথে এটি পরিচালনা করে।
এই গাইডটি পিডিএফ থেকে টেবিল এক্সট্র্যাক্ট করার ৫টি পদ্ধতি, কখন কোনটি সবচেয়ে ভালো কাজ করে এবং কখন জিনিসগুলি ভুল হয় তখন কী করতে হবে তা নিয়ে আলোচনা করে।
পিডিএফ থেকে টেবিল এক্সট্র্যাক্ট করা কেন কঠিন
পিডিএফ ফরম্যাটে টেবিল নেই
পিডিএফ স্পেসিফিকেশন (ISO 32000-2:2020) একটি কন্টেন্ট স্ট্রিম সংজ্ঞায়িত করে — যা অপারেটরগুলির একটি ক্রম যা পৃথক অক্ষরগুলিকে নির্দিষ্ট কোঅর্ডিনেটে স্থাপন করে। "তারিখ | বিবরণ | পরিমাণ" এর মতো একটি সাধারণ টেবিল সারি হতে পারে:
BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Office Supplies) Tj 180 0 Td (125.00) Tj ET
কোনো <table>, <tr>, বা <td> ট্যাগ নেই। কোনো সারি শনাক্তকারী নেই। কোনো কলামের সীমানা নেই। আপনি সেলের চারপাশে যে ভিজ্যুয়াল লাইনগুলি দেখেন তা পৃথক অঙ্কন অপারেশন যা টেক্সট থেকে সম্পূর্ণভাবে বিচ্ছিন্ন। একটি এক্সট্র্যাকশন টুলকে স্থানিক সম্পর্ক থেকে পুরো কাঠামোটি অনুমান করতে হবে।
তিন ধরনের টেবিল বর্ডার
বর্ডারযুক্ত (ল্যাটিস) টেবিল প্রতিটি সেলের চারপাশে দৃশ্যমান লাইন থাকে। এগুলি এক্সট্র্যাক্ট করা সবচেয়ে সহজ কারণ লাইনগুলি স্পষ্টভাবে সেলের সীমানা সংজ্ঞায়িত করে। আনুষ্ঠানিক আর্থিক বিবৃতি, সরকারি ফর্ম এবং প্রমিত প্রতিবেদনে সাধারণ।
বর্ডারবিহীন (স্ট্রিম) টেবিল কোনো লাইন থাকে না। কাঠামোটি সম্পূর্ণরূপে হোয়াইটস্পেস অ্যালাইনমেন্ট দ্বারা সংজ্ঞায়িত হয় — সারি জুড়ে সামঞ্জস্যপূর্ণ x-কোঅর্ডিনেট ভাগ করে নেওয়া টেক্সট আইটেমগুলি অন্তর্নিহিত কলাম তৈরি করে। গবেষণা পত্র, চালান এবং পণ্য ক্যাটালগে সাধারণ।
আধা-বর্ডারযুক্ত টেবিল শুধুমাত্র আংশিক বর্ডার থাকে — সাধারণত বিভাগগুলির মধ্যে অনুভূমিক নিয়ম কিন্তু উল্লম্ব বিভাজক নেই। ব্যাংক স্টেটমেন্ট, ব্রোকারেজ রিপোর্ট এবং ইউটিলিটি বিলগুলিতে অত্যন্ত সাধারণ। এগুলি এক্সট্র্যাক্ট করা সবচেয়ে কঠিন কারণ আংশিক বর্ডার ল্যাটিস-মোড পার্সারদের বিভ্রান্ত করে যখন অনুপস্থিত বর্ডারগুলি স্ট্রিম-মোডের আত্মবিশ্বাস হ্রাস করে।
ট্যাগযুক্ত বনাম আনট্যাগযুক্ত পিডিএফ
ট্যাগযুক্ত পিডিএফগুলিতে কাঠামোগত মেটাডেটা অন্তর্ভুক্ত থাকে যা শিরোনাম, অনুচ্ছেদ এবং টেবিল সেল সনাক্ত করে। আনট্যাগযুক্ত পিডিএফগুলিতে এগুলির কোনটিই থাকে না — এক্সট্র্যাকশন টুল কেবল কাঁচা কোঅর্ডিনেট পায়। বেশিরভাগ পিডিএফ আনট্যাগযুক্ত, যার মধ্যে কার্যত সমস্ত ব্যাংক স্টেটমেন্ট, চালান এবং আর্থিক প্রতিবেদন অন্তর্ভুক্ত।
পদ্ধতি ১: PDFSub এক্সট্র্যাক্ট টেবিল (ফ্রি + এআই ফলব্যাক)
PDFSub এর এক্সট্র্যাক্ট টেবিল টুল নির্ভুলতা সর্বাধিক করার সময় খরচ কমাতে একটি তিন-স্তরীয় পদ্ধতি ব্যবহার করে:
স্তর ১: কোঅর্ডিনেট-ভিত্তিক সনাক্তকরণ (ব্রাউজার, ফ্রি)
টুলটি প্রথমে আপনার ব্রাউজারে সম্পূর্ণভাবে এক্সট্র্যাকশন করার চেষ্টা করে:
- প্রতিটি টেক্সট আইটেমকে তার x,y কোঅর্ডিনেট সহ এক্সট্র্যাক্ট করতে পিডিএফ কন্টেন্ট স্ট্রিম পার্স করে
- y-কোঅর্ডিনেট নৈকট্যের উপর ভিত্তি করে টেক্সট আইটেমগুলিকে লাইনে গ্রুপ করে
- কলামের সীমানা সনাক্ত করতে লাইন জুড়ে x-কোঅর্ডিনেট অ্যালাইনমেন্ট প্যাটার্ন বিশ্লেষণ করে
- ন্যূনতম ৩টি সারি, ২টি কলাম এবং ৭০%+ আত্মবিশ্বাস প্রয়োজন
যদি ভাল টেবিল পাওয়া যায়, আপনি অবিলম্বে কাঠামোগত ডেটা পাবেন — কোনো সার্ভার আপলোড নেই, কোনো এআই ক্রেডিট খরচ নেই, এবং আপনার ফাইল আপনার ডিভাইস ছেড়ে যায় না।
স্তর ২: সার্ভার-সাইড এক্সট্র্যাকশন (pdfplumber, ফ্রি)
যদি কোঅর্ডিনেট-ভিত্তিক সনাক্তকরণ কোনো টেবিল খুঁজে না পায়, টুলটি সার্ভারে pdfplumber (MIT লাইসেন্স) ব্যবহার করে। এটি স্পষ্ট লাইন (অঙ্কিত বর্ডার) এবং অন্তর্নিহিত লাইন (শব্দ অ্যালাইনমেন্ট প্যাটার্ন) উভয়ই সনাক্ত করে, ছেদ খুঁজে পায়, আয়তক্ষেত্র সনাক্ত করে এবং টেক্সটকে সেলের সাথে ম্যাপ করে।
স্তর ৩: এআই এক্সট্র্যাকশন (ক্রেডিট ব্যবহার করে)
স্ক্যান করা পিডিএফ, জটিল লেআউট বা টেবিলের জন্য যা রুল-ভিত্তিক পদ্ধতি পার্স করতে পারে না, টুলটি এআই-চালিত ভিশন এক্সট্র্যাকশনে ফলব্যাক করে। আপনি "ফোর্স এআই এক্সট্র্যাকশন" টগল করতে পারেন সরাসরি এই স্তরে যাওয়ার জন্য যখন আপনি জানেন যে টেবিলটি জটিল।
আউটপুট ফরম্যাট: এক্সেল (.xlsx), CSV, JSON।
সেরা: সফ্টওয়্যার ইনস্টল না করে দ্রুত এক্সট্র্যাকশনের জন্য। ডিজিটাল পিডিএফগুলি সর্বাধিক গোপনীয়তার জন্য সম্পূর্ণভাবে আপনার ব্রাউজারে প্রক্রিয়া করা হয়।
পদ্ধতি ২: এক্সেলে পাওয়ার কোয়েরি (শুধুমাত্র উইন্ডোজ)
উইন্ডোজের এক্সেল 2019+ এবং মাইক্রোসফট 365-এ উপলব্ধ: ডেটা → ডেটা পান → ফাইল থেকে → পিডিএফ থেকে।
কিভাবে কাজ করে
- ডেটা → ডেটা পান → ফাইল থেকে → পিডিএফ থেকে ক্লিক করুন
- আপনার পিডিএফ ফাইল নির্বাচন করুন
- পাওয়ার কোয়েরি প্রতিটি পৃষ্ঠার সনাক্ত করা টেবিলের তালিকা সহ একটি নেভিগেটর প্যানেল প্রদর্শন করে
- আপনি যে টেবিলগুলি চান তা নির্বাচন করুন, পরিষ্কার করার জন্য ডেটা রূপান্তর করুন ক্লিক করুন, তারপর লোড করুন
সুবিধা
- এক্সেলে বিল্ট-ইন — মাইক্রোসফট 365 গ্রাহকদের জন্য কোনো অতিরিক্ত খরচ নেই
- পাওয়ার কোয়েরির রূপান্তর ইঞ্জিন পোস্ট-প্রসেসিং ভালভাবে পরিচালনা করে (ফিল ডাউন, পিভট, কলাম মার্জ করুন)
- উৎস পিডিএফ আপডেট করা হলে ডেটা রিফ্রেশ করতে পারে
- একই পিডিএফ থেকে একাধিক টেবিল সংযোগ সমর্থন করে
সীমাবদ্ধতা
- শুধুমাত্র উইন্ডোজ — ম্যাকের জন্য এক্সেল, এক্সেল অনলাইন বা মোবাইলে উপলব্ধ নয়
- বর্ডারবিহীন টেবিলের সাথে সংগ্রাম করে — স্পষ্টভাবে বর্ডারযুক্ত টেবিলের সাথে সবচেয়ে ভালো কাজ করে
- কোনো ওসিআর নেই — স্ক্যান করা/ছবি পিডিএফ থেকে এক্সট্র্যাক্ট করতে পারে না
- মাল্টি-পেজ টেবিল সমস্যাযুক্ত — প্রতিটি পৃষ্ঠা প্রায়শই একটি পৃথক টেবিল হিসাবে আমদানি হয়, যার জন্য ম্যানুয়াল সেলাই প্রয়োজন
- মাল্টি-লাইন সারি — সেলের মধ্যে মোড়ানো টেক্সট প্রায়শই একাধিক সারিতে বিভক্ত হয়, যার জন্য পরিষ্কারের প্রয়োজন হয়
সেরা: মাইক্রোসফট 365 সহ উইন্ডোজ ব্যবহারকারীদের জন্য যাদের সাধারণ, বর্ডারযুক্ত টেবিল রয়েছে।
পদ্ধতি ৩: অ্যাডোবি অ্যাক্রোব্যাট (প্রদেয়)
ফাইল → পিডিএফ এক্সপোর্ট করুন → স্প্রেডশীট → মাইক্রোসফট এক্সেল ওয়ার্কবুক
মূল্য (2026)
- অ্যাক্রোব্যাট স্ট্যান্ডার্ড: $12.99/মাস (বার্ষিক পরিকল্পনা)
- অ্যাক্রোব্যাট প্রো: $19.99/মাস (বার্ষিক পরিকল্পনা)
- এক্সপোর্ট পিডিএফ (স্ট্যান্ডঅ্যালোন): নিম্ন-স্তরের শুধুমাত্র রূপান্তর পরিকল্পনা
সুবিধা
- স্ক্যান করা ডকুমেন্টের জন্য বিল্ট-ইন ওসিআর
- সাধারণত সাধারণ বর্ডারযুক্ত টেবিলের জন্য ফরম্যাটিং সংরক্ষণ করে
- প্রো-তে ব্যাচ প্রসেসিং উপলব্ধ
সীমাবদ্ধতা
- শুধুমাত্র টেবিল এক্সট্র্যাকশনের জন্য ব্যয়বহুল — $156–$240/বছর
- মার্জ করা সেল এবং মাল্টি-পেজ স্প্যান সহ জটিল টেবিলগুলি এখনও ভুলভাবে সাজানো আউটপুট তৈরি করে
- প্রসেসিংয়ের জন্য ফাইলগুলি অ্যাডোবির ক্লাউডে আপলোড করা হতে পারে — সংবেদনশীল আর্থিক ডেটার জন্য সমস্যাযুক্ত
- ডেস্কটপ ইনস্টলেশন প্রয়োজন
সেরা: যারা ইতিমধ্যেই অ্যাক্রোব্যাট প্রো-এর জন্য অর্থ প্রদান করেন এবং ওসিআর সহ মাঝে মাঝে টেবিল এক্সপোর্ট প্রয়োজন।
পদ্ধতি ৪: কপি-পেস্ট (ম্যানুয়াল)
সবচেয়ে স্বজ্ঞাত পদ্ধতি — এবং যেটি টেবিলের জন্য সবচেয়ে বেশি ব্যর্থ হয়।
সাধারণ সমস্যা
- সমস্ত ডেটা একটি কলামে — পুরো টেবিলটি কোনো কলাম বিরতি ছাড়াই পেস্ট হয়
- সংখ্যা টেক্সট হয়ে যায় — মুদ্রার প্রতীক, বন্ধনী এবং বিভাজক সাংখ্যিক বিন্যাসকে ভেঙে দেয়
- মাল্টি-লাইন সেল কন্টেন্ট ফ্যান্টম সারি তৈরি করে — একটি বিবরণ যা সেলের মধ্যে দুটি লাইনে মোড়ানো হয় তা দুটি পৃথক সারি হয়ে যায়
- হেডার ডেটা থেকে পৃথক — হেডার সারিটি বিচ্ছিন্ন হয়ে যায়
- কলামগুলি ভুলভাবে সাজানো — অক্ষর ব্যবধান ট্যাবগুলিতে অনুবাদ না হওয়ার কারণে ডেটা স্থানান্তরিত হয়
আংশিক সমাধান
এক্সেলে পেস্ট করুন, তারপর ডেটা → টেক্সট টু কলাম ব্যবহার করুন স্পেস বা ফিক্সড-উইথ ডিলিমিটার সহ। "ক্রমাগত ডিলিমিটারকে একটি হিসাবে বিবেচনা করুন" সক্ষম করুন। এটি খুব সাধারণ, ভাল-স্পেসযুক্ত টেবিলের জন্য কাজ করে তবে মাল্টি-ওয়ার্ড সেল কন্টেন্ট সহ যেকোনো কিছুর জন্য ব্যর্থ হয়।
সেরা: শেষ অবলম্বন হিসাবে একটি একক ছোট, সাধারণ টেবিল এক্সট্র্যাক্ট করার জন্য।
পদ্ধতি ৫: পাইথন লাইব্রেরি (ডেভেলপারদের জন্য)
তিনটি এমআইটি-লাইসেন্সযুক্ত লাইব্রেরি প্রোগ্রাম্যাটিকভাবে পিডিএফ টেবিল এক্সট্র্যাকশন পরিচালনা করে:
Tabula-py
টাবুলা (জাভা)-এর উপর পাইথন র্যাপার। জাভা রানটাইম প্রয়োজন।
- বর্ডারযুক্ত টেবিলের জন্য ল্যাটিস মোড (লাইন এবং ছেদ খুঁজে পায়)
- বর্ডারবিহীন টেবিলের জন্য স্ট্রিম মোড (টেক্সট অ্যালাইনমেন্ট ব্যবহার করে)
- স্ক্রিপ্টে ব্যাচ প্রসেসিংয়ের জন্য ভাল
- কোনো ওসিআর সমর্থন নেই
Camelot
ল্যাটিস এবং স্ট্রিম মোডও সরবরাহ করে।
- বর্ডারযুক্ত টেবিলের জন্য তাবুলার চেয়ে ভাল পারফর্ম করে
- স্ট্রিম মোডে ফাইন-টিউনিংয়ের জন্য আরও কনফিগারেশন প্যারামিটার রয়েছে
- প্রতিটি এক্সট্র্যাকশনের সাথে নির্ভুলতা প্রতিবেদন সরবরাহ করে
- ঘোস্টস্ক্রিপ্ট নির্ভরতা প্রয়োজন। কোনো ওসিআর সমর্থন নেই
pdfplumber
কোঅর্ডিনেট-ভিত্তিক পদ্ধতি: প্রতিটি অক্ষরকে তার সঠিক অবস্থান সহ এক্সট্র্যাক্ট করে, তারপর কাঠামো অনুমান করে।
- টেবিলের বিস্তৃত পরিসর পরিচালনা করে
- সবচেয়ে বেশি নিয়ন্ত্রণ দেয় তবে আরও কনফিগারেশন প্রয়োজন
- এটি সেই লাইব্রেরি যা PDFSub সার্ভার-সাইডে ব্যবহার করে
- কোনো ওসিআর সমর্থন নেই
সেরা: ডেভেলপারদের জন্য পুনরাবৃত্ত টেবিল এক্সট্র্যাকশন ওয়ার্কফ্লো স্বয়ংক্রিয় করা, একই ধরনের ডকুমেন্টের বড় ব্যাচ প্রক্রিয়া করা।
সাধারণ সমস্যা এবং সেগুলি সমাধানের উপায়
মার্জ করা সেল
যখন সেলগুলি একাধিক সারি বা কলাম জুড়ে বিস্তৃত হয়, তখন বেশিরভাগ টুল হয় উপরের-বাম সেলে কন্টেন্ট রাখে এবং অন্যগুলিকে খালি রাখে, অথবা পরবর্তী সমস্ত কলামগুলিকে ভুলভাবে সাজায়। কোনো সার্বজনীন সমাধান নেই — CSV ফরম্যাটে মার্জের কোনো ধারণা নেই, তাই মার্জের তথ্য সবসময় হারিয়ে যায়।
সমাধান: টেবিলটি এক্সট্র্যাক্ট করুন, তারপর এক্সেলে ম্যানুয়ালি মার্জ আর্টিফ্যাক্টগুলি ঠিক করুন। একই মার্জ প্যাটার্ন সহ পুনরাবৃত্ত টেবিলের জন্য, একটি পোস্ট-প্রসেসিং স্ক্রিপ্ট বিবেচনা করুন।
সেলের মধ্যে মাল্টি-লাইন কন্টেন্ট
যে দীর্ঘ বিবরণগুলি একটি সেলের মধ্যে মোড়ানো হয় তা আউটপুটে একাধিক সারি হয়ে যায়, সমস্ত পরবর্তী ডেটা ভুলভাবে সাজিয়ে দেয়। আর্থিক নথিপত্রের জন্য এটি সবচেয়ে সাধারণ এক্সট্র্যাকশন ত্রুটি।
সমাধান: এক্সট্র্যাকশনের পরে, যে সারিগুলিতে তারিখ এবং পরিমাণ অনুপস্থিত — সেগুলি সম্ভবত উপরের সারির সাথে সম্পর্কিত কন্টিনিউয়েশন লাইন। এক্সেলে, সেগুলি ম্যানুয়ালি মার্জ করুন বা একটি সহায়ক সূত্র ব্যবহার করুন।
একাধিক পৃষ্ঠায় বিস্তৃত টেবিল
টুলগুলিকে টেবিলটি কোথায় অব্যাহত থাকে, পুনরাবৃত্ত হেডারগুলি সরিয়ে ফেলা উচিত কিনা এবং পৃষ্ঠা ফুটারগুলি কীভাবে ফিল্টার করা উচিত তা নির্ধারণ করতে হবে। অনেক টুল প্রতিটি পৃষ্ঠা স্বাধীনভাবে বিবেচনা করে।
সমাধান: যদি আপনার টুল প্রতি-পৃষ্ঠা ফলাফল দেয়, শীটগুলি একত্রিত করুন এবং পুনরাবৃত্ত হেডার সারিগুলি সরান। পৃষ্ঠা N-এর শেষ সারিটি পৃষ্ঠা N+1-এর প্রথম সারির সাথে সঠিকভাবে সংযুক্ত হয়েছে কিনা তা পরীক্ষা করুন।
মুদ্রা বিন্যাস সমস্যা
বন্ধনীতে থাকা নেগেটিভ সংখ্যা ((1,234.56)) সংখ্যা হিসাবে নয়, টেক্সট হিসাবে পেস্ট হয়। মুদ্রার প্রতীক এবং হাজার বিভাজকও সাংখ্যিক বিন্যাসকে ভেঙে দেয়।
সমাধান: এক্সট্র্যাকশনের পরে, $, (, ) অক্ষরগুলি সরাতে পরিমাণ কলামটি নির্বাচন করুন এবং খুঁজুন ও প্রতিস্থাপন করুন। তারপর কলামটিকে সংখ্যা হিসাবে ফর্ম্যাট করুন। বন্ধনীতে থাকা নেগেটিভগুলির জন্য, ( কে - দিয়ে প্রতিস্থাপন করুন এবং ) সরান, তারপর সংখ্যা বিন্যাসে রূপান্তর করুন।
তারিখের অস্পষ্টতা
01/02/2026 — এটি কি জানুয়ারী 2 নাকি ফেব্রুয়ারী 1? এক্সট্র্যাকশন টুল স্ট্রিংটিকে যেমন আছে তেমনই সংরক্ষণ করে, তবে এক্সেল আপনার স্থানীয়তা অনুসারে এটিকে পুনরায় ব্যাখ্যা করতে পারে।
সমাধান: তারিখ বিন্যাসের সূত্রগুলির জন্য উত্স পিডিএফ পরীক্ষা করুন (১২ এর বেশি দিনের মান সহ তারিখগুলি সন্ধান করুন)। আমদানির আগে এক্সেলের তারিখ বিন্যাসকে উৎসের সাথে মেলে সেট করুন।
নির্ভুলতার তুলনা
| পদ্ধতি | সাধারণ বর্ডারযুক্ত | বর্ডারবিহীন | আধা-বর্ডারযুক্ত | স্ক্যান করা পিডিএফ |
|---|---|---|---|---|
| PDFSub (কোঅর্ডিনেট + এআই) | ৯০–৯৯% | ৭৫–৯৫% | ৭০–৯৫% | ৮৫–৯৫% (এআই) |
| পাওয়ার কোয়েরি | ৮৫–৯৫% | ৪০–৬০% | ৫০–৭০% | সমর্থিত নয় |
| অ্যাডোবি অ্যাক্রোব্যাট | ৯০–৯৫% | ৭০–৮০% | ৭০–৮৫% | ৮০–৯০% |
| টাবুলা | ~৬৮% | ৫৫–৭০% | ৫০–৬৫% | সমর্থিত নয় |
| ক্যামেলট | ~৭৩% | ৬৫–৭৫% | ৬০–৭০% | সমর্থিত নয় |
| কপি-পেস্ট | ৩০–৫০% | ১০–৩০% | ১০–৩০% | সম্ভব নয় |
পরিসীমা নথির জটিলতার উপর ভিত্তি করে ভিন্নতা প্রতিফলিত করে। প্রোসিওনস 2025 পিডিএফ এক্সট্র্যাকশন বেঞ্চমার্ক এবং ক্যামেলট তুলনা অধ্যয়ন থেকে বেঞ্চমার্ক ডেটা।
আপনার কোন পদ্ধতি ব্যবহার করা উচিত?
| পরিস্থিতি | সেরা পদ্ধতি | কেন |
|---|---|---|
| দ্রুত এককালীন এক্সট্র্যাকশন | PDFSub | কোনো ইনস্টল নেই, ব্রাউজার-ভিত্তিক, ফ্রি কোঅর্ডিনেট এক্সট্র্যাকশন |
| সাধারণ বর্ডারযুক্ত টেবিল, উইন্ডোজ | পাওয়ার কোয়েরি | এক্সেলে বিল্ট-ইন, কোনো অতিরিক্ত খরচ নেই |
| স্ক্যান করা পিডিএফ | PDFSub (এআই) বা অ্যাডোবি অ্যাক্রোব্যাট | ওসিআর ক্ষমতা প্রয়োজন |
| সংবেদনশীল আর্থিক ডেটা | PDFSub | ব্রাউজার-ভিত্তিক প্রসেসিং, ফাইল কখনো আপলোড হয় না |
| পুনরাবৃত্ত ব্যাচ প্রসেসিং | পাইথন (pdfplumber) | স্ক্রিপ্টেবল, স্বয়ংক্রিয় করা যায় |
| ইতিমধ্যে অ্যাক্রোব্যাট প্রো আছে | অ্যাডোবি অ্যাক্রোব্যাট | ইতিমধ্যে অর্থ প্রদান করছেন, সাধারণ টেবিলগুলি ভাল কাজ করে |
| একটি ছোট টেবিল, কোনো টুল নেই | কপি-পেস্ট | শেষ অবলম্বন, সবকিছু যাচাই করুন |
সেরা ফলাফলের জন্য টিপস
নেটিভ পিডিএফ ব্যবহার করুন। কাগজ স্ক্যান করার পরিবর্তে তাদের উৎস থেকে নথি ডাউনলোড করুন। নেটিভ পিডিএফগুলিতে নিখুঁত টেক্সট থাকে, যা এক্সট্র্যাকশনকে নাটকীয়ভাবে আরও নির্ভুল করে তোলে।
প্রথমে টেবিলের ধরন সনাক্ত করুন। বর্ডারযুক্ত টেবিলগুলি প্রায় যেকোনো টুলের সাথে কাজ করে। বর্ডারবিহীন টেবিলের জন্য স্ট্রিম-মোড বা এআই এক্সট্র্যাকশন প্রয়োজন। ধরণ জানা আপনাকে শুরুতেই সঠিক পদ্ধতি বেছে নিতে সাহায্য করে।
ফ্রি, রুল-ভিত্তিক পদ্ধতি দিয়ে শুরু করুন। প্রথমে কোঅর্ডিনেট-ভিত্তিক এক্সট্র্যাকশন চেষ্টা করুন। শুধুমাত্র এআই-তে যান যখন রুল-ভিত্তিক পদ্ধতিগুলি দুর্বল ফলাফল তৈরি করে — এটি সময় এবং ক্রেডিট বাঁচায়।
সর্বদা আউটপুট যাচাই করুন। সারির সংখ্যা, কলামের বিন্যাস, সাংখ্যিক মান এবং মোট পরীক্ষা করুন। এক্সট্র্যাকশন আউটপুটকে অন্ধভাবে বিশ্বাস করবেন না।
সংখ্যার বিন্যাস লক্ষ্য করুন। এক্সট্র্যাকশনের পরে, সংখ্যাগুলি আসলে এক্সেলে সংখ্যা (ডানদিকে সারিবদ্ধ), টেক্সট স্ট্রিং (বামদিকে সারিবদ্ধ) নয় তা যাচাই করুন। মুদ্রার প্রতীক এবং বন্ধনীতে থাকা নেগেটিভগুলি সাধারণ অপরাধী।
সংবেদনশীল ডেটার জন্য, ব্রাউজার-ভিত্তিক টুল পছন্দ করুন। আর্থিক প্রতিবেদন, ব্যাংক স্টেটমেন্ট এবং ট্যাক্স নথিতে সংবেদনশীল তথ্য থাকে। যে টুলগুলি আপনার ব্রাউজারে পিডিএফ প্রক্রিয়া করে তারা আপনার ফাইল আপলোড করে না, ডেটা এক্সপোজারের ঝুঁকি দূর করে।
বিনামূল্যে চেষ্টা করুন
আপনার পিডিএফ থেকে টেবিল এক্সট্র্যাক্ট করতে প্রস্তুত? এখন একটি ফাইল আপলোড করুন — PDFSub প্রথমে ফ্রি কোঅর্ডিনেট-ভিত্তিক এক্সট্র্যাকশন চেষ্টা করে, জটিল টেবিলের জন্য এআই ফলব্যাক সহ। ডিজিটাল পিডিএফগুলি সম্পূর্ণভাবে আপনার ব্রাউজারে প্রক্রিয়া করা হয়। একটি ৭-দিনের ফ্রি ট্রায়াল শুরু করুন।