PDFSub
মূল্য নির্ধারণMergeSplitCompressEditE-Signব্যাংক স্টেটমেন্ট
ব্লগে ফিরে যান
টিউটোরিয়ালএক্সেলটেবিলপিডিএফ টুলস

পিডিএফ থেকে এক্সেলে টেবিল এক্সট্র্যাক্ট করার উপায়: ৫টি পদ্ধতির তুলনা

২৮ ফেব্রুয়ারি, ২০২৬
PDFSub Team

পিডিএফ টেবিলকে x,y কোঅর্ডিনেটে ছড়িয়ে থাকা টেক্সট ফ্র্যাগমেন্ট হিসেবে সংরক্ষণ করে — কোনো সারি, কলাম বা সেল থাকে না। এখানে দেওয়া হলো কিভাবে ডেটা স্প্রেডশীটে পাওয়া যায়, ফ্রি ব্রাউজার-ভিত্তিক টুল থেকে পাইথন স্ক্রিপ্টিং পর্যন্ত।


পিডিএফতারিখবিবরণপরিমাণ01/15Payment Recv$1,250.0001/16Office Supply-$85.0001/18Wire Transfer$3,400.0001/20Utility Bill-$142.5001/22Client Inv$2,100.00এক্সট্র্যাক্টএক্সেলABCD1234567তারিখবিবরণপরিমাণBalance01/15/2026Payment Recv$1,250.00$5,25001/16/2026Office Supply-$85.00$5,16501/18/2026Wire Transfer$3,400.00$8,56501/20/2026Utility Bill-$142.50$8,42301/22/2026Client Inv$2,100.00$10,523পিডিএফ থেকে এক্সেলে টেবিল এক্সট্র্যাক্ট করুনস্বয়ংক্রিয়ভাবে কাঠামোগত টেবিল ডেটা সনাক্ত এবং এক্সট্র্যাক্ট করুন

আপনার কাছে একটি পিডিএফ আছে যাতে একটি টেবিল আছে যা আপনার এক্সেলে প্রয়োজন। এটি একটি আর্থিক প্রতিবেদন, ব্যাংক স্টেটমেন্ট, চালান বা একটি গবেষণা পত্র হতে পারে। ডেটা সেখানেই আছে — স্ক্রিনে সারি এবং কলামে সুন্দরভাবে সাজানো। কিন্তু যখন আপনি এটি বের করার চেষ্টা করেন, তখন সবকিছু ভেঙে পড়ে।

এটি ঘটে কারণ পিডিএফ একটি ডেটা ফরম্যাট নয়। এটি একটি ডিসপ্লে ফরম্যাট। পিডিএফ স্পেসিফিকেশনে "টেবিল", "সারি" বা "কলাম" এর কোনো ধারণা নেই। যা একটি কাঠামোগত টেবিলের মতো দেখায় তা আসলে একটি ক্যানভাসে নির্দিষ্ট x,y কোঅর্ডিনেটে স্থাপন করা কয়েক ডজন টেক্সট ফ্র্যাগমেন্ট। সেই কাঠামোকে একটি স্প্রেডশীটে ফিরিয়ে আনা একটি রিভার্স-ইঞ্জিনিয়ারিং সমস্যা — এবং বিভিন্ন টুল বিভিন্ন মাত্রার সাফল্যের সাথে এটি পরিচালনা করে।

এই গাইডটি পিডিএফ থেকে টেবিল এক্সট্র্যাক্ট করার ৫টি পদ্ধতি, কখন কোনটি সবচেয়ে ভালো কাজ করে এবং কখন জিনিসগুলি ভুল হয় তখন কী করতে হবে তা নিয়ে আলোচনা করে।

পিডিএফ থেকে টেবিল এক্সট্র্যাক্ট করা কেন কঠিন

5 Methods for Extracting PDF Tables to ExcelAccuracy comparison across table types — choose the right tool for your PDFMethodBordered TablesBorderless TablesScanned PDFsCostPDFSub (Free+AI)★90–99%75–95%85–95%FreePower Query85–95%40–60%N/A$0 (built-in)Adobe Acrobat90–95%70–80%80–90%$240/yrTabula/Camelot68–73%55–75%N/AFreeCopy-Paste30–50%10–30%0%FreeHigh (80%+)Medium (50–79%)Low (<50%)Not supported★ Recommended for sensitive financial data

পিডিএফ ফরম্যাটে টেবিল নেই

পিডিএফ স্পেসিফিকেশন (ISO 32000-2:2020) একটি কন্টেন্ট স্ট্রিম সংজ্ঞায়িত করে — যা অপারেটরগুলির একটি ক্রম যা পৃথক অক্ষরগুলিকে নির্দিষ্ট কোঅর্ডিনেটে স্থাপন করে। "তারিখ | বিবরণ | পরিমাণ" এর মতো একটি সাধারণ টেবিল সারি হতে পারে:

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Office Supplies) Tj 180 0 Td (125.00) Tj ET

কোনো <table>, <tr>, বা <td> ট্যাগ নেই। কোনো সারি শনাক্তকারী নেই। কোনো কলামের সীমানা নেই। আপনি সেলের চারপাশে যে ভিজ্যুয়াল লাইনগুলি দেখেন তা পৃথক অঙ্কন অপারেশন যা টেক্সট থেকে সম্পূর্ণভাবে বিচ্ছিন্ন। একটি এক্সট্র্যাকশন টুলকে স্থানিক সম্পর্ক থেকে পুরো কাঠামোটি অনুমান করতে হবে।

তিন ধরনের টেবিল বর্ডার

বর্ডারযুক্ত (ল্যাটিস) টেবিল প্রতিটি সেলের চারপাশে দৃশ্যমান লাইন থাকে। এগুলি এক্সট্র্যাক্ট করা সবচেয়ে সহজ কারণ লাইনগুলি স্পষ্টভাবে সেলের সীমানা সংজ্ঞায়িত করে। আনুষ্ঠানিক আর্থিক বিবৃতি, সরকারি ফর্ম এবং প্রমিত প্রতিবেদনে সাধারণ।

বর্ডারবিহীন (স্ট্রিম) টেবিল কোনো লাইন থাকে না। কাঠামোটি সম্পূর্ণরূপে হোয়াইটস্পেস অ্যালাইনমেন্ট দ্বারা সংজ্ঞায়িত হয় — সারি জুড়ে সামঞ্জস্যপূর্ণ x-কোঅর্ডিনেট ভাগ করে নেওয়া টেক্সট আইটেমগুলি অন্তর্নিহিত কলাম তৈরি করে। গবেষণা পত্র, চালান এবং পণ্য ক্যাটালগে সাধারণ।

আধা-বর্ডারযুক্ত টেবিল শুধুমাত্র আংশিক বর্ডার থাকে — সাধারণত বিভাগগুলির মধ্যে অনুভূমিক নিয়ম কিন্তু উল্লম্ব বিভাজক নেই। ব্যাংক স্টেটমেন্ট, ব্রোকারেজ রিপোর্ট এবং ইউটিলিটি বিলগুলিতে অত্যন্ত সাধারণ। এগুলি এক্সট্র্যাক্ট করা সবচেয়ে কঠিন কারণ আংশিক বর্ডার ল্যাটিস-মোড পার্সারদের বিভ্রান্ত করে যখন অনুপস্থিত বর্ডারগুলি স্ট্রিম-মোডের আত্মবিশ্বাস হ্রাস করে।

ট্যাগযুক্ত বনাম আনট্যাগযুক্ত পিডিএফ

ট্যাগযুক্ত পিডিএফগুলিতে কাঠামোগত মেটাডেটা অন্তর্ভুক্ত থাকে যা শিরোনাম, অনুচ্ছেদ এবং টেবিল সেল সনাক্ত করে। আনট্যাগযুক্ত পিডিএফগুলিতে এগুলির কোনটিই থাকে না — এক্সট্র্যাকশন টুল কেবল কাঁচা কোঅর্ডিনেট পায়। বেশিরভাগ পিডিএফ আনট্যাগযুক্ত, যার মধ্যে কার্যত সমস্ত ব্যাংক স্টেটমেন্ট, চালান এবং আর্থিক প্রতিবেদন অন্তর্ভুক্ত।


পদ্ধতি ১: PDFSub এক্সট্র্যাক্ট টেবিল (ফ্রি + এআই ফলব্যাক)

PDFSub এর এক্সট্র্যাক্ট টেবিল টুল নির্ভুলতা সর্বাধিক করার সময় খরচ কমাতে একটি তিন-স্তরীয় পদ্ধতি ব্যবহার করে:

স্তর ১: কোঅর্ডিনেট-ভিত্তিক সনাক্তকরণ (ব্রাউজার, ফ্রি)

টুলটি প্রথমে আপনার ব্রাউজারে সম্পূর্ণভাবে এক্সট্র্যাকশন করার চেষ্টা করে:

  • প্রতিটি টেক্সট আইটেমকে তার x,y কোঅর্ডিনেট সহ এক্সট্র্যাক্ট করতে পিডিএফ কন্টেন্ট স্ট্রিম পার্স করে
  • y-কোঅর্ডিনেট নৈকট্যের উপর ভিত্তি করে টেক্সট আইটেমগুলিকে লাইনে গ্রুপ করে
  • কলামের সীমানা সনাক্ত করতে লাইন জুড়ে x-কোঅর্ডিনেট অ্যালাইনমেন্ট প্যাটার্ন বিশ্লেষণ করে
  • ন্যূনতম ৩টি সারি, ২টি কলাম এবং ৭০%+ আত্মবিশ্বাস প্রয়োজন

যদি ভাল টেবিল পাওয়া যায়, আপনি অবিলম্বে কাঠামোগত ডেটা পাবেন — কোনো সার্ভার আপলোড নেই, কোনো এআই ক্রেডিট খরচ নেই, এবং আপনার ফাইল আপনার ডিভাইস ছেড়ে যায় না।

স্তর ২: সার্ভার-সাইড এক্সট্র্যাকশন (pdfplumber, ফ্রি)

যদি কোঅর্ডিনেট-ভিত্তিক সনাক্তকরণ কোনো টেবিল খুঁজে না পায়, টুলটি সার্ভারে pdfplumber (MIT লাইসেন্স) ব্যবহার করে। এটি স্পষ্ট লাইন (অঙ্কিত বর্ডার) এবং অন্তর্নিহিত লাইন (শব্দ অ্যালাইনমেন্ট প্যাটার্ন) উভয়ই সনাক্ত করে, ছেদ খুঁজে পায়, আয়তক্ষেত্র সনাক্ত করে এবং টেক্সটকে সেলের সাথে ম্যাপ করে।

স্তর ৩: এআই এক্সট্র্যাকশন (ক্রেডিট ব্যবহার করে)

স্ক্যান করা পিডিএফ, জটিল লেআউট বা টেবিলের জন্য যা রুল-ভিত্তিক পদ্ধতি পার্স করতে পারে না, টুলটি এআই-চালিত ভিশন এক্সট্র্যাকশনে ফলব্যাক করে। আপনি "ফোর্স এআই এক্সট্র্যাকশন" টগল করতে পারেন সরাসরি এই স্তরে যাওয়ার জন্য যখন আপনি জানেন যে টেবিলটি জটিল।

আউটপুট ফরম্যাট: এক্সেল (.xlsx), CSV, JSON।

সেরা: সফ্টওয়্যার ইনস্টল না করে দ্রুত এক্সট্র্যাকশনের জন্য। ডিজিটাল পিডিএফগুলি সর্বাধিক গোপনীয়তার জন্য সম্পূর্ণভাবে আপনার ব্রাউজারে প্রক্রিয়া করা হয়।


পদ্ধতি ২: এক্সেলে পাওয়ার কোয়েরি (শুধুমাত্র উইন্ডোজ)

উইন্ডোজের এক্সেল 2019+ এবং মাইক্রোসফট 365-এ উপলব্ধ: ডেটা → ডেটা পান → ফাইল থেকে → পিডিএফ থেকে।

কিভাবে কাজ করে

  1. ডেটা → ডেটা পান → ফাইল থেকে → পিডিএফ থেকে ক্লিক করুন
  2. আপনার পিডিএফ ফাইল নির্বাচন করুন
  3. পাওয়ার কোয়েরি প্রতিটি পৃষ্ঠার সনাক্ত করা টেবিলের তালিকা সহ একটি নেভিগেটর প্যানেল প্রদর্শন করে
  4. আপনি যে টেবিলগুলি চান তা নির্বাচন করুন, পরিষ্কার করার জন্য ডেটা রূপান্তর করুন ক্লিক করুন, তারপর লোড করুন

সুবিধা

  • এক্সেলে বিল্ট-ইন — মাইক্রোসফট 365 গ্রাহকদের জন্য কোনো অতিরিক্ত খরচ নেই
  • পাওয়ার কোয়েরির রূপান্তর ইঞ্জিন পোস্ট-প্রসেসিং ভালভাবে পরিচালনা করে (ফিল ডাউন, পিভট, কলাম মার্জ করুন)
  • উৎস পিডিএফ আপডেট করা হলে ডেটা রিফ্রেশ করতে পারে
  • একই পিডিএফ থেকে একাধিক টেবিল সংযোগ সমর্থন করে

সীমাবদ্ধতা

  • শুধুমাত্র উইন্ডোজ — ম্যাকের জন্য এক্সেল, এক্সেল অনলাইন বা মোবাইলে উপলব্ধ নয়
  • বর্ডারবিহীন টেবিলের সাথে সংগ্রাম করে — স্পষ্টভাবে বর্ডারযুক্ত টেবিলের সাথে সবচেয়ে ভালো কাজ করে
  • কোনো ওসিআর নেই — স্ক্যান করা/ছবি পিডিএফ থেকে এক্সট্র্যাক্ট করতে পারে না
  • মাল্টি-পেজ টেবিল সমস্যাযুক্ত — প্রতিটি পৃষ্ঠা প্রায়শই একটি পৃথক টেবিল হিসাবে আমদানি হয়, যার জন্য ম্যানুয়াল সেলাই প্রয়োজন
  • মাল্টি-লাইন সারি — সেলের মধ্যে মোড়ানো টেক্সট প্রায়শই একাধিক সারিতে বিভক্ত হয়, যার জন্য পরিষ্কারের প্রয়োজন হয়

সেরা: মাইক্রোসফট 365 সহ উইন্ডোজ ব্যবহারকারীদের জন্য যাদের সাধারণ, বর্ডারযুক্ত টেবিল রয়েছে।


পদ্ধতি ৩: অ্যাডোবি অ্যাক্রোব্যাট (প্রদেয়)

ফাইল → পিডিএফ এক্সপোর্ট করুন → স্প্রেডশীট → মাইক্রোসফট এক্সেল ওয়ার্কবুক

মূল্য (2026)

  • অ্যাক্রোব্যাট স্ট্যান্ডার্ড: $12.99/মাস (বার্ষিক পরিকল্পনা)
  • অ্যাক্রোব্যাট প্রো: $19.99/মাস (বার্ষিক পরিকল্পনা)
  • এক্সপোর্ট পিডিএফ (স্ট্যান্ডঅ্যালোন): নিম্ন-স্তরের শুধুমাত্র রূপান্তর পরিকল্পনা

সুবিধা

  • স্ক্যান করা ডকুমেন্টের জন্য বিল্ট-ইন ওসিআর
  • সাধারণত সাধারণ বর্ডারযুক্ত টেবিলের জন্য ফরম্যাটিং সংরক্ষণ করে
  • প্রো-তে ব্যাচ প্রসেসিং উপলব্ধ

সীমাবদ্ধতা

  • শুধুমাত্র টেবিল এক্সট্র্যাকশনের জন্য ব্যয়বহুল — $156–$240/বছর
  • মার্জ করা সেল এবং মাল্টি-পেজ স্প্যান সহ জটিল টেবিলগুলি এখনও ভুলভাবে সাজানো আউটপুট তৈরি করে
  • প্রসেসিংয়ের জন্য ফাইলগুলি অ্যাডোবির ক্লাউডে আপলোড করা হতে পারে — সংবেদনশীল আর্থিক ডেটার জন্য সমস্যাযুক্ত
  • ডেস্কটপ ইনস্টলেশন প্রয়োজন

সেরা: যারা ইতিমধ্যেই অ্যাক্রোব্যাট প্রো-এর জন্য অর্থ প্রদান করেন এবং ওসিআর সহ মাঝে মাঝে টেবিল এক্সপোর্ট প্রয়োজন।


পদ্ধতি ৪: কপি-পেস্ট (ম্যানুয়াল)

সবচেয়ে স্বজ্ঞাত পদ্ধতি — এবং যেটি টেবিলের জন্য সবচেয়ে বেশি ব্যর্থ হয়।

সাধারণ সমস্যা

  • সমস্ত ডেটা একটি কলামে — পুরো টেবিলটি কোনো কলাম বিরতি ছাড়াই পেস্ট হয়
  • সংখ্যা টেক্সট হয়ে যায় — মুদ্রার প্রতীক, বন্ধনী এবং বিভাজক সাংখ্যিক বিন্যাসকে ভেঙে দেয়
  • মাল্টি-লাইন সেল কন্টেন্ট ফ্যান্টম সারি তৈরি করে — একটি বিবরণ যা সেলের মধ্যে দুটি লাইনে মোড়ানো হয় তা দুটি পৃথক সারি হয়ে যায়
  • হেডার ডেটা থেকে পৃথক — হেডার সারিটি বিচ্ছিন্ন হয়ে যায়
  • কলামগুলি ভুলভাবে সাজানো — অক্ষর ব্যবধান ট্যাবগুলিতে অনুবাদ না হওয়ার কারণে ডেটা স্থানান্তরিত হয়

আংশিক সমাধান

এক্সেলে পেস্ট করুন, তারপর ডেটা → টেক্সট টু কলাম ব্যবহার করুন স্পেস বা ফিক্সড-উইথ ডিলিমিটার সহ। "ক্রমাগত ডিলিমিটারকে একটি হিসাবে বিবেচনা করুন" সক্ষম করুন। এটি খুব সাধারণ, ভাল-স্পেসযুক্ত টেবিলের জন্য কাজ করে তবে মাল্টি-ওয়ার্ড সেল কন্টেন্ট সহ যেকোনো কিছুর জন্য ব্যর্থ হয়।

সেরা: শেষ অবলম্বন হিসাবে একটি একক ছোট, সাধারণ টেবিল এক্সট্র্যাক্ট করার জন্য।


পদ্ধতি ৫: পাইথন লাইব্রেরি (ডেভেলপারদের জন্য)

তিনটি এমআইটি-লাইসেন্সযুক্ত লাইব্রেরি প্রোগ্রাম্যাটিকভাবে পিডিএফ টেবিল এক্সট্র্যাকশন পরিচালনা করে:

Tabula-py

টাবুলা (জাভা)-এর উপর পাইথন র‍্যাপার। জাভা রানটাইম প্রয়োজন।

  • বর্ডারযুক্ত টেবিলের জন্য ল্যাটিস মোড (লাইন এবং ছেদ খুঁজে পায়)
  • বর্ডারবিহীন টেবিলের জন্য স্ট্রিম মোড (টেক্সট অ্যালাইনমেন্ট ব্যবহার করে)
  • স্ক্রিপ্টে ব্যাচ প্রসেসিংয়ের জন্য ভাল
  • কোনো ওসিআর সমর্থন নেই

Camelot

ল্যাটিস এবং স্ট্রিম মোডও সরবরাহ করে।

  • বর্ডারযুক্ত টেবিলের জন্য তাবুলার চেয়ে ভাল পারফর্ম করে
  • স্ট্রিম মোডে ফাইন-টিউনিংয়ের জন্য আরও কনফিগারেশন প্যারামিটার রয়েছে
  • প্রতিটি এক্সট্র্যাকশনের সাথে নির্ভুলতা প্রতিবেদন সরবরাহ করে
  • ঘোস্টস্ক্রিপ্ট নির্ভরতা প্রয়োজন। কোনো ওসিআর সমর্থন নেই

pdfplumber

কোঅর্ডিনেট-ভিত্তিক পদ্ধতি: প্রতিটি অক্ষরকে তার সঠিক অবস্থান সহ এক্সট্র্যাক্ট করে, তারপর কাঠামো অনুমান করে।

  • টেবিলের বিস্তৃত পরিসর পরিচালনা করে
  • সবচেয়ে বেশি নিয়ন্ত্রণ দেয় তবে আরও কনফিগারেশন প্রয়োজন
  • এটি সেই লাইব্রেরি যা PDFSub সার্ভার-সাইডে ব্যবহার করে
  • কোনো ওসিআর সমর্থন নেই

সেরা: ডেভেলপারদের জন্য পুনরাবৃত্ত টেবিল এক্সট্র্যাকশন ওয়ার্কফ্লো স্বয়ংক্রিয় করা, একই ধরনের ডকুমেন্টের বড় ব্যাচ প্রক্রিয়া করা।


সাধারণ সমস্যা এবং সেগুলি সমাধানের উপায়

মার্জ করা সেল

যখন সেলগুলি একাধিক সারি বা কলাম জুড়ে বিস্তৃত হয়, তখন বেশিরভাগ টুল হয় উপরের-বাম সেলে কন্টেন্ট রাখে এবং অন্যগুলিকে খালি রাখে, অথবা পরবর্তী সমস্ত কলামগুলিকে ভুলভাবে সাজায়। কোনো সার্বজনীন সমাধান নেই — CSV ফরম্যাটে মার্জের কোনো ধারণা নেই, তাই মার্জের তথ্য সবসময় হারিয়ে যায়।

সমাধান: টেবিলটি এক্সট্র্যাক্ট করুন, তারপর এক্সেলে ম্যানুয়ালি মার্জ আর্টিফ্যাক্টগুলি ঠিক করুন। একই মার্জ প্যাটার্ন সহ পুনরাবৃত্ত টেবিলের জন্য, একটি পোস্ট-প্রসেসিং স্ক্রিপ্ট বিবেচনা করুন।

সেলের মধ্যে মাল্টি-লাইন কন্টেন্ট

যে দীর্ঘ বিবরণগুলি একটি সেলের মধ্যে মোড়ানো হয় তা আউটপুটে একাধিক সারি হয়ে যায়, সমস্ত পরবর্তী ডেটা ভুলভাবে সাজিয়ে দেয়। আর্থিক নথিপত্রের জন্য এটি সবচেয়ে সাধারণ এক্সট্র্যাকশন ত্রুটি।

সমাধান: এক্সট্র্যাকশনের পরে, যে সারিগুলিতে তারিখ এবং পরিমাণ অনুপস্থিত — সেগুলি সম্ভবত উপরের সারির সাথে সম্পর্কিত কন্টিনিউয়েশন লাইন। এক্সেলে, সেগুলি ম্যানুয়ালি মার্জ করুন বা একটি সহায়ক সূত্র ব্যবহার করুন।

একাধিক পৃষ্ঠায় বিস্তৃত টেবিল

টুলগুলিকে টেবিলটি কোথায় অব্যাহত থাকে, পুনরাবৃত্ত হেডারগুলি সরিয়ে ফেলা উচিত কিনা এবং পৃষ্ঠা ফুটারগুলি কীভাবে ফিল্টার করা উচিত তা নির্ধারণ করতে হবে। অনেক টুল প্রতিটি পৃষ্ঠা স্বাধীনভাবে বিবেচনা করে।

সমাধান: যদি আপনার টুল প্রতি-পৃষ্ঠা ফলাফল দেয়, শীটগুলি একত্রিত করুন এবং পুনরাবৃত্ত হেডার সারিগুলি সরান। পৃষ্ঠা N-এর শেষ সারিটি পৃষ্ঠা N+1-এর প্রথম সারির সাথে সঠিকভাবে সংযুক্ত হয়েছে কিনা তা পরীক্ষা করুন।

মুদ্রা বিন্যাস সমস্যা

বন্ধনীতে থাকা নেগেটিভ সংখ্যা ((1,234.56)) সংখ্যা হিসাবে নয়, টেক্সট হিসাবে পেস্ট হয়। মুদ্রার প্রতীক এবং হাজার বিভাজকও সাংখ্যিক বিন্যাসকে ভেঙে দেয়।

সমাধান: এক্সট্র্যাকশনের পরে, $, (, ) অক্ষরগুলি সরাতে পরিমাণ কলামটি নির্বাচন করুন এবং খুঁজুন ও প্রতিস্থাপন করুন। তারপর কলামটিকে সংখ্যা হিসাবে ফর্ম্যাট করুন। বন্ধনীতে থাকা নেগেটিভগুলির জন্য, ( কে - দিয়ে প্রতিস্থাপন করুন এবং ) সরান, তারপর সংখ্যা বিন্যাসে রূপান্তর করুন।

তারিখের অস্পষ্টতা

01/02/2026 — এটি কি জানুয়ারী 2 নাকি ফেব্রুয়ারী 1? এক্সট্র্যাকশন টুল স্ট্রিংটিকে যেমন আছে তেমনই সংরক্ষণ করে, তবে এক্সেল আপনার স্থানীয়তা অনুসারে এটিকে পুনরায় ব্যাখ্যা করতে পারে।

সমাধান: তারিখ বিন্যাসের সূত্রগুলির জন্য উত্স পিডিএফ পরীক্ষা করুন (১২ এর বেশি দিনের মান সহ তারিখগুলি সন্ধান করুন)। আমদানির আগে এক্সেলের তারিখ বিন্যাসকে উৎসের সাথে মেলে সেট করুন।


নির্ভুলতার তুলনা

পদ্ধতি সাধারণ বর্ডারযুক্ত বর্ডারবিহীন আধা-বর্ডারযুক্ত স্ক্যান করা পিডিএফ
PDFSub (কোঅর্ডিনেট + এআই) ৯০–৯৯% ৭৫–৯৫% ৭০–৯৫% ৮৫–৯৫% (এআই)
পাওয়ার কোয়েরি ৮৫–৯৫% ৪০–৬০% ৫০–৭০% সমর্থিত নয়
অ্যাডোবি অ্যাক্রোব্যাট ৯০–৯৫% ৭০–৮০% ৭০–৮৫% ৮০–৯০%
টাবুলা ~৬৮% ৫৫–৭০% ৫০–৬৫% সমর্থিত নয়
ক্যামেলট ~৭৩% ৬৫–৭৫% ৬০–৭০% সমর্থিত নয়
কপি-পেস্ট ৩০–৫০% ১০–৩০% ১০–৩০% সম্ভব নয়

পরিসীমা নথির জটিলতার উপর ভিত্তি করে ভিন্নতা প্রতিফলিত করে। প্রোসিওনস 2025 পিডিএফ এক্সট্র্যাকশন বেঞ্চমার্ক এবং ক্যামেলট তুলনা অধ্যয়ন থেকে বেঞ্চমার্ক ডেটা।


আপনার কোন পদ্ধতি ব্যবহার করা উচিত?

পরিস্থিতি সেরা পদ্ধতি কেন
দ্রুত এককালীন এক্সট্র্যাকশন PDFSub কোনো ইনস্টল নেই, ব্রাউজার-ভিত্তিক, ফ্রি কোঅর্ডিনেট এক্সট্র্যাকশন
সাধারণ বর্ডারযুক্ত টেবিল, উইন্ডোজ পাওয়ার কোয়েরি এক্সেলে বিল্ট-ইন, কোনো অতিরিক্ত খরচ নেই
স্ক্যান করা পিডিএফ PDFSub (এআই) বা অ্যাডোবি অ্যাক্রোব্যাট ওসিআর ক্ষমতা প্রয়োজন
সংবেদনশীল আর্থিক ডেটা PDFSub ব্রাউজার-ভিত্তিক প্রসেসিং, ফাইল কখনো আপলোড হয় না
পুনরাবৃত্ত ব্যাচ প্রসেসিং পাইথন (pdfplumber) স্ক্রিপ্টেবল, স্বয়ংক্রিয় করা যায়
ইতিমধ্যে অ্যাক্রোব্যাট প্রো আছে অ্যাডোবি অ্যাক্রোব্যাট ইতিমধ্যে অর্থ প্রদান করছেন, সাধারণ টেবিলগুলি ভাল কাজ করে
একটি ছোট টেবিল, কোনো টুল নেই কপি-পেস্ট শেষ অবলম্বন, সবকিছু যাচাই করুন

সেরা ফলাফলের জন্য টিপস

নেটিভ পিডিএফ ব্যবহার করুন। কাগজ স্ক্যান করার পরিবর্তে তাদের উৎস থেকে নথি ডাউনলোড করুন। নেটিভ পিডিএফগুলিতে নিখুঁত টেক্সট থাকে, যা এক্সট্র্যাকশনকে নাটকীয়ভাবে আরও নির্ভুল করে তোলে।

প্রথমে টেবিলের ধরন সনাক্ত করুন। বর্ডারযুক্ত টেবিলগুলি প্রায় যেকোনো টুলের সাথে কাজ করে। বর্ডারবিহীন টেবিলের জন্য স্ট্রিম-মোড বা এআই এক্সট্র্যাকশন প্রয়োজন। ধরণ জানা আপনাকে শুরুতেই সঠিক পদ্ধতি বেছে নিতে সাহায্য করে।

ফ্রি, রুল-ভিত্তিক পদ্ধতি দিয়ে শুরু করুন। প্রথমে কোঅর্ডিনেট-ভিত্তিক এক্সট্র্যাকশন চেষ্টা করুন। শুধুমাত্র এআই-তে যান যখন রুল-ভিত্তিক পদ্ধতিগুলি দুর্বল ফলাফল তৈরি করে — এটি সময় এবং ক্রেডিট বাঁচায়।

সর্বদা আউটপুট যাচাই করুন। সারির সংখ্যা, কলামের বিন্যাস, সাংখ্যিক মান এবং মোট পরীক্ষা করুন। এক্সট্র্যাকশন আউটপুটকে অন্ধভাবে বিশ্বাস করবেন না।

সংখ্যার বিন্যাস লক্ষ্য করুন। এক্সট্র্যাকশনের পরে, সংখ্যাগুলি আসলে এক্সেলে সংখ্যা (ডানদিকে সারিবদ্ধ), টেক্সট স্ট্রিং (বামদিকে সারিবদ্ধ) নয় তা যাচাই করুন। মুদ্রার প্রতীক এবং বন্ধনীতে থাকা নেগেটিভগুলি সাধারণ অপরাধী।

সংবেদনশীল ডেটার জন্য, ব্রাউজার-ভিত্তিক টুল পছন্দ করুন। আর্থিক প্রতিবেদন, ব্যাংক স্টেটমেন্ট এবং ট্যাক্স নথিতে সংবেদনশীল তথ্য থাকে। যে টুলগুলি আপনার ব্রাউজারে পিডিএফ প্রক্রিয়া করে তারা আপনার ফাইল আপলোড করে না, ডেটা এক্সপোজারের ঝুঁকি দূর করে।


বিনামূল্যে চেষ্টা করুন

আপনার পিডিএফ থেকে টেবিল এক্সট্র্যাক্ট করতে প্রস্তুত? এখন একটি ফাইল আপলোড করুন — PDFSub প্রথমে ফ্রি কোঅর্ডিনেট-ভিত্তিক এক্সট্র্যাকশন চেষ্টা করে, জটিল টেবিলের জন্য এআই ফলব্যাক সহ। ডিজিটাল পিডিএফগুলি সম্পূর্ণভাবে আপনার ব্রাউজারে প্রক্রিয়া করা হয়। একটি ৭-দিনের ফ্রি ট্রায়াল শুরু করুন।

ব্লগে ফিরে যান

কোনো প্রশ্ন আছে? আমাদের সাথে যোগাযোগ করুন

PDFSub

আপনার প্রয়োজনীয় সব PDF এবং ডকুমেন্ট টুলস এক জায়গায়। দ্রুত, নিরাপদ এবং ব্যক্তিগত।

GDPR কমপ্লায়েন্টCCPA কমপ্লায়েন্টSOC 2 Ready
Powered by PDFSub Engine

PDF টুলস

  • PDF মার্জ করুন
  • PDF স্প্লিট করুন
  • পেজ রিঅর্ডার করুন
  • PDF রোটেট করুন
  • পেজ ডিলিট করুন
  • পেজ এক্সট্র্যাক্ট করুন
  • ওয়াটারমার্ক যোগ করুন
  • PDF এডিট করুন
  • PDF স্ট্যাম্প করুন
  • PDF ফর্ম ফিলার
  • পেজ ক্রপ করুন
  • পেজ সাইজ পরিবর্তন করুন
  • পেজ নম্বর যোগ করুন
  • হেডার এবং ফুটার
  • PDF কম্প্রেস করুন
  • সার্চযোগ্য করুন
  • Clean Scanned PDF
  • Photo to Document
  • Auto-Crop PDF
  • PDF রিপেয়ার করুন
  • মেটাডেটা এডিট করুন
  • মেটাডেটা রিমুভ করুন
  • PDF থেকে Word
  • Word থেকে PDF
  • Excel থেকে PDF
  • PDF থেকে PowerPoint
  • PDF থেকে ইমেজ
  • ইমেজ থেকে PDF
  • HTML থেকে PDF
  • HEIC থেকে ইমেজ
  • WEBP থেকে JPG
  • WEBP থেকে PNG
  • PowerPoint থেকে PDF
  • PDF থেকে HTML
  • EPUB থেকে PDF
  • TIFF থেকে PDF
  • PNG থেকে PDF
  • PDF থেকে PNG
  • টেক্সট থেকে PDF
  • SVG থেকে PDF
  • WEBP থেকে PDF
  • PDF থেকে EPUB
  • RTF থেকে PDF
  • ODT থেকে PDF
  • ODS থেকে PDF
  • PDF থেকে ODT
  • PDF থেকে ODS
  • PDF থেকে SVG
  • PDF থেকে RTF
  • PDF থেকে টেক্সট
  • ODP থেকে PDF
  • PDF থেকে ODP
  • ODG থেকে PDF
  • PDF ভিউয়ার
  • PDF/A কনভার্সন
  • PDF তৈরি করুন
  • ব্যাচ কনভার্ট
  • প্রতি শিটে পেজ সংখ্যা
  • পাসওয়ার্ড সুরক্ষা
  • PDF আনলক করুন
  • PDF রিড্যাক্ট করুন
  • PDF ই-সাইন করুন
  • PDF তুলনা করুন
  • টেবিল এক্সট্র্যাক্ট করুন
  • PDF to Excel
  • ব্যাংক স্টেটমেন্ট কনভার্টার
  • ইনভয়েস এক্সট্র্যাক্টর
  • রসিদ স্ক্যানার
  • ফাইন্যান্সিয়াল রিপোর্ট
  • OCR - টেক্সট এক্সট্র্যাক্ট করুন
  • হস্তাক্ষর কনভার্সন
  • PDF সারসংক্ষেপ করুন
  • PDF অনুবাদ করুন
  • PDF-এর সাথে চ্যাট করুন
  • ডেটা এক্সট্র্যাক্ট করুন
  • ডিজাইন স্টুডিও

প্রোডাক্ট

  • Privacy & Security
  • সব টুলস
  • বৈশিষ্ট্যসমূহ
  • ব্যাংক স্টেটমেন্ট
  • মূল্য নির্ধারণ
  • FAQ
  • ব্লগ

সহায়তা

  • হেল্প সেন্টার
  • যোগাযোগ
  • FAQ

আইনি

  • গোপনীয়তা নীতি
  • পরিষেবার শর্তাবলী
  • কুকি নীতি

© 2026 PDFSub. সর্বস্বত্ব সংরক্ষিত।

সারা বিশ্বের মানুষের জন্য দিয়ে আমেরিকায় তৈরি