PDFSub
মূল্য নির্ধারণMergeSplitCompressEditE-Signব্যাংক স্টেটমেন্ট
ব্লগে ফিরে যান
টিউটোরিয়ালএক্সট্র্যাক্টডেটাAIPDF টুলস

AI-এর মাধ্যমে PDF থেকে ডেটা এক্সট্র্যাক্ট করার নিয়ম

১৫ মার্চ, ২০২৬
PDFSub Team

চুক্তি, রিপোর্ট বা ফর্ম থেকে স্ট্রাকচার্ড ডেটা প্রয়োজন? জানুন কীভাবে AI এক্সট্র্যাকশন আনস্ট্রাকচার্ড PDF কন্টেন্টকে গোছানো এবং ব্যবহারযোগ্য ডেটাতে রূপান্তর করে।


PDF ডকুমেন্টগুলোকে ঠিক যেভাবে ডিজাইন করা হয়েছে সেভাবেই সংরক্ষণ করার জন্য চমৎকার। তবে এর ভেতরের ডেটা বের করে আনার ক্ষেত্রে এগুলো বেশ ঝামেলার। আপনি একটি টেবিল দেখতে পাচ্ছেন। আপনি তারিখ এবং টাকার পরিমাণের একটি তালিকা দেখতে পাচ্ছেন। আপনি চুক্তির শর্তাবলী এবং পক্ষের নামগুলো পড়তে পারছেন। কিন্তু সেই তথ্যগুলো PDF থেকে বের করে একটি স্প্রেডশিট, ডাটাবেস বা অ্যাপ্লিকেশনে নেওয়া? সেখানেই আসল সমস্যা শুরু হয়।

কপি-পেস্ট করলে টেক্সট এলোমেলো হয়ে যায়। টেবিল এক্সট্র্যাকশন টুলগুলো জটিল লেআউটে আটকে যায়। OCR অনেক সময় অক্ষর ভুল পড়ে। আর সবকিছু ম্যানুয়ালি টাইপ করা ধীরগতির, ভুল হওয়ার সম্ভাবনা থাকে এবং এটি অত্যন্ত বিরক্তিকর কাজ।

AI এক্সট্র্যাকশন পদ্ধতিটি আলাদা। পৃষ্ঠার কোথায় টেক্সট আছে তার ওপর নির্ভর করার পরিবর্তে, AI ডকুমেন্টটি একজন মানুষের মতো পড়ে — এটি কনটেক্সট বোঝে, সম্পর্ক শনাক্ত করে এবং স্ট্রাকচার্ড ডেটা আউটপুট দেয়। এই গাইডটি ব্যাখ্যা করবে এটি কীভাবে কাজ করে, কখন এটি সঠিক টুল এবং কীভাবে এটি ব্যবহার করতে হয়।

how to extract data from pdf hero

AI ডেটা এক্সট্র্যাকশন আসলে কী করে

প্রথাগত PDF এক্সট্র্যাকশন পজিশন বা অবস্থানের ওপর ভিত্তি করে কাজ করে: "স্থানাঙ্ক (১০০, ২০০) থেকে টেক্সট নাও এবং কলাম A-তে বসাও।" এটি সেইসব স্ট্যান্ডার্ড ডকুমেন্টের জন্য কাজ করে যেগুলোর লেআউট কখনও পরিবর্তন হয় না। কিন্তু ফরম্যাট পরিবর্তন হলেই এটি কাজ করা বন্ধ করে দেয় — যেমন ভিন্ন টেমপ্লেট, ভিন্ন পেজ সাইজ বা ভিন্ন ফন্ট।

AI এক্সট্র্যাকশন কাজ করে বোঝার মাধ্যমে। এটি টেক্সট পড়ে, ডকুমেন্টটি কী ধরণের তা শনাক্ত করে, গুরুত্বপূর্ণ ডেটা পয়েন্টগুলো খুঁজে বের করে এবং সেগুলো একটি স্ট্রাকচার্ড ফরম্যাটে আউটপুট দেয়। বাস্তবে এর পার্থক্য নিচে দেওয়া হলো:

প্রথাগত পদ্ধতি: ১. প্রতিটি ফিল্ডের জন্য সঠিক স্থানাঙ্কসহ একটি টেমপ্লেট তৈরি করা ২. সেই স্থানাঙ্ক থেকে টেক্সট এক্সট্র্যাক্ট করা ৩. আশা করা যে ডকুমেন্টটি টেমপ্লেটের সাথে মিলবে ৪. না মিললে ব্যর্থ হওয়া

AI পদ্ধতি: ১. ডকুমেন্ট আপলোড করা ২. AI সম্পূর্ণ কন্টেন্ট পড়ে ৩. AI পজিশনের পরিবর্তে কনটেক্সটের ওপর ভিত্তি করে ডেটা পয়েন্ট শনাক্ত করে ৪. স্ট্রাকচার্ড ডেটা (JSON, CSV, কি-ভ্যালু পেয়ার) আউটপুট দেয়

AI পদ্ধতিটি অনেক বেশি নমনীয় কারণ এটি হুবহু ফরম্যাটিংয়ের ওপর নির্ভর করে না। একটি চুক্তির তারিখ একটি ডকুমেন্টের ৩ নম্বর লাইনে থাকতে পারে এবং অন্যটিতে ১৫ নম্বর লাইনে — AI উভয় ক্ষেত্রেই এটি খুঁজে পাবে কারণ এটি বোঝে যে তারিখ কী এবং চুক্তিতে এর গুরুত্ব কী।


আপনি কী ধরণের ডেটা এক্সট্র্যাক্ট করতে পারেন

AI এক্সট্র্যাকশন শুধুমাত্র এক ধরণের ডেটার মধ্যে সীমাবদ্ধ নয়। বিভিন্ন ধরণের ডকুমেন্ট থেকে এটি যা যা সংগ্রহ করতে পারে:

কি-ভ্যালু পেয়ার (Key-Value Pairs)

সবচেয়ে সাধারণ এক্সট্র্যাকশন লক্ষ্য। নাম, তারিখ, ঠিকানা, পরিমাণ, রেফারেন্স নম্বর — লেবেল এবং ভ্যালু আছে এমন যেকোনো ফিল্ড।

  • চুক্তি: কার্যকর হওয়ার তারিখ, পক্ষসমূহ, মেয়াদের দৈর্ঘ্য, পেমেন্টের পরিমাণ
  • ইনভয়েস: ইনভয়েস নম্বর, তারিখ, বিক্রেতা, লাইন আইটেম, মোট পরিমাণ
  • রিসিট: মার্চেন্ট, তারিখ, আইটেম, ট্যাক্স, মোট পরিমাণ
  • ফর্ম: পূরণ করা সমস্ত ফিল্ড এবং তাদের লেবেল

টেবিল (Tables)

PDF থেকে টেবিল এক্সট্র্যাক্ট করা অত্যন্ত কঠিন কারণ আপনি যে ভিজ্যুয়াল গ্রিডটি দেখেন তা ফাইলের মূল স্ট্রাকচারে থাকে না। সারি এবং কলামগুলো কেবল টেক্সট যা টেবিলের মতো দেখানোর জন্য সাজানো থাকে। AI কনটেক্সট থেকে টেবিলের গঠন বোঝে এবং পরিষ্কার সারি ও কলাম এক্সট্র্যাক্ট করে।

তালিকা এবং এনামেরেশন (Lists and Enumerations)

বুলেট পয়েন্ট তালিকা, নম্বরযুক্ত আইটেম, নেস্টেড হায়ারার্কি — AI তালিকার গঠন শনাক্ত করতে পারে এবং হায়ারার্কি ও ক্রম বজায় রেখে স্ট্রাকচার্ড অ্যারে হিসেবে আউটপুট দিতে পারে।

সারাংশ এবং মূল পয়েন্ট (Summaries and Key Points)

শুধুমাত্র র ডেটা এক্সট্র্যাক্ট করার বাইরেও, AI সবচেয়ে গুরুত্বপূর্ণ তথ্যগুলো শনাক্ত এবং সংক্ষিপ্ত করতে পারে। একটি চুক্তি থেকে মূল শর্তাবলী, একটি রিসার্চ রিপোর্ট থেকে প্রধান ফলাফল, অথবা মিটিংয়ের কার্যবিবরণী থেকে অ্যাকশন আইটেমগুলো বের করে আনুন।

আর্থিক ডেটা (Financial Data)

রাজস্বের পরিসংখ্যান, ব্যয়ের বিবরণ, ত্রৈমাসিক তুলনা, বছরের পর বছর প্রবৃদ্ধি — AI রিপোর্টে আর্থিক ডেটা শনাক্ত করতে পারে এবং বিশ্লেষণের জন্য স্ট্রাকচার্ড ফরম্যাটে সাজাতে পারে।


PDFSub দিয়ে কীভাবে ডেটা এক্সট্র্যাক্ট করবেন

PDFSub বেশ কয়েকটি AI এক্সট্র্যাকশন টুল অফার করে, যার প্রতিটি ভিন্ন ভিন্ন ডকুমেন্টের জন্য অপ্টিমাইজ করা। এই সবকটিই AI ক্রেডিট ব্যবহার করে (যা আপনার প্ল্যানের সাথে অন্তর্ভুক্ত), এবং প্রক্রিয়াটি খুবই সহজ।

সাধারণ ডেটা এক্সট্র্যাকশন (General Data Extraction)

যেসব ডকুমেন্ট নির্দিষ্ট কোনো ক্যাটাগরিতে পড়ে না — যেমন চুক্তি, রিপোর্ট, চিঠিপত্র, ফর্ম বা স্ট্রাকচার্ড তথ্যসহ যেকোনো PDF।

ধাপ ১: PDFSub-এর Extract Data টুলে যান।

ধাপ ২: আপনার PDF আপলোড করুন বা ড্র্যাগ অ্যান্ড ড্রপ করুন। PDFSub প্রথমে সরাসরি PDF থেকে টেক্সট এক্সট্র্যাক্ট করার চেষ্টা করে (ডিজিটাল ডকুমেন্টের জন্য)। যদি টেক্সটের মান ভালো হয়, তবে এটি টেক্সটটি AI-এর কাছে পাঠায়। যদি PDF-টি স্ক্যান করা বা ইমেজ-ভিত্তিক হয়, তবে এটি ভিশন-ভিত্তিক বিশ্লেষণের জন্য সম্পূর্ণ PDF পাঠায়।

ধাপ ৩: এক্সট্র্যাক্ট করা ডেটা যাচাই করুন। AI স্ট্রাকচার্ড কি-ভ্যালু পেয়ার এবং খুঁজে পাওয়া টেবিলগুলো আউটপুট দেয়। আপনি ফলাফলগুলো কপি করতে পারেন, JSON হিসেবে ডাউনলোড করতে পারেন অথবা আপনার কাজের উপযোগী ফরম্যাটে এক্সপোর্ট করতে পারেন।

ইনভয়েস এক্সট্র্যাক্টর (Invoice Extractor)

ইনভয়েস এবং বিলিং ডকুমেন্টের জন্য অপ্টিমাইজ করা। এটি স্বয়ংক্রিয়ভাবে শনাক্ত করে:

  • ইনভয়েস নম্বর এবং তারিখ
  • বিক্রেতা/সরবরাহকারীর তথ্য
  • ক্লায়েন্ট/বিলিং তথ্য
  • লাইন আইটেম (বিবরণ, পরিমাণ, ইউনিট মূল্য, মোট)
  • ট্যাক্সের পরিমাণ এবং মোট যোগফল
  • পেমেন্টের শর্তাবলী এবং শেষ তারিখ

এটি ব্যবহার করতে PDFSub-এর Invoice Extractor-এ যান। AI ইনভয়েস-নির্দিষ্ট প্যাটার্ন শনাক্ত করার জন্য টিউন করা হয়েছে, তাই এটি সাধারণ এক্সট্র্যাকশন টুলের চেয়ে ইনভয়েসের ক্ষেত্রে দ্রুত এবং নির্ভুল।

টেবিল এক্সট্র্যাক্টর (Table Extractor)

একচেটিয়াভাবে PDF থেকে টেবিল খুঁজে বের করা এবং এক্সট্র্যাক্ট করার জন্য তৈরি। যদি আপনার ডকুমেন্টে টেবুলার ডেটা থাকে — যেমন আর্থিক টেবিল, তুলনামূলক চার্ট, ডেটা গ্রিড, শিডিউল — এই টুলটি সেগুলো পরিষ্কার, স্ট্রাকচার্ড ডেটা হিসেবে বের করে আনে।

PDFSub-এর Table Extractor-এ যান। টুলটি প্রথমে স্থানাঙ্ক-ভিত্তিক টেবিল ডিটেকশন চেষ্টা করে (যাতে কোনো AI ক্রেডিট লাগে না)। যদি তাতে ভালো ফলাফল না পাওয়া যায়, তবে আপনি জটিল বা অনিয়মিত টেবিলের জন্য AI এক্সট্র্যাকশন চালু করতে পারেন।

রিসিট স্ক্যানার (Receipt Scanner)

রিসিট বা রসিদের জন্য ডিজাইন করা — সেইসব কুঁচকানো, অস্পষ্টভাবে প্রিন্ট করা কাগজের টুকরো যা খরচ রিপোর্টের জন্য অত্যন্ত গুরুত্বপূর্ণ। AI যা যা হ্যান্ডেল করে:

  • মার্চেন্টের নাম এবং অবস্থান
  • তারিখ এবং সময়
  • প্রতিটি আইটেম এবং মূল্য
  • ট্যাক্সের বিবরণ
  • মোট পরিমাণ এবং পেমেন্ট মেথড

PDFSub-এর Receipt Scanner-এ যান। এটি ডিজিটাল রিসিট (PDF) এবং স্ক্যান করা বা ছবি তোলা রিসিট উভয়ের ক্ষেত্রেই কাজ করে।


AI এক্সট্র্যাকশন বনাম অন্যান্য পদ্ধতি

প্রথাগত পদ্ধতির তুলনায় AI এক্সট্র্যাকশন কেমন?

কপি-পেস্ট

সবচেয়ে সহজ পদ্ধতি — এবং সবচেয়ে কম নির্ভরযোগ্য। একটি PDF ভিউয়ারে টেক্সট সিলেক্ট করুন, কপি করুন এবং স্প্রেডশিটে পেস্ট করুন। সমস্যা: টেবিলগুলো তাদের গঠন হারায়, মাল্টি-কলাম লেআউট এলোমেলো হয়ে যায়, হেডার এবং ফুটার মূল টেক্সটের সাথে মিশে যায় এবং স্পেশাল ক্যারেক্টারগুলো প্রায়ই নষ্ট হয়ে যায়।

সিদ্ধান্ত: একটি একক বাক্য নেওয়ার জন্য ঠিক আছে। স্ট্রাকচার্ড ডেটার জন্য অকেজো।

রুল-বেসড (টেমপ্লেট) এক্সট্র্যাকশন

প্রতিটি ফিল্ডের জন্য সঠিক স্থানাঙ্ক নির্ধারণ করা: "ইনভয়েস নম্বরটি X, Y অবস্থানে আছে।" যেসব ডকুমেন্ট সবসময় একই টেমপ্লেট ব্যবহার করে সেগুলোর জন্য এটি নিখুঁতভাবে কাজ করে। টেমপ্লেট পরিবর্তন হলে এটি পুরোপুরি কাজ করা বন্ধ করে দেয়। প্রতিটি ডকুমেন্টের জন্য আগে থেকে কনফিগারেশন প্রয়োজন।

সিদ্ধান্ত: উচ্চ-ভলিউম, স্ট্যান্ডার্ডাইজড ডকুমেন্টের জন্য চমৎকার (যেমন একই বিক্রেতার ১০,০০০ ইনভয়েস প্রসেস করা)। বিভিন্ন ধরণের ডকুমেন্টের জন্য এটি ব্যবহারিক নয়।

OCR (Optical Character Recognition)

ইমেজ টেক্সটকে আসল টেক্সটে রূপান্তর করে। স্ক্যান করা ডকুমেন্টের জন্য এটি অপরিহার্য। কিন্তু OCR আপনাকে কেবল র টেক্সট দেয় — এটি ডেটা বোঝে না। আপনাকে নিজেকেই আউটপুটটি পার্স এবং স্ট্রাকচার করতে হবে। এবং OCR-এর ভুলগুলো ("O" কে "0", "l" কে "1" মনে করা) ম্যানুয়ালি যাচাই করতে হয়।

সিদ্ধান্ত: স্ক্যান করা ডকুমেন্টের জন্য একটি প্রয়োজনীয় ধাপ, কিন্তু এটি নিজে কোনো সম্পূর্ণ এক্সট্র্যাকশন সমাধান নয়।

AI এক্সট্র্যাকশন

কনটেক্সট বুঝে ডকুমেন্টটি পড়ে। বিভিন্ন ফরম্যাট হ্যান্ডেল করে, ডেটা সম্পর্ক শনাক্ত করে এবং স্ট্রাকচার্ড ফলাফল আউটপুট দেয়। ডিজিটাল এবং স্ক্যান করা PDF উভয় ক্ষেত্রেই কাজ করে। এর সীমাবদ্ধতা: এটি AI প্রসেসিং (ক্রেডিট) ব্যবহার করে, তাই এটি সাধারণ টেক্সট এক্সট্র্যাকশনের চেয়ে প্রতি ডকুমেন্টে কিছুটা বেশি খরচ করে।

সিদ্ধান্ত: বিভিন্ন ধরণের ডকুমেন্ট, জটিল লেআউট এবং যখন ম্যানুয়াল কনফিগারেশন ছাড়াই স্ট্রাকচার্ড আউটপুট প্রয়োজন হয়, তখন এটি সেরা।

পদ্ধতি বিভিন্ন ফরম্যাট হ্যান্ডেল করে স্ট্রাকচার্ড আউটপুট নির্ভুলতা প্রতি ডকুমেন্টে খরচ
কপি-পেস্ট না না কম ফ্রি
টেমপ্লেট-ভিত্তিক না হ্যাঁ উচ্চ (ম্যাচ করলে) কম
শুধুমাত্র OCR শুধু স্ক্যান করা না মাঝারি কম
AI এক্সট্র্যাকশন হ্যাঁ হ্যাঁ উচ্চ মাঝারি

AI এক্সট্র্যাকশন থেকে সেরা ফলাফল পাওয়ার উপায়

সম্ভব হলে ডিজিটাল PDF ব্যবহার করুন

ডিজিটাল PDF (Word, InDesign বা অন্যান্য সফটওয়্যার থেকে তৈরি) আসল টেক্সট ডেটা ধারণ করে। AI সরাসরি এই টেক্সট পড়তে পারে, যা স্ক্যান করা ইমেজ প্রসেস করার চেয়ে দ্রুত, সাশ্রয়ী এবং বেশি নির্ভুল। যদি আপনার কাছে ডিজিটাল PDF এবং স্ক্যান করা কপির মধ্যে বেছে নেওয়ার সুযোগ থাকে, তবে সবসময় ডিজিটাল ভার্সনটি ব্যবহার করুন।

প্রতি এক্সট্র্যাকশনে এক ধরণের ডকুমেন্ট

যদি আপনার এমন একটি PDF থাকে যাতে একাধিক ধরণের ডকুমেন্ট আছে (যেমন একটি চুক্তির সাথে পিন করা একটি ইনভয়েস), তবে ফাইলটি আগে স্প্লিট বা আলাদা করে নেওয়া এবং প্রতিটি অংশ থেকে আলাদাভাবে এক্সট্র্যাক্ট করার কথা বিবেচনা করুন। AI যখন একবারে এক ধরণের ডকুমেন্টে ফোকাস করতে পারে তখন এটি আরও ভালো কাজ করে।

ফলাফল যাচাই করুন

AI এক্সট্র্যাকশন অত্যন্ত নির্ভুল, কিন্তু নিখুঁত নয়। এক্সট্র্যাক্ট করা ডেটা সবসময় যাচাই করুন, বিশেষ করে:

  • সংখ্যা এবং পরিমাণ — ডলার সাইন, দশমিক বিন্দু এবং কমা সঠিক কিনা তা যাচাই করুন।
  • তারিখ — ফরম্যাটটি আপনার প্রত্যাশা অনুযায়ী আছে কিনা তা নিশ্চিত করুন (এটি কি ১লা মার্চ নাকি ৩রা জানুয়ারি?)।
  • নাম এবং ঠিকানা — কোনো ক্যারেক্টার রিকগনিশন ভুল আছে কিনা তা পরীক্ষা করুন।

সঠিক টুল ব্যবহার করুন

নির্দিষ্ট ধরণের ডকুমেন্টের জন্য PDFSub-এর বিশেষায়িত এক্সট্র্যাকশন টুল রয়েছে। ইনভয়েসের ক্ষেত্রে Invoice Extractor সাধারণ Extract Data টুলের চেয়ে ভালো কাজ করবে কারণ এটি সেই নির্দিষ্ট ফরম্যাটের জন্য অপ্টিমাইজ করা হয়েছে। একইভাবে, Receipt Scanner রিসিটের জন্য এবং Table Extractor টেবুলার ডেটার জন্য টিউন করা হয়েছে। আপনার ডকুমেন্টের জন্য সবচেয়ে নির্দিষ্ট টুলটি ব্যবহার করুন।


AI ক্রেডিট বোঝা

AI এক্সট্র্যাকশন প্রসেসিং ক্রেডিট ব্যবহার করে কারণ এতে আপনার ডকুমেন্টের ওপর AI মডেল চালানো হয়। আপনার যা জানা উচিত:

  • টেক্সট-ভিত্তিক এক্সট্র্যাকশন সাশ্রয়ী। যখন PDFSub সরাসরি PDF থেকে ভালো টেক্সট এক্সট্র্যাক্ট করতে পারে, তখন এটি সেই টেক্সট AI-এর কাছে পাঠায়। এটি সম্পূর্ণ PDF ইমেজ হিসেবে পাঠানোর চেয়ে কম ক্রেডিট ব্যবহার করে।
  • ইমেজ-ভিত্তিক এক্সট্র্যাকশনে খরচ বেশি। স্ক্যান করা PDF এবং জটিল ভিজ্যুয়াল লেআউটসহ ডকুমেন্টগুলো ইমেজ হিসেবে AI-এর কাছে পাঠানো হয়, যার জন্য বেশি প্রসেসিং পাওয়ার এবং ক্রেডিট প্রয়োজন।
  • ক্রেডিট আপনার প্ল্যানের সাথেই থাকে। PDFSub প্ল্যানগুলোতে AI ক্রেডিট অন্তর্ভুক্ত থাকে। সঠিক সংখ্যাটি আপনার সাবস্ক্রিপশন টায়ারের ওপর নির্ভর করে। আপনি আপনার ড্যাশবোর্ডে অবশিষ্ট ক্রেডিট দেখতে পারেন।
  • AI ছাড়াও বিকল্প আছে। কিছু এক্সট্র্যাকশন কাজের জন্য AI-এর প্রয়োজন হয় না। যেমন, Table Extractor-এর কোঅর্ডিনেট-ভিত্তিক মোড কোনো ক্রেডিট ব্যবহার করে না। বেসিক টেক্সট এক্সট্র্যাকশন সবসময় ফ্রি।

সচরাচর জিজ্ঞাস্য (FAQ)

AI ডেটা এক্সট্র্যাকশন কতটা নির্ভুল?

পরিষ্কার ফরম্যাটিং সহ ডিজিটাল PDF-এর ক্ষেত্রে, তারিখ, পরিমাণ এবং নামের মতো মূল ফিল্ডগুলোর নির্ভুলতা সাধারণত ৯৫-৯৯% হয়। স্ক্যান করা ডকুমেন্টের ক্ষেত্রে OCR চ্যালেঞ্জের কারণে এটি কিছুটা কম — সাধারণত ৮৫-৯৫%, যা স্ক্যানের মানের ওপর নির্ভর করে। ওভারল্যাপিং এলিমেন্ট বা অস্বাভাবিক ফন্টসহ জটিল লেআউট নির্ভুলতা আরও কমিয়ে দিতে পারে।

আমি কি পাসওয়ার্ড-সুরক্ষিত PDF থেকে ডেটা এক্সট্র্যাক্ট করতে পারি?

আপনাকে প্রথমে PDF-টি আনলক করার জন্য পাসওয়ার্ড দিতে হবে। PDFSub-এর একটি PDF আনলক টুল আছে যা পাসওয়ার্ড সুরক্ষা সরিয়ে দিতে পারে (যদি আপনি পাসওয়ার্ডটি জানেন)। একবার আনলক হয়ে গেলে, এক্সট্র্যাকশন স্বাভাবিকভাবে কাজ করে।

AI এক্সট্র্যাকশন কি হাতে লেখা ডকুমেন্টে কাজ করে?

হাতে লেখা টেক্সটের ক্ষেত্রে নির্ভুলতা উল্লেখযোগ্যভাবে কমে যায়। AI পরিষ্কার হাতের লেখা মোটামুটি ভালোভাবে বুঝতে পারে, কিন্তু অগোছালো হাতের লেখা, মেডিকেল নোট বা পেঁচানো লেখা থেকে নির্ভরযোগ্য ফলাফল পাওয়া কঠিন। প্রিন্ট করা টেক্সট — এমনকি নিম্নমানের স্ক্যানেও — অনেক বেশি নির্ভরযোগ্য।

এক্সট্র্যাক্ট করা ডেটার জন্য কী কী আউটপুট ফরম্যাট পাওয়া যায়?

PDFSub এক্সট্র্যাক্ট করা ডেটা স্ট্রাকচার্ড JSON হিসেবে আউটপুট দেয় এবং ফরম্যাটেড টেক্সট ভিউ প্রদান করে। আপনি সরাসরি ডেটা কপি করতে পারেন, ডাউনলোড করতে পারেন অথবা আপনার পরবর্তী কাজের জন্য ব্যবহার করতে পারেন। বিশেষ করে টেবিল এক্সট্র্যাকশনের জন্য, আপনি CSV বা Excel-এ এক্সপোর্ট করতে পারেন।

এটি PDFSub-এর Chat with PDF টুল থেকে কীভাবে আলাদা?

Chat with PDF টুল আপনাকে সাধারণ ভাষায় ডকুমেন্ট সম্পর্কে প্রশ্ন করতে দেয় — যেমন "পেমেন্টের শর্ত কী?" বা "৩ নম্বর সেকশনটি সংক্ষেপে বলো।" ডেটা এক্সট্র্যাকশন আরও সুশৃঙ্খল — এটি ডকুমেন্ট থেকে একবারে সমস্ত স্ট্রাকচার্ড ডেটা বের করে আনে এবং সবকিছু একটি গোছানো ফরম্যাটে আউটপুট দেয়। নির্দিষ্ট প্রশ্নের জন্য Chat ব্যবহার করুন, আর যখন আপনার ব্যাপক স্ট্রাকচার্ড আউটপুট প্রয়োজন তখন Data Extraction ব্যবহার করুন।


AI এক্সট্র্যাকশন PDF-এর ভেতরে আটকে থাকা ডেটাকে এমন কিছুতে রূপান্তর করে যা আপনি আসলে ব্যবহার করতে পারেন। কপি-পেস্ট করা, ম্যানুয়ালি স্প্রেডশিট তৈরি করা বা প্রতিটি ডকুমেন্ট ফরম্যাটের জন্য টেমপ্লেট কনফিগার করার পরিবর্তে, আপনি ফাইলটি আপলোড করেন এবং স্ট্রাকচার্ড ডেটা ফেরত পান। এটি চুক্তি, ইনভয়েস, রিসিট, রিপোর্ট, ফর্ম এবং এক্সট্র্যাক্ট করার মতো ডেটা আছে এমন প্রায় যেকোনো ডকুমেন্টে কাজ করে।

চেষ্টা করে দেখুন pdfsub.com/tools/extract-data-এ।

ব্লগে ফিরে যান

কোনো প্রশ্ন আছে? আমাদের সাথে যোগাযোগ করুন

PDFSub

আপনার প্রয়োজনীয় সব PDF এবং ডকুমেন্ট টুলস এক জায়গায়। দ্রুত, নিরাপদ এবং ব্যক্তিগত।

GDPR কমপ্লায়েন্টCCPA কমপ্লায়েন্টSOC 2 Ready
Powered by PDFSub Engine

PDF টুলস

  • PDF মার্জ করুন
  • PDF স্প্লিট করুন
  • পেজ রিঅর্ডার করুন
  • PDF রোটেট করুন
  • পেজ ডিলিট করুন
  • পেজ এক্সট্র্যাক্ট করুন
  • ওয়াটারমার্ক যোগ করুন
  • PDF এডিট করুন
  • PDF স্ট্যাম্প করুন
  • PDF ফর্ম ফিলার
  • পেজ ক্রপ করুন
  • পেজ সাইজ পরিবর্তন করুন
  • পেজ নম্বর যোগ করুন
  • হেডার এবং ফুটার
  • PDF কম্প্রেস করুন
  • সার্চযোগ্য করুন
  • Clean Scanned PDF
  • Photo to Document
  • Auto-Crop PDF
  • PDF রিপেয়ার করুন
  • মেটাডেটা এডিট করুন
  • মেটাডেটা রিমুভ করুন
  • PDF থেকে Word
  • Word থেকে PDF
  • Excel থেকে PDF
  • PDF থেকে PowerPoint
  • PDF থেকে ইমেজ
  • ইমেজ থেকে PDF
  • HTML থেকে PDF
  • HEIC থেকে ইমেজ
  • WEBP থেকে JPG
  • WEBP থেকে PNG
  • PowerPoint থেকে PDF
  • PDF থেকে HTML
  • EPUB থেকে PDF
  • TIFF থেকে PDF
  • PNG থেকে PDF
  • PDF থেকে PNG
  • টেক্সট থেকে PDF
  • SVG থেকে PDF
  • WEBP থেকে PDF
  • PDF থেকে EPUB
  • RTF থেকে PDF
  • ODT থেকে PDF
  • ODS থেকে PDF
  • PDF থেকে ODT
  • PDF থেকে ODS
  • PDF থেকে SVG
  • PDF থেকে RTF
  • PDF থেকে টেক্সট
  • ODP থেকে PDF
  • PDF থেকে ODP
  • ODG থেকে PDF
  • PDF ভিউয়ার
  • PDF/A কনভার্সন
  • PDF তৈরি করুন
  • ব্যাচ কনভার্ট
  • প্রতি শিটে পেজ সংখ্যা
  • পাসওয়ার্ড সুরক্ষা
  • PDF আনলক করুন
  • PDF রিড্যাক্ট করুন
  • PDF ই-সাইন করুন
  • PDF তুলনা করুন
  • টেবিল এক্সট্র্যাক্ট করুন
  • PDF to Excel
  • ব্যাংক স্টেটমেন্ট কনভার্টার
  • ইনভয়েস এক্সট্র্যাক্টর
  • রসিদ স্ক্যানার
  • ফাইন্যান্সিয়াল রিপোর্ট
  • OCR - টেক্সট এক্সট্র্যাক্ট করুন
  • হস্তাক্ষর কনভার্সন
  • PDF সারসংক্ষেপ করুন
  • PDF অনুবাদ করুন
  • PDF-এর সাথে চ্যাট করুন
  • ডেটা এক্সট্র্যাক্ট করুন
  • ডিজাইন স্টুডিও

প্রোডাক্ট

  • Privacy & Security
  • সব টুলস
  • বৈশিষ্ট্যসমূহ
  • ব্যাংক স্টেটমেন্ট
  • মূল্য নির্ধারণ
  • FAQ
  • ব্লগ

সহায়তা

  • হেল্প সেন্টার
  • যোগাযোগ
  • FAQ

আইনি

  • গোপনীয়তা নীতি
  • পরিষেবার শর্তাবলী
  • কুকি নীতি

© 2026 PDFSub. সর্বস্বত্ব সংরক্ষিত।

সারা বিশ্বের মানুষের জন্য দিয়ে আমেরিকায় তৈরি