How to Extract Tables from PDF to Excel: 5 Methods Compared

आपके पास एक पीडीएफ है जिसमें एक टेबल है जिसकी आपको एक्सेल में आवश्यकता है। यह एक वित्तीय रिपोर्ट, बैंक स्टेटमेंट, चालान या शोध पत्र हो सकता है। डेटा वहीं है - स्क्रीन पर पंक्तियों और कॉलमों में बड़े करीने से व्यवस्थित। लेकिन जब आप इसे बाहर निकालने की कोशिश करते हैं, तो सब कुछ बिखर जाता है।

ऐसा इसलिए होता है क्योंकि पीडीएफ एक डेटा प्रारूप नहीं है। यह एक प्रदर्शन प्रारूप है। पीडीएफ विनिर्देश में "टेबल", "पंक्ति" या "कॉलम" की कोई अवधारणा नहीं है। जो एक संरचित टेबल जैसा दिखता है वह वास्तव में विशिष्ट x,y निर्देशांक पर एक कैनवास पर रखे गए दर्जनों टेक्स्ट टुकड़ों का एक समूह है। उस संरचना को वापस स्प्रेडशीट में निकालना एक रिवर्स-इंजीनियरिंग समस्या है - और विभिन्न उपकरण इसे विभिन्न डिग्री की सफलता के साथ संभालते हैं।

यह गाइड पीडीएफ से टेबल निकालने के 5 तरीकों, प्रत्येक कब सबसे अच्छा काम करता है, और जब चीजें गलत हो जाती हैं तो क्या करना है, इसे कवर करता है।

पीडीएफ से टेबल निकालना कठिन क्यों है

5 Methods for Extracting PDF Tables to Excel - Accuracy Comparison

पीडीएफ प्रारूप में कोई टेबल नहीं होती है

पीडीएफ विनिर्देश (ISO 32000-2:2020) एक कंटेंट स्ट्रीम को परिभाषित करता है - ऑपरेटरों का एक क्रम जो सटीक निर्देशांक पर अलग-अलग वर्णों को स्थित करता है। "दिनांक | विवरण | राशि" जैसी एक साधारण टेबल पंक्ति इस तरह संग्रहीत की जा सकती है:

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Office Supplies) Tj 180 0 Td (125.00) Tj ET

कोई <table>, <tr>, या <td> टैग नहीं हैं। कोई पंक्ति पहचानकर्ता नहीं। कोई कॉलम सीमा नहीं। आप जिन सेल के चारों ओर दृश्य रेखाएँ देखते हैं, वे अलग-अलग ड्राइंग ऑपरेशन हैं जो टेक्स्ट से पूरी तरह से डिस्कनेक्ट हैं। एक एक्सट्रैक्शन टूल को स्थानिक संबंधों से पूरी संरचना का अनुमान लगाना चाहिए।

तीन प्रकार की टेबल बॉर्डर

बॉर्डर वाली (जाली) टेबल में हर सेल के चारों ओर स्पष्ट रेखाएँ होती हैं। इन्हें निकालना सबसे आसान है क्योंकि रेखाएँ स्पष्ट रूप से सेल की सीमाएँ परिभाषित करती हैं। औपचारिक वित्तीय विवरणों, सरकारी फॉर्मों और मानकीकृत रिपोर्टों में आम।

बिना बॉर्डर वाली (स्ट्रीम) टेबल में कोई रेखा नहीं होती है। संरचना पूरी तरह से व्हाइटस्पेस संरेखण द्वारा परिभाषित की जाती है - पंक्तियों में सुसंगत x-निर्देशांक साझा करने वाले टेक्स्ट आइटम निहित कॉलम बनाते हैं। शोध पत्रों, चालानों और उत्पाद कैटलॉग में आम।

अर्ध-बॉर्डर वाली टेबल में केवल आंशिक बॉर्डर होते हैं - आम तौर पर अनुभागों के बीच क्षैतिज नियम लेकिन कोई ऊर्ध्वाधर विभाजक नहीं। बैंक स्टेटमेंट, ब्रोकरेज रिपोर्ट और उपयोगिता बिलों में अत्यंत आम। इन्हें निकालना सबसे कठिन है क्योंकि आंशिक बॉर्डर जाली-मोड पार्सर को गुमराह करते हैं जबकि गायब बॉर्डर स्ट्रीम-मोड आत्मविश्वास को कम करते हैं।

टैग की गई बनाम बिना टैग वाली पीडीएफ

टैग की गई पीडीएफ में संरचनात्मक मेटाडेटा शामिल होता है जो हेडिंग, पैराग्राफ और टेबल सेल की पहचान करता है। बिना टैग वाली पीडीएफ में इनमें से कोई भी नहीं होता है - एक्सट्रैक्शन टूल को केवल रॉ निर्देशांक मिलते हैं। अधिकांश पीडीएफ बिना टैग वाली होती हैं, जिसमें लगभग सभी बैंक स्टेटमेंट, चालान और वित्तीय रिपोर्ट शामिल हैं।

विधि 1: PDFSub टेबल निकालें (मुफ़्त + AI फ़ॉलबैक)

PDFSub के टेबल निकालें टूल में सटीकता को अधिकतम करते हुए लागत को कम करने के लिए तीन-स्तरीय दृष्टिकोण का उपयोग किया जाता है:

टियर 1: निर्देशांक-आधारित पहचान (ब्राउज़र, मुफ़्त)

टूल पहले पूरी तरह से आपके ब्राउज़र में एक्सट्रैक्शन का प्रयास करता है:

प्रत्येक टेक्स्ट आइटम को उसके x,y निर्देशांक के साथ निकालने के लिए पीडीएफ कंटेंट स्ट्रीम को पार्स करता है
y-निर्देशांक निकटता के आधार पर टेक्स्ट आइटम को पंक्तियों में समूहित करता है
कॉलम सीमाओं का पता लगाने के लिए पंक्तियों में x-निर्देशांक संरेखण पैटर्न का विश्लेषण करता है
न्यूनतम 3 पंक्तियों, 2 कॉलम और 70%+ आत्मविश्वास की आवश्यकता है

यदि अच्छी टेबल मिल जाती हैं, तो आपको तुरंत संरचित डेटा मिल जाता है - कोई सर्वर अपलोड नहीं, कोई AI क्रेडिट खपत नहीं, और आपकी फ़ाइल कभी भी आपके डिवाइस को नहीं छोड़ती।

टियर 2: सर्वर-साइड एक्सट्रैक्शन (pdfplumber, मुफ़्त)

यदि निर्देशांक-आधारित पहचान से कोई टेबल नहीं मिलती है, तो टूल सर्वर पर pdfplumber (MIT लाइसेंस) का उपयोग करता है। यह स्पष्ट रेखाओं (खींची गई बॉर्डर) और निहित रेखाओं (शब्द संरेखण पैटर्न) दोनों का पता लगाता है, प्रतिच्छेदन पाता है, आयतों की पहचान करता है, और टेक्स्ट को सेल में मैप करता है।

टियर 3: AI एक्सट्रैक्शन (क्रेडिट का उपयोग करता है)

स्कैन की गई पीडीएफ, जटिल लेआउट, या उन टेबलों के लिए जिन्हें नियम-आधारित विधियाँ पार्स नहीं कर सकती हैं, टूल AI-संचालित विज़न एक्सट्रैक्शन पर वापस आ जाता है। आप "AI एक्सट्रैक्शन को बाध्य करें" को टॉगल भी कर सकते हैं ताकि जब आप जानते हों कि टेबल जटिल है तो सीधे इस टियर पर जा सकें।

आउटपुट प्रारूप: एक्सेल (.xlsx), CSV, JSON।

इसके लिए सर्वश्रेष्ठ: सॉफ़्टवेयर इंस्टॉल किए बिना त्वरित एक्सट्रैक्शन। डिजिटल पीडीएफ को अधिकतम गोपनीयता के लिए पूरी तरह से आपके ब्राउज़र में संसाधित किया जाता है।

विधि 2: एक्सेल में पावर क्वेरी (केवल विंडोज)

एक्सेल 2019+ और विंडोज पर Microsoft 365 में उपलब्ध: डेटा → डेटा प्राप्त करें → फ़ाइल से → पीडीएफ से।

यह कैसे काम करता है

डेटा → डेटा प्राप्त करें → फ़ाइल से → पीडीएफ से पर क्लिक करें
अपनी पीडीएफ फ़ाइल चुनें
पावर क्वेरी एक नेविगेटर पैनल प्रदर्शित करता है जिसमें प्रति पृष्ठ पहचानी गई टेबल सूचीबद्ध होती हैं
आप जिन टेबलों को चाहते हैं उन्हें चुनें, साफ करने के लिए डेटा ट्रांसफ़ॉर्म करें पर क्लिक करें, फिर लोड करें

ताकतें

एक्सेल में निर्मित - Microsoft 365 ग्राहकों के लिए कोई अतिरिक्त लागत नहीं
पावर क्वेरी का ट्रांसफ़ॉर्मेशन इंजन पोस्ट-प्रोसेसिंग को अच्छी तरह से संभालता है (नीचे भरें, पिवट करें, कॉलम मर्ज करें)
यदि स्रोत पीडीएफ अपडेट किया गया है तो डेटा को रीफ़्रेश कर सकता है
एक ही पीडीएफ से कई टेबल कनेक्ट करने का समर्थन करता है

सीमाएं

केवल विंडोज - मैक, एक्सेल ऑनलाइन या मोबाइल के लिए एक्सेल में उपलब्ध नहीं है
बिना बॉर्डर वाली टेबलों के साथ संघर्ष करता है - स्पष्ट बॉर्डर वाली टेबलों के साथ सबसे अच्छा काम करता है
कोई OCR नहीं - स्कैन की गई/छवि पीडीएफ से निकाल नहीं सकता
बहु-पृष्ठ टेबल समस्याग्रस्त हैं - प्रत्येक पृष्ठ अक्सर एक अलग टेबल के रूप में आयात होता है, जिसके लिए मैन्युअल सिलाई की आवश्यकता होती है
बहु-पंक्ति पंक्तियाँ - सेल के भीतर लिपटे टेक्स्ट अक्सर कई पंक्तियों में विभाजित हो जाते हैं, जिसके लिए सफाई की आवश्यकता होती है

इसके लिए सर्वश्रेष्ठ: Microsoft 365 वाले विंडोज उपयोगकर्ता जिनके पास सरल, बॉर्डर वाली टेबल हैं।

विधि 3: एडोब एक्रोबेट (भुगतान)

फ़ाइल → पीडीएफ निर्यात करें → स्प्रेडशीट → माइक्रोसॉफ्ट एक्सेल वर्कबुक

मूल्य निर्धारण (2026)

एक्रोबेट स्टैंडर्ड: $12.99/माह (वार्षिक योजना)
एक्रोबेट प्रो: $19.99/माह (वार्षिक योजना)
पीडीएफ निर्यात करें (स्टैंडअलोन): निम्न-स्तरीय केवल रूपांतरण योजना

ताकतें

स्कैन किए गए दस्तावेज़ों के लिए अंतर्निहित OCR
आम तौर पर सरल बॉर्डर वाली टेबलों के लिए स्वरूपण बनाए रखता है
प्रो में बैच प्रोसेसिंग उपलब्ध है

सीमाएं

केवल टेबल एक्सट्रैक्शन के लिए महंगा - $156–$240/वर्ष
मर्ज किए गए सेल और बहु-पृष्ठ स्पैन वाली जटिल टेबल अभी भी गलत संरेखित आउटपुट उत्पन्न करती हैं
संवेदनशील वित्तीय डेटा के लिए समस्याग्रस्त - प्रोसेसिंग के लिए फाइलें एडोब के क्लाउड पर अपलोड की जा सकती हैं
डेस्कटॉप इंस्टॉलेशन की आवश्यकता है

इसके लिए सर्वश्रेष्ठ: जो उपयोगकर्ता पहले से ही एक्रोबेट प्रो के लिए भुगतान करते हैं और OCR के साथ कभी-कभी टेबल एक्सपोर्ट की आवश्यकता होती है।

विधि 4: कॉपी-पेस्ट (मैन्युअल)

सबसे सहज तरीका - और वह जो अक्सर टेबलों के लिए विफल रहता है।

सामान्य समस्याएं

सभी डेटा एक कॉलम में - पूरी टेबल बिना कॉलम ब्रेक के पेस्ट हो जाती है
संख्याएँ टेक्स्ट बन जाती हैं - मुद्रा प्रतीक, कोष्ठक और विभाजक संख्यात्मक स्वरूपण को तोड़ते हैं
सेल सामग्री की बहु-पंक्ति पंक्तियाँ भूतिया पंक्तियाँ बनाती हैं - एक विवरण जो सेल के भीतर दो पंक्तियों में लिपटता है, दो अलग-अलग पंक्तियों में बदल जाता है
हेडर डेटा से अलग हो जाते हैं - हेडर पंक्ति डिस्कनेक्ट हो जाती है
कॉलम गलत संरेखित होते हैं - डेटा शिफ्ट हो जाता है क्योंकि कैरेक्टर स्पेसिंग टैब में अनुवादित नहीं होती है

आंशिक समाधान

एक्सेल में पेस्ट करें, फिर स्पेस या निश्चित-चौड़ाई सीमांकक के साथ डेटा → टेक्स्ट से कॉलम का उपयोग करें। "लगातार सीमांकक को एक मानें" सक्षम करें। यह बहुत सरल, अच्छी तरह से स्पेस वाली टेबलों के लिए काम करता है लेकिन बहु-शब्द सेल सामग्री वाली किसी भी चीज़ के लिए विफल रहता है।

इसके लिए सर्वश्रेष्ठ: अंतिम उपाय के रूप में एक छोटी, सरल टेबल निकालना।

विधि 5: पायथन लाइब्रेरी (डेवलपर्स के लिए)

तीन MIT-लाइसेंस वाली लाइब्रेरी प्रोग्रामेटिक रूप से पीडीएफ टेबल एक्सट्रैक्शन को संभालती हैं:

Tabula-py

Tabula (जावा) के आसपास पायथन रैपर। जावा रनटाइम की आवश्यकता है।

बॉर्डर वाली टेबलों के लिए जाली मोड (रेखाएँ और प्रतिच्छेदन पाता है)
बिना बॉर्डर वाली टेबलों के लिए स्ट्रीम मोड (टेक्स्ट संरेखण का उपयोग करता है)
स्क्रिप्ट में बैच प्रोसेसिंग के लिए अच्छा है
कोई OCR समर्थन नहीं

Camelot

जाली और स्ट्रीम मोड भी प्रदान करता है।

आम तौर पर बॉर्डर वाली टेबलों के लिए Tabula से बेहतर प्रदर्शन करता है
स्ट्रीम मोड में फाइन-ट्यूनिंग के लिए अधिक कॉन्फ़िगरेशन पैरामीटर हैं
प्रत्येक एक्सट्रैक्शन के साथ सटीकता रिपोर्ट प्रदान करता है
घोस्टस्क्रिप्ट निर्भरता की आवश्यकता है। कोई OCR समर्थन नहीं

pdfplumber

निर्देशांक-आधारित दृष्टिकोण: प्रत्येक कैरेक्टर को उसकी सटीक स्थिति के साथ निकालता है, फिर संरचना का अनुमान लगाता है।

टेबल प्रकारों की सबसे विस्तृत श्रृंखला को संभालता है
सबसे अधिक नियंत्रण देता है लेकिन अधिक कॉन्फ़िगरेशन की आवश्यकता होती है
यह वह लाइब्रेरी है जिसका उपयोग PDFSub सर्वर-साइड पर करता है
कोई OCR समर्थन नहीं

इसके लिए सर्वश्रेष्ठ: डेवलपर्स जो आवर्ती टेबल एक्सट्रैक्शन वर्कफ़्लो को स्वचालित करते हैं, समान दस्तावेज़ों के बड़े बैचों को संसाधित करते हैं।

सामान्य समस्याएं और उन्हें कैसे हल करें

मर्ज किए गए सेल

जब सेल कई पंक्तियों या कॉलमों तक फैले होते हैं, तो अधिकांश टूल या तो ऊपरी-बाएँ सेल में सामग्री रखते हैं और अन्य को खाली छोड़ देते हैं, या बाद के सभी कॉलमों को गलत संरेखित करते हैं। कोई सार्वभौमिक समाधान नहीं है - CSV प्रारूप में मर्ज की कोई अवधारणा नहीं है, इसलिए मर्ज की जानकारी हमेशा खो जाती है।

ठीक करें: टेबल निकालें, फिर एक्सेल में मैन्युअल रूप से मर्ज कलाकृतियों को ठीक करें। समान मर्ज पैटर्न वाली आवर्ती टेबलों के लिए, एक पोस्ट-प्रोसेसिंग स्क्रिप्ट पर विचार करें।

सेल के भीतर बहु-पंक्ति सामग्री

लंबा विवरण जो सेल के भीतर लिपटता है, आउटपुट में कई पंक्तियों में बदल जाता है, जिससे सभी बाद का डेटा गलत संरेखित हो जाता है। वित्तीय दस्तावेजों के लिए यह सबसे आम एक्सट्रैक्शन त्रुटि है।

ठीक करें: एक्सट्रैक्शन के बाद, उन पंक्तियों की तलाश करें जिनमें दिनांक और राशि गायब हैं - ये संभवतः पिछली पंक्ति से संबंधित निरंतरता रेखाएँ हैं। एक्सेल में, उन्हें मैन्युअल रूप से मर्ज करें या सहायक सूत्र का उपयोग करें।

कई पृष्ठों तक फैली टेबल

टूल को यह निर्धारित करना चाहिए कि टेबल कहाँ जारी है, क्या दोहराए गए हेडर को हटाना है, और पृष्ठ फुटर को कैसे फ़िल्टर करना है। कई टूल प्रत्येक पृष्ठ को स्वतंत्र रूप से मानते हैं।

ठीक करें: यदि आपका टूल प्रति-पृष्ठ परिणाम देता है, तो शीट को संयोजित करें और दोहराए गए हेडर पंक्तियों को हटा दें। जांचें कि पृष्ठ N की अंतिम पंक्ति पृष्ठ N+1 की पहली पंक्ति से सही ढंग से जुड़ती है।

मुद्रा स्वरूपण समस्याएँ

कोष्ठक में ऋणात्मक संख्याएँ ((1,234.56)) टेक्स्ट के रूप में पेस्ट होती हैं, संख्याएँ नहीं। मुद्रा प्रतीक और हजार विभाजक भी संख्यात्मक स्वरूपण को तोड़ते हैं।

ठीक करें: एक्सट्रैक्शन के बाद, कॉलम का चयन करें और $ , ( , ) वर्णों को हटाने के लिए खोजें और बदलें का उपयोग करें। फिर कॉलम को संख्या के रूप में प्रारूपित करें। कोष्ठक वाले ऋणात्मक के लिए, ( को - से बदलें और ) हटा दें, फिर संख्या प्रारूप में बदलें।

दिनांक अस्पष्टता

01/02/2026 - क्या यह 2 जनवरी है या 1 फरवरी? एक्सट्रैक्शन टूल स्ट्रिंग को वैसे ही बनाए रखता है, लेकिन एक्सेल आपके लोकेल के आधार पर इसे फिर से व्याख्या कर सकता है।

ठीक करें: दिनांक प्रारूप सुराग के लिए स्रोत पीडीएफ की जांच करें (12 से अधिक दिन मान वाली तिथियों की तलाश करें)। आयात करने से पहले एक्सेल के दिनांक प्रारूप को स्रोत से मिलान करने के लिए सेट करें।

सटीकता तुलना

विधि	सरल बॉर्डर	बिना बॉर्डर	अर्ध-बॉर्डर	स्कैन की गई पीडीएफ
PDFSub (निर्देशांक + AI)	90–99%	75–95%	70–95%	85–95% (AI)
पावर क्वेरी	85–95%	40–60%	50–70%	समर्थित नहीं
एडोब एक्रोबेट	90–95%	70–80%	70–85%	80–90%
Tabula	~68%	55–70%	50–65%	समर्थित नहीं
Camelot	~73%	65–75%	60–70%	समर्थित नहीं
कॉपी-पेस्ट	30–50%	10–30%	10–30%	संभव नहीं

रेंज दस्तावेज़ जटिलता में भिन्नता को दर्शाती है। प्रोसीकॉन्स 2025 पीडीएफ एक्सट्रैक्शन बेंचमार्क और कैमलॉट तुलना अध्ययनों से बेंचमार्क डेटा।

आपको कौन सी विधि का उपयोग करना चाहिए?

परिदृश्य	सर्वश्रेष्ठ विधि	क्यों
त्वरित एक बार का एक्सट्रैक्शन	PDFSub	कोई इंस्टॉलेशन नहीं, ब्राउज़र-आधारित, मुफ्त निर्देशांक एक्सट्रैक्शन
सरल बॉर्डर वाली टेबल, विंडोज	पावर क्वेरी	एक्सेल में निर्मित, कोई अतिरिक्त लागत नहीं
स्कैन की गई पीडीएफ	PDFSub (AI) या एडोब एक्रोबेट	OCR क्षमता की आवश्यकता है
संवेदनशील वित्तीय डेटा	PDFSub	ब्राउज़र-आधारित प्रोसेसिंग, फ़ाइल कभी अपलोड नहीं की जाती
आवर्ती बैच प्रोसेसिंग	पायथन (pdfplumber)	स्क्रिप्ट करने योग्य, स्वचालित
पहले से ही एक्रोबेट प्रो है	एडोब एक्रोबेट	पहले से भुगतान कर रहे हैं, सरल टेबल अच्छी तरह से काम करती हैं
एक छोटी टेबल, कोई टूल नहीं	कॉपी-पेस्ट	अंतिम उपाय, सब कुछ सत्यापित करें

सर्वोत्तम परिणामों के लिए युक्तियाँ

मूल पीडीएफ का उपयोग करें। कागज को स्कैन करने के बजाय उनके स्रोत से दस्तावेज़ डाउनलोड करें। मूल पीडीएफ में एकदम सही टेक्स्ट होता है, जिससे एक्सट्रैक्शन काफी अधिक सटीक हो जाता है।

पहले टेबल के प्रकार की पहचान करें। बॉर्डर वाली टेबल लगभग किसी भी टूल के साथ काम करती हैं। बिना बॉर्डर वाली टेबलों के लिए स्ट्रीम-मोड या AI एक्सट्रैक्शन की आवश्यकता होती है। प्रकार जानने से आपको शुरुआत में सही विधि चुनने में मदद मिलती है।

मुफ्त, नियम-आधारित विधियों से शुरुआत करें। पहले निर्देशांक-आधारित एक्सट्रैक्शन का प्रयास करें। केवल AI पर तभी जाएं जब नियम-आधारित विधियाँ खराब परिणाम दें - यह समय और क्रेडिट बचाता है।

हमेशा आउटपुट सत्यापित करें। पंक्ति गणना, कॉलम संरेखण, संख्यात्मक मान और कुल की जांच करें। कभी भी एक्सट्रैक्शन आउटपुट पर आँख बंद करके भरोसा न करें।

संख्या स्वरूपण पर ध्यान दें। एक्सट्रैक्शन के बाद, सत्यापित करें कि संख्याएँ एक्सेल में वास्तव में संख्याएँ हैं (दाएँ संरेखित), टेक्स्ट स्ट्रिंग नहीं (बाएँ संरेखित)। मुद्रा प्रतीक और कोष्ठक वाले ऋणात्मक सामान्य अपराधी हैं।

संवेदनशील डेटा के लिए, ब्राउज़र-आधारित टूल को प्राथमिकता दें। वित्तीय रिपोर्ट, बैंक स्टेटमेंट और कर दस्तावेजों में संवेदनशील जानकारी होती है। जो टूल आपके ब्राउज़र में पीडीएफ को संसाधित करते हैं, वे आपकी फ़ाइल को कभी अपलोड नहीं करते हैं, जिससे डेटा एक्सपोजर का जोखिम समाप्त हो जाता है।

मुफ्त में आज़माएँ

अपने पीडीएफ से टेबल निकालने के लिए तैयार हैं? अभी एक फ़ाइल अपलोड करें - PDFSub पहले मुफ्त निर्देशांक-आधारित एक्सट्रैक्शन का प्रयास करता है, जटिल टेबलों के लिए AI फ़ॉलबैक के साथ। डिजिटल पीडीएफ पूरी तरह से आपके ब्राउज़र में संसाधित होते हैं। 7-दिवसीय निःशुल्क परीक्षण शुरू करें।

How to Extract Tables from PDF to Excel: 5 Methods Compared

पीडीएफ से टेबल निकालना कठिन क्यों है

5 Methods for Extracting PDF Tables to Excel - Accuracy Comparison

पीडीएफ प्रारूप में कोई टेबल नहीं होती है

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Office Supplies) Tj 180 0 Td (125.00) Tj ET

प्रत्येक टेक्स्ट आइटम को उसके x,y निर्देशांक के साथ निकालने के लिए पीडीएफ कंटेंट स्ट्रीम को पार्स करता है
y-निर्देशांक निकटता के आधार पर टेक्स्ट आइटम को पंक्तियों में समूहित करता है
कॉलम सीमाओं का पता लगाने के लिए पंक्तियों में x-निर्देशांक संरेखण पैटर्न का विश्लेषण करता है
न्यूनतम 3 पंक्तियों, 2 कॉलम और 70%+ आत्मविश्वास की आवश्यकता है

डेटा → डेटा प्राप्त करें → फ़ाइल से → पीडीएफ से पर क्लिक करें
अपनी पीडीएफ फ़ाइल चुनें
पावर क्वेरी एक नेविगेटर पैनल प्रदर्शित करता है जिसमें प्रति पृष्ठ पहचानी गई टेबल सूचीबद्ध होती हैं
आप जिन टेबलों को चाहते हैं उन्हें चुनें, साफ करने के लिए डेटा ट्रांसफ़ॉर्म करें पर क्लिक करें, फिर लोड करें

ताकतें

एक्सेल में निर्मित - Microsoft 365 ग्राहकों के लिए कोई अतिरिक्त लागत नहीं
पावर क्वेरी का ट्रांसफ़ॉर्मेशन इंजन पोस्ट-प्रोसेसिंग को अच्छी तरह से संभालता है (नीचे भरें, पिवट करें, कॉलम मर्ज करें)
यदि स्रोत पीडीएफ अपडेट किया गया है तो डेटा को रीफ़्रेश कर सकता है
एक ही पीडीएफ से कई टेबल कनेक्ट करने का समर्थन करता है

सीमाएं

केवल विंडोज - मैक, एक्सेल ऑनलाइन या मोबाइल के लिए एक्सेल में उपलब्ध नहीं है
बिना बॉर्डर वाली टेबलों के साथ संघर्ष करता है - स्पष्ट बॉर्डर वाली टेबलों के साथ सबसे अच्छा काम करता है
कोई OCR नहीं - स्कैन की गई/छवि पीडीएफ से निकाल नहीं सकता
बहु-पृष्ठ टेबल समस्याग्रस्त हैं - प्रत्येक पृष्ठ अक्सर एक अलग टेबल के रूप में आयात होता है, जिसके लिए मैन्युअल सिलाई की आवश्यकता होती है
बहु-पंक्ति पंक्तियाँ - सेल के भीतर लिपटे टेक्स्ट अक्सर कई पंक्तियों में विभाजित हो जाते हैं, जिसके लिए सफाई की आवश्यकता होती है

विधि 3: एडोब एक्रोबेट (भुगतान)

फ़ाइल → पीडीएफ निर्यात करें → स्प्रेडशीट → माइक्रोसॉफ्ट एक्सेल वर्कबुक

मूल्य निर्धारण (2026)

एक्रोबेट स्टैंडर्ड: $12.99/माह (वार्षिक योजना)
एक्रोबेट प्रो: $19.99/माह (वार्षिक योजना)
पीडीएफ निर्यात करें (स्टैंडअलोन): निम्न-स्तरीय केवल रूपांतरण योजना

ताकतें

स्कैन किए गए दस्तावेज़ों के लिए अंतर्निहित OCR
आम तौर पर सरल बॉर्डर वाली टेबलों के लिए स्वरूपण बनाए रखता है
प्रो में बैच प्रोसेसिंग उपलब्ध है

सीमाएं

केवल टेबल एक्सट्रैक्शन के लिए महंगा - $156–$240/वर्ष
मर्ज किए गए सेल और बहु-पृष्ठ स्पैन वाली जटिल टेबल अभी भी गलत संरेखित आउटपुट उत्पन्न करती हैं
संवेदनशील वित्तीय डेटा के लिए समस्याग्रस्त - प्रोसेसिंग के लिए फाइलें एडोब के क्लाउड पर अपलोड की जा सकती हैं
डेस्कटॉप इंस्टॉलेशन की आवश्यकता है

विधि 4: कॉपी-पेस्ट (मैन्युअल)

सबसे सहज तरीका - और वह जो अक्सर टेबलों के लिए विफल रहता है।

सामान्य समस्याएं

सभी डेटा एक कॉलम में - पूरी टेबल बिना कॉलम ब्रेक के पेस्ट हो जाती है
संख्याएँ टेक्स्ट बन जाती हैं - मुद्रा प्रतीक, कोष्ठक और विभाजक संख्यात्मक स्वरूपण को तोड़ते हैं
सेल सामग्री की बहु-पंक्ति पंक्तियाँ भूतिया पंक्तियाँ बनाती हैं - एक विवरण जो सेल के भीतर दो पंक्तियों में लिपटता है, दो अलग-अलग पंक्तियों में बदल जाता है
हेडर डेटा से अलग हो जाते हैं - हेडर पंक्ति डिस्कनेक्ट हो जाती है
कॉलम गलत संरेखित होते हैं - डेटा शिफ्ट हो जाता है क्योंकि कैरेक्टर स्पेसिंग टैब में अनुवादित नहीं होती है

बॉर्डर वाली टेबलों के लिए जाली मोड (रेखाएँ और प्रतिच्छेदन पाता है)
बिना बॉर्डर वाली टेबलों के लिए स्ट्रीम मोड (टेक्स्ट संरेखण का उपयोग करता है)
स्क्रिप्ट में बैच प्रोसेसिंग के लिए अच्छा है
कोई OCR समर्थन नहीं

Camelot

जाली और स्ट्रीम मोड भी प्रदान करता है।

आम तौर पर बॉर्डर वाली टेबलों के लिए Tabula से बेहतर प्रदर्शन करता है
स्ट्रीम मोड में फाइन-ट्यूनिंग के लिए अधिक कॉन्फ़िगरेशन पैरामीटर हैं
प्रत्येक एक्सट्रैक्शन के साथ सटीकता रिपोर्ट प्रदान करता है
घोस्टस्क्रिप्ट निर्भरता की आवश्यकता है। कोई OCR समर्थन नहीं

pdfplumber

टेबल प्रकारों की सबसे विस्तृत श्रृंखला को संभालता है
सबसे अधिक नियंत्रण देता है लेकिन अधिक कॉन्फ़िगरेशन की आवश्यकता होती है
यह वह लाइब्रेरी है जिसका उपयोग PDFSub सर्वर-साइड पर करता है
कोई OCR समर्थन नहीं

विधि	सरल बॉर्डर	बिना बॉर्डर	अर्ध-बॉर्डर	स्कैन की गई पीडीएफ
PDFSub (निर्देशांक + AI)	90–99%	75–95%	70–95%	85–95% (AI)
पावर क्वेरी	85–95%	40–60%	50–70%	समर्थित नहीं
एडोब एक्रोबेट	90–95%	70–80%	70–85%	80–90%
Tabula	~68%	55–70%	50–65%	समर्थित नहीं
Camelot	~73%	65–75%	60–70%	समर्थित नहीं
कॉपी-पेस्ट	30–50%	10–30%	10–30%	संभव नहीं

आपको कौन सी विधि का उपयोग करना चाहिए?

परिदृश्य	सर्वश्रेष्ठ विधि	क्यों
त्वरित एक बार का एक्सट्रैक्शन	PDFSub	कोई इंस्टॉलेशन नहीं, ब्राउज़र-आधारित, मुफ्त निर्देशांक एक्सट्रैक्शन
सरल बॉर्डर वाली टेबल, विंडोज	पावर क्वेरी	एक्सेल में निर्मित, कोई अतिरिक्त लागत नहीं
स्कैन की गई पीडीएफ	PDFSub (AI) या एडोब एक्रोबेट	OCR क्षमता की आवश्यकता है
संवेदनशील वित्तीय डेटा	PDFSub	ब्राउज़र-आधारित प्रोसेसिंग, फ़ाइल कभी अपलोड नहीं की जाती
आवर्ती बैच प्रोसेसिंग	पायथन (pdfplumber)	स्क्रिप्ट करने योग्य, स्वचालित
पहले से ही एक्रोबेट प्रो है	एडोब एक्रोबेट	पहले से भुगतान कर रहे हैं, सरल टेबल अच्छी तरह से काम करती हैं
एक छोटी टेबल, कोई टूल नहीं	कॉपी-पेस्ट	अंतिम उपाय, सब कुछ सत्यापित करें