कभी-कभी आपको फ़ॉन्ट, लेआउट, रंग या इमेज की ज़रूरत नहीं होती है। आपको सिर्फ़ शब्द चाहिए। पीडीएफ को सादे टेक्स्ट में बदलने से सब कुछ विज़ुअल हट जाता है और आपको रॉ टेक्स्ट मिलता है - पैराग्राफ, हेडिंग और डेटा अपने सबसे सरल रूप में।

यह पीडीएफ ऑपरेशनों में से एक सबसे आम है, और सबसे ज़्यादा गलत समझा जाने वाला भी। लोग किसी भी पीडीएफ से एकदम सही टेक्स्ट मिलने की उम्मीद करते हैं, लेकिन असलियत इस बात पर निर्भर करती है कि पीडीएफ कैसे बनाई गई थी। असली टेक्स्ट सामग्री वाले डिजिटल पीडीएफ़ बेहतरीन परिणाम देते हैं। बिना एम्बेडेड टेक्स्ट वाले स्कैन किए गए दस्तावेज़ कुछ भी नहीं देते हैं - क्योंकि निकालने के लिए कोई टेक्स्ट ही नहीं है।

यह गाइड कवर करती है कि टेक्स्ट एक्सट्रैक्शन कब काम करता है, कब नहीं, और इस काम के लिए सबसे अच्छे टूल कौन से हैं।

How to convert PDF to text - extract all text

पीडीएफ से टेक्स्ट क्यों निकालें?

डेटा विश्लेषण

आपके पास एक पीडीएफ़ रिपोर्ट है जिसमें ऐसे नंबर हैं जिन्हें आपको स्प्रेडशीट या स्क्रिप्ट में विश्लेषण करने की आवश्यकता है। टेक्स्ट निकालने से आपको रॉ डेटा मिलता है जिसे आप पार्स, फ़िल्टर और प्रोसेस कर सकते हैं। शोधकर्ता, विश्लेषक और डेटा वैज्ञानिक अक्सर अपने वर्कफ़्लो में पहले कदम के रूप में पीडीएफ़ पेपर्स और रिपोर्ट से टेक्स्ट निकालते हैं।

प्राकृतिक भाषा प्रसंस्करण (NLP)

यदि आप एक NLP मॉडल बना रहे हैं या उसे प्रशिक्षित कर रहे हैं, ग्राहक प्रतिक्रिया को प्रोसेस कर रहे हैं, या भावना विश्लेषण चला रहे हैं, तो आपको सादे टेक्स्ट इनपुट की आवश्यकता है। पीडीएफ़ दस्तावेज़ों के लिए एक सामान्य स्रोत प्रारूप है, लेकिन NLP पाइपलाइन को .txt फ़ाइलों की आवश्यकता होती है। टेक्स्ट एक्सट्रैक्शन इस अंतर को पाटता है।

सामग्री माइग्रेशन

एक सिस्टम से दूसरे सिस्टम में सामग्री ले जाना - एक सीएमएस, एक ज्ञान आधार, एक डेटाबेस - अक्सर मौजूदा पीडीएफ़ से टेक्स्ट निकालने से शुरू होता है। आपको लेआउट की आवश्यकता नहीं है; आपको शब्दों की आवश्यकता है जो आपके गंतव्य सिस्टम आयात कर सके।

खोज और अनुक्रमण

पीडीएफ़ दस्तावेज़ों का एक खोजने योग्य संग्रह बनाने के लिए टेक्स्ट सामग्री निकालने की आवश्यकता होती है। सर्च इंजन और फुल-टेक्स्ट सर्च सिस्टम सादे टेक्स्ट को इंडेक्स करते हैं। आपकी पीडीएफ़ से टेक्स्ट निकालने से वे प्रत्येक फ़ाइल को अलग-अलग खोले बिना खोजने योग्य बन जाते हैं।

पहुंच

पीडीएफ़ को सादे टेक्स्ट में बदलने से सामग्री अधिक सुलभ हो सकती है। स्क्रीन रीडर सादे टेक्स्ट के साथ मज़बूती से काम करते हैं। ब्रेल डिस्प्ले सीधे सादे टेक्स्ट को रेंडर करते हैं। पहुंच वर्कफ़्लो के लिए, किसी दस्तावेज़ को उसके टेक्स्ट सामग्री तक सीमित करने से विज़ुअल बाधाएं दूर हो जाती हैं।

त्वरित कॉपी-पेस्ट

कभी-कभी आप बस पीडीएफ़ से कुछ पैराग्राफ लेना चाहते हैं और उन्हें ईमेल, दस्तावेज़ या चैट संदेश में पेस्ट करना चाहते हैं। टेक्स्ट एक्सट्रैक्शन आपको बिना फ़ॉर्मेटिंग की गड़बड़ियों के साफ़ टेक्स्ट देता है जो अक्सर पीडीएफ़ व्यूअर से सीधे कॉपी करने पर आती हैं।

विधि 1: PDFSub के साथ ऑनलाइन बदलें (अनुशंसित)

एक पीडीएफ़ अपलोड करें, सभी निकाले गए टेक्स्ट वाली एक .txt फ़ाइल डाउनलोड करें।

कदम दर कदम:

PDFSub के PDF to Text टूल पर जाएं
अपनी पीडीएफ़ फ़ाइल अपलोड करें - ड्रैग एंड ड्रॉप करें या ब्राउज़ करने के लिए क्लिक करें
फ़ाइल को PDFSub Engine द्वारा एक सुरक्षित, अलग वातावरण में प्रोसेस किया जाता है
निकाली गई टेक्स्ट फ़ाइल डाउनलोड करें

क्या उम्मीद करें:

हर पेज से सभी टेक्स्ट सामग्री निकाली जाती है
पेज ब्रेक को लाइन ब्रेक या पेज मार्कर द्वारा दर्शाया जाता है
टेक्स्ट पीडीएफ़ के पढ़ने के क्रम का अनुसरण करता है
टेबल को टैब या स्पेस-सेपरेटेड वैल्यू के रूप में निकाला जाता है
इमेज को छोड़ दिया जाता है (कोई ऑल्ट टेक्स्ट या विवरण नहीं)
हेडर और फुटर आउटपुट में शामिल होते हैं

इसके लिए सर्वश्रेष्ठ: जब आपको सॉफ़्टवेयर इंस्टॉल किए बिना पीडीएफ़ से सभी टेक्स्ट की आवश्यकता हो तो त्वरित एक्सट्रैक्शन।

विधि 2: अपने पीडीएफ़ व्यूअर से कॉपी करें

छोटी मात्रा में टेक्स्ट के लिए सबसे सरल तरीका।

कदम दर कदम:

किसी भी पीडीएफ़ व्यूअर (ब्राउज़र, प्रीव्यू, एडोब रीडर) में पीडीएफ़ खोलें
वह टेक्स्ट चुनें जिसे आप चाहते हैं (क्लिक करके ड्रैग करें, या सभी टेक्स्ट के लिए Ctrl/Cmd+A)
कॉपी करें (Ctrl/Cmd+C)
अपने टेक्स्ट एडिटर में पेस्ट करें

सीमाएं:

मल्टी-कॉलम लेआउट जंबल्ड टेक्स्ट उत्पन्न करते हैं (कॉलम इंटरलीव हो जाते हैं)
टेबल असंरचित टेक्स्ट के रूप में कॉपी होती हैं
हेडर और फुटर बॉडी टेक्स्ट के साथ मिक्स हो जाते हैं
विशेष वर्ण सही ढंग से कॉपी नहीं हो सकते हैं
स्कैन किए गए/इमेज पीडीएफ़ के साथ काम नहीं करता है

इसके लिए सर्वश्रेष्ठ: एक साधारण, सिंगल-कॉलम पीडीएफ़ से एक या दो पैराग्राफ लेना।

विधि 3: कमांड-लाइन टूल का उपयोग करें

डेवलपर्स और तकनीकी उपयोगकर्ताओं के लिए जिन्हें प्रोग्रामेटिक रूप से या बैच में टेक्स्ट निकालने की आवश्यकता है।

विकल्प:

macOS या Linux पर, विभिन्न कमांड-लाइन पीडीएफ़ टूल टेक्स्ट निकाल सकते हैं
पीडीएफ़ पार्सिंग लाइब्रेरी के साथ पायथन स्क्रिप्ट
बैच प्रोसेसिंग के लिए शेल स्क्रिप्ट

इसके लिए सर्वश्रेष्ठ: स्वचालित वर्कफ़्लो में टेक्स्ट एक्सट्रैक्शन बनाने वाले डेवलपर्स।

डिजिटल पीडीएफ़ बनाम स्कैन किए गए पीडीएफ़

टेक्स्ट एक्सट्रैक्शन के लिए यह महत्वपूर्ण अंतर है।

डिजिटल (टेक्स्ट-आधारित) पीडीएफ़

ये डिजिटल स्रोतों से बनाई गई पीडीएफ़ हैं - वर्ड से एक्सपोर्ट की गई, सॉफ़्टवेयर द्वारा जेनरेट की गई, वेब पेज से सेव की गई। इन पीडीएफ़ में टेक्स्ट को वास्तविक कैरेक्टर डेटा के रूप में संग्रहीत किया जाता है। आप इसे चुन सकते हैं, खोज सकते हैं और निकाल सकते हैं।

कैसे पता करें: पीडीएफ़ खोलें और टेक्स्ट चुनने के लिए क्लिक करके ड्रैग करने का प्रयास करें। यदि टेक्स्ट हाइलाइट होता है और आप इसे कॉपी कर सकते हैं, तो यह एक डिजिटल पीडीएफ़ है। टेक्स्ट एक्सट्रैक्शन पूरी तरह से काम करेगा।

स्कैन किए गए (इमेज-आधारित) पीडीएफ़

ये पेपर दस्तावेज़ों को स्कैन करके बनाई गई पीडीएफ़ हैं। प्रत्येक पृष्ठ कागज की एक तस्वीर है - एक इमेज, टेक्स्ट नहीं। निकालने के लिए कोई कैरेक्टर नहीं हैं क्योंकि पीडीएफ़ में केवल पिक्सेल डेटा होता है।

कैसे पता करें: टेक्स्ट चुनने का प्रयास करें। यदि कुछ भी हाइलाइट नहीं होता है, या यदि क्लिक करने पर पूरी पेज एक इमेज के रूप में चुन ली जाती है, तो यह एक स्कैन की गई पीडीएफ़ है। मानक टेक्स्ट एक्सट्रैक्शन एक खाली फ़ाइल उत्पन्न करेगा।

स्कैन किए गए पीडीएफ़ के बारे में क्या?

स्कैन किए गए पीडीएफ़ से टेक्स्ट प्राप्त करने के लिए, आपको OCR (ऑप्टिकल कैरेक्टर रिकॉग्निशन) की आवश्यकता है। OCR इमेज का विश्लेषण करता है, अक्षर के आकार की पहचान करता है, और उन्हें टेक्स्ट कैरेक्टर में परिवर्तित करता है। यह टेक्स्ट एक्सट्रैक्शन से एक अलग प्रक्रिया है - और यह त्रुटियों की संभावना का परिचय देती है, क्योंकि सॉफ़्टवेयर संग्रहीत टेक्स्ट को पढ़ने के बजाय इमेज की व्याख्या कर रहा है।

PDFSub का टेक्स्ट एक्सट्रैक्शन डिजिटल पीडीएफ़ को संभालता है। OCR की आवश्यकता वाले स्कैन किए गए दस्तावेज़ों के लिए, विशेष रूप से OCR प्रोसेसिंग के लिए डिज़ाइन किए गए टूल देखें।

टेक्स्ट एक्सट्रैक्शन की गुणवत्ता

निकाले गए टेक्स्ट की गुणवत्ता कई कारकों पर निर्भर करती है।

पढ़ने का क्रम

पीडीएफ़ टेक्स्ट को पढ़ने के क्रम में संग्रहीत नहीं करते हैं। टेक्स्ट एलिमेंट विशिष्ट निर्देशांक पर स्थित होते हैं - व्यूअर उन्हें विज़ुअली असेंबल करता है। एक्सट्रैक्टर को स्थानिक स्थितियों से पढ़ने का क्रम पुनर्निर्माण करना होता है। सरल सिंगल-कॉलम दस्तावेज़ आसानी से पुनर्निर्माण हो जाते हैं। मल्टी-कॉलम लेआउट, साइडबार और टेक्स्ट बॉक्स भ्रमित करने वाला आउटपुट उत्पन्न कर सकते हैं।

टेबल

पीडीएफ़ में टेबल स्वतंत्र रूप से स्थित टेक्स्ट एलिमेंट का एक संग्रह है - सिमेंटिक टेबल संरचनाएं नहीं। एक्सट्रैक्टर सारणीबद्ध पैटर्न को पहचानने और कॉलम को टैब या स्पेस से अलग करने का प्रयास करता है। सरल टेबल अच्छी तरह से काम करती हैं। मर्ज किए गए सेल, घुमाए गए टेक्स्ट या नेस्टेड संरचनाओं वाली जटिल टेबल गन्दा आउटपुट उत्पन्न कर सकती हैं।

विशेष वर्ण

गणितीय प्रतीक, डायक्रिटिक्स, लिगरेचर और गैर-लैटिन स्क्रिप्ट पीडीएफ़ उन्हें कैसे एन्कोड करता है, इसके आधार पर सही ढंग से निकाले जा सकते हैं या नहीं भी। उचित यूनिकोड मैपिंग के साथ अच्छी तरह से संरचित पीडीएफ़ साफ़ आउटपुट उत्पन्न करते हैं। कस्टम फ़ॉन्ट एन्कोडिंग वाली पीडीएफ़ जंबल्ड कैरेक्टर उत्पन्न कर सकती हैं।

हाइफ़नेशन

पीडीएफ़ अक्सर लाइन ब्रेक पर शब्दों को हाइफ़नेट करते हैं। कुछ एक्सट्रैक्टर हाइफ़नेटेड शब्दों को फिर से जोड़ते हैं; अन्य हाइफ़न और लाइन ब्रेक को बनाए रखते हैं। यदि आप प्रोग्रामेटिक रूप से टेक्स्ट को प्रोसेस कर रहे हैं, तो आपको अपने पाइपलाइन में हाइफ़न को फिर से जोड़ने को संभालना पड़ सकता है।

सर्वोत्तम परिणामों के लिए सुझाव

पहले एक छोटी पीडीएफ़ के साथ परीक्षण करें। कुछ पेजों से टेक्स्ट निकालें और 500-पेज के दस्तावेज़ को प्रोसेस करने से पहले गुणवत्ता की पुष्टि करें।
स्कैन की गई सामग्री की जांच करें। यदि आपकी पीडीएफ़ डिजिटल टेक्स्ट और स्कैन किए गए पेजों का मिश्रण है, तो एक्सट्रैक्शन डिजिटल पेजों से टेक्स्ट और स्कैन किए गए पेजों से खाली आउटपुट उत्पन्न करेगा।
आउटपुट को पोस्ट-प्रोसेस करें। डेटा विश्लेषण या NLP कार्य के लिए, निकाले गए टेक्स्ट को साफ़ करें - हेडर/फुटर हटा दें, हाइफ़नेशन ठीक करें, एन्कोडिंग समस्याओं को संभालें।
सही टूल का उपयोग करें। यदि आपको टेबल से संरचित डेटा की आवश्यकता है, तो सादे टेक्स्ट एक्सट्रैक्शन के बजाय टेबल एक्सट्रैक्शन टूल पर विचार करें। यदि आपको स्कैन किए गए दस्तावेज़ों से टेक्स्ट की आवश्यकता है, तो OCR का उपयोग करें।

अक्सर पूछे जाने वाले प्रश्न (FAQ)

PDF to Text और OCR में क्या अंतर है?

PDF to Text टेक्स्ट निकालता है जो पहले से ही पीडीएफ़ में कैरेक्टर डेटा के रूप में संग्रहीत है। यह वही पढ़ता है जो वहां है। OCR टेक्स्ट की इमेज को देखता है और उन्हें कैरेक्टर के रूप में व्याख्या करता है। यदि आपकी पीडीएफ़ में चयन योग्य टेक्स्ट है, तो आपको टेक्स्ट एक्सट्रैक्शन की आवश्यकता है। यदि आपकी पीडीएफ़ स्कैन की गई इमेज है, तो आपको OCR की आवश्यकता है।

क्या मैं पासवर्ड-सुरक्षित पीडीएफ़ से टेक्स्ट निकाल सकता हूँ?

यदि पीडीएफ़ में एक अनुमति पासवर्ड है जो कॉपी करने को प्रतिबंधित करता है (लेकिन देखने की अनुमति देता है), तो कुछ टूल अभी भी टेक्स्ट निकाल सकते हैं। यदि पीडीएफ़ में एक ओपन पासवर्ड है जो पूरी तरह से देखने से रोकता है, तो आपको पहले पासवर्ड दर्ज करना होगा।

क्या टेक्स्ट एक्सट्रैक्शन फ़ॉर्मेटिंग बनाए रखता है?

नहीं - यही इसका उद्देश्य है। सादा टेक्स्ट एक्सट्रैक्शन आपको फ़ॉर्मेटिंग के बिना शब्द देता है। यदि आपको फ़ॉर्मेटिंग बनाए रखने की आवश्यकता है, तो इसके बजाय DOCX या RTF में बदलें। टेक्स्ट एक्सट्रैक्शन विशेष रूप से तब के लिए है जब आप रॉ, अनफ़ॉर्मेटेड सामग्री चाहते हैं।

मैं मल्टी-कॉलम पीडीएफ़ को कैसे संभालूं?

मल्टी-कॉलम पीडीएफ़ टेक्स्ट एक्सट्रैक्शन के लिए सबसे मुश्किल मामला हैं। एक्सट्रैक्टर कॉलम को इंटरलीव कर सकता है या उन्हें सही ढंग से प्रोसेस कर सकता है - यह टूल और पीडीएफ़ की आंतरिक संरचना पर निर्भर करता है। यदि आपको जंबल्ड आउटपुट मिलता है, तो एक अलग एक्सट्रैक्शन टूल आज़माएं या एक ऐसे प्रारूप में बदलें जो कॉलम को बेहतर ढंग से संभालता हो (जैसे DOCX)।

क्या मैं केवल विशिष्ट पेजों से टेक्स्ट निकाल सकता हूँ?

कुछ टूल आपको एक्सट्रैक्शन के लिए पेज रेंज निर्दिष्ट करने देते हैं। यदि टूल पेज चयन का समर्थन नहीं करता है, तो सभी टेक्स्ट निकालें और फिर आउटपुट को उन पेजों तक काटें जिनकी आपको आवश्यकता है। आउटपुट में पेज मार्कर प्रत्येक पेज की शुरुआत की पहचान करने में मदद करते हैं।

निष्कर्ष

पीडीएफ़ से टेक्स्ट एक्सट्रैक्शन तेज़, सरल और वर्कफ़्लो की एक विस्तृत श्रृंखला के लिए उपयोगी है - डेटा विश्लेषण, NLP, सामग्री माइग्रेशन, खोज अनुक्रमण, और सादा पुराना कॉपी-पेस्ट। कुंजी एक डिजिटल पीडीएफ़ से शुरू करना है जिसमें वास्तविक टेक्स्ट सामग्री हो।

स्कैन किए गए दस्तावेज़ों के लिए, आपको OCR की आवश्यकता है। डिजिटल पीडीएफ़ के लिए, टेक्स्ट एक्सट्रैक्शन आपको सेकंडों में साफ़ आउटपुट देता है।

PDFSub के PDF to Text टूल को आज़माएं - अपनी पीडीएफ़ अपलोड करें और तुरंत निकाली गई टेक्स्ट डाउनलोड करें।

How to convert PDF to text - extract all text

PDFSub के PDF to Text टूल पर जाएं
अपनी पीडीएफ़ फ़ाइल अपलोड करें - ड्रैग एंड ड्रॉप करें या ब्राउज़ करने के लिए क्लिक करें
फ़ाइल को PDFSub Engine द्वारा एक सुरक्षित, अलग वातावरण में प्रोसेस किया जाता है
निकाली गई टेक्स्ट फ़ाइल डाउनलोड करें

क्या उम्मीद करें:

हर पेज से सभी टेक्स्ट सामग्री निकाली जाती है
पेज ब्रेक को लाइन ब्रेक या पेज मार्कर द्वारा दर्शाया जाता है
टेक्स्ट पीडीएफ़ के पढ़ने के क्रम का अनुसरण करता है
टेबल को टैब या स्पेस-सेपरेटेड वैल्यू के रूप में निकाला जाता है
इमेज को छोड़ दिया जाता है (कोई ऑल्ट टेक्स्ट या विवरण नहीं)
हेडर और फुटर आउटपुट में शामिल होते हैं

विधि 2: अपने पीडीएफ़ व्यूअर से कॉपी करें

छोटी मात्रा में टेक्स्ट के लिए सबसे सरल तरीका।

कदम दर कदम:

किसी भी पीडीएफ़ व्यूअर (ब्राउज़र, प्रीव्यू, एडोब रीडर) में पीडीएफ़ खोलें
वह टेक्स्ट चुनें जिसे आप चाहते हैं (क्लिक करके ड्रैग करें, या सभी टेक्स्ट के लिए Ctrl/Cmd+A)
कॉपी करें (Ctrl/Cmd+C)
अपने टेक्स्ट एडिटर में पेस्ट करें

सीमाएं:

मल्टी-कॉलम लेआउट जंबल्ड टेक्स्ट उत्पन्न करते हैं (कॉलम इंटरलीव हो जाते हैं)
टेबल असंरचित टेक्स्ट के रूप में कॉपी होती हैं
हेडर और फुटर बॉडी टेक्स्ट के साथ मिक्स हो जाते हैं
विशेष वर्ण सही ढंग से कॉपी नहीं हो सकते हैं
स्कैन किए गए/इमेज पीडीएफ़ के साथ काम नहीं करता है

विधि 3: कमांड-लाइन टूल का उपयोग करें

विकल्प:

macOS या Linux पर, विभिन्न कमांड-लाइन पीडीएफ़ टूल टेक्स्ट निकाल सकते हैं
पीडीएफ़ पार्सिंग लाइब्रेरी के साथ पायथन स्क्रिप्ट
बैच प्रोसेसिंग के लिए शेल स्क्रिप्ट

पहले एक छोटी पीडीएफ़ के साथ परीक्षण करें। कुछ पेजों से टेक्स्ट निकालें और 500-पेज के दस्तावेज़ को प्रोसेस करने से पहले गुणवत्ता की पुष्टि करें।
स्कैन की गई सामग्री की जांच करें। यदि आपकी पीडीएफ़ डिजिटल टेक्स्ट और स्कैन किए गए पेजों का मिश्रण है, तो एक्सट्रैक्शन डिजिटल पेजों से टेक्स्ट और स्कैन किए गए पेजों से खाली आउटपुट उत्पन्न करेगा।
आउटपुट को पोस्ट-प्रोसेस करें। डेटा विश्लेषण या NLP कार्य के लिए, निकाले गए टेक्स्ट को साफ़ करें - हेडर/फुटर हटा दें, हाइफ़नेशन ठीक करें, एन्कोडिंग समस्याओं को संभालें।
सही टूल का उपयोग करें। यदि आपको टेबल से संरचित डेटा की आवश्यकता है, तो सादे टेक्स्ट एक्सट्रैक्शन के बजाय टेबल एक्सट्रैक्शन टूल पर विचार करें। यदि आपको स्कैन किए गए दस्तावेज़ों से टेक्स्ट की आवश्यकता है, तो OCR का उपयोग करें।