PDF-ൽ നിന്ന് എക്സലിലേക്ക് ടേബിളുകൾ എങ്ങനെ എക്സ്ട്രാക്ട് ചെയ്യാം: 5 രീതികൾ താരതമ്യം
PDF-കളിൽ ടേബിളുകൾ x, y കോർഡിനേറ്റുകളിൽ ചിതറിക്കിടക്കുന്ന ടെക്സ്റ്റ് ശകലങ്ങളായി സൂക്ഷിക്കുന്നു - നിരകളോ നിരകളോ സെല്ലുകളോ ഇല്ല. സൗജന്യ ബ്രൗസർ അധിഷ്ഠിത ടൂളുകൾ മുതൽ പൈത്തൺ സ്ക്രിപ്റ്റിംഗ് വരെ ഡാറ്റ ഒരു സ്പ്രെഡ്ഷീറ്റിലേക്ക് എങ്ങനെ ലഭിക്കുമെന്നതിനെക്കുറിച്ച് ഇവിടെ വിശദീകരിക്കുന്നു.

നിങ്ങളുടെ കയ്യിലുള്ള ഒരു PDF ഫയലിൽ നിന്ന് ഒരു ടേബിൾ എക്സലിലേക്ക് മാറ്റണമെന്ന് കരുതുക. അത് ഒരു സാമ്പത്തിക റിപ്പോർട്ടോ, ബാങ്ക് സ്റ്റേറ്റ്മെന്റോ, ഇൻവോയിസോ, അല്ലെങ്കിൽ ഗവേഷണ പ്രബന്ധമോ ആകാം. ഡാറ്റ സ്ക്രീനിൽ വ്യക്തമായി നിരകളിലും വരികളിലുമായി ക്രമീകരിച്ചിരിക്കുന്നു. എന്നാൽ അത് പുറത്തെടുക്കാൻ ശ്രമിക്കുമ്പോൾ എല്ലാം താളം തെറ്റുന്നു.
ഇങ്ങനെ സംഭവിക്കുന്നത് PDF ഒരു ഡാറ്റ ഫോർമാറ്റ് അല്ലാത്തതുകൊണ്ടാണ്. ഇത് ഒരു ഡിസ്പ്ലേ ഫോർമാറ്റ് ആണ്. PDF സ്പെസിഫിക്കേഷനിൽ "ടേബിൾ", "വരി", "നിര" എന്നിവയ്ക്ക് യാതൊരു സങ്കൽപ്പവും ഇല്ല. ഘടനാപരമായി കാണുന്ന ഒരു ടേബിൾ യഥാർത്ഥത്തിൽ ഒരു കാൻവാസിൽ പ്രത്യേക x, y കോർഡിനേറ്റുകളിൽ സ്ഥാപിച്ചിട്ടുള്ള ഡസൻ കണക്കിന് ടെക്സ്റ്റ് ശകലങ്ങളാണ്. ആ ഘടന ഒരു സ്പ്രെഡ്ഷീറ്റിലേക്ക് തിരികെ എക്സ്ട്രാക്ട് ചെയ്യുന്നത് ഒരു റിവേഴ്സ്-എൻജിനീയറിംഗ് പ്രശ്നമാണ് - വിവിധ ടൂളുകൾ വ്യത്യസ്ത വിജയ നിരക്കുകളിൽ ഇത് കൈകാര്യം ചെയ്യുന്നു.
ഈ ഗൈഡ് PDF-കളിൽ നിന്ന് ടേബിളുകൾ എക്സ്ട്രാക്ട് ചെയ്യുന്നതിനുള്ള 5 രീതികൾ, ഓരോന്നും എപ്പോൾ ഏറ്റവും നന്നായി പ്രവർത്തിക്കുന്നു, കാര്യങ്ങൾ തെറ്റാകുമ്പോൾ എന്തുചെയ്യണം എന്നിവ വിശദീകരിക്കുന്നു.
PDF-കളിൽ നിന്ന് ടേബിൾ എക്സ്ട്രാക്ഷൻ എന്തുകൊണ്ട് ബുദ്ധിമുട്ടാണ്?

PDF ഫോർമാറ്റിൽ ടേബിളുകൾ ഇല്ല
PDF സ്പെസിഫിക്കേഷൻ (ISO 32000-2:2020) ഒരു കണ്ടന്റ് സ്ട്രീം നിർവചിക്കുന്നു - കൃത്യമായ കോർഡിനേറ്റുകളിൽ വ്യക്തിഗത അക്ഷരങ്ങൾ സ്ഥാപിക്കുന്ന ഓപ്പറേറ്ററുകളുടെ ഒരു ശ്രേണി. "തീയതി | വിവരണം | തുക" പോലുള്ള ഒരു ലളിതമായ ടേബിൾ വരി ഇങ്ങനെ സംഭരിക്കാം:
BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Office Supplies) Tj 180 0 Td (125.00) Tj ET<table>, <tr>, അല്ലെങ്കിൽ <td> ടാഗുകൾ ഇല്ല. വരി ഐഡന്റിഫയറുകൾ ഇല്ല. നിര അതിരുകൾ ഇല്ല. സെല്ലുകൾക്ക് ചുറ്റുമുള്ള ദൃശ്യമായ വരകൾ ടെക്സ്റ്റുമായി യാതൊരു ബന്ധവുമില്ലാത്ത പ്രത്യേക ഡ്രോയിംഗ് പ്രവർത്തനങ്ങളാണ്. ഒരു എക്സ്ട്രാക്ഷൻ ടൂൾ സ്ഥലപരമായ ബന്ധങ്ങളിൽ നിന്ന് മുഴുവൻ ഘടനയും ഊഹിക്കേണ്ടതുണ്ട്.
മൂന്ന് തരം ടേബിൾ ബോർഡറുകൾ
ബോർഡേർഡ് (ലാറ്റിസ്) ടേബിളുകൾക്ക് എല്ലാ സെല്ലുകൾക്ക് ചുറ്റും ദൃശ്യമായ വരകളുണ്ട്. ഇവ എക്സ്ട്രാക്ട് ചെയ്യാൻ ഏറ്റവും എളുപ്പമാണ്, കാരണം വരകൾ സെൽ അതിരുകൾ വ്യക്തമായി നിർവചിക്കുന്നു. ഔപചാരിക സാമ്പത്തിക പ്രസ്താവനകൾ, സർക്കാർ ഫോമുകൾ, സ്റ്റാൻഡേർഡ് റിപ്പോർട്ടുകൾ എന്നിവയിൽ സാധാരണയായി കാണപ്പെടുന്നു.
ബോർഡർലെസ് (സ്ട്രീം) ടേബിളുകൾക്ക് വരകളൊന്നും ഇല്ല. ഘടന പൂർണ്ണമായും വൈറ്റ് സ്പേസ് അലൈൻമെന്റ് വഴി നിർവചിക്കപ്പെടുന്നു - വരികളിലുടനീളം സ്ഥിരമായ x-കോർഡിനേറ്റുകൾ പങ്കിടുന്ന ടെക്സ്റ്റ് ഇനങ്ങൾ അനുമാനിക്കപ്പെട്ട നിരകൾ രൂപപ്പെടുത്തുന്നു. ഗവേഷണ പ്രബന്ധങ്ങൾ, ഇൻവോയിസുകൾ, ഉൽപ്പന്ന കാറ്റലോഗുകൾ എന്നിവയിൽ സാധാരണയായി കാണപ്പെടുന്നു.
സെമി-ബോർഡേർഡ് ടേബിളുകൾക്ക് ഭാഗികമായ ബോർഡറുകൾ മാത്രമേയുള്ളൂ - സാധാരണയായി വിഭാഗങ്ങൾക്കിടയിൽ തിരശ്ചീന നിയമങ്ങൾ ഉണ്ടാകും, പക്ഷേ ലംബമായ ഡിവൈഡറുകൾ ഉണ്ടാകില്ല. ബാങ്ക് സ്റ്റേറ്റ്മെന്റുകൾ, ബ്രോക്കറേജ് റിപ്പോർട്ടുകൾ, യൂട്ടിലിറ്റി ബില്ലുകൾ എന്നിവയിൽ ഇത് വളരെ സാധാരണമാണ്. ലാറ്റിസ് മോഡ് പാർസറുകളെ തെറ്റായി നയിക്കുന്ന ഭാഗിക ബോർഡറുകൾ ഉള്ളതിനാലും, ബോർഡറുകൾ ഇല്ലാത്തത് സ്ട്രീം മോഡ് കോൺഫിഡൻസ് കുറയ്ക്കുന്നതിനാലും ഇവ എക്സ്ട്രാക്ട് ചെയ്യാൻ ഏറ്റവും ബുദ്ധിമുട്ടുള്ളവയാണ്.
ടാഗ് ചെയ്തതും ടാഗ് ചെയ്യാത്തതുമായ PDF-കൾ
ടാഗ് ചെയ്ത PDF-കളിൽ തലക്കെട്ടുകൾ, ഖണ്ഡികകൾ, ടേബിൾ സെല്ലുകൾ എന്നിവ തിരിച്ചറിയുന്ന ഘടനാപരമായ മെറ്റാഡാറ്റ ഉൾപ്പെടുന്നു. ടാഗ് ചെയ്യാത്ത PDF-കളിൽ ഇവയൊന്നും ഇല്ല - എക്സ്ട്രാക്ഷൻ ടൂളിന് റോ കോർഡിനേറ്റുകൾ മാത്രമേ ലഭിക്കൂ. മിക്കവാറും എല്ലാ ബാങ്ക് സ്റ്റേറ്റ്മെന്റുകൾ, ഇൻവോയിസുകൾ, സാമ്പത്തിക റിപ്പോർട്ടുകൾ എന്നിവ ഉൾപ്പെടെയുള്ള ഭൂരിഭാഗം PDF-കളും ടാഗ് ചെയ്യാത്തവയാണ്.
രീതി 1: PDFSub എക്സ്ട്രാക്ട് ടേബിൾസ് (സൗജന്യം + AI ഫോൾബാക്ക്)
PDFSub-ന്റെ എക്സ്ട്രാക്ട് ടേബിൾസ് ടൂൾ കൃത്യത വർദ്ധിപ്പിക്കുകയും ചെലവ് കുറയ്ക്കുകയും ചെയ്യുന്ന ഒരു മൂന്ന്-തല സമീപനം ഉപയോഗിക്കുന്നു:
തല 1: കോർഡിനേറ്റ് അടിസ്ഥാനമാക്കിയുള്ള കണ്ടെത്തൽ (ബ്രൗസർ, സൗജന്യം)
ടൂൾ ആദ്യം നിങ്ങളുടെ ബ്രൗസറിൽ പൂർണ്ണമായി എക്സ്ട്രാക്ഷൻ നടത്താൻ ശ്രമിക്കുന്നു:
- ഓരോ ടെക്സ്റ്റ് ഐറ്റവും അതിന്റെ x, y കോർഡിനേറ്റുകളോടെ എക്സ്ട്രാക്ട് ചെയ്യാൻ PDF കണ്ടന്റ് സ്ട്രീം പാർസ് ചെയ്യുന്നു
- y-കോർഡിനേറ്റ് സാമീപ്യം അടിസ്ഥാനമാക്കി ടെക്സ്റ്റ് ഐറ്റങ്ങളെ വരികളായി ഗ്രൂപ്പ് ചെയ്യുന്നു
- വരികളിലുടനീളമുള്ള x-കോർഡിനേറ്റ് അലൈൻമെന്റ് പാറ്റേണുകൾ വിശകലനം ചെയ്ത് കോളം അതിരുകൾ കണ്ടെത്തുന്നു
- കുറഞ്ഞത് 3 വരികളും 2 നിരകളും 70%+ കോൺഫിഡൻസും ആവശ്യമാണ്
നല്ല ടേബിളുകൾ കണ്ടെത്തിയാൽ, നിങ്ങൾക്ക് ഉടൻ ഘടനാപരമായ ഡാറ്റ ലഭിക്കും - സെർവർ അപ്ലോഡ് ഇല്ല, AI ക്രെഡിറ്റുകൾ ഉപയോഗിക്കില്ല, നിങ്ങളുടെ ഫയൽ നിങ്ങളുടെ ഉപകരണത്തിൽ നിന്ന് പുറത്തുപോകുന്നില്ല.
തല 2: സെർവർ-സൈഡ് എക്സ്ട്രാക്ഷൻ (pdfplumber, സൗജന്യം)
കോർഡിനേറ്റ് അടിസ്ഥാനമാക്കിയുള്ള കണ്ടെത്തൽ ടേബിളുകളൊന്നും കണ്ടെത്തിയില്ലെങ്കിൽ, ടൂൾ സെർവറിൽ pdfplumber (MIT ലൈസൻസ്) ഉപയോഗിക്കുന്നു. ഇത് വ്യക്തമായ വരകളും (ബോർഡറുകൾ വരച്ചത്) അനുമാനിക്കപ്പെട്ട വരകളും (വാക്ക് അലൈൻമെന്റ് പാറ്റേണുകൾ) കണ്ടെത്തുന്നു, വിഭജനങ്ങൾ കണ്ടെത്തുന്നു, ചതുരങ്ങൾ തിരിച്ചറിയുന്നു, ടെക്സ്റ്റ് സെല്ലുകളിലേക്ക് മാപ്പ് ചെയ്യുന്നു.
തല 3: AI എക്സ്ട്രാക്ഷൻ (ക്രെഡിറ്റുകൾ ഉപയോഗിക്കുന്നു)
സ്കാൻ ചെയ്ത PDF-കൾ, സങ്കീർണ്ണമായ ലേഔട്ടുകൾ, അല്ലെങ്കിൽ റൂൾ അടിസ്ഥാനമാക്കിയുള്ള രീതികൾക്ക് പാർസ് ചെയ്യാൻ കഴിയാത്ത ടേബിളുകൾ എന്നിവയ്ക്കായി, ടൂൾ AI- പവർഡ് വിഷൻ എക്സ്ട്രാക്ഷനിലേക്ക് മാറുന്നു. ടേബിൾ സങ്കീർണ്ണമാണെന്ന് നിങ്ങൾക്ക് അറിയാമെങ്കിൽ നേരിട്ട് ഈ തലത്തിലേക്ക് പോകാൻ "ഫോഴ്സ് AI എക്സ്ട്രാക്ഷൻ" ടോഗിൾ ചെയ്യാനും കഴിയും.
ഔട്ട്പുട്ട് ഫോർമാറ്റുകൾ: എക്സൽ (.xlsx), CSV, JSON.
ഏറ്റവും അനുയോജ്യം: സോഫ്റ്റ്വെയർ ഇൻസ്റ്റാൾ ചെയ്യാതെ വേഗത്തിൽ എക്സ്ട്രാക്ഷൻ നടത്താൻ. ഡിജിറ്റൽ PDF-കൾ പരമാവധി സ്വകാര്യതയ്ക്കായി നിങ്ങളുടെ ബ്രൗസറിൽ പൂർണ്ണമായി പ്രോസസ്സ് ചെയ്യുന്നു.
രീതി 2: എക്സലിലെ പവർ ക്വറി (വിൻഡോസ് മാത്രം)
എക്സൽ 2019+ ലും വിൻഡോസിലെ Microsoft 365 ലും ലഭ്യമാണ്: ഡാറ്റ → ഡാറ്റ നേടുക → ഫയലിൽ നിന്ന് → PDF-ൽ നിന്ന്.
ഇത് എങ്ങനെ പ്രവർത്തിക്കുന്നു
- ഡാറ്റ → ഡാറ്റ നേടുക → ഫയലിൽ നിന്ന് → PDF-ൽ നിന്ന് ക്ലിക്കുചെയ്യുക
- നിങ്ങളുടെ PDF ഫയൽ തിരഞ്ഞെടുക്കുക
- പവർ ക്വറി ഓരോ പേജിലെയും കണ്ടെത്തിയ ടേബിളുകൾ ലിസ്റ്റ് ചെയ്യുന്ന ഒരു നാവിഗേറ്റർ പാനൽ പ്രദർശിപ്പിക്കുന്നു
- നിങ്ങൾക്ക് ആവശ്യമുള്ള ടേബിളുകൾ തിരഞ്ഞെടുത്ത്, വൃത്തിയാക്കാൻ ഡാറ്റ ട്രാൻസ്ഫോം ചെയ്യുക, തുടർന്ന് ലോഡ് ചെയ്യുക ക്ലിക്കുചെയ്യുക
ഗുണങ്ങൾ
- എക്സലിൽ നിർമ്മിച്ചത് - Microsoft 365 സബ്സ്ക്രൈബർമാർക്ക് അധിക ചിലവില്ല
- പവർ ക്വറിയുടെ ട്രാൻസ്ഫോർമേഷൻ എഞ്ചിൻ പോസ്റ്റ്-പ്രോസസ്സിംഗ് നന്നായി കൈകാര്യം ചെയ്യുന്നു (താഴേക്ക് പൂരിപ്പിക്കുക, പിവിറ്റ് ചെയ്യുക, നിരകൾ ലയിപ്പിക്കുക)
- സോഴ്സ് PDF അപ്ഡേറ്റ് ചെയ്താൽ ഡാറ്റ പുതുക്കാൻ കഴിയും
- ഒരേ PDF-ൽ നിന്ന് ഒന്നിലധികം ടേബിളുകൾ ബന്ധിപ്പിക്കാൻ പിന്തുണയ്ക്കുന്നു
പരിമിതികൾ
- വിൻഡോസ് മാത്രം - Mac-നുള്ള എക്സൽ, എക്സൽ ഓൺലൈൻ, അല്ലെങ്കിൽ മൊബൈൽ എന്നിവയിൽ ലഭ്യമല്ല
- ബോർഡർലെസ് ടേബിളുകളിൽ ബുദ്ധിമുട്ട് - വ്യക്തമായ ബോർഡറുകളുള്ള ടേബിളുകളിൽ ഏറ്റവും നന്നായി പ്രവർത്തിക്കുന്നു
- OCR ഇല്ല - സ്കാൻ ചെയ്ത/ചിത്ര PDF-കളിൽ നിന്ന് എക്സ്ട്രാക്ട് ചെയ്യാൻ കഴിയില്ല
- മൾട്ടി-പേജ് ടേബിളുകൾ പ്രശ്നമാണ് - ഓരോ പേജും പലപ്പോഴും ഒരു പ്രത്യേക ടേബിളായി ഇറക്കുമതി ചെയ്യപ്പെടുന്നു, ഇത് കൈകൊണ്ട് കൂട്ടിച്ചേർക്കേണ്ടി വരുന്നു
- മൾട്ടി-ലൈൻ വരികൾ - സെല്ലിനുള്ളിലെ ചുരുണ്ട ടെക്സ്റ്റ് പലപ്പോഴും ഒന്നിലധികം വരികളായി വിഭജിക്കപ്പെടുന്നു, ഇത് വൃത്തിയാക്കേണ്ടതുണ്ട്
ഏറ്റവും അനുയോജ്യം: ലളിതമായ, ബോർഡേർഡ് ടേബിളുകളുള്ള വിൻഡോസ് ഉപയോക്താക്കൾക്ക് Microsoft 365 ഉള്ളവർക്ക്.
രീതി 3: അഡോബ് അക്രോബാറ്റ് (പണം നൽകി വാങ്ങേണ്ടത്)
ഫയൽ → PDF എക്സ്പോർട്ട് ചെയ്യുക → സ്പ്രെഡ്ഷീറ്റ് → മൈക്രോസോഫ്റ്റ് എക്സൽ വർക്ക്ബുക്ക്
വില (2026)
- അക്രോബാറ്റ് സ്റ്റാൻഡേർഡ്: $12.99/മാസം (വാർഷിക പ്ലാൻ)
- അക്രോബാറ്റ് പ്രോ: $19.99/മാസം (വാർഷിക പ്ലാൻ)
- എക്സ്പോർട്ട് PDF (സ്റ്റാൻഡ്എലോൺ): താഴ്ന്ന നിലയിലുള്ള കൺവേർഷൻ മാത്രം ഉള്ള പ്ലാൻ
ഗുണങ്ങൾ
- സ്കാൻ ചെയ്ത ഡോക്യുമെന്റുകൾക്ക് ബിൽറ്റ്-ഇൻ OCR
- ലളിതമായ ബോർഡേർഡ് ടേബിളുകൾക്ക് ഫോർമാറ്റിംഗ് സംരക്ഷിക്കുന്നു
- പ്രോ പതിപ്പിൽ ബാച്ച് പ്രോസസ്സിംഗ് ലഭ്യമാണ്
പരിമിതികൾ
- ടേബിൾ എക്സ്ട്രാക്ഷന് മാത്രം വിലകൂടിയതാണ് - $156–$240/വർഷം
- ലയിപ്പിച്ച സെല്ലുകളും മൾട്ടി-പേജ് സ്പാനുകളുമുള്ള സങ്കീർണ്ണമായ ടേബിളുകൾ ഇപ്പോഴും തെറ്റായി ക്രമീകരിച്ച ഔട്ട്പുട്ട് നൽകുന്നു
- പ്രോസസ്സിംഗിനായി ഫയലുകൾ അഡോബിന്റെ ക്ലൗഡിലേക്ക് അപ്ലോഡ് ചെയ്തേക്കാം - സെൻസിറ്റീവ് സാമ്പത്തിക ഡാറ്റയ്ക്ക് പ്രശ്നമാണ്
- ഡെസ്ക്ടോപ്പ് ഇൻസ്റ്റാളേഷൻ ആവശ്യമാണ്
ഏറ്റവും അനുയോജ്യം: OCR ആവശ്യമുള്ള ടേബിൾ എക്സ്പോർട്ടുകൾ ആവശ്യമുള്ളതും ഇതിനകം അക്രോബാറ്റ് പ്രോയ്ക്ക് പണം നൽകുന്നതുമായ ഉപയോക്താക്കൾക്ക്.
രീതി 4: കോപ്പി-പേസ്റ്റ് (മാനുവൽ)
ഏറ്റവും സ്വാഭാവികമായ സമീപനം - ടേബിളുകൾക്ക് ഏറ്റവും കൂടുതൽ പരാജയപ്പെടുന്നതും ഇതാണ്.
സാധാരണ പ്രശ്നങ്ങൾ
- എല്ലാ ഡാറ്റയും ഒരു കോളത്തിൽ - നിരകളില്ലാതെ മുഴുവൻ ടേബിളും പേസ്റ്റ് ചെയ്യുന്നു
- സംഖ്യകൾ ടെക്സ്റ്റ് ആകുന്നു - കറൻസി ചിഹ്നങ്ങൾ, ബ്രാക്കറ്റുകൾ, സെപ്പറേറ്ററുകൾ എന്നിവ സംഖ്യാ ഫോർമാറ്റിംഗ് തടസ്സപ്പെടുത്തുന്നു
- സെല്ലിനുള്ളിലെ മൾട്ടി-ലൈൻ ഉള്ളടക്കം വ്യാജ വരികൾ സൃഷ്ടിക്കുന്നു - സെല്ലിനുള്ളിൽ രണ്ട് വരികളായി ചുരുണ്ട വിവരണം രണ്ട് പ്രത്യേക വരികളായി മാറുന്നു
- തലക്കെട്ടുകൾ ഡാറ്റയിൽ നിന്ന് വേർപെടുത്തുന്നു - തലക്കെട്ട് വരി വിച്ഛേദിക്കപ്പെടുന്നു
- നിരകൾ തെറ്റായി ക്രമീകരിക്കുന്നു - അക്ഷരങ്ങളുടെ അകലം ടാബുകളിലേക്ക് വിവർത്തനം ചെയ്യാത്തതിനാൽ ഡാറ്റ മാറുന്നു
ഭാഗികമായ പരിഹാരം
എക്സലിൽ പേസ്റ്റ് ചെയ്യുക, തുടർന്ന് ഡിലിമിറ്ററുകളായി സ്പേസ് അല്ലെങ്കിൽ ഫിക്സഡ്-വിഡ്ത്ത് ഉപയോഗിച്ച് ഡാറ്റ → ടെക്സ്റ്റ് ടു കോളംസ് ഉപയോഗിക്കുക. "തുടർച്ചയായുള്ള ഡിലിമിറ്ററുകൾ ഒരെണ്ണമായി പരിഗണിക്കുക" പ്രവർത്തനക്ഷമമാക്കുക. ഇത് വളരെ ലളിതവും നന്നായി അകലമുള്ളതുമായ ടേബിളുകളിൽ പ്രവർത്തിക്കുന്നു, എന്നാൽ ഒന്നിലധികം വാക്കുകളുള്ള സെൽ ഉള്ളടക്കമുള്ളവയിൽ പരാജയപ്പെടുന്നു.
ഏറ്റവും അനുയോജ്യം: അവസാന ആശ്രയമെന്ന നിലയിൽ ഒരു ചെറിയ, ലളിതമായ ടേബിൾ എക്സ്ട്രാക്ട് ചെയ്യാൻ.
രീതി 5: പൈത്തൺ ലൈബ്രറികൾ (ഡെവലപ്പർമാർക്ക്)
മൂന്ന് MIT ലൈസൻസ്ഡ് ലൈബ്രറികൾ പ്രോഗ്രാമാറ്റിക്കായി PDF ടേബിൾ എക്സ്ട്രാക്ഷൻ കൈകാര്യം ചെയ്യുന്നു:
Tabula-py
Tabula (Java) ക്ക് മുകളിലുള്ള പൈത്തൺ റാപ്പർ. ജാവ റൺടൈം ആവശ്യമാണ്.
- ബോർഡേർഡ് ടേബിളുകൾക്കുള്ള ലാറ്റിസ് മോഡ് (വരകളും വിഭജനങ്ങളും കണ്ടെത്തുന്നു)
- ബോർഡർലെസ് ടേബിളുകൾക്കുള്ള സ്ട്രീം മോഡ് (ടെക്സ്റ്റ് അലൈൻമെന്റ് ഉപയോഗിക്കുന്നു)
- സ്ക്രിപ്റ്റുകളിൽ ബാച്ച് പ്രോസസ്സിംഗിന് നല്ലത്
- OCR പിന്തുണയില്ല
Camelot
ലാറ്റിസ്, സ്ട്രീം മോഡുകളും വാഗ്ദാനം ചെയ്യുന്നു.
- ബോർഡേർഡ് ടേബിളുകളിൽ ടാബുലയെക്കാൾ മികച്ച പ്രകടനം കാഴ്ചവെക്കുന്നു
- സ്ട്രീം മോഡിന് ഫൈൻ-ട്യൂണിംഗിനായി കൂടുതൽ കോൺഫിഗറേഷൻ പാരാമീറ്ററുകൾ ഉണ്ട്
- ഓരോ എക്സ്ട്രാക്ഷനും കൃത്യത റിപ്പോർട്ടുകൾ നൽകുന്നു
- Ghostscript ഡിപൻഡൻസി ആവശ്യമാണ്. OCR പിന്തുണയില്ല
pdfplumber
കോർഡിനേറ്റ് അടിസ്ഥാനമാക്കിയുള്ള സമീപനം: ഓരോ അക്ഷരവും അതിന്റെ കൃത്യമായ സ്ഥാനത്തോടെ എക്സ്ട്രാക്ട് ചെയ്യുന്നു, തുടർന്ന് ഘടന ഊഹിക്കുന്നു.
- ഏറ്റവും വലിയ ശ്രേണിയിലുള്ള ടേബിൾ തരങ്ങൾ കൈകാര്യം ചെയ്യുന്നു
- ഏറ്റവും കൂടുതൽ നിയന്ത്രണം നൽകുന്നു, പക്ഷേ കൂടുതൽ കോൺഫിഗറേഷൻ ആവശ്യമാണ്
- PDFSub സെർവർ-സൈഡ് ഉപയോഗിക്കുന്ന ലൈബ്രറി ഇതാണ്
- OCR പിന്തുണയില്ല
ഏറ്റവും അനുയോജ്യം: ആവർത്തിച്ചുള്ള ടേബിൾ എക്സ്ട്രാക്ഷൻ വർക്ക്ഫ്ലോകൾ ഓട്ടോമേറ്റ് ചെയ്യുന്ന, വലിയ ബാച്ചുകളിലുള്ള സമാന ഡോക്യുമെന്റുകൾ പ്രോസസ്സ് ചെയ്യുന്ന ഡെവലപ്പർമാർക്ക്.
സാധാരണ പ്രശ്നങ്ങളും അവ പരിഹരിക്കാനുള്ള വഴികളും
ലയിപ്പിച്ച സെല്ലുകൾ
സെല്ലുകൾ ഒന്നിലധികം വരികളോ നിരകളോ വ്യാപിക്കുമ്പോൾ, മിക്ക ടൂളുകളും ഒന്നുകിൽ മുകളിലെ ഇടത് സെല്ലിൽ ഉള്ളടക്കം സ്ഥാപിക്കുകയും മറ്റുള്ളവ ശൂന്യമായി വിടുകയും ചെയ്യും, അല്ലെങ്കിൽ ശേഷിക്കുന്ന എല്ലാ നിരകളെയും തെറ്റായി ക്രമീകരിക്കും. സാർവത്രിക പരിഹാരമില്ല - CSV ഫോർമാറ്റിന് ലയന സങ്കൽപ്പമില്ല, അതിനാൽ ലയന വിവരങ്ങൾ എപ്പോഴും നഷ്ടപ്പെടും.
പരിഹാരം: ടേബിൾ എക്സ്ട്രാക്ട് ചെയ്യുക, തുടർന്ന് എക്സലിൽ ലയനത്തെ തുടർന്നുള്ള പ്രശ്നങ്ങൾ മാനുവലായി പരിഹരിക്കുക. സമാന ലയന പാറ്റേണുകളുള്ള ആവർത്തിച്ചുള്ള ടേബിളുകൾക്ക്, ഒരു പോസ്റ്റ്-പ്രോസസ്സിംഗ് സ്ക്രിപ്റ്റ് പരിഗണിക്കുക.
സെല്ലിനുള്ളിലെ മൾട്ടി-ലൈൻ ഉള്ളടക്കം
സെല്ലിനുള്ളിൽ ചുരുണ്ട നീണ്ട വിവരണങ്ങൾ ഔട്ട്പുട്ടിൽ ഒന്നിലധികം വരികളായി മാറുന്നു, ഇത് ശേഷിക്കുന്ന എല്ലാ ഡാറ്റയെയും തെറ്റായി ക്രമീകരിക്കുന്നു. സാമ്പത്തിക ഡോക്യുമെന്റുകൾക്കുള്ള ഏറ്റവും സാധാരണമായ എക്സ്ട്രാക്ഷൻ പിശകാണിത്.
പരിഹാരം: എക്സ്ട്രാക്ഷന് ശേഷം, തീയതികളും തുകയും കാണാത്ത വരികൾക്കായി നോക്കുക - ഇവ മുകളിലെ വരിയുടെ തുടർച്ചയായുള്ള വരികളായിരിക്കാം. എക്സലിൽ, അവ മാനുവലായി ലയിപ്പിക്കുക അല്ലെങ്കിൽ ഒരു സഹായ ഫോർമുല ഉപയോഗിക്കുക.
ഒന്നിലധികം പേജുകളിലായി വ്യാപിക്കുന്ന ടേബിളുകൾ
ടേബിൾ എവിടെ തുടരുന്നു, ആവർത്തിച്ചുള്ള തലക്കെട്ടുകൾ നീക്കം ചെയ്യണമോ, പേജ് ഫൂട്ടറുകൾ എങ്ങനെ ഫിൽട്ടർ ചെയ്യണം എന്നിവ ടൂളുകൾ നിർണ്ണയിക്കണം. പല ടൂളുകളും ഓരോ പേജിനെയും സ്വതന്ത്രമായി പരിഗണിക്കുന്നു.
പരിഹാരം: നിങ്ങളുടെ ടൂൾ ഓരോ പേജിനും ഫലങ്ങൾ നൽകുന്നുണ്ടെങ്കിൽ, ഷീറ്റുകൾ സംയോജിപ്പിച്ച് ആവർത്തിച്ചുള്ള തലക്കെട്ട് വരികൾ നീക്കം ചെയ്യുക. പേജ് N-ലെ അവസാന വരി പേജ് N+1-ലെ ആദ്യ വരിയുമായി ശരിയായി ബന്ധിപ്പിക്കുന്നുണ്ടോയെന്ന് പരിശോധിക്കുക.
കറൻസി ഫോർമാറ്റിംഗ് പ്രശ്നങ്ങൾ
ബ്രാക്കറ്റുകളിലുള്ള നെഗറ്റീവ് സംഖ്യകൾ ((1,234.56)) സംഖ്യകളായി പേസ്റ്റ് ചെയ്യുന്നതിനു പകരം ടെക്സ്റ്റ് ആയി പേസ്റ്റ് ചെയ്യുന്നു. കറൻസി ചിഹ്നങ്ങളും ആയിരം സെപ്പറേറ്ററുകളും സംഖ്യാ ഫോർമാറ്റിംഗ് തടസ്സപ്പെടുത്തുന്നു.
പരിഹാരം: എക്സ്ട്രാക്ഷന് ശേഷം, തുക കോളം തിരഞ്ഞെടുത്ത് $, (, ) അക്ഷരങ്ങൾ നീക്കം ചെയ്യാൻ കണ്ടെത്തുക & മാറ്റിസ്ഥാപിക്കുക ഉപയോഗിക്കുക. തുടർന്ന് കോളം നമ്പർ ആയി ഫോർമാറ്റ് ചെയ്യുക. ബ്രാക്കറ്റുകളിലുള്ള നെഗറ്റീവുകൾക്ക്, ( നെ - കൊണ്ടും ) നീക്കം ചെയ്തും മാറ്റിസ്ഥാപിക്കുക, തുടർന്ന് നമ്പർ ഫോർമാറ്റിലേക്ക് മാറ്റുക.
തീയതിയിലെ അവ്യക്തത
01/02/2026 - ഇത് ജനുവരി 2 ആണോ അതോ ഫെബ്രുവരി 1 ആണോ? എക്സ്ട്രാക്ഷൻ ടൂൾ സ്ട്രിംഗ് അതുപോലെ നിലനിർത്തുന്നു, എന്നാൽ എക്സൽ നിങ്ങളുടെ ലൊക്കേൽ അടിസ്ഥാനമാക്കി അത് വീണ്ടും വ്യാഖ്യാനിച്ചേക്കാം.
പരിഹാരം: തീയതി ഫോർമാറ്റ് സൂചനകൾക്കായി സോഴ്സ് PDF പരിശോധിക്കുക (ദിവസ മൂല്യം > 12 ഉള്ള തീയതികൾക്കായി നോക്കുക). ഇറക്കുമതി ചെയ്യുന്നതിന് മുമ്പ് സോഴ്സുമായി പൊരുത്തപ്പെടുന്ന തീയതി ഫോർമാറ്റിലേക്ക് എക്സൽ സജ്ജമാക്കുക.
കൃത്യത താരതമ്യം
| രീതി | ലളിതമായ ബോർഡേർഡ് | ബോർഡർലെസ് | സെമി-ബോർഡേർഡ് | സ്കാൻ ചെയ്ത PDF-കൾ |
|---|---|---|---|---|
| PDFSub (കോർഡിനേറ്റ് + AI) | 90–99% | 75–95% | 70–95% | 85–95% (AI) |
| പവർ ക്വറി | 85–95% | 40–60% | 50–70% | പിന്തുണയ്ക്കുന്നില്ല |
| അഡോബ് അക്രോബാറ്റ് | 90–95% | 70–80% | 70–85% | 80–90% |
| ടാബുല | ~68% | 55–70% | 50–65% | പിന്തുണയ്ക്കുന്നില്ല |
| കാമെലോട്ട് | ~73% | 65–75% | 60–70% | പിന്തുണയ്ക്കുന്നില്ല |
| കോപ്പി-പേസ്റ്റ് | 30–50% | 10–30% | 10–30% | സാധ്യമല്ല |
ഏത് രീതി ഉപയോഗിക്കണം?
| സാഹചര്യം | ഏറ്റവും നല്ല രീതി | കാരണം |
|---|---|---|
| വേഗത്തിലുള്ള ഒറ്റത്തവണ എക്സ്ട്രാക്ഷൻ | PDFSub | ഇൻസ്റ്റാൾ ചെയ്യേണ്ടതില്ല, ബ്രൗസർ അധിഷ്ഠിതം, സൗജന്യ കോർഡിനേറ്റ് എക്സ്ട്രാക്ഷൻ |
| ലളിതമായ ബോർഡേർഡ് ടേബിൾ, വിൻഡോസ് | പവർ ക്വറി | എക്സലിൽ നിർമ്മിച്ചത്, അധിക ചിലവില്ല |
| സ്കാൻ ചെയ്ത PDF | PDFSub (AI) അല്ലെങ്കിൽ അഡോബ് അക്രോബാറ്റ് | OCR കഴിവ് ആവശ്യമാണ് |
| സെൻസിറ്റീവ് സാമ്പത്തിക ഡാറ്റ | PDFSub | ബ്രൗസർ അധിഷ്ഠിത പ്രോസസ്സിംഗ്, ഫയൽ ഒരിക്കലും അപ്ലോഡ് ചെയ്യില്ല |
| ആവർത്തിച്ചുള്ള ബാച്ച് പ്രോസസ്സിംഗ് | പൈത്തൺ (pdfplumber) | സ്ക്രിപ്റ്റ് ചെയ്യാൻ കഴിയുന്ന, ഓട്ടോമേറ്റ് ചെയ്യാൻ കഴിയുന്ന |
| ഇതിനകം അക്രോബാറ്റ് പ്രോ ഉണ്ടെങ്കിൽ | അഡോബ് അക്രോബാറ്റ് | ഇതിനകം പണം നൽകുന്നു, ലളിതമായ ടേബിളുകൾ നന്നായി പ്രവർത്തിക്കുന്നു |
| ഒറ്റ ചെറിയ ടേബിൾ, ടൂളുകളില്ലെങ്കിൽ | കോപ്പി-പേസ്റ്റ് | അവസാന ആശ്രയം, എല്ലാം പരിശോധിക്കുക |
മികച്ച ഫലങ്ങൾക്കുള്ള നുറുങ്ങുകൾ
നേറ്റീവ് PDF-കൾ ഉപയോഗിക്കുക. പേപ്പർ സ്കാൻ ചെയ്യുന്നതിനു പകരം അവയുടെ ഉറവിടത്തിൽ നിന്ന് ഡോക്യുമെന്റുകൾ ഡൗൺലോഡ് ചെയ്യുക. നേറ്റീവ് PDF-കൾക്ക് മികച്ച ടെക്സ്റ്റ് ഉണ്ട്, ഇത് എക്സ്ട്രാക്ഷൻ ഗണ്യമായി കൂടുതൽ കൃത്യമാക്കുന്നു.
ആദ്യം ടേബിൾ തരം തിരിച്ചറിയുക. ബോർഡേർഡ് ടേബിളുകൾ ഏത് ടൂളിലും പ്രവർത്തിക്കുന്നു. ബോർഡർലെസ് ടേബിളുകൾക്ക് സ്ട്രീം-മോഡ് അല്ലെങ്കിൽ AI എക്സ്ട്രാക്ഷൻ ആവശ്യമാണ്. തരം അറിയുന്നത് ശരിയായ രീതി തിരഞ്ഞെടുക്കാൻ സഹായിക്കുന്നു.
സൗജന്യ, റൂൾ അടിസ്ഥാനമാക്കിയുള്ള രീതികളിൽ നിന്ന് ആരംഭിക്കുക. ആദ്യം കോർഡിനേറ്റ് അടിസ്ഥാനമാക്കിയുള്ള എക്സ്ട്രാക്ഷൻ ശ്രമിക്കുക. റൂൾ അടിസ്ഥാനമാക്കിയുള്ള രീതികൾ മോശം ഫലങ്ങൾ നൽകിയാൽ മാത്രം AI-ലേക്ക് പോകുക - ഇത് സമയവും ക്രെഡിറ്റുകളും ലാഭിക്കുന്നു.
എപ്പോഴും ഔട്ട്പുട്ട് പരിശോധിക്കുക. വരികളുടെ എണ്ണം, നിരകളുടെ ക്രമീകരണം, സംഖ്യാ മൂല്യങ്ങൾ, ആകെത്തുക എന്നിവ പരിശോധിക്കുക. എക്സ്ട്രാക്ഷൻ ഔട്ട്പുട്ട് ഒരിക്കലും കണ്ണടച്ച് വിശ്വസിക്കരുത്.
സംഖ്യാ ഫോർമാറ്റിംഗിൽ ശ്രദ്ധിക്കുക. എക്സ്ട്രാക്ഷന് ശേഷം, സംഖ്യകൾ യഥാർത്ഥത്തിൽ എക്സലിൽ സംഖ്യകളാണോ (വലത്തേക്ക് ക്രമീകരിച്ചത്), ടെക്സ്റ്റ് സ്ട്രിംഗുകളല്ലേ (ഇടത്തേക്ക് ക്രമീകരിച്ചത്) എന്ന് പരിശോധിക്കുക. കറൻസി ചിഹ്നങ്ങളും ബ്രാക്കറ്റുകളിലുള്ള നെഗറ്റീവുകളും സാധാരണ കുറ്റക്കാരാണ്.
സെൻസിറ്റീവ് ഡാറ്റയ്ക്ക്, ബ്രൗസർ അധിഷ്ഠിത ടൂളുകൾക്ക് മുൻഗണന നൽകുക. സാമ്പത്തിക റിപ്പോർട്ടുകൾ, ബാങ്ക് സ്റ്റേറ്റ്മെന്റുകൾ, നികുതി രേഖകൾ എന്നിവയിൽ സെൻസിറ്റീവ് വിവരങ്ങൾ അടങ്ങിയിരിക്കുന്നു. നിങ്ങളുടെ ബ്രൗസറിൽ PDF-കൾ പ്രോസസ്സ് ചെയ്യുന്ന ടൂളുകൾ നിങ്ങളുടെ ഫയൽ ഒരിക്കലും അപ്ലോഡ് ചെയ്യില്ല, ഇത് ഡാറ്റ എക്സ്പോഷർ റിസ്ക് ഇല്ലാതാക്കുന്നു.
സൗജന്യമായി പരീക്ഷിച്ചുനോക്കൂ
നിങ്ങളുടെ PDF-ൽ നിന്ന് ടേബിളുകൾ എക്സ്ട്രാക്ട് ചെയ്യാൻ തയ്യാറാണോ? ഇപ്പോൾ ഒരു ഫയൽ അപ്ലോഡ് ചെയ്യുക - PDFSub ആദ്യം സൗജന്യ കോർഡിനേറ്റ് അടിസ്ഥാനമാക്കിയുള്ള എക്സ്ട്രാക്ഷൻ ശ്രമിക്കുന്നു, സങ്കീർണ്ണമായ ടേബിളുകൾക്ക് AI ഫോൾബാക്ക് ഉണ്ട്. ഡിജിറ്റൽ PDF-കൾ നിങ്ങളുടെ ബ്രൗസറിൽ പൂർണ്ണമായി പ്രോസസ്സ് ചെയ്യുന്നു. 7 ദിവസത്തെ സൗജന്യ ട്രയൽ ആരംഭിക്കുക.