How to Extract Tables from PDF to Excel: 5 Methods Compared

നിങ്ങളുടെ കയ്യിലുള്ള ഒരു PDF ഫയലിൽ നിന്ന് ഒരു ടേബിൾ എക്സലിലേക്ക് മാറ്റണമെന്ന് കരുതുക. അത് ഒരു സാമ്പത്തിക റിപ്പോർട്ടോ, ബാങ്ക് സ്റ്റേറ്റ്മെന്റോ, ഇൻവോയിസോ, അല്ലെങ്കിൽ ഗവേഷണ പ്രബന്ധമോ ആകാം. ഡാറ്റ സ്ക്രീനിൽ വ്യക്തമായി നിരകളിലും വരികളിലുമായി ക്രമീകരിച്ചിരിക്കുന്നു. എന്നാൽ അത് പുറത്തെടുക്കാൻ ശ്രമിക്കുമ്പോൾ എല്ലാം താളം തെറ്റുന്നു.

ഇങ്ങനെ സംഭവിക്കുന്നത് PDF ഒരു ഡാറ്റ ഫോർമാറ്റ് അല്ലാത്തതുകൊണ്ടാണ്. ഇത് ഒരു ഡിസ്‌പ്ലേ ഫോർമാറ്റ് ആണ്. PDF സ്പെസിഫിക്കേഷനിൽ "ടേബിൾ", "വരി", "നിര" എന്നിവയ്ക്ക് യാതൊരു സങ്കൽപ്പവും ഇല്ല. ഘടനാപരമായി കാണുന്ന ഒരു ടേബിൾ യഥാർത്ഥത്തിൽ ഒരു കാൻവാസിൽ പ്രത്യേക x, y കോർഡിനേറ്റുകളിൽ സ്ഥാപിച്ചിട്ടുള്ള ഡസൻ കണക്കിന് ടെക്സ്റ്റ് ശകലങ്ങളാണ്. ആ ഘടന ഒരു സ്പ്രെഡ്‌ഷീറ്റിലേക്ക് തിരികെ എക്‌സ്‌ട്രാക്ട് ചെയ്യുന്നത് ഒരു റിവേഴ്‌സ്-എൻജിനീയറിംഗ് പ്രശ്നമാണ് - വിവിധ ടൂളുകൾ വ്യത്യസ്ത വിജയ നിരക്കുകളിൽ ഇത് കൈകാര്യം ചെയ്യുന്നു.

ഈ ഗൈഡ് PDF-കളിൽ നിന്ന് ടേബിളുകൾ എക്‌സ്‌ട്രാക്ട് ചെയ്യുന്നതിനുള്ള 5 രീതികൾ, ഓരോന്നും എപ്പോൾ ഏറ്റവും നന്നായി പ്രവർത്തിക്കുന്നു, കാര്യങ്ങൾ തെറ്റാകുമ്പോൾ എന്തുചെയ്യണം എന്നിവ വിശദീകരിക്കുന്നു.

PDF-കളിൽ നിന്ന് ടേബിൾ എക്‌സ്‌ട്രാക്ഷൻ എന്തുകൊണ്ട് ബുദ്ധിമുട്ടാണ്?

5 Methods for Extracting PDF Tables to Excel - Accuracy Comparison

PDF ഫോർമാറ്റിൽ ടേബിളുകൾ ഇല്ല

PDF സ്പെസിഫിക്കേഷൻ (ISO 32000-2:2020) ഒരു കണ്ടന്റ് സ്ട്രീം നിർവചിക്കുന്നു - കൃത്യമായ കോർഡിനേറ്റുകളിൽ വ്യക്തിഗത അക്ഷരങ്ങൾ സ്ഥാപിക്കുന്ന ഓപ്പറേറ്ററുകളുടെ ഒരു ശ്രേണി. "തീയതി | വിവരണം | തുക" പോലുള്ള ഒരു ലളിതമായ ടേബിൾ വരി ഇങ്ങനെ സംഭരിക്കാം:

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Office Supplies) Tj 180 0 Td (125.00) Tj ET

<table>, <tr>, അല്ലെങ്കിൽ <td> ടാഗുകൾ ഇല്ല. വരി ഐഡന്റിഫയറുകൾ ഇല്ല. നിര അതിരുകൾ ഇല്ല. സെല്ലുകൾക്ക് ചുറ്റുമുള്ള ദൃശ്യമായ വരകൾ ടെക്സ്റ്റുമായി യാതൊരു ബന്ധവുമില്ലാത്ത പ്രത്യേക ഡ്രോയിംഗ് പ്രവർത്തനങ്ങളാണ്. ഒരു എക്‌സ്‌ട്രാക്ഷൻ ടൂൾ സ്ഥലപരമായ ബന്ധങ്ങളിൽ നിന്ന് മുഴുവൻ ഘടനയും ഊഹിക്കേണ്ടതുണ്ട്.

മൂന്ന് തരം ടേബിൾ ബോർഡറുകൾ

ബോർഡേർഡ് (ലാറ്റിസ്) ടേബിളുകൾക്ക് എല്ലാ സെല്ലുകൾക്ക് ചുറ്റും ദൃശ്യമായ വരകളുണ്ട്. ഇവ എക്‌സ്‌ട്രാക്ട് ചെയ്യാൻ ഏറ്റവും എളുപ്പമാണ്, കാരണം വരകൾ സെൽ അതിരുകൾ വ്യക്തമായി നിർവചിക്കുന്നു. ഔപചാരിക സാമ്പത്തിക പ്രസ്താവനകൾ, സർക്കാർ ഫോമുകൾ, സ്റ്റാൻഡേർഡ് റിപ്പോർട്ടുകൾ എന്നിവയിൽ സാധാരണയായി കാണപ്പെടുന്നു.

ബോർഡർലെസ് (സ്ട്രീം) ടേബിളുകൾക്ക് വരകളൊന്നും ഇല്ല. ഘടന പൂർണ്ണമായും വൈറ്റ് സ്പേസ് അലൈൻമെന്റ് വഴി നിർവചിക്കപ്പെടുന്നു - വരികളിലുടനീളം സ്ഥിരമായ x-കോർഡിനേറ്റുകൾ പങ്കിടുന്ന ടെക്സ്റ്റ് ഇനങ്ങൾ അനുമാനിക്കപ്പെട്ട നിരകൾ രൂപപ്പെടുത്തുന്നു. ഗവേഷണ പ്രബന്ധങ്ങൾ, ഇൻവോയിസുകൾ, ഉൽപ്പന്ന കാറ്റലോഗുകൾ എന്നിവയിൽ സാധാരണയായി കാണപ്പെടുന്നു.

സെമി-ബോർഡേർഡ് ടേബിളുകൾക്ക് ഭാഗികമായ ബോർഡറുകൾ മാത്രമേയുള്ളൂ - സാധാരണയായി വിഭാഗങ്ങൾക്കിടയിൽ തിരശ്ചീന നിയമങ്ങൾ ഉണ്ടാകും, പക്ഷേ ലംബമായ ഡിവൈഡറുകൾ ഉണ്ടാകില്ല. ബാങ്ക് സ്റ്റേറ്റ്മെന്റുകൾ, ബ്രോക്കറേജ് റിപ്പോർട്ടുകൾ, യൂട്ടിലിറ്റി ബില്ലുകൾ എന്നിവയിൽ ഇത് വളരെ സാധാരണമാണ്. ലാറ്റിസ് മോഡ് പാർസറുകളെ തെറ്റായി നയിക്കുന്ന ഭാഗിക ബോർഡറുകൾ ഉള്ളതിനാലും, ബോർഡറുകൾ ഇല്ലാത്തത് സ്ട്രീം മോഡ് കോൺഫിഡൻസ് കുറയ്ക്കുന്നതിനാലും ഇവ എക്‌സ്‌ട്രാക്ട് ചെയ്യാൻ ഏറ്റവും ബുദ്ധിമുട്ടുള്ളവയാണ്.

ടാഗ് ചെയ്തതും ടാഗ് ചെയ്യാത്തതുമായ PDF-കൾ

ടാഗ് ചെയ്ത PDF-കളിൽ തലക്കെട്ടുകൾ, ഖണ്ഡികകൾ, ടേബിൾ സെല്ലുകൾ എന്നിവ തിരിച്ചറിയുന്ന ഘടനാപരമായ മെറ്റാഡാറ്റ ഉൾപ്പെടുന്നു. ടാഗ് ചെയ്യാത്ത PDF-കളിൽ ഇവയൊന്നും ഇല്ല - എക്‌സ്‌ട്രാക്ഷൻ ടൂളിന് റോ കോർഡിനേറ്റുകൾ മാത്രമേ ലഭിക്കൂ. മിക്കവാറും എല്ലാ ബാങ്ക് സ്റ്റേറ്റ്മെന്റുകൾ, ഇൻവോയിസുകൾ, സാമ്പത്തിക റിപ്പോർട്ടുകൾ എന്നിവ ഉൾപ്പെടെയുള്ള ഭൂരിഭാഗം PDF-കളും ടാഗ് ചെയ്യാത്തവയാണ്.

രീതി 1: PDFSub എക്‌സ്‌ട്രാക്ട് ടേബിൾസ് (സൗജന്യം + AI ഫോൾബാക്ക്)

PDFSub-ന്റെ എക്‌സ്‌ട്രാക്ട് ടേബിൾസ് ടൂൾ കൃത്യത വർദ്ധിപ്പിക്കുകയും ചെലവ് കുറയ്ക്കുകയും ചെയ്യുന്ന ഒരു മൂന്ന്-തല സമീപനം ഉപയോഗിക്കുന്നു:

തല 1: കോർഡിനേറ്റ് അടിസ്ഥാനമാക്കിയുള്ള കണ്ടെത്തൽ (ബ്രൗസർ, സൗജന്യം)

ടൂൾ ആദ്യം നിങ്ങളുടെ ബ്രൗസറിൽ പൂർണ്ണമായി എക്‌സ്‌ട്രാക്ഷൻ നടത്താൻ ശ്രമിക്കുന്നു:

ഓരോ ടെക്സ്റ്റ് ഐറ്റവും അതിന്റെ x, y കോർഡിനേറ്റുകളോടെ എക്‌സ്‌ട്രാക്ട് ചെയ്യാൻ PDF കണ്ടന്റ് സ്ട്രീം പാർസ് ചെയ്യുന്നു
y-കോർഡിനേറ്റ് സാമീപ്യം അടിസ്ഥാനമാക്കി ടെക്സ്റ്റ് ഐറ്റങ്ങളെ വരികളായി ഗ്രൂപ്പ് ചെയ്യുന്നു
വരികളിലുടനീളമുള്ള x-കോർഡിനേറ്റ് അലൈൻമെന്റ് പാറ്റേണുകൾ വിശകലനം ചെയ്ത് കോളം അതിരുകൾ കണ്ടെത്തുന്നു
കുറഞ്ഞത് 3 വരികളും 2 നിരകളും 70%+ കോൺഫിഡൻസും ആവശ്യമാണ്

നല്ല ടേബിളുകൾ കണ്ടെത്തിയാൽ, നിങ്ങൾക്ക് ഉടൻ ഘടനാപരമായ ഡാറ്റ ലഭിക്കും - സെർവർ അപ്‌ലോഡ് ഇല്ല, AI ക്രെഡിറ്റുകൾ ഉപയോഗിക്കില്ല, നിങ്ങളുടെ ഫയൽ നിങ്ങളുടെ ഉപകരണത്തിൽ നിന്ന് പുറത്തുപോകുന്നില്ല.

തല 2: സെർവർ-സൈഡ് എക്‌സ്‌ട്രാക്ഷൻ (pdfplumber, സൗജന്യം)

കോർഡിനേറ്റ് അടിസ്ഥാനമാക്കിയുള്ള കണ്ടെത്തൽ ടേബിളുകളൊന്നും കണ്ടെത്തിയില്ലെങ്കിൽ, ടൂൾ സെർവറിൽ pdfplumber (MIT ലൈസൻസ്) ഉപയോഗിക്കുന്നു. ഇത് വ്യക്തമായ വരകളും (ബോർഡറുകൾ വരച്ചത്) അനുമാനിക്കപ്പെട്ട വരകളും (വാക്ക് അലൈൻമെന്റ് പാറ്റേണുകൾ) കണ്ടെത്തുന്നു, വിഭജനങ്ങൾ കണ്ടെത്തുന്നു, ചതുരങ്ങൾ തിരിച്ചറിയുന്നു, ടെക്സ്റ്റ് സെല്ലുകളിലേക്ക് മാപ്പ് ചെയ്യുന്നു.

തല 3: AI എക്‌സ്‌ട്രാക്ഷൻ (ക്രെഡിറ്റുകൾ ഉപയോഗിക്കുന്നു)

സ്കാൻ ചെയ്ത PDF-കൾ, സങ്കീർണ്ണമായ ലേഔട്ടുകൾ, അല്ലെങ്കിൽ റൂൾ അടിസ്ഥാനമാക്കിയുള്ള രീതികൾക്ക് പാർസ് ചെയ്യാൻ കഴിയാത്ത ടേബിളുകൾ എന്നിവയ്ക്കായി, ടൂൾ AI- പവർഡ് വിഷൻ എക്‌സ്‌ട്രാക്ഷനിലേക്ക് മാറുന്നു. ടേബിൾ സങ്കീർണ്ണമാണെന്ന് നിങ്ങൾക്ക് അറിയാമെങ്കിൽ നേരിട്ട് ഈ തലത്തിലേക്ക് പോകാൻ "ഫോഴ്‌സ് AI എക്‌സ്‌ട്രാക്ഷൻ" ടോഗിൾ ചെയ്യാനും കഴിയും.

ഔട്ട്‌പുട്ട് ഫോർമാറ്റുകൾ: എക്സൽ (.xlsx), CSV, JSON.

ഏറ്റവും അനുയോജ്യം: സോഫ്റ്റ്‌വെയർ ഇൻസ്റ്റാൾ ചെയ്യാതെ വേഗത്തിൽ എക്‌സ്‌ട്രാക്ഷൻ നടത്താൻ. ഡിജിറ്റൽ PDF-കൾ പരമാവധി സ്വകാര്യതയ്ക്കായി നിങ്ങളുടെ ബ്രൗസറിൽ പൂർണ്ണമായി പ്രോസസ്സ് ചെയ്യുന്നു.

രീതി 2: എക്സലിലെ പവർ ക്വറി (വിൻഡോസ് മാത്രം)

എക്സൽ 2019+ ലും വിൻഡോസിലെ Microsoft 365 ലും ലഭ്യമാണ്: ഡാറ്റ → ഡാറ്റ നേടുക → ഫയലിൽ നിന്ന് → PDF-ൽ നിന്ന്.

ഇത് എങ്ങനെ പ്രവർത്തിക്കുന്നു

ഡാറ്റ → ഡാറ്റ നേടുക → ഫയലിൽ നിന്ന് → PDF-ൽ നിന്ന് ക്ലിക്കുചെയ്യുക
നിങ്ങളുടെ PDF ഫയൽ തിരഞ്ഞെടുക്കുക
പവർ ക്വറി ഓരോ പേജിലെയും കണ്ടെത്തിയ ടേബിളുകൾ ലിസ്റ്റ് ചെയ്യുന്ന ഒരു നാവിഗേറ്റർ പാനൽ പ്രദർശിപ്പിക്കുന്നു
നിങ്ങൾക്ക് ആവശ്യമുള്ള ടേബിളുകൾ തിരഞ്ഞെടുത്ത്, വൃത്തിയാക്കാൻ ഡാറ്റ ട്രാൻസ്ഫോം ചെയ്യുക, തുടർന്ന് ലോഡ് ചെയ്യുക ക്ലിക്കുചെയ്യുക

ഗുണങ്ങൾ

എക്സലിൽ നിർമ്മിച്ചത് - Microsoft 365 സബ്സ്ക്രൈബർമാർക്ക് അധിക ചിലവില്ല
പവർ ക്വറിയുടെ ട്രാൻസ്ഫോർമേഷൻ എഞ്ചിൻ പോസ്റ്റ്-പ്രോസസ്സിംഗ് നന്നായി കൈകാര്യം ചെയ്യുന്നു (താഴേക്ക് പൂരിപ്പിക്കുക, പിവിറ്റ് ചെയ്യുക, നിരകൾ ലയിപ്പിക്കുക)
സോഴ്സ് PDF അപ്ഡേറ്റ് ചെയ്താൽ ഡാറ്റ പുതുക്കാൻ കഴിയും
ഒരേ PDF-ൽ നിന്ന് ഒന്നിലധികം ടേബിളുകൾ ബന്ധിപ്പിക്കാൻ പിന്തുണയ്ക്കുന്നു

പരിമിതികൾ

വിൻഡോസ് മാത്രം - Mac-നുള്ള എക്സൽ, എക്സൽ ഓൺലൈൻ, അല്ലെങ്കിൽ മൊബൈൽ എന്നിവയിൽ ലഭ്യമല്ല
ബോർഡർലെസ് ടേബിളുകളിൽ ബുദ്ധിമുട്ട് - വ്യക്തമായ ബോർഡറുകളുള്ള ടേബിളുകളിൽ ഏറ്റവും നന്നായി പ്രവർത്തിക്കുന്നു
OCR ഇല്ല - സ്കാൻ ചെയ്ത/ചിത്ര PDF-കളിൽ നിന്ന് എക്‌സ്‌ട്രാക്ട് ചെയ്യാൻ കഴിയില്ല
മൾട്ടി-പേജ് ടേബിളുകൾ പ്രശ്നമാണ് - ഓരോ പേജും പലപ്പോഴും ഒരു പ്രത്യേക ടേബിളായി ഇറക്കുമതി ചെയ്യപ്പെടുന്നു, ഇത് കൈകൊണ്ട് കൂട്ടിച്ചേർക്കേണ്ടി വരുന്നു
മൾട്ടി-ലൈൻ വരികൾ - സെല്ലിനുള്ളിലെ ചുരുണ്ട ടെക്സ്റ്റ് പലപ്പോഴും ഒന്നിലധികം വരികളായി വിഭജിക്കപ്പെടുന്നു, ഇത് വൃത്തിയാക്കേണ്ടതുണ്ട്

ഏറ്റവും അനുയോജ്യം: ലളിതമായ, ബോർഡേർഡ് ടേബിളുകളുള്ള വിൻഡോസ് ഉപയോക്താക്കൾക്ക് Microsoft 365 ഉള്ളവർക്ക്.

രീതി 3: അഡോബ് അക്രോബാറ്റ് (പണം നൽകി വാങ്ങേണ്ടത്)

ഫയൽ → PDF എക്സ്പോർട്ട് ചെയ്യുക → സ്പ്രെഡ്ഷീറ്റ് → മൈക്രോസോഫ്റ്റ് എക്സൽ വർക്ക്ബുക്ക്

വില (2026)

അക്രോബാറ്റ് സ്റ്റാൻഡേർഡ്: $12.99/മാസം (വാർഷിക പ്ലാൻ)
അക്രോബാറ്റ് പ്രോ: $19.99/മാസം (വാർഷിക പ്ലാൻ)
എക്സ്പോർട്ട് PDF (സ്റ്റാൻഡ്‌എലോൺ): താഴ്ന്ന നിലയിലുള്ള കൺവേർഷൻ മാത്രം ഉള്ള പ്ലാൻ

ഗുണങ്ങൾ

സ്കാൻ ചെയ്ത ഡോക്യുമെന്റുകൾക്ക് ബിൽറ്റ്-ഇൻ OCR
ലളിതമായ ബോർഡേർഡ് ടേബിളുകൾക്ക് ഫോർമാറ്റിംഗ് സംരക്ഷിക്കുന്നു
പ്രോ പതിപ്പിൽ ബാച്ച് പ്രോസസ്സിംഗ് ലഭ്യമാണ്

പരിമിതികൾ

ടേബിൾ എക്‌സ്‌ട്രാക്ഷന് മാത്രം വിലകൂടിയതാണ് - $156–$240/വർഷം
ലയിപ്പിച്ച സെല്ലുകളും മൾട്ടി-പേജ് സ്പാനുകളുമുള്ള സങ്കീർണ്ണമായ ടേബിളുകൾ ഇപ്പോഴും തെറ്റായി ക്രമീകരിച്ച ഔട്ട്‌പുട്ട് നൽകുന്നു
പ്രോസസ്സിംഗിനായി ഫയലുകൾ അഡോബിന്റെ ക്ലൗഡിലേക്ക് അപ്‌ലോഡ് ചെയ്തേക്കാം - സെൻസിറ്റീവ് സാമ്പത്തിക ഡാറ്റയ്ക്ക് പ്രശ്നമാണ്
ഡെസ്ക്ടോപ്പ് ഇൻസ്റ്റാളേഷൻ ആവശ്യമാണ്

ഏറ്റവും അനുയോജ്യം: OCR ആവശ്യമുള്ള ടേബിൾ എക്‌സ്‌പോർട്ടുകൾ ആവശ്യമുള്ളതും ഇതിനകം അക്രോബാറ്റ് പ്രോയ്ക്ക് പണം നൽകുന്നതുമായ ഉപയോക്താക്കൾക്ക്.

രീതി 4: കോപ്പി-പേസ്റ്റ് (മാനുവൽ)

ഏറ്റവും സ്വാഭാവികമായ സമീപനം - ടേബിളുകൾക്ക് ഏറ്റവും കൂടുതൽ പരാജയപ്പെടുന്നതും ഇതാണ്.

സാധാരണ പ്രശ്നങ്ങൾ

എല്ലാ ഡാറ്റയും ഒരു കോളത്തിൽ - നിരകളില്ലാതെ മുഴുവൻ ടേബിളും പേസ്റ്റ് ചെയ്യുന്നു
സംഖ്യകൾ ടെക്സ്റ്റ് ആകുന്നു - കറൻസി ചിഹ്നങ്ങൾ, ബ്രാക്കറ്റുകൾ, സെപ്പറേറ്ററുകൾ എന്നിവ സംഖ്യാ ഫോർമാറ്റിംഗ് തടസ്സപ്പെടുത്തുന്നു
സെല്ലിനുള്ളിലെ മൾട്ടി-ലൈൻ ഉള്ളടക്കം വ്യാജ വരികൾ സൃഷ്ടിക്കുന്നു - സെല്ലിനുള്ളിൽ രണ്ട് വരികളായി ചുരുണ്ട വിവരണം രണ്ട് പ്രത്യേക വരികളായി മാറുന്നു
തലക്കെട്ടുകൾ ഡാറ്റയിൽ നിന്ന് വേർപെടുത്തുന്നു - തലക്കെട്ട് വരി വിച്ഛേദിക്കപ്പെടുന്നു
നിരകൾ തെറ്റായി ക്രമീകരിക്കുന്നു - അക്ഷരങ്ങളുടെ അകലം ടാബുകളിലേക്ക് വിവർത്തനം ചെയ്യാത്തതിനാൽ ഡാറ്റ മാറുന്നു

ഭാഗികമായ പരിഹാരം

എക്സലിൽ പേസ്റ്റ് ചെയ്യുക, തുടർന്ന് ഡിലിമിറ്ററുകളായി സ്പേസ് അല്ലെങ്കിൽ ഫിക്സഡ്-വിഡ്ത്ത് ഉപയോഗിച്ച് ഡാറ്റ → ടെക്സ്റ്റ് ടു കോളംസ് ഉപയോഗിക്കുക. "തുടർച്ചയായുള്ള ഡിലിമിറ്ററുകൾ ഒരെണ്ണമായി പരിഗണിക്കുക" പ്രവർത്തനക്ഷമമാക്കുക. ഇത് വളരെ ലളിതവും നന്നായി അകലമുള്ളതുമായ ടേബിളുകളിൽ പ്രവർത്തിക്കുന്നു, എന്നാൽ ഒന്നിലധികം വാക്കുകളുള്ള സെൽ ഉള്ളടക്കമുള്ളവയിൽ പരാജയപ്പെടുന്നു.

ഏറ്റവും അനുയോജ്യം: അവസാന ആശ്രയമെന്ന നിലയിൽ ഒരു ചെറിയ, ലളിതമായ ടേബിൾ എക്‌സ്‌ട്രാക്ട് ചെയ്യാൻ.

രീതി 5: പൈത്തൺ ലൈബ്രറികൾ (ഡെവലപ്പർമാർക്ക്)

മൂന്ന് MIT ലൈസൻസ്ഡ് ലൈബ്രറികൾ പ്രോഗ്രാമാറ്റിക്കായി PDF ടേബിൾ എക്‌സ്‌ട്രാക്ഷൻ കൈകാര്യം ചെയ്യുന്നു:

Tabula-py

Tabula (Java) ക്ക് മുകളിലുള്ള പൈത്തൺ റാപ്പർ. ജാവ റൺടൈം ആവശ്യമാണ്.

ബോർഡേർഡ് ടേബിളുകൾക്കുള്ള ലാറ്റിസ് മോഡ് (വരകളും വിഭജനങ്ങളും കണ്ടെത്തുന്നു)
ബോർഡർലെസ് ടേബിളുകൾക്കുള്ള സ്ട്രീം മോഡ് (ടെക്സ്റ്റ് അലൈൻമെന്റ് ഉപയോഗിക്കുന്നു)
സ്ക്രിപ്റ്റുകളിൽ ബാച്ച് പ്രോസസ്സിംഗിന് നല്ലത്
OCR പിന്തുണയില്ല

Camelot

ലാറ്റിസ്, സ്ട്രീം മോഡുകളും വാഗ്ദാനം ചെയ്യുന്നു.

ബോർഡേർഡ് ടേബിളുകളിൽ ടാബുലയെക്കാൾ മികച്ച പ്രകടനം കാഴ്ചവെക്കുന്നു
സ്ട്രീം മോഡിന് ഫൈൻ-ട്യൂണിംഗിനായി കൂടുതൽ കോൺഫിഗറേഷൻ പാരാമീറ്ററുകൾ ഉണ്ട്
ഓരോ എക്‌സ്‌ട്രാക്ഷനും കൃത്യത റിപ്പോർട്ടുകൾ നൽകുന്നു
Ghostscript ഡിപൻഡൻസി ആവശ്യമാണ്. OCR പിന്തുണയില്ല

pdfplumber

കോർഡിനേറ്റ് അടിസ്ഥാനമാക്കിയുള്ള സമീപനം: ഓരോ അക്ഷരവും അതിന്റെ കൃത്യമായ സ്ഥാനത്തോടെ എക്‌സ്‌ട്രാക്ട് ചെയ്യുന്നു, തുടർന്ന് ഘടന ഊഹിക്കുന്നു.

ഏറ്റവും വലിയ ശ്രേണിയിലുള്ള ടേബിൾ തരങ്ങൾ കൈകാര്യം ചെയ്യുന്നു
ഏറ്റവും കൂടുതൽ നിയന്ത്രണം നൽകുന്നു, പക്ഷേ കൂടുതൽ കോൺഫിഗറേഷൻ ആവശ്യമാണ്
PDFSub സെർവർ-സൈഡ് ഉപയോഗിക്കുന്ന ലൈബ്രറി ഇതാണ്
OCR പിന്തുണയില്ല

ഏറ്റവും അനുയോജ്യം: ആവർത്തിച്ചുള്ള ടേബിൾ എക്‌സ്‌ട്രാക്ഷൻ വർക്ക്ഫ്ലോകൾ ഓട്ടോമേറ്റ് ചെയ്യുന്ന, വലിയ ബാച്ചുകളിലുള്ള സമാന ഡോക്യുമെന്റുകൾ പ്രോസസ്സ് ചെയ്യുന്ന ഡെവലപ്പർമാർക്ക്.

സാധാരണ പ്രശ്നങ്ങളും അവ പരിഹരിക്കാനുള്ള വഴികളും

ലയിപ്പിച്ച സെല്ലുകൾ

സെല്ലുകൾ ഒന്നിലധികം വരികളോ നിരകളോ വ്യാപിക്കുമ്പോൾ, മിക്ക ടൂളുകളും ഒന്നുകിൽ മുകളിലെ ഇടത് സെല്ലിൽ ഉള്ളടക്കം സ്ഥാപിക്കുകയും മറ്റുള്ളവ ശൂന്യമായി വിടുകയും ചെയ്യും, അല്ലെങ്കിൽ ശേഷിക്കുന്ന എല്ലാ നിരകളെയും തെറ്റായി ക്രമീകരിക്കും. സാർവത്രിക പരിഹാരമില്ല - CSV ഫോർമാറ്റിന് ലയന സങ്കൽപ്പമില്ല, അതിനാൽ ലയന വിവരങ്ങൾ എപ്പോഴും നഷ്ടപ്പെടും.

പരിഹാരം: ടേബിൾ എക്‌സ്‌ട്രാക്ട് ചെയ്യുക, തുടർന്ന് എക്സലിൽ ലയനത്തെ തുടർന്നുള്ള പ്രശ്നങ്ങൾ മാനുവലായി പരിഹരിക്കുക. സമാന ലയന പാറ്റേണുകളുള്ള ആവർത്തിച്ചുള്ള ടേബിളുകൾക്ക്, ഒരു പോസ്റ്റ്-പ്രോസസ്സിംഗ് സ്ക്രിപ്റ്റ് പരിഗണിക്കുക.

സെല്ലിനുള്ളിലെ മൾട്ടി-ലൈൻ ഉള്ളടക്കം

സെല്ലിനുള്ളിൽ ചുരുണ്ട നീണ്ട വിവരണങ്ങൾ ഔട്ട്‌പുട്ടിൽ ഒന്നിലധികം വരികളായി മാറുന്നു, ഇത് ശേഷിക്കുന്ന എല്ലാ ഡാറ്റയെയും തെറ്റായി ക്രമീകരിക്കുന്നു. സാമ്പത്തിക ഡോക്യുമെന്റുകൾക്കുള്ള ഏറ്റവും സാധാരണമായ എക്‌സ്‌ട്രാക്ഷൻ പിശകാണിത്.

പരിഹാരം: എക്‌സ്‌ട്രാക്ഷന് ശേഷം, തീയതികളും തുകയും കാണാത്ത വരികൾക്കായി നോക്കുക - ഇവ മുകളിലെ വരിയുടെ തുടർച്ചയായുള്ള വരികളായിരിക്കാം. എക്സലിൽ, അവ മാനുവലായി ലയിപ്പിക്കുക അല്ലെങ്കിൽ ഒരു സഹായ ഫോർമുല ഉപയോഗിക്കുക.

ഒന്നിലധികം പേജുകളിലായി വ്യാപിക്കുന്ന ടേബിളുകൾ

ടേബിൾ എവിടെ തുടരുന്നു, ആവർത്തിച്ചുള്ള തലക്കെട്ടുകൾ നീക്കം ചെയ്യണമോ, പേജ് ഫൂട്ടറുകൾ എങ്ങനെ ഫിൽട്ടർ ചെയ്യണം എന്നിവ ടൂളുകൾ നിർണ്ണയിക്കണം. പല ടൂളുകളും ഓരോ പേജിനെയും സ്വതന്ത്രമായി പരിഗണിക്കുന്നു.

പരിഹാരം: നിങ്ങളുടെ ടൂൾ ഓരോ പേജിനും ഫലങ്ങൾ നൽകുന്നുണ്ടെങ്കിൽ, ഷീറ്റുകൾ സംയോജിപ്പിച്ച് ആവർത്തിച്ചുള്ള തലക്കെട്ട് വരികൾ നീക്കം ചെയ്യുക. പേജ് N-ലെ അവസാന വരി പേജ് N+1-ലെ ആദ്യ വരിയുമായി ശരിയായി ബന്ധിപ്പിക്കുന്നുണ്ടോയെന്ന് പരിശോധിക്കുക.

കറൻസി ഫോർമാറ്റിംഗ് പ്രശ്നങ്ങൾ

ബ്രാക്കറ്റുകളിലുള്ള നെഗറ്റീവ് സംഖ്യകൾ ((1,234.56)) സംഖ്യകളായി പേസ്റ്റ് ചെയ്യുന്നതിനു പകരം ടെക്സ്റ്റ് ആയി പേസ്റ്റ് ചെയ്യുന്നു. കറൻസി ചിഹ്നങ്ങളും ആയിരം സെപ്പറേറ്ററുകളും സംഖ്യാ ഫോർമാറ്റിംഗ് തടസ്സപ്പെടുത്തുന്നു.

പരിഹാരം: എക്‌സ്‌ട്രാക്ഷന് ശേഷം, തുക കോളം തിരഞ്ഞെടുത്ത് $, (, ) അക്ഷരങ്ങൾ നീക്കം ചെയ്യാൻ കണ്ടെത്തുക & മാറ്റിസ്ഥാപിക്കുക ഉപയോഗിക്കുക. തുടർന്ന് കോളം നമ്പർ ആയി ഫോർമാറ്റ് ചെയ്യുക. ബ്രാക്കറ്റുകളിലുള്ള നെഗറ്റീവുകൾക്ക്, ( നെ - കൊണ്ടും ) നീക്കം ചെയ്തും മാറ്റിസ്ഥാപിക്കുക, തുടർന്ന് നമ്പർ ഫോർമാറ്റിലേക്ക് മാറ്റുക.

തീയതിയിലെ അവ്യക്തത

01/02/2026 - ഇത് ജനുവരി 2 ആണോ അതോ ഫെബ്രുവരി 1 ആണോ? എക്‌സ്‌ട്രാക്ഷൻ ടൂൾ സ്ട്രിംഗ് അതുപോലെ നിലനിർത്തുന്നു, എന്നാൽ എക്സൽ നിങ്ങളുടെ ലൊക്കേൽ അടിസ്ഥാനമാക്കി അത് വീണ്ടും വ്യാഖ്യാനിച്ചേക്കാം.

പരിഹാരം: തീയതി ഫോർമാറ്റ് സൂചനകൾക്കായി സോഴ്സ് PDF പരിശോധിക്കുക (ദിവസ മൂല്യം > 12 ഉള്ള തീയതികൾക്കായി നോക്കുക). ഇറക്കുമതി ചെയ്യുന്നതിന് മുമ്പ് സോഴ്സുമായി പൊരുത്തപ്പെടുന്ന തീയതി ഫോർമാറ്റിലേക്ക് എക്സൽ സജ്ജമാക്കുക.

കൃത്യത താരതമ്യം

രീതി	ലളിതമായ ബോർഡേർഡ്	ബോർഡർലെസ്	സെമി-ബോർഡേർഡ്	സ്കാൻ ചെയ്ത PDF-കൾ
PDFSub (കോർഡിനേറ്റ് + AI)	90–99%	75–95%	70–95%	85–95% (AI)
പവർ ക്വറി	85–95%	40–60%	50–70%	പിന്തുണയ്ക്കുന്നില്ല
അഡോബ് അക്രോബാറ്റ്	90–95%	70–80%	70–85%	80–90%
ടാബുല	~68%	55–70%	50–65%	പിന്തുണയ്ക്കുന്നില്ല
കാമെലോട്ട്	~73%	65–75%	60–70%	പിന്തുണയ്ക്കുന്നില്ല
കോപ്പി-പേസ്റ്റ്	30–50%	10–30%	10–30%	സാധ്യമല്ല

ഏത് രീതി ഉപയോഗിക്കണം?

സാഹചര്യം	ഏറ്റവും നല്ല രീതി	കാരണം
വേഗത്തിലുള്ള ഒറ്റത്തവണ എക്‌സ്‌ട്രാക്ഷൻ	PDFSub	ഇൻസ്റ്റാൾ ചെയ്യേണ്ടതില്ല, ബ്രൗസർ അധിഷ്ഠിതം, സൗജന്യ കോർഡിനേറ്റ് എക്‌സ്‌ട്രാക്ഷൻ
ലളിതമായ ബോർഡേർഡ് ടേബിൾ, വിൻഡോസ്	പവർ ക്വറി	എക്സലിൽ നിർമ്മിച്ചത്, അധിക ചിലവില്ല
സ്കാൻ ചെയ്ത PDF	PDFSub (AI) അല്ലെങ്കിൽ അഡോബ് അക്രോബാറ്റ്	OCR കഴിവ് ആവശ്യമാണ്
സെൻസിറ്റീവ് സാമ്പത്തിക ഡാറ്റ	PDFSub	ബ്രൗസർ അധിഷ്ഠിത പ്രോസസ്സിംഗ്, ഫയൽ ഒരിക്കലും അപ്‌ലോഡ് ചെയ്യില്ല
ആവർത്തിച്ചുള്ള ബാച്ച് പ്രോസസ്സിംഗ്	പൈത്തൺ (pdfplumber)	സ്ക്രിപ്റ്റ് ചെയ്യാൻ കഴിയുന്ന, ഓട്ടോമേറ്റ് ചെയ്യാൻ കഴിയുന്ന
ഇതിനകം അക്രോബാറ്റ് പ്രോ ഉണ്ടെങ്കിൽ	അഡോബ് അക്രോബാറ്റ്	ഇതിനകം പണം നൽകുന്നു, ലളിതമായ ടേബിളുകൾ നന്നായി പ്രവർത്തിക്കുന്നു
ഒറ്റ ചെറിയ ടേബിൾ, ടൂളുകളില്ലെങ്കിൽ	കോപ്പി-പേസ്റ്റ്	അവസാന ആശ്രയം, എല്ലാം പരിശോധിക്കുക

മികച്ച ഫലങ്ങൾക്കുള്ള നുറുങ്ങുകൾ

നേറ്റീവ് PDF-കൾ ഉപയോഗിക്കുക. പേപ്പർ സ്കാൻ ചെയ്യുന്നതിനു പകരം അവയുടെ ഉറവിടത്തിൽ നിന്ന് ഡോക്യുമെന്റുകൾ ഡൗൺലോഡ് ചെയ്യുക. നേറ്റീവ് PDF-കൾക്ക് മികച്ച ടെക്സ്റ്റ് ഉണ്ട്, ഇത് എക്‌സ്‌ട്രാക്ഷൻ ഗണ്യമായി കൂടുതൽ കൃത്യമാക്കുന്നു.

ആദ്യം ടേബിൾ തരം തിരിച്ചറിയുക. ബോർഡേർഡ് ടേബിളുകൾ ഏത് ടൂളിലും പ്രവർത്തിക്കുന്നു. ബോർഡർലെസ് ടേബിളുകൾക്ക് സ്ട്രീം-മോഡ് അല്ലെങ്കിൽ AI എക്‌സ്‌ട്രാക്ഷൻ ആവശ്യമാണ്. തരം അറിയുന്നത് ശരിയായ രീതി തിരഞ്ഞെടുക്കാൻ സഹായിക്കുന്നു.

സൗജന്യ, റൂൾ അടിസ്ഥാനമാക്കിയുള്ള രീതികളിൽ നിന്ന് ആരംഭിക്കുക. ആദ്യം കോർഡിനേറ്റ് അടിസ്ഥാനമാക്കിയുള്ള എക്‌സ്‌ട്രാക്ഷൻ ശ്രമിക്കുക. റൂൾ അടിസ്ഥാനമാക്കിയുള്ള രീതികൾ മോശം ഫലങ്ങൾ നൽകിയാൽ മാത്രം AI-ലേക്ക് പോകുക - ഇത് സമയവും ക്രെഡിറ്റുകളും ലാഭിക്കുന്നു.

എപ്പോഴും ഔട്ട്‌പുട്ട് പരിശോധിക്കുക. വരികളുടെ എണ്ണം, നിരകളുടെ ക്രമീകരണം, സംഖ്യാ മൂല്യങ്ങൾ, ആകെത്തുക എന്നിവ പരിശോധിക്കുക. എക്‌സ്‌ട്രാക്ഷൻ ഔട്ട്‌പുട്ട് ഒരിക്കലും കണ്ണടച്ച് വിശ്വസിക്കരുത്.

സംഖ്യാ ഫോർമാറ്റിംഗിൽ ശ്രദ്ധിക്കുക. എക്‌സ്‌ട്രാക്ഷന് ശേഷം, സംഖ്യകൾ യഥാർത്ഥത്തിൽ എക്സലിൽ സംഖ്യകളാണോ (വലത്തേക്ക് ക്രമീകരിച്ചത്), ടെക്സ്റ്റ് സ്ട്രിംഗുകളല്ലേ (ഇടത്തേക്ക് ക്രമീകരിച്ചത്) എന്ന് പരിശോധിക്കുക. കറൻസി ചിഹ്നങ്ങളും ബ്രാക്കറ്റുകളിലുള്ള നെഗറ്റീവുകളും സാധാരണ കുറ്റക്കാരാണ്.

സെൻസിറ്റീവ് ഡാറ്റയ്ക്ക്, ബ്രൗസർ അധിഷ്ഠിത ടൂളുകൾക്ക് മുൻഗണന നൽകുക. സാമ്പത്തിക റിപ്പോർട്ടുകൾ, ബാങ്ക് സ്റ്റേറ്റ്മെന്റുകൾ, നികുതി രേഖകൾ എന്നിവയിൽ സെൻസിറ്റീവ് വിവരങ്ങൾ അടങ്ങിയിരിക്കുന്നു. നിങ്ങളുടെ ബ്രൗസറിൽ PDF-കൾ പ്രോസസ്സ് ചെയ്യുന്ന ടൂളുകൾ നിങ്ങളുടെ ഫയൽ ഒരിക്കലും അപ്‌ലോഡ് ചെയ്യില്ല, ഇത് ഡാറ്റ എക്സ്പോഷർ റിസ്ക് ഇല്ലാതാക്കുന്നു.

സൗജന്യമായി പരീക്ഷിച്ചുനോക്കൂ

നിങ്ങളുടെ PDF-ൽ നിന്ന് ടേബിളുകൾ എക്‌സ്‌ട്രാക്ട് ചെയ്യാൻ തയ്യാറാണോ? ഇപ്പോൾ ഒരു ഫയൽ അപ്‌ലോഡ് ചെയ്യുക - PDFSub ആദ്യം സൗജന്യ കോർഡിനേറ്റ് അടിസ്ഥാനമാക്കിയുള്ള എക്‌സ്‌ട്രാക്ഷൻ ശ്രമിക്കുന്നു, സങ്കീർണ്ണമായ ടേബിളുകൾക്ക് AI ഫോൾബാക്ക് ഉണ്ട്. ഡിജിറ്റൽ PDF-കൾ നിങ്ങളുടെ ബ്രൗസറിൽ പൂർണ്ണമായി പ്രോസസ്സ് ചെയ്യുന്നു. 7 ദിവസത്തെ സൗജന്യ ട്രയൽ ആരംഭിക്കുക.

How to Extract Tables from PDF to Excel: 5 Methods Compared

PDF-കളിൽ നിന്ന് ടേബിൾ എക്‌സ്‌ട്രാക്ഷൻ എന്തുകൊണ്ട് ബുദ്ധിമുട്ടാണ്?

5 Methods for Extracting PDF Tables to Excel - Accuracy Comparison

PDF ഫോർമാറ്റിൽ ടേബിളുകൾ ഇല്ല

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Office Supplies) Tj 180 0 Td (125.00) Tj ET

ഓരോ ടെക്സ്റ്റ് ഐറ്റവും അതിന്റെ x, y കോർഡിനേറ്റുകളോടെ എക്‌സ്‌ട്രാക്ട് ചെയ്യാൻ PDF കണ്ടന്റ് സ്ട്രീം പാർസ് ചെയ്യുന്നു
y-കോർഡിനേറ്റ് സാമീപ്യം അടിസ്ഥാനമാക്കി ടെക്സ്റ്റ് ഐറ്റങ്ങളെ വരികളായി ഗ്രൂപ്പ് ചെയ്യുന്നു
വരികളിലുടനീളമുള്ള x-കോർഡിനേറ്റ് അലൈൻമെന്റ് പാറ്റേണുകൾ വിശകലനം ചെയ്ത് കോളം അതിരുകൾ കണ്ടെത്തുന്നു
കുറഞ്ഞത് 3 വരികളും 2 നിരകളും 70%+ കോൺഫിഡൻസും ആവശ്യമാണ്

ഡാറ്റ → ഡാറ്റ നേടുക → ഫയലിൽ നിന്ന് → PDF-ൽ നിന്ന് ക്ലിക്കുചെയ്യുക
നിങ്ങളുടെ PDF ഫയൽ തിരഞ്ഞെടുക്കുക
പവർ ക്വറി ഓരോ പേജിലെയും കണ്ടെത്തിയ ടേബിളുകൾ ലിസ്റ്റ് ചെയ്യുന്ന ഒരു നാവിഗേറ്റർ പാനൽ പ്രദർശിപ്പിക്കുന്നു
നിങ്ങൾക്ക് ആവശ്യമുള്ള ടേബിളുകൾ തിരഞ്ഞെടുത്ത്, വൃത്തിയാക്കാൻ ഡാറ്റ ട്രാൻസ്ഫോം ചെയ്യുക, തുടർന്ന് ലോഡ് ചെയ്യുക ക്ലിക്കുചെയ്യുക

ഗുണങ്ങൾ

എക്സലിൽ നിർമ്മിച്ചത് - Microsoft 365 സബ്സ്ക്രൈബർമാർക്ക് അധിക ചിലവില്ല
പവർ ക്വറിയുടെ ട്രാൻസ്ഫോർമേഷൻ എഞ്ചിൻ പോസ്റ്റ്-പ്രോസസ്സിംഗ് നന്നായി കൈകാര്യം ചെയ്യുന്നു (താഴേക്ക് പൂരിപ്പിക്കുക, പിവിറ്റ് ചെയ്യുക, നിരകൾ ലയിപ്പിക്കുക)
സോഴ്സ് PDF അപ്ഡേറ്റ് ചെയ്താൽ ഡാറ്റ പുതുക്കാൻ കഴിയും
ഒരേ PDF-ൽ നിന്ന് ഒന്നിലധികം ടേബിളുകൾ ബന്ധിപ്പിക്കാൻ പിന്തുണയ്ക്കുന്നു

പരിമിതികൾ

വിൻഡോസ് മാത്രം - Mac-നുള്ള എക്സൽ, എക്സൽ ഓൺലൈൻ, അല്ലെങ്കിൽ മൊബൈൽ എന്നിവയിൽ ലഭ്യമല്ല
ബോർഡർലെസ് ടേബിളുകളിൽ ബുദ്ധിമുട്ട് - വ്യക്തമായ ബോർഡറുകളുള്ള ടേബിളുകളിൽ ഏറ്റവും നന്നായി പ്രവർത്തിക്കുന്നു
OCR ഇല്ല - സ്കാൻ ചെയ്ത/ചിത്ര PDF-കളിൽ നിന്ന് എക്‌സ്‌ട്രാക്ട് ചെയ്യാൻ കഴിയില്ല
മൾട്ടി-പേജ് ടേബിളുകൾ പ്രശ്നമാണ് - ഓരോ പേജും പലപ്പോഴും ഒരു പ്രത്യേക ടേബിളായി ഇറക്കുമതി ചെയ്യപ്പെടുന്നു, ഇത് കൈകൊണ്ട് കൂട്ടിച്ചേർക്കേണ്ടി വരുന്നു
മൾട്ടി-ലൈൻ വരികൾ - സെല്ലിനുള്ളിലെ ചുരുണ്ട ടെക്സ്റ്റ് പലപ്പോഴും ഒന്നിലധികം വരികളായി വിഭജിക്കപ്പെടുന്നു, ഇത് വൃത്തിയാക്കേണ്ടതുണ്ട്

രീതി 3: അഡോബ് അക്രോബാറ്റ് (പണം നൽകി വാങ്ങേണ്ടത്)

വില (2026)

അക്രോബാറ്റ് സ്റ്റാൻഡേർഡ്: $12.99/മാസം (വാർഷിക പ്ലാൻ)
അക്രോബാറ്റ് പ്രോ: $19.99/മാസം (വാർഷിക പ്ലാൻ)
എക്സ്പോർട്ട് PDF (സ്റ്റാൻഡ്‌എലോൺ): താഴ്ന്ന നിലയിലുള്ള കൺവേർഷൻ മാത്രം ഉള്ള പ്ലാൻ

ഗുണങ്ങൾ

സ്കാൻ ചെയ്ത ഡോക്യുമെന്റുകൾക്ക് ബിൽറ്റ്-ഇൻ OCR
ലളിതമായ ബോർഡേർഡ് ടേബിളുകൾക്ക് ഫോർമാറ്റിംഗ് സംരക്ഷിക്കുന്നു
പ്രോ പതിപ്പിൽ ബാച്ച് പ്രോസസ്സിംഗ് ലഭ്യമാണ്

പരിമിതികൾ

ടേബിൾ എക്‌സ്‌ട്രാക്ഷന് മാത്രം വിലകൂടിയതാണ് - $156–$240/വർഷം
ലയിപ്പിച്ച സെല്ലുകളും മൾട്ടി-പേജ് സ്പാനുകളുമുള്ള സങ്കീർണ്ണമായ ടേബിളുകൾ ഇപ്പോഴും തെറ്റായി ക്രമീകരിച്ച ഔട്ട്‌പുട്ട് നൽകുന്നു
പ്രോസസ്സിംഗിനായി ഫയലുകൾ അഡോബിന്റെ ക്ലൗഡിലേക്ക് അപ്‌ലോഡ് ചെയ്തേക്കാം - സെൻസിറ്റീവ് സാമ്പത്തിക ഡാറ്റയ്ക്ക് പ്രശ്നമാണ്
ഡെസ്ക്ടോപ്പ് ഇൻസ്റ്റാളേഷൻ ആവശ്യമാണ്

രീതി 4: കോപ്പി-പേസ്റ്റ് (മാനുവൽ)

സാധാരണ പ്രശ്നങ്ങൾ

എല്ലാ ഡാറ്റയും ഒരു കോളത്തിൽ - നിരകളില്ലാതെ മുഴുവൻ ടേബിളും പേസ്റ്റ് ചെയ്യുന്നു
സംഖ്യകൾ ടെക്സ്റ്റ് ആകുന്നു - കറൻസി ചിഹ്നങ്ങൾ, ബ്രാക്കറ്റുകൾ, സെപ്പറേറ്ററുകൾ എന്നിവ സംഖ്യാ ഫോർമാറ്റിംഗ് തടസ്സപ്പെടുത്തുന്നു
സെല്ലിനുള്ളിലെ മൾട്ടി-ലൈൻ ഉള്ളടക്കം വ്യാജ വരികൾ സൃഷ്ടിക്കുന്നു - സെല്ലിനുള്ളിൽ രണ്ട് വരികളായി ചുരുണ്ട വിവരണം രണ്ട് പ്രത്യേക വരികളായി മാറുന്നു
തലക്കെട്ടുകൾ ഡാറ്റയിൽ നിന്ന് വേർപെടുത്തുന്നു - തലക്കെട്ട് വരി വിച്ഛേദിക്കപ്പെടുന്നു
നിരകൾ തെറ്റായി ക്രമീകരിക്കുന്നു - അക്ഷരങ്ങളുടെ അകലം ടാബുകളിലേക്ക് വിവർത്തനം ചെയ്യാത്തതിനാൽ ഡാറ്റ മാറുന്നു

ബോർഡേർഡ് ടേബിളുകൾക്കുള്ള ലാറ്റിസ് മോഡ് (വരകളും വിഭജനങ്ങളും കണ്ടെത്തുന്നു)
ബോർഡർലെസ് ടേബിളുകൾക്കുള്ള സ്ട്രീം മോഡ് (ടെക്സ്റ്റ് അലൈൻമെന്റ് ഉപയോഗിക്കുന്നു)
സ്ക്രിപ്റ്റുകളിൽ ബാച്ച് പ്രോസസ്സിംഗിന് നല്ലത്
OCR പിന്തുണയില്ല

Camelot

ലാറ്റിസ്, സ്ട്രീം മോഡുകളും വാഗ്ദാനം ചെയ്യുന്നു.

ബോർഡേർഡ് ടേബിളുകളിൽ ടാബുലയെക്കാൾ മികച്ച പ്രകടനം കാഴ്ചവെക്കുന്നു
സ്ട്രീം മോഡിന് ഫൈൻ-ട്യൂണിംഗിനായി കൂടുതൽ കോൺഫിഗറേഷൻ പാരാമീറ്ററുകൾ ഉണ്ട്
ഓരോ എക്‌സ്‌ട്രാക്ഷനും കൃത്യത റിപ്പോർട്ടുകൾ നൽകുന്നു
Ghostscript ഡിപൻഡൻസി ആവശ്യമാണ്. OCR പിന്തുണയില്ല

pdfplumber

ഏറ്റവും വലിയ ശ്രേണിയിലുള്ള ടേബിൾ തരങ്ങൾ കൈകാര്യം ചെയ്യുന്നു
ഏറ്റവും കൂടുതൽ നിയന്ത്രണം നൽകുന്നു, പക്ഷേ കൂടുതൽ കോൺഫിഗറേഷൻ ആവശ്യമാണ്
PDFSub സെർവർ-സൈഡ് ഉപയോഗിക്കുന്ന ലൈബ്രറി ഇതാണ്
OCR പിന്തുണയില്ല

രീതി	ലളിതമായ ബോർഡേർഡ്	ബോർഡർലെസ്	സെമി-ബോർഡേർഡ്	സ്കാൻ ചെയ്ത PDF-കൾ
PDFSub (കോർഡിനേറ്റ് + AI)	90–99%	75–95%	70–95%	85–95% (AI)
പവർ ക്വറി	85–95%	40–60%	50–70%	പിന്തുണയ്ക്കുന്നില്ല
അഡോബ് അക്രോബാറ്റ്	90–95%	70–80%	70–85%	80–90%
ടാബുല	~68%	55–70%	50–65%	പിന്തുണയ്ക്കുന്നില്ല
കാമെലോട്ട്	~73%	65–75%	60–70%	പിന്തുണയ്ക്കുന്നില്ല
കോപ്പി-പേസ്റ്റ്	30–50%	10–30%	10–30%	സാധ്യമല്ല

ഏത് രീതി ഉപയോഗിക്കണം?

സാഹചര്യം	ഏറ്റവും നല്ല രീതി	കാരണം
വേഗത്തിലുള്ള ഒറ്റത്തവണ എക്‌സ്‌ട്രാക്ഷൻ	PDFSub	ഇൻസ്റ്റാൾ ചെയ്യേണ്ടതില്ല, ബ്രൗസർ അധിഷ്ഠിതം, സൗജന്യ കോർഡിനേറ്റ് എക്‌സ്‌ട്രാക്ഷൻ
ലളിതമായ ബോർഡേർഡ് ടേബിൾ, വിൻഡോസ്	പവർ ക്വറി	എക്സലിൽ നിർമ്മിച്ചത്, അധിക ചിലവില്ല
സ്കാൻ ചെയ്ത PDF	PDFSub (AI) അല്ലെങ്കിൽ അഡോബ് അക്രോബാറ്റ്	OCR കഴിവ് ആവശ്യമാണ്
സെൻസിറ്റീവ് സാമ്പത്തിക ഡാറ്റ	PDFSub	ബ്രൗസർ അധിഷ്ഠിത പ്രോസസ്സിംഗ്, ഫയൽ ഒരിക്കലും അപ്‌ലോഡ് ചെയ്യില്ല
ആവർത്തിച്ചുള്ള ബാച്ച് പ്രോസസ്സിംഗ്	പൈത്തൺ (pdfplumber)	സ്ക്രിപ്റ്റ് ചെയ്യാൻ കഴിയുന്ന, ഓട്ടോമേറ്റ് ചെയ്യാൻ കഴിയുന്ന
ഇതിനകം അക്രോബാറ്റ് പ്രോ ഉണ്ടെങ്കിൽ	അഡോബ് അക്രോബാറ്റ്	ഇതിനകം പണം നൽകുന്നു, ലളിതമായ ടേബിളുകൾ നന്നായി പ്രവർത്തിക്കുന്നു
ഒറ്റ ചെറിയ ടേബിൾ, ടൂളുകളില്ലെങ്കിൽ	കോപ്പി-പേസ്റ്റ്	അവസാന ആശ്രയം, എല്ലാം പരിശോധിക്കുക