PDF ഫയൽ ഫോർമാറ്റ് വിശദീകരണം: ഘടന, ലെയറുകൾ, മാനദണ്ഡങ്ങൾ
ഒരു PDF-ൽ യഥാർത്ഥത്തിൽ എന്താണുള്ളത്? ഹെഡർ, ബോഡി, xref, ട്രെയിലർ എന്നീ നാല് ഫിസിക്കൽ വിഭാഗങ്ങൾ, ടെക്സ്റ്റ്, ചിത്രങ്ങൾ, ഫോണ്ടുകൾ, അനൊട്ടേഷനുകൾ, വെക്റ്ററുകൾ, സിഗ്നേച്ചറുകൾ എന്നിവ ഉൾപ്പെടുന്ന ആറ് ഉള്ളടക്ക ലെയറുകൾ, മെറ്റാഡാറ്റ, എന്നിവയെക്കുറിച്ചുള്ള വിശദീകരണവും ചിത്രീകരണവും. ഇവയ്ക്ക് മുകളിൽ നിർമ്മിച്ചിരിക്കുന്ന ISO മാനദണ്ഡങ്ങളും (PDF/A, PDF/X, PDF/UA, PDF/E, PDF/VT) ഉൾപ്പെടുന്നു.
ഒരു PDF എന്നത് ഒറ്റപ്പെട്ട ഒന്നല്ല. ഇത് ഒരു ബൈനറി കണ്ടെയ്നറാണ്, ഇതിന് ഡിസ്കിൽ ഒരു പ്രത്യേക ഘടനയുണ്ട്, ആ കണ്ടെയ്നറിനുള്ളിൽ ഉള്ളടക്ക ലെയറുകളുടെ ഒരു കൂട്ടം ഉണ്ട്, കൂടാതെ അടിസ്ഥാന സ്പെസിഫിക്കേഷന് മുകളിൽ നിർമ്മിച്ച ISO മാനദണ്ഡങ്ങളുടെ ഒരു കുടുംബവുമുണ്ട്. ഒരു ഹെക്സ് എഡിറ്ററിൽ ഇത് തുറന്നാൽ ആദ്യ കുറച്ച് വരികളിൽ തന്നെ അതിന്റെ ഘടന വ്യക്തമായി കാണാം. ഒരു വ്യൂവറിൽ തുറന്നാൽ ലെയറുകൾ ഒരുമിച്ച് ഒരു പേജായി റെൻഡർ ചെയ്യപ്പെടുന്നു.
ഈ ഗൈഡ് ഒരു ലേബൽ ചെയ്ത റഫറൻസാണ്: ഫയലിന്റെ ഫിസിക്കൽ ഘടന, ബോഡി ഉൾക്കൊള്ളുന്ന ഉള്ളടക്ക ലെയറുകൾ, എല്ലാത്തിനും ചുറ്റുമുള്ള മെറ്റാഡാറ്റ, കൂടാതെ പ്രത്യേക ആവശ്യങ്ങൾക്കായി ഇതിനെ പരിമിതപ്പെടുത്തുന്ന മാനദണ്ഡങ്ങൾ (PDF/A, PDF/X, PDF/UA, PDF/E, PDF/VT).

ഈ ചിത്രം നിങ്ങളുടെ ബ്ലോഗിൽ ഉപയോഗിക്കാൻ ആഗ്രഹിക്കുന്നുണ്ടോ? ഈ എംബഡ് കോഡ് കോപ്പി ചെയ്യുക:
നാല് ഫിസിക്കൽ വിഭാഗങ്ങൾ
ഡിസ്കിലുള്ള എല്ലാ PDF ഫയലുകൾക്കും ഈ ക്രമത്തിൽ ഒരേ നാല് ഭാഗങ്ങളുള്ള ഘടനയുണ്ട്:
1. ഹെഡർ
ഫയലിന്റെ ആദ്യ വരി. എപ്പോഴും %PDF- എന്ന് ആരംഭിച്ച് അതിനുശേഷം ഒരു പതിപ്പ് നമ്പർ ഉണ്ടാകും:
%PDF-1.7പതിപ്പുകൾ 1.0 (1993-ൽ പുറത്തിറങ്ങിയത്) മുതൽ 2.0 (2017-ൽ പുറത്തിറങ്ങിയത്, നിലവിലുള്ളത്) വരെയാണ്. ഹെഡറിന് ശേഷം ബൈനറി ബൈറ്റുകളുള്ള ഒരു കമന്റ് ലൈൻ ഉണ്ടാകും, ഇത് FTP പോലുള്ള ട്രാൻസ്പോർട്ട് ടൂളുകൾക്ക് ഇത് ഒരു ബൈനറി ഫയലാണെന്ന് സൂചിപ്പിക്കുന്നു.
2. ബോഡി - ഇൻഡയറക്ട് ഒബ്ജക്റ്റുകൾ
ഫയലിന്റെ ഭൂരിഭാഗവും. ഓരോ പേജ്, ഫോണ്ട്, ചിത്രം, അനൊട്ടേഷൻ, ഫോം ഫീൽഡ് എന്നിവയും ഒരു നമ്പറിട്ട ഇൻഡയറക്ട് ഒബ്ജക്റ്റാണ്:
1 0 obj
<< /Type /Catalog /Pages 2 0 R >>
endobj
2 0 obj
<< /Type /Pages /Kids [3 0 R] /Count 1 >>
endobj
3 0 obj
<< /Type /Page /Parent 2 0 R /Contents 4 0 R /Resources << ... >> >>
endobjഓരോ ഒബ്ജക്റ്റിനും ഒരു ID ( 0 obj ന് മുമ്പുള്ള നമ്പർ), ഒരു ജനറേഷൻ നമ്പർ (0, ഇത് ഇൻക്രിമെന്റൽ അപ്ഡേറ്റുകൾക്ക് ഉപയോഗിക്കുന്നു), കൂടാതെ ഡിക്ഷണറികൾക്ക് << നും >> നും ഇടയിലോ അല്ലെങ്കിൽ ബൈനറി സ്ട്രീമുകൾക്ക് (stream നും endstream നും ഇടയിലോ) ഡാറ്റ അടങ്ങിയിരിക്കുന്നു (ചിത്ര ഡാറ്റ, ഫോണ്ട് ഡാറ്റ, കംപ്രസ് ചെയ്ത ഉള്ളടക്കം).
ഒബ്ജക്റ്റുകൾ പരസ്പരം <id> <gen> R സിന്റാക്സ് ഉപയോഗിച്ച് റഫർ ചെയ്യുന്നു (ഉദാഹരണത്തിന്, 3 0 R എന്നാൽ "ഒബ്ജക്റ്റ് 3, ജനറേഷൻ 0"). ഒരു പേജ് ഉപയോഗിക്കുന്ന ഫോണ്ടിനെ എങ്ങനെ റഫർ ചെയ്യുന്നു, അല്ലെങ്കിൽ ഒരു കാറ്റലോഗ് പേജ് ട്രീയുടെ റൂട്ടിനെ എങ്ങനെ റഫർ ചെയ്യുന്നു എന്നത് ഇതിലൂടെയാണ്.
3. ക്രോസ്-റെഫറൻസ് ടേബിൾ (xref)
ഒരു ബൈറ്റ്-ഓഫ്സെറ്റ് ലുക്ക്അപ്പ് ടേബിൾ. ബോഡിയിലെ ഓരോ ഒബ്ജക്റ്റിനും, xref ഫയലിലെ അതിന്റെ അബ്സല്യൂട്ട് ബൈറ്റ് പൊസിഷൻ രേഖപ്പെടുത്തുന്നു:
xref
0 6
0000000000 65535 f
0000000017 00000 n
0000000089 00000 n
0000000172 00000 n
0000000299 00000 n
0000000453 00000 nഇതാണ് PDF-കളെ റാൻഡം-ആക്സസ് ആക്കുന്നത്. ഒരു വ്യൂവർ xref വായിക്കാനും, ഒബ്ജക്റ്റ് 3-ന്റെ ബൈറ്റ് ഓഫിസറ്റിലേക്ക് നേരിട്ട് പോകാനും, ഫയലിന്റെ ബാക്കി ഭാഗം പാർസ് ചെയ്യാതെ ആ പേജ് റെൻഡർ ചെയ്യാനും കഴിയും. 500 പേജുള്ള ഒരു ഫയലിലെ ഒരു അധ്യായം പോലും ഉടൻ തുറക്കുന്നത് ഇതിനാലാണ്.
4. ട്രെയിലർ
അവസാന വിഭാഗം. xref കണ്ടെത്തേണ്ട സ്ഥലവും റൂട്ട് ഏത് ഒബ്ജക്റ്റാണെന്നും പാർസറിന് പറയുന്നു:
trailer
<< /Size 6 /Root 1 0 R /Info 7 0 R >>
startxref
1893
%%EOFstartxref മൂല്യം xref ടേബിളിന്റെ ബൈറ്റ് ഓഫിസറ്റാണ്. %%EOF മാർക്കർ ഫയലിന്റെ യഥാർത്ഥ അവസാനം സൂചിപ്പിക്കുന്നു. ട്രെയിലറുകളാണ് ഇൻക്രിമെന്റൽ അപ്ഡേറ്റുകൾ സാധ്യമാക്കുന്നത്: അവസാനം ഒരു പുതിയ xref + ട്രെയിലർ ചേർക്കുന്നത് മുഴുവൻ ഫയലും വീണ്ടും എഴുതാതെ ഒബ്ജക്റ്റുകൾ ചേർക്കാൻ നിങ്ങളെ അനുവദിക്കുന്നു.
ആറ് ഉള്ളടക്ക ലെയറുകൾ
ബോഡിയിൽ, ഉള്ളടക്കം ആറ് ലെയർ തരങ്ങളിലായി സംഭരിക്കുന്നു. റെൻഡർ ചെയ്ത ഓരോ PDF പേജും ഈ ലെയറുകളുടെ ഒരു കോമ്പോസിറ്റാണ്:
1. ടെക്സ്റ്റ്
ഫോണ്ട് റഫറൻസുകളും ഗ്ലിഫ് പൊസിഷൻ കമാൻഡുകളും, ടെക്സ്റ്റ് സ്ട്രിംഗുകളല്ല. ഒരു PDF "ഫോണ്ട് F3-ൽ നിന്ന് ഗ്ലിഫ് 42 പൊസിഷൻ (120, 540)-ൽ വരയ്ക്കുക" പോലുള്ള നിർദ്ദേശങ്ങൾ സംഭരിക്കുന്നു, അല്ലാതെ "ഇവിടെ A എന്ന അക്ഷരം വരയ്ക്കുക" എന്നല്ല. അതുകൊണ്ടാണ് ടെക്സ്റ്റ് സെലക്ട് ചെയ്യാനും തിരയാനും കഴിയുന്നത്: വ്യൂവർ ഗ്ലിഫ് ഐഡികളെ ഒരു ToUnicode മാപ്പിംഗ് (അല്ലെങ്കിൽ CJK ഫോണ്ടുകൾക്ക് ഒരു CMap) വഴി യൂണികോഡ് കോഡ് പോയിന്റുകളിലേക്ക് റിവേഴ്സ്-മാപ്പ് ചെയ്യുന്നു.
ടെക്സ്റ്റിന് ToUnicode മാപ്പിംഗ് ഇല്ലാത്തപ്പോൾ, "തിരഞ്ഞെടുക്കാൻ കഴിയുന്ന ടെക്സ്റ്റ് ഉള്ള PDF, പക്ഷെ കോപ്പി ചെയ്യുമ്പോൾ തെറ്റായ അക്ഷരങ്ങൾ വരുന്നു" എന്ന ക്ലാസിക് പ്രശ്നം നിങ്ങൾക്ക് ലഭിക്കുന്നു. ടെക്സ്റ്റ് കാണാൻ കഴിയുമെങ്കിലും, ഗ്ലിഫ്-ടു-യൂണികോഡ് മാപ്പിംഗ് തകരാറിലായതോ ലഭ്യമല്ലാത്തതോ ആണ്.
2. ചിത്രങ്ങൾ
നിരവധി ഫോർമാറ്റുകളിൽ ഒന്നിൽ എംബഡ് ചെയ്ത സ്ട്രീമുകളായി സംഭരിക്കുന്നു:
- JPEG (DCTDecode ഫിൽട്ടർ): ഫോട്ടോകൾ, ഏറ്റവും സാധാരണമായത്
- JPEG2000 (JPXDecode): ഉയർന്ന കംപ്രഷൻ, അത്ര സാധാരണയല്ല
- PNG-സമാനമായത് (FlateDecode + Predictor): സ്ക്രീൻഷോട്ടുകൾ, ലൈൻ ആർട്ട്
- CCITT ഗ്രൂപ്പ് 4 (CCITTFaxDecode): കറുപ്പും വെളുപ്പുമുള്ള സ്കാൻ ചെയ്ത ടെക്സ്റ്റ്, ആർക്കൈവൽ സ്കാനുകളിൽ ഉപയോഗിക്കുന്നു
- JBIG2 (JBIG2Decode): ബൈലെവൽ ചിത്രങ്ങൾ, OCR ചെയ്ത ഡോക്യുമെന്റുകളിൽ സാധാരണയായി കാണാം
മറ്റ് ഉള്ളടക്കങ്ങളെ ബാധിക്കാതെ ചിത്രങ്ങൾ ഡൗൺസാമ്പിൾ ചെയ്യാനോ, റീകംപ്രസ് ചെയ്യാനോ, അല്ലെങ്കിൽ മാറ്റാനോ കഴിയും.
3. ഫോണ്ടുകൾ
പൂർണ്ണമായ ഫോണ്ട് പ്രോഗ്രാമുകളായി, സബ്സെറ്റ് (ഉപയോഗിച്ച ഗ്ലിഫുകൾ മാത്രം ഉൾക്കൊള്ളുന്നു), അല്ലെങ്കിൽ പേര് വഴി റഫർ ചെയ്തവയായി എംബഡ് ചെയ്തിരിക്കുന്നു (വ്യൂവറുടെ സിസ്റ്റത്തിൽ ഇൻസ്റ്റാൾ ചെയ്തിരിക്കണം). സബ്സെറ്റിംഗ് ആണ് ഡിഫോൾട്ട് - ഇത് ഫയൽ വലുപ്പം ഗണ്യമായി കുറയ്ക്കുന്നു. പിന്തുണയ്ക്കുന്ന ഫോണ്ട് ഫോർമാറ്റുകൾ: Type1, TrueType, OpenType, CIDFont (CJK-ക്ക്).
ഒരു ഫോണ്ട് റഫർ ചെയ്യപ്പെടുകയും എന്നാൽ എംബഡ് ചെയ്യാതിരിക്കുകയും വ്യൂവറുടെ സിസ്റ്റത്തിൽ ഇൻസ്റ്റാൾ ചെയ്യാതിരിക്കുകയും ചെയ്യുമ്പോൾ, വ്യൂവർ സമാനമായ ഒരു ഫോണ്ട് ഉപയോഗിച്ച് പകരം വെക്കുന്നു - ഇത് സാധാരണയായി തെറ്റായി കാണപ്പെടും. ഇത് ഒഴിവാക്കാൻ PDF/A എല്ലാ ഫോണ്ടുകളും എംബഡ് ചെയ്യാൻ ആവശ്യപ്പെടുന്നു.
4. അനൊട്ടേഷനുകൾ
ഹൈലൈറ്റുകൾ, കമന്റുകൾ, ലിങ്കുകൾ, സ്റ്റാമ്പുകൾ, വാട്ടർമാർക്കുകൾ, ഫോം ഫീൽഡുകൾ എന്നിവയെല്ലാം അനൊട്ടേഷനുകളാണ്. അവ പേജ് ഉള്ളടക്കത്തിന് മുകളിൽ ലെയർ ചെയ്യപ്പെടുന്നു, അടിസ്ഥാന പേജ് മാറ്റാതെ തന്നെ അവ ചേർക്കാനോ, എഡിറ്റ് ചെയ്യാനോ, നീക്കം ചെയ്യാനോ കഴിയും.
ഫോം ഫീൽഡുകൾ ഒരു പ്രത്യേക കേസാണ്: ഒരു ഇൻ്ററാക്ടീവ് വിഡ്ജറ്റ് അനൊട്ടേഷൻ (കാണാവുന്ന ഭാഗം) കൂടാതെ ഒരു ഫീൽഡ് ഡിക്ഷണറിയും (ഡാറ്റ ഭാഗം). നിങ്ങൾ ഒരു ഫോം പൂരിപ്പിച്ച് സേവ് ചെയ്യുമ്പോൾ, ഫീൽഡ് ഡിക്ഷണറികൾ മാത്രമേ മാറുന്നുള്ളൂ - പേജ് തന്നെ മാറ്റമില്ലാതെ തുടരുന്നു.
5. വെക്റ്റർ ഗ്രാഫിക്സ്
ലൈനുകൾ, രൂപങ്ങൾ, വളവുകൾ, പാതകൾ എന്നിവ PostScript-പോലുള്ള ഓപ്പറേറ്ററുകൾ (moveto, lineto, curveto) ഉപയോഗിച്ച് വരച്ചവയാണ്. ഗുണമേന്മ നഷ്ടപ്പെടാതെ അനന്തമായി സ്കെയിൽ ചെയ്യാൻ കഴിയും. PDF-കളിലെ മിക്ക CAD എക്സ്പോർട്ടുകളും, ചാർട്ടുകളും, ഡയഗ്രമുകളും വെക്റ്റർ ഗ്രാഫിക്സ് ആണ്.
6. ഡിജിറ്റൽ സിഗ്നേച്ചറുകൾ
ഫയലിന്റെ ബൈറ്റ് റേഞ്ചുകളുമായി ബന്ധിപ്പിച്ചിട്ടുള്ള PKI-അധിഷ്ഠിത സിഗ്നേച്ചറുകൾ. സിഗ്നേച്ചർ ഡിക്ഷണറി "ബൈറ്റുകൾ 0 മുതൽ 12,547 വരെയും 14,200 മുതൽ ഫയലിന്റെ അവസാനം വരെയും ഒപ്പിട്ടിരിക്കുന്നു" എന്ന് വ്യക്തമാക്കുന്നു - ഇതിനിടയിലുള്ള ഒരു ചെറിയ ഭാഗം സിഗ്നേച്ചർ മൂല്യത്തിനായി സംവരണം ചെയ്തിരിക്കുന്നു. ഒപ്പിട്ട ബൈറ്റ് റേഞ്ചുകളിൽ എന്തെങ്കിലും മാറ്റം വരുത്തിയാൽ സിഗ്നേച്ചർ അസാധുവാകും, ഇത് ഒപ്പിട്ടതിന് ശേഷം PDF എങ്ങനെ ടാമ്പർ ചെയ്യുന്നത് കണ്ടെത്തുന്നു എന്നത് വിശദീകരിക്കുന്നു.
ചില PDF-കളിൽ ഒന്നിലധികം സിഗ്നേച്ചറുകൾ ഉണ്ടാകാം, അവ ഇൻക്രിമെന്റൽ അപ്ഡേറ്റുകളായി ലെയർ ചെയ്തിരിക്കുന്നു - ഓരോ ഒപ്പുകാരനും അവർക്ക് ലഭിച്ച ഫയൽ ഒപ്പിടുന്നു, ശൃംഖല സംരക്ഷിക്കുന്നു.
മെറ്റാഡാറ്റ: രണ്ട് സമാന്തര സംവിധാനങ്ങൾ
PDF-ന് രണ്ട് മെറ്റാഡാറ്റ സംവിധാനങ്ങളുണ്ട്, അവ പലപ്പോഴും വിയോജിക്കുന്നു:
സ്റ്റാൻഡേർഡ് /ഇൻഫോ ഡിക്ഷണറി
ട്രെയിലറിൽ സംഭരിക്കുന്നു. ഫീൽഡുകൾ: Title, Author, Subject, Keywords, Creator (ഡോക്യുമെന്റ് ഉണ്ടാക്കിയ ആപ്പ്), Producer (PDF ജനറേറ്റ് ചെയ്ത ആപ്പ്), CreationDate, ModDate. പ്ലെയിൻ ടെക്സ്റ്റ് സ്ട്രിംഗുകൾ, ഏത് PDF ടൂൾ ഉപയോഗിച്ചും വായിക്കാൻ എളുപ്പമാണ്.
XMP മെറ്റാഡാറ്റ സ്ട്രീം
ഒരു പ്രത്യേക XML സ്ട്രീം (Adobe XMP, RDF/XML അടിസ്ഥാനമാക്കിയുള്ളത്) ഇത് കൂടുതൽ സമ്പന്നമായ സ്കീമകളെ പിന്തുണയ്ക്കുന്നു: Dublin Core, IPTC, കസ്റ്റം ഡൊമെയ്ൻ-സ്പെസിഫിക് സ്കീമകൾ (കളർ പ്രൊഫൈലുകൾ, പകർപ്പവകാശ രജിസ്ട്രേഷനുകൾ, മാൻസ്ക്രിപ്റ്റ് പതിപ്പുകൾ).
ആധുനിക PDF ജനറേറ്ററുകൾ രണ്ടും എഴുതുന്നു. പഴയ PDF-കളിൽ /Info മാത്രമേയുള്ളൂ. ചില PDF-കളിൽ പഴയ പതിപ്പിൽ നിന്നുള്ള സ്റ്റേൽ /Info യും പുതിയ എഡിറ്റിൽ നിന്നുള്ള കൃത്യമായ XMP യും ഉണ്ടാകാം - അല്ലെങ്കിൽ തിരിച്ചും. PDF-കളെ കോംപ്ലയൻസിനോ ഫോറൻസിക്കിനോ വേണ്ടി ഓഡിറ്റ് ചെയ്യുമ്പോൾ, രണ്ടും പരിശോധിക്കുക.
PDF അടിസ്ഥാനമാക്കിയുള്ള ISO മാനദണ്ഡങ്ങൾ
അടിസ്ഥാന PDF സ്പെസിഫിക്കേഷൻ ISO 32000 ആണ്. പ്രത്യേക ആവശ്യങ്ങൾക്കായി PDF-നെ പരിമിതപ്പെടുത്തുന്ന നിരവധി അനുബന്ധ മാനദണ്ഡങ്ങളുണ്ട്:
| സ്റ്റാൻഡേർഡ് | ഉപയോഗം | പരിമിതികൾ |
|---|---|---|
| PDF/A | ദീർഘകാല ആർക്കൈവൽ | എല്ലാ ഫോണ്ടുകളും എംബഡ് ചെയ്തത്, ജാവാസ്ക്രിപ്റ്റ് ഇല്ല, ഓഡിയോ/വീഡിയോ ഇല്ല, കളർ സ്പേസുകൾ ഡിവൈസ് ഇൻഡിപെൻഡന്റ്. കോൺഫർമൻസ് ലെവലുകൾ: PDF/A-1, A-2, A-3 (ഫയൽ അറ്റാച്ച്മെന്റുകൾ അനുവദിക്കുന്നു) |
| PDF/X | പ്രിന്റ് പ്രൊഡക്ഷൻ | CMYK കളർ, എംബഡ് ചെയ്ത ഫോണ്ടുകൾ, കളർ പ്രൊഫൈലുകൾ, ട്രാൻസ്പരൻസി ഇല്ല (PDF/X-1a) അല്ലെങ്കിൽ നിയന്ത്രിത ട്രാൻസ്പരൻസി (PDF/X-4) |
| PDF/UA | ലഭ്യത | ടാഗ് ചെയ്ത ഘടനാപരമായ ട്രീ, ഭാഷാ മെറ്റാഡാറ്റ, ചിത്രങ്ങൾക്ക് ആൾട്ട് ടെക്സ്റ്റ്, ലോജിക്കൽ റീഡിംഗ് ഓർഡർ |
| PDF/E | എഞ്ചിനീയറിംഗ് | 3D മോഡലുകൾ (U3D, PRC ഫോർമാറ്റുകൾ), CAD-സ്പെസിഫിക് മെറ്റാഡാറ്റ |
| PDF/VT | വേരിയബിൾ ട്രാൻസാക്ഷണൽ പ്രിന്റിംഗ് | ഉയർന്ന അളവിലുള്ള വ്യക്തിഗത മെയിലിംഗുകൾക്കായി ഒപ്റ്റിമൈസ് ചെയ്തത് |
ഒരു PDF-ന് ഒന്നിലധികം മാനദണ്ഡങ്ങൾ ഒരേസമയം പാലിക്കാൻ കഴിയും - സർക്കാർ, നിയമപരമായ ആർക്കൈവുകൾക്ക് PDF/A-2u (യൂണികോഡ് മാപ്പിംഗിനൊപ്പം ആർക്കൈവൽ) കൂടാതെ PDF/UA (ലഭ്യത) സാധാരണമാണ്.
ലീനിയറൈസ്ഡ് PDF-കൾ (വെബ്-ഓപ്റ്റിമൈസ്ഡ്)
"ലീനിയറൈസ്ഡ്" അല്ലെങ്കിൽ "വെബ്-ഓപ്റ്റിമൈസ്ഡ്" PDF, ബോഡി പുനഃക്രമീകരിക്കുന്നു, അങ്ങനെ ആദ്യ പേജിന്റെ ഒബ്ജക്റ്റുകൾ ഫയലിന്റെ തുടക്കത്തിൽ ദൃശ്യമാകും. ഒരു വെബ് വ്യൂവർക്ക് മുഴുവൻ ഫയലിനായി കാത്തുനിൽക്കാതെ ആദ്യത്തെ ഏകദേശം 50 KB ഡൗൺലോഡ് ചെയ്തതിന് ശേഷം പേജ് 1 റെൻഡർ ചെയ്യാൻ കഴിയും. ട്രെയിലർ മുന്നിൽ ഡ്യൂപ്ലിക്കേറ്റ് ചെയ്തിരിക്കുന്നു, കൂടാതെ ഓരോ പേജും എവിടെ തുടങ്ങുന്നു എന്ന് വ്യൂവർക്ക് പറയുന്ന ഒരു സൂചന ടേബിളും ഉണ്ട്.
മിക്ക ആധുനിക PDF ജനറേറ്ററുകളും "വെബ് സേവ് ചെയ്യുക" ഓപ്ഷനായി ലീനിയറൈസേഷൻ പിന്തുണയ്ക്കുന്നു. ഈ ഫോർമാറ്റ് ആദ്യ പേജ് റെൻഡറിംഗ് വേഗത്തിലാക്കുന്നതിനായി ഫയൽ വലുപ്പത്തിൽ 2-5% വർദ്ധനവ് വരുത്തുന്നു.
എൻക്രിപ്ഷനും അനുമതികളും
PDF-കൾ പാസ്വേഡ് (അല്ലെങ്കിൽ സർട്ടിഫിക്കറ്റുകൾ) ഉപയോഗിച്ച് എൻക്രിപ്റ്റ് ചെയ്യാനും അനുമതികൾ നൽകാനും കഴിയും: പ്രിന്റ് ചെയ്യുക, ടെക്സ്റ്റ് കോപ്പി ചെയ്യുക, മാറ്റുക, ഫോമുകൾ പൂരിപ്പിക്കുക, ലഭ്യതയ്ക്കായി എക്സ്ട്രാക്ട് ചെയ്യുക. എൻക്രിപ്ഷൻ ട്രെയിലറിലെ /Encrypt ഡിക്ഷണറിയിൽ സംഭരിക്കുന്നു.
എൻക്രിപ്ഷൻ ശക്തികൾ പരിണമിച്ചു: RC4 40-ബിറ്റ് (തുടക്കത്തിലെ PDF-കൾ, ഇന്ന് എളുപ്പത്തിൽ ക്രാക്ക് ചെയ്യാം), RC4 128-ബിറ്റ് (ഇപ്പോഴും ദുർബലമാണ്), AES-128, AES-256. യഥാർത്ഥ അക്രോബാറ്റ് 5 RC4 നടപ്പാക്കൽ 2001-ൽ പരസ്യമായി ക്രാക്ക് ചെയ്യപ്പെട്ടു; ആധുനിക PDF എൻക്രിപ്ഷൻ (AES-256, PDF 2.0) ശക്തമായ പാസ്വേഡുകളുമായി ഉപയോഗിക്കുമ്പോൾ സുരക്ഷിതമാണ്.
ശ്രദ്ധിക്കുക: "അനുമതികൾ" ഉപദേശകങ്ങളാണ്. അവയെ മാനിക്കുന്ന ഒരു വ്യൂവർ അവ നടപ്പിലാക്കും. അവ അവഗണിക്കന്ന ഒരു വ്യൂവർ (അല്ലെങ്കിൽ എൻക്രിപ്ഷൻ നീക്കം ചെയ്യുന്ന ഒരു ടൂൾ) അങ്ങനെ ചെയ്യില്ല.
PDFSub PDF-കൾ എങ്ങനെ വായിക്കുന്നു
PDFSub, Rust-ന്റെ PDFium ബൈൻഡിംഗ് (ക്രോമിയത്തിന്റെ PDF വ്യൂവർ പ്രവർത്തിപ്പിക്കുന്ന അതേ എഞ്ചിൻ) ഉപയോഗിച്ചും സ്കാൻ ചെയ്ത ഡോക്യുമെന്റുകൾക്കായി PaddleOCR ഉപയോഗിച്ചും PDF-കളെ പ്രോസസ്സ് ചെയ്യുന്നു. പൂർണ്ണമായ ആർക്കിടെക്ചർ വിശദാംശങ്ങൾക്കും ക്ലൗഡ് അധിഷ്ഠിത ടൂളുകളുമായുള്ള താരതമ്യത്തിനും, ബ്രൗസർ vs ക്ലൗഡ് PDF സുരക്ഷ കാണുക.
മുകളിൽ വിവരിച്ച ഘടന സംരക്ഷിച്ചുകൊണ്ട് PDF-കളെ മറ്റ് ഫോർമാറ്റുകളിലേക്ക് മാറ്റുന്നതിന്:
- PDF മുതൽ Excel വരെ - ടെക്സ്റ്റും ടേബിളുകളും എക്സ്ട്രാക്ട് ചെയ്യുന്നു, കോർഡിനേറ്റുകൾ സംരക്ഷിക്കുന്നു
- OCR PDF - സ്കാൻ ചെയ്ത PDF-കളിലേക്ക് തിരയാൻ കഴിയുന്ന ടെക്സ്റ്റ് ലെയർ ചേർക്കുന്നു
- PDF മുതൽ Word വരെ - എഡിറ്റ് ചെയ്യാൻ കഴിയുന്ന ഖണ്ഡികകളിലേക്ക് ടെക്സ്റ്റ് റീഫ്ലോ ചെയ്യുന്നു
- PDF കംപ്രസ് ചെയ്യുക - ചിത്രങ്ങൾ ഡൗൺസാമ്പിൾ ചെയ്യുന്നു, ഫോണ്ടുകൾ സബ്സെറ്റ് ചെയ്യുന്നു
പ്രത്യേകിച്ച് ആർക്കൈവൽ വർക്ക്ഫ്ലോകൾക്കായി, PDF എങ്ങനെ PDF/A ആയി മാറ്റാം കാണുക.
കൂടുതൽ വായനയ്ക്ക്
- ISO 32000-2 (PDF 2.0 സ്പെക്) - ആധികാരിക റഫറൻസ്, പെയ്ഡ്
- Adobe PDF റഫറൻസ് ആർക്കൈവുകൾ - PDF 1.7-ന് സൗജന്യ റഫറൻസ്
- PDF അസോസിയേഷൻ - ഇൻഡസ്ട്രി വർക്കിംഗ് ഗ്രൂപ്പ്, സൗജന്യ ലേഖനങ്ങളും കോൺഫർമൻസ് ടെസ്റ്റ് ഫയലുകളും
PDF- spécifique വിഷയങ്ങൾക്ക്: നിയമജ്ഞർക്കുള്ള PDF കോംപ്ലയൻസ് ഗൈഡ്, PDF/A കൺവേർഷൻ ഗൈഡ്.