קובץ PDF אינו דבר יחיד. הוא מיכל בינארי עם מבנה ספציפי בדיסק, סט של שכבות תוכן המוערמות בתוך המיכל הזה, ומשפחה של תקני ISO הבנויים מעל המפרט הבסיסי. פתח אחד בעורך הקסדצימלי והמבנה נראה בטקסט רגיל בשורות הראשונות. פתח אחד בצופה והשכבות מוצגות יחד כעמוד בודד.

מדריך זה הוא הפניה מתויגת: מבנה הקובץ הפיזי, שכבות התוכן שהגוף מכיל, המטא-דאטה המקיף הכל, והתקנים (PDF/A, PDF/X, PDF/UA, PDF/E, PDF/VT) המגבילים אותו למקרי שימוש ספציפיים.

Anatomy of a PDF file: header, body objects, cross-reference table, trailer, content layers, and metadata

רוצה להשתמש בתרשים זה בבלוג שלך? העתק את קוד ההטמעה הזה:

ארבעת החלקים הפיזיים

לכל קובץ PDF בדיסק יש את אותה מבנה בן ארבעה חלקים, בסדר זה:

השורה הראשונה של הקובץ. תמיד מתחילה ב-%PDF- ואחריה מספר גרסה:

%PDF-1.7

גרסאות נעות מ-1.0 (שוחרר ב-1993) עד 2.0 (שוחרר ב-2017, הנוכחי). הכותרת מלווה בשורת הערה עם בתים בינאריים המאותתים ל-FTP ולכלי תחבורה אחרים שזהו קובץ בינארי.

2. גוף - אובייקטים עקיפים (Body - Indirect Objects)

עיקר הקובץ. כל עמוד, גופן, תמונה, הערת שוליים ושדה טופס הם אובייקט עקיף ממוספר:

1 0 obj
<< /Type /Catalog /Pages 2 0 R >>
endobj
 
2 0 obj
<< /Type /Pages /Kids [3 0 R] /Count 1 >>
endobj
 
3 0 obj
<< /Type /Page /Parent 2 0 R /Contents 4 0 R /Resources << ... >> >>
endobj

לכל אובייקט יש מזהה (המספר לפני 0 obj), מספר דור (0, משמש לעדכונים מצטברים), ומטען בין << ל->> עבור מילונים או stream ו-endstream עבור זרמי נתונים בינאריים (נתוני תמונה, נתוני גופן, תוכן דחוס).

אובייקטים מתייחסים זה לזה באמצעות התחביר <id> <gen> R (למשל, 3 0 R פירושו "אובייקט 3, דור 0"). כך עמוד מתייחס לגופן שהוא משתמש בו, או כיצד קטלוג מתייחס לשורש עץ העמודים.

3. טבלת הפניות צולבות (Cross-Reference Table - xref)

טבלת חיפוש לפי מיקום בתים (byte-offset). עבור כל אובייקט בגוף, ה-xref רושם את מיקומו המוחלט בבתים בקובץ:

xref
0 6
0000000000 65535 f
0000000017 00000 n
0000000089 00000 n
0000000172 00000 n
0000000299 00000 n
0000000453 00000 n

זה מה שהופך קבצי PDF לנגישים באופן אקראי. צופה יכול לקרוא את ה-xref, לקפוץ ישירות למיקום הבתים של אובייקט 3, ולהציג את העמוד מבלי לנתח את שאר הקובץ. זו הסיבה שקבצי PDF של פרק בודד נפתחים באופן מיידי גם כאשר הקובץ המקורי הוא בן 500 עמודים.

4. סוגר (Trailer)

החלק האחרון. אומר למנתח היכן למצוא את ה-xref ואיזה אובייקט הוא השורש:

trailer
<< /Size 6 /Root 1 0 R /Info 7 0 R >>
startxref
1893
%%EOF

ערך ה-startxref הוא מיקום הבתים של טבלת ה-xref. סימון %%EOF הוא סוף הקובץ הממשי. סוגרים הם מה שמאפשר עדכונים מצטברים: הוספת xref + סוגר חדשים בסוף מאפשרת להוסיף אובייקטים מבלי לכתוב מחדש את כל הקובץ.

שש שכבות התוכן

בתוך הגוף, התוכן מאוחסן על פני שש סוגי שכבות. כל עמוד PDF המוצג הוא שילוב של שכבות אלו:

1. טקסט (Text)

פקודות מיקום גליפים והפניות לגופנים, לא מחרוזות טקסט. קובץ PDF מאחסן הוראות כמו "צייר גליף 42 מגופן F3 במיקום (120, 540)" במקום "צייר את האות A כאן". זו הסיבה שהטקסט ניתן לבחירה וחיפוש: הצופה ממפה לאחור מזהי גליפים לנקודות קוד Unicode באמצעות מיפוי ToUnicode (או CMap עבור גופני CJK).

כאשר לטקסט חסר מיפוי ToUnicode, אתה מקבל את הבעיה הקלאסית "PDF עם טקסט שניתן לבחירה אך מעתיק זבל". הטקסט גלוי, אך מיפוי הגליף ל-Unicode שבור או חסר.

2. תמונות (Images)

מאוחסנות כזרמים מוטמעים באחד מכמה פורמטים:

JPEG (מסנן DCTDecode): תצלומים, הנפוץ ביותר
JPEG2000 (מסנן JPXDecode): דחיסה גבוהה יותר, פחות נפוץ
מקביל ל-PNG (מסנן FlateDecode + Predictor): צילומי מסך, איורי קו
CCITT Group 4 (מסנן CCITTFaxDecode): טקסט סרוק בשחור-לבן, משמש בסריקות ארכיון
JBIG2 (מסנן JBIG2Decode): תמונות בינאריות, נפוץ במסמכים שעברו OCR

ניתן לדגום מחדש, לדחוס מחדש או להחליף תמונות מבלי להשפיע על תוכן אחר.

3. גופנים (Fonts)

מוטמעים כתוכניות גופן מלאות, תת-קבוצה (רק גליפים בשימוש כלולים), או מוזכרים לפי שם (חייבים להיות מותקנים במערכת של הצופה). תת-קבוצה היא ברירת המחדל - היא מקטינה דרמטית את גודל הקובץ. פורמטים נתמכים: Type1, TrueType, OpenType, ו-CIDFont (עבור CJK).

כאשר גופן מוזכר אך אינו מוטמע ואינו מותקן במערכת של הצופה, הצופה מחליף אותו בגופן דומה - שבדרך כלל נראה שגוי. PDF/A דורש שכל הגופנים יהיו מוטמעים כדי למנוע זאת.

4. הערות שוליים (Annotations)

הדגשות, הערות, קישורים, חותמות, סימני מים ושדות טופס הם כולם הערות שוליים. הם מוערמים מעל תוכן העמוד וניתן להוסיף, לערוך או להסיר אותם מבלי לשנות את העמוד הבסיסי.

שדות טופס הם מקרה מיוחד: הערת שוליים אינטראקטיבית (החלק הנראה) בתוספת מילון שדה (חלק הנתונים). כאשר אתה ממלא טופס ושומר, רק מילוני השדות משתנים - העמוד עצמו אינו מושפע.

5. גרפיקה וקטורית (Vector Graphics)

קווים, צורות, עקומות ונתיבים המצוירים באמצעות פקודות דמויות PostScript (moveto, lineto, curveto). ניתנים להגדלה אינסופית ללא אובדן איכות. רוב ייצואי CAD, תרשימים ואיורים בקבצי PDF הם גרפיקה וקטורית.

6. חתימות דיגיטליות (Digital Signatures)

חתימות מגובות PKI הקשורות לטווחים של בתים בקובץ. מילון החתימה מציין "בתים 0 עד 12,547 ו-14,200 עד סוף הקובץ נחתמו" - טווח קטן באמצע שמור לערך החתימה עצמו. כל שינוי בטווח הבתים שנחתם פוסל את החתימה, וזו הדרך שבה PDF מזהה שיבוש לאחר חתימה.

לחלק מקבצי PDF יש מספר חתימות, המוערמות כעדכונים מצטברים - כל חותם חותם על הקובץ כפי שהיה כאשר קיבל אותו, תוך שמירה על השרשרת.

מטא-דאטה: שתי מערכות מקבילות

ל-PDF יש שתי מערכות מטא-דאטה שלעיתים קרובות אינן מסכימות:

מילון /Info סטנדרטי

מאוחסן בסוגר. שדות: Title, Author, Subject, Keywords, Creator (האפליקציה שבה המשתמש יצר את המסמך), Producer (האפליקציה שיצרה את ה-PDF), CreationDate, ModDate. מחרוזות טקסט רגיל, קלות לקריאה עם כל כלי PDF.

זרם מטא-דאטה XMP

זרם XML נפרד (Adobe XMP, מבוסס על RDF/XML) התומך בסכמות עשירות יותר: Dublin Core, IPTC, סכמות מותאמות אישית ספציפיות לתחום (פרופילי צבע, רישומי זכויות יוצרים, גרסאות כתבי יד).

יוצרי PDF מודרניים כותבים לשניהם. קבצי PDF ישנים מכילים רק /Info. לחלק מקבצי PDF יש /Info מיושן מגרסה קודמת ו-XMP מדויק מעריכה אחרונה - או להיפך. בעת ביקורת קבצי PDF לצורך תאימות או חקירות פורנזיות, בדוק את שניהם.

תקני ISO הבנויים על PDF

מפרט ה-PDF הבסיסי הוא ISO 32000. מספר תקנים נגזרים מגבילים את ה-PDF למקרי שימוש ספציפיים:

תקן	שימוש	הגבלות
PDF/A	ארכיון לטווח ארוך	כל הגופנים מוטמעים, ללא JavaScript, ללא אודיו/וידאו, מרחבי צבע בלתי תלויים במכשיר. רמות תאימות: PDF/A-1, A-2, A-3 (מאפשר קבצים מצורפים)
PDF/X	הפקת דפוס	צבעי CMYK, גופנים ופרופילי צבע מוטמעים, ללא שקיפות (PDF/X-1a) או שקיפות מבוקרת (PDF/X-4)
PDF/UA	נגישות	עץ מבנה מתויג, מטא-דאטה של שפה, טקסט חלופי לתמונות, סדר קריאה לוגי
PDF/E	הנדסה	מודלים תלת-ממדיים (פורמטים U3D, PRC), מטא-דאטה ספציפי ל-CAD
PDF/VT	הדפסת טרנזקציות משתנות	מותאם למשלוחים אישיים בנפח גבוה

קובץ PDF יכול לעמוד במספר תקנים בו-זמנית - PDF/A-2u (ארכיון עם מיפוי Unicode) בתוספת PDF/UA (נגישות) נפוץ לארכיונים ממשלתיים ומשפטיים.

קבצי PDF מיושרים (Web-Optimized)

קובץ PDF "מיושר" או "מותאם לאינטרנט" מסדר מחדש את הגוף כך שאובייקטי העמוד הראשון יופיעו מוקדם בקובץ. צופה אינטרנט יכול להציג את עמוד 1 לאחר הורדת כ-50 KB בלבד במקום לחכות לכל הקובץ. הסוגר משוכפל בחלק העליון, בתוספת טבלת רמזים שאומרת לצופה היכן כל עמוד מתחיל.

רוב יוצרי ה-PDF המודרניים תומכים ביישור כאפשרות "שמור לאינטרנט". הפורמט מוסיף 2-5% לגודל הקובץ בתמורה להצגה מהירה של העמוד הראשון בחיבורים איטיים.

הצפנה והרשאות

ניתן להצפין קבצי PDF באמצעות סיסמה (או תעודות) ולהעניק הרשאות גרנולריות: הדפסה, העתקת טקסט, שינוי, מילוי טפסים, חילוץ לצורך נגישות. ההצפנה מאוחסנת במילון /Encrypt שבסוגר.

חוזק ההצפנה התפתח: RC4 40-bit (קבצי PDF מוקדמים, ניתנים לפריצה בקלות כיום), RC4 128-bit (עדיין חלש), AES-128, AES-256. יישום RC4 המקורי של Acrobat 5 נפרץ בפומבי בשנת 2001; הצפנת PDF מודרנית (AES-256, PDF 2.0) יציבה כאשר משתמשים בה עם סיסמאות חזקות.

הערה: "הרשאות" הן ייעוציות. צופה שמכבד אותן יאכוף אותן. צופה שמתעלם מהן (או כלי שמסיר את ההצפנה) לא.

כיצד PDFSub קורא קבצי PDF

PDFSub מעבד קבצי PDF באמצעות קשרי Rust ל-PDFium (אותו מנוע המפעיל את צופה ה-PDF של Chromium) בתוספת PaddleOCR למסמכים סרוקים. לפרטים מלאים על הארכיטקטורה והשוואה לכלים מבוססי ענן, ראה דפדפן מול אבטחת PDF בענן.

להמרת קבצי PDF לפורמטים אחרים תוך שמירה על המבנה המתואר לעיל:

PDF לאקסל - מחלץ טקסט + טבלאות, שומר על קואורדינטות
OCR PDF - מוסיף שכבת טקסט הניתנת לחיפוש לקבצי PDF סרוקים
PDF לוורד - מעצב מחדש טקסט לפסקאות ניתנות לעריכה
דחיסת PDF - דוגם מחדש תמונות, תת-קבוצות גופנים

לזרימות עבודה של ארכיון באופן ספציפי, ראה כיצד להמיר PDF ל-PDF/A.

קריאה נוספת

ISO 32000-2 (מפרט PDF 2.0) - הפניה סמכותית, בתשלום
ארכיוני הפניות PDF של Adobe - הפניה חינמית ל-PDF 1.7
PDF Association - קבוצת עבודה בתעשייה, מאמרים חינמיים וקבצי בדיקת תאימות

לנושאים ספציפיים ל-PDF: מדריך תאימות PDF לעורכי דין, מדריך המרת PDF/A.