PDFSub
الأسعارAPIMergeCompressEditE-Signكشوفات الحساب البنكيةالمدونة
العودة إلى المدونة
دليلتنسيق PDFمعايير PDFPDF/APDF/XPDF/UAتشريح

شرح تنسيق ملف PDF: التشريح والطبقات والمعايير

16 مايو 2026
T
Todd Lahman
Founder, PDFSub

ما هو موجود فعليًا داخل ملف PDF؟ رسم توضيحي مُعنون ودليل يشمل الأقسام المادية الأربعة (الرأس، الجسم، جدول الإحالة المرجعية، المقطع الختامي)، وطبقات المحتوى الست (النص، الصور، الخطوط، التعليقات التوضيحية، المتجهات، التوقيعات)، والبيانات الوصفية، ومعايير ISO (PDF/A، PDF/X، PDF/UA، PDF/E، PDF/VT) المبنية عليها.


ملف PDF ليس شيئًا واحدًا. إنه حاوية ثنائية ذات بنية محددة على القرص، ومجموعة من طبقات المحتوى المكدسة داخل تلك الحاوية، وعائلة من معايير ISO المبنية فوق المواصفات الأساسية. افتح واحدًا في محرر سداسي عشري وستظهر البنية كنص عادي في الأسطر القليلة الأولى. افتح واحدًا في عارض وستعرض الطبقات معًا كصفحة واحدة.

هذا الدليل هو مرجع مُعنون: بنية الملف المادية، طبقات المحتوى التي يحتويها الجسم، البيانات الوصفية التي تحيط بكل شيء، والمعايير (PDF/A، PDF/X، PDF/UA، PDF/E، PDF/VT) التي تقيده لحالات استخدام محددة.

Anatomy of a PDF file: header, body objects, cross-reference table, trailer, content layers, and metadata

هل ترغب في استخدام هذا الرسم التوضيحي على مدونتك؟ انسخ كود التضمين هذا:


الأقسام المادية الأربعة

كل ملف PDF على القرص له نفس البنية المكونة من أربعة أجزاء، بهذا الترتيب:

1. الرأس (Header)

السطر الأول من الملف. يبدأ دائمًا بـ %PDF- متبوعًا برقم إصدار:

%PDF-1.7

تتراوح الإصدارات من 1.0 (صدر عام 1993) إلى 2.0 (صدر عام 2017، الحالي). يتبع الرأس سطر تعليق يحتوي على بايتات ثنائية تشير إلى أدوات النقل مثل FTP بأن هذا ملف ثنائي.

2. الجسم - الكائنات غير المباشرة (Body - Indirect Objects)

الجزء الأكبر من الملف. كل صفحة، خط، صورة، تعليق توضيحي، وحقل نموذج هو كائن غير مباشر مرقم:

1 0 obj
<< /Type /Catalog /Pages 2 0 R >>
endobj
 
2 0 obj
<< /Type /Pages /Kids [3 0 R] /Count 1 >>
endobj
 
3 0 obj
<< /Type /Page /Parent 2 0 R /Contents 4 0 R /Resources << ... >> >>
endobj

كل كائن له معرف (الرقم قبل 0 obj)، ورقم جيل (0، يُستخدم للتحديثات التزايدية)، وحمولة بين << و >> للقواميس أو stream و endstream للتدفقات الثنائية (بيانات الصور، بيانات الخطوط، المحتوى المضغوط).

تشير الكائنات إلى بعضها البعض باستخدام صيغة <id> <gen> R (على سبيل المثال، 3 0 R تعني "الكائن 3، الجيل 0"). هذه هي الطريقة التي تشير بها الصفحة إلى الخط الذي تستخدمه، أو كيف يشير الكتالوج إلى جذر شجرة الصفحات.

3. جدول الإحالة المرجعية (Cross-Reference Table - xref)

جدول بحث عن إزاحة البايت. لكل كائن في الجسم، يسجل جدول الإحالة المرجعية موقعه المطلق بالبايت في الملف:

xref
0 6
0000000000 65535 f
0000000017 00000 n
0000000089 00000 n
0000000172 00000 n
0000000299 00000 n
0000000453 00000 n

هذا هو ما يجعل ملفات PDF قابلة للوصول العشوائي. يمكن للعارض قراءة جدول الإحالة المرجعية، والقفز مباشرة إلى إزاحة البايت للكائن 3، وعرض تلك الصفحة دون تحليل بقية الملف. هذا هو السبب في أن ملفات PDF لفصل واحد تفتح فورًا حتى لو كان الملف المصدر مكونًا من 500 صفحة.

4. المقطع الختامي (Trailer)

القسم الأخير. يخبر المحلل بمكان العثور على جدول الإحالة المرجعية وأي كائن هو الجذر:

trailer
<< /Size 6 /Root 1 0 R /Info 7 0 R >>
startxref
1893
%%EOF

قيمة startxref هي إزاحة البايت لجدول الإحالة المرجعية. العلامة %%EOF هي نهاية الملف الحرفية. المقاطع الختامية هي ما تجعل التحديثات التزايدية ممكنة: إضافة جدول إحالة مرجعية + مقطع ختامي جديد في النهاية يسمح لك بإضافة كائنات دون إعادة كتابة الملف بأكمله.


طبقات المحتوى الست

داخل الجسم، يتم تخزين المحتوى عبر ستة أنواع من الطبقات. كل صفحة PDF معروضة هي مزيج من هذه الطبقات:

1. النص (Text)

أوامر موضع الحروف ومرجعيات الخطوط، وليس سلاسل نصية. يخزن ملف PDF تعليمات مثل "ارسم الحرف 42 من الخط F3 في الموضع (120، 540)" بدلاً من "ارسم الحرف A هنا". هذا هو السبب في أن النص قابل للتحديد والبحث: يقوم العارض بإعادة تعيين معرفات الحروف إلى نقاط رمز Unicode عبر تعيين ToUnicode (أو CMap للخطوط الصينية واليابانية والكورية).

عندما يفتقر النص إلى تعيين ToUnicode، تحصل على مشكلة "ملف PDF مع نص قابل للتحديد ولكنه ينسخ كقمامة" الكلاسيكية. النص مرئي، لكن تعيين الحرف إلى Unicode معطل أو مفقود.

2. الصور (Images)

مخزنة كتدفقات مضمنة بأحد التنسيقات التالية:

  • JPEG (مرشح DCTDecode): صور فوتوغرافية، الأكثر شيوعًا
  • JPEG2000 (JPXDecode): ضغط أعلى، أقل شيوعًا
  • مكافئ لـ PNG (مرشح FlateDecode + Predictor): لقطات شاشة، رسومات خطية
  • CCITT Group 4 (مرشح CCITTFaxDecode): نص ممسوح ضوئيًا بالأبيض والأسود، يُستخدم في عمليات المسح الأرشيفية
  • JBIG2 (مرشح JBIG2Decode): صور ثنائية المستوى، شائعة في المستندات التي تم التعرف عليها ضوئيًا (OCR'd)

يمكن تقليل حجم الصور، أو إعادة ضغطها، أو استبدالها دون التأثير على المحتوى الآخر.

3. الخطوط (Fonts)

مضمنة كبرامج خطوط كاملة، أو مجموعات فرعية (تتضمن فقط الحروف المستخدمة)، أو مشار إليها بالاسم (يجب تثبيتها على نظام العارض). المجموعات الفرعية هي الافتراضية - فهي تقلل حجم الملف بشكل كبير. تنسيقات الخطوط المدعومة: Type1، TrueType، OpenType، و CIDFont (للخطوط الصينية واليابانية والكورية).

عندما تتم الإشارة إلى خط ولكن لم يتم تضمينه ولم يتم تثبيته على نظام العارض، يقوم العارض باستبداله بخط مشابه - وهذا عادة ما يبدو خاطئًا. يتطلب PDF/A تضمين جميع الخطوط لمنع حدوث ذلك.

4. التعليقات التوضيحية (Annotations)

التظليلات، التعليقات، الروابط، الأختام، العلامات المائية، وحقول النماذج كلها تعليقات توضيحية. يتم وضعها فوق محتوى الصفحة ويمكن إضافتها، أو تعديلها، أو إزالتها دون تغيير الصفحة الأساسية.

حقول النماذج هي حالة خاصة: تعليق توضيحي تفاعلي (الجزء المرئي) بالإضافة إلى قاموس حقل (جزء البيانات). عندما تملأ نموذجًا وتحفظه، تتغير فقط قواميس الحقول - الصفحة نفسها لا تتأثر.

5. الرسومات المتجهة (Vector Graphics)

خطوط، أشكال، منحنيات، ومسارات مرسومة باستخدام عوامل تشغيل تشبه PostScript (moveto, lineto, curveto). يمكن تغيير حجمها بشكل لا نهائي دون فقدان الجودة. معظم تصديرات CAD، الرسوم البيانية، والمخططات في ملفات PDF هي رسومات متجهة.

6. التوقيعات الرقمية (Digital Signatures)

توقيعات مدعومة بـ PKI مرتبطة بنطاقات بايت في الملف. يحدد قاموس التوقيع "البايتات من 0 إلى 12,547 ومن 14,200 إلى نهاية الملف تم توقيعها" - يتم حجز نطاق صغير في المنتصف لقيمة التوقيع نفسها. أي تغيير في نطاقات البايت الموقعة يبطل التوقيع، وهذا هو كيف يكتشف PDF التلاعب بعد التوقيع.

بعض ملفات PDF تحتوي على توقيعات متعددة، مكدسة كتحديثات تزايدية - كل موقع يوقع الملف كما كان عند استلامه، مما يحافظ على السلسلة.


البيانات الوصفية: نظامان متوازيان

يحتوي PDF على نظامين للبيانات الوصفية غالبًا ما يختلفان:

القاموس القياسي /Info

مخزن في المقطع الختامي. الحقول: Title (العنوان)، Author (المؤلف)، Subject (الموضوع)، Keywords (الكلمات المفتاحية)، Creator (التطبيق الذي أنشأ به المستخدم المستند)، Producer (التطبيق الذي أنشأ ملف PDF)، CreationDate (تاريخ الإنشاء)، ModDate (تاريخ التعديل). سلاسل نصية عادية، سهلة القراءة بأي أداة PDF.

تدفق البيانات الوصفية XMP

تدفق XML منفصل (Adobe XMP، يعتمد على RDF/XML) يدعم مخططات أغنى: Dublin Core، IPTC، مخططات مخصصة خاصة بالمجال (ملفات تعريف الألوان، تسجيلات حقوق النشر، إصدارات المخطوطات).

تقوم مولدات PDF الحديثة بالكتابة إلى كليهما. ملفات PDF القديمة تحتوي فقط على /Info. بعض ملفات PDF تحتوي على /Info قديم من إصدار سابق وبيانات XMP دقيقة من تعديل حديث - أو العكس. عند تدقيق ملفات PDF للامتثال أو التحقيقات الجنائية، تحقق من كليهما.


معايير ISO المبنية على PDF

المواصفات الأساسية لملف PDF هي ISO 32000. تقوم العديد من المعايير المشتقة بتقييد PDF لحالات استخدام محددة:

المعيار الاستخدام القيود
PDF/A الأرشفة طويلة الأجل جميع الخطوط مضمنة، لا JavaScript، لا صوت/فيديو، مساحات الألوان مستقلة عن الجهاز. مستويات الامتثال: PDF/A-1، A-2، A-3 (يسمح بإرفاق الملفات)
PDF/X إنتاج الطباعة ألوان CMYK، خطوط مضمنة وملفات تعريف ألوان، لا شفافية (PDF/X-1a) أو شفافية مُتحكم بها (PDF/X-4)
PDF/UA إمكانية الوصول شجرة بنية مُعلمة، بيانات وصفية للغة، نص بديل للصور، ترتيب قراءة منطقي
PDF/E الهندسة نماذج ثلاثية الأبعاد (تنسيقات U3D، PRC)، بيانات وصفية خاصة بـ CAD
PDF/VT طباعة المعاملات المتغيرة مُحسّن للمراسلات الشخصية عالية الحجم

يمكن لملف PDF الامتثال لمعايير متعددة في وقت واحد - PDF/A-2u (أرشفة مع تعيين Unicode) بالإضافة إلى PDF/UA (إمكانية الوصول) شائع للأرشيفات الحكومية والقانونية.


ملفات PDF المُسطّحة (محسّنة للويب)

ملف PDF "مُسطّح" أو "محسّن للويب" يعيد ترتيب الجسم بحيث تظهر كائنات الصفحة الأولى في وقت مبكر من الملف. يمكن لعارض الويب عرض الصفحة الأولى بعد تنزيل حوالي 50 كيلوبايت فقط بدلاً من انتظار الملف بأكمله. يتم تكرار المقطع الختامي في المقدمة، بالإضافة إلى جدول تلميحات يخبر العارض بمكان بدء كل صفحة.

تدعم معظم مولدات PDF الحديثة التسوية كخيار "حفظ للويب". يضيف التنسيق 2-5% إلى حجم الملف مقابل عرض سريع للصفحة الأولى عبر اتصالات بطيئة.


التشفير والأذونات

يمكن تشفير ملفات PDF بكلمة مرور (أو شهادات) ومنحها أذونات مفصلة: الطباعة، نسخ النص، التعديل، ملء النماذج، الاستخراج لإمكانية الوصول. يتم تخزين التشفير في قاموس /Encrypt في المقطع الختامي.

تطورت قوة التشفير: RC4 40 بت (ملفات PDF المبكرة، يمكن كسرها بسهولة اليوم)، RC4 128 بت (لا يزال ضعيفًا)، AES-128، AES-256. تم كسر تطبيق RC4 الأصلي لـ Acrobat 5 علنًا في عام 2001؛ تشفير PDF الحديث (AES-256، PDF 2.0) سليم عند استخدامه مع كلمات مرور قوية.

ملاحظة: "الأذونات" استشارية. العارض الذي يحترمها سيفرضها. العارض الذي يتجاهلها (أو أداة تزيل التشفير) لا يفعل ذلك.


كيف يقرأ PDFSub ملفات PDF

يعالج PDFSub ملفات PDF باستخدام ربط PDFium في Rust (نفس المحرك الذي يشغل عارض PDF في Chromium) بالإضافة إلى PaddleOCR للمستندات الممسوحة ضوئيًا. للحصول على تفاصيل كاملة للهندسة المعمارية ومقارنة مع الأدوات المستندة إلى السحابة، راجع أمان المتصفح مقابل السحابة لملفات PDF.

لتحويل ملفات PDF إلى تنسيقات أخرى مع الحفاظ على البنية الموضحة أعلاه:

  • تحويل PDF إلى Excel - يستخرج النص والجداول، ويحافظ على الإحداثيات
  • OCR لملف PDF - يضيف طبقة نص قابلة للبحث إلى ملفات PDF الممسوحة ضوئيًا
  • تحويل PDF إلى Word - يعيد تدفق النص إلى فقرات قابلة للتحرير
  • ضغط ملف PDF - يقلل من حجم الصور، ويُنشئ مجموعات فرعية للخطوط

للتطبيقات الأرشيفية على وجه التحديد، راجع كيفية تحويل PDF إلى PDF/A.


قراءات إضافية

  • ISO 32000-2 (مواصفات PDF 2.0) - المرجع الرسمي، مدفوع الأجر
  • أرشيفات مرجع Adobe PDF - مرجع مجاني لـ PDF 1.7
  • جمعية PDF - مجموعة صناعية، مقالات مجانية وملفات اختبار الامتثال

لمواضيع خاصة بـ PDF: دليل الامتثال لملفات PDF للمحامين، دليل تحويل PDF/A.

العودة إلى المدونة

أسئلة؟ اتصل بنا

PDFSub

كل أدوات PDF والمستندات التي تحتاجها في مكان واحد. سريعة وآمنة وخاصة.

متوافق مع GDPRمتوافق مع CCPAجاهز لـ SOC 2
مدعوم بمحرك PDFSub

أدوات PDF

  • دمج ملفات PDF
  • تقسيم ملف PDF
  • إعادة ترتيب الصفحات
  • صفحات لكل ورقة
  • عارض PDF
  • استخراج الصفحات
  • استخراج الصور
  • استبدال صورة
  • تدوير ملف PDF
  • حذف الصفحات
  • إضافة علامة مائية
  • تعديل PDF
  • ختم PDF
  • ملء نماذج PDF
  • اقتصاص الصفحات
  • تغيير حجم الصفحة
  • إضافة أرقام الصفحات
  • الرؤوس والتذييلات
  • ضغط ملف PDF
  • جعل قابل للبحث
  • Clean Scanned PDF
  • Photo to Document
  • Auto-Crop PDF
  • إصلاح PDF
  • تعديل البيانات الوصفية
  • إزالة البيانات الوصفية
  • PDF إلى Word
  • Word إلى PDF
  • PDF to Excel
  • Excel إلى PDF
  • PDF إلى PowerPoint
  • PowerPoint إلى PDF
  • HTML إلى PDF
  • HTML to Text
  • HTML to Markdown
  • PDF إلى HTML
  • EPUB إلى PDF
  • PDF إلى EPUB
  • نص إلى PDF
  • RTF إلى PDF
  • PDF إلى RTF
  • PDF إلى نص
  • ODT إلى PDF
  • PDF إلى ODT
  • ODS إلى PDF
  • PDF إلى ODS
  • ODP إلى PDF
  • PDF إلى ODP
  • تحويل PDF/A
  • إنشاء PDF
  • تحويل دفعة واحدة
  • PDF إلى صورة
  • صورة إلى PDF
  • PDF إلى PNG
  • PNG إلى PDF
  • HTML to PNG
  • HTML to JPEG
  • HTML to WEBP
  • SVG إلى PDF
  • PDF إلى SVG
  • TIFF إلى PDF
  • WEBP إلى PDF
  • HEIC إلى صورة
  • WEBP إلى JPG
  • WEBP إلى PNG
  • Image Converter
  • ODG إلى PDF
  • حماية بكلمة مرور
  • فتح قفل PDF
  • تنقيح PDF
  • توقيع PDF إلكترونيًا
  • Share Document
  • مقارنة ملفات PDF
  • استخراج الجداول
  • محول كشوف الحسابات البنكية
  • مستخرج الفواتير
  • ماسح الإيصالات
  • محلل التقارير المالية
  • OCR - استخراج النص
  • تحويل الكتابة اليدوية
  • تلخيص ملف PDF
  • ترجمة ملف PDF
  • الدردشة مع ملف PDF
  • استخراج البيانات
  • استوديو التصميم

المنتج

  • كل الأدوات
  • الميزات
  • كشوفات الحساب البنكية
  • API
  • الأسعار
  • الأسئلة الشائعة
  • المدونة

الدعم

  • عن
  • مركز المساعدة
  • اتصل بنا
  • الأسئلة الشائعة

قانوني

  • سياسة الخصوصية
  • شروط الخدمة
  • سياسة ملفات تعريف الارتباط

© 2026 PDFSub. جميع الحقوق محفوظة.

صُنع في أمريكا بـ لأشخاص في كل مكان