How to Extract Tables from PDF to Excel: 5 Methods Compared

لديك ملف PDF يحتوي على جدول تحتاجه في Excel. قد يكون تقريرًا ماليًا، أو كشف حساب بنكي، أو فاتورة، أو ورقة بحثية. البيانات موجودة هناك - منظمة بشكل جيد في صفوف وأعمدة على الشاشة. ولكن عندما تحاول استخراجها، ينهار كل شيء.

يحدث هذا لأن PDF ليس تنسيق بيانات. إنه تنسيق عرض. لا يوجد مفهوم "جدول" أو "صف" أو "عمود" في مواصفات PDF. ما يبدو كجدول منظم هو في الواقع عشرات الأجزاء النصية الموضوعة في إحداثيات x,y محددة على لوحة. استخراج هذا الهيكل مرة أخرى إلى جدول بيانات هو مشكلة هندسة عكسية - وأدوات مختلفة تتعامل معها بدرجات متفاوتة من النجاح.

يغطي هذا الدليل 5 طرق لاستخراج الجداول من ملفات PDF، ومتى تعمل كل طريقة بشكل أفضل، وماذا تفعل عندما تسوء الأمور.

لماذا استخراج الجداول من ملفات PDF صعب

5 Methods for Extracting PDF Tables to Excel - Accuracy Comparison

تنسيق PDF لا يحتوي على جداول

تحدد مواصفات PDF (ISO 32000-2:2020) مجرى محتوى - تسلسل من العوامل التي تضع الأحرف الفردية في إحداثيات دقيقة. قد يتم تخزين صف جدول بسيط مثل "التاريخ | الوصف | المبلغ" على النحو التالي:

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Office Supplies) Tj 180 0 Td (125.00) Tj ET

لا توجد علامات <table> أو <tr> أو <td>. لا توجد معرفات للصفوف. لا توجد حدود للأعمدة. الخطوط المرئية التي تراها حول الخلايا هي عمليات رسم منفصلة غير متصلة تمامًا بالنص. يجب على أداة الاستخراج استنتاج الهيكل بأكمله من العلاقات المكانية.

ثلاثة أنواع من حدود الجداول

الجداول المحددة (شبكية) لها خطوط مرئية حول كل خلية. هذه هي الأسهل في الاستخراج لأن الخطوط تحدد بوضوح حدود الخلايا. شائعة في البيانات المالية الرسمية، والنماذج الحكومية، والتقارير الموحدة.

الجداول غير المحددة (مجرى) ليس لها خطوط على الإطلاق. يتم تحديد الهيكل بالكامل عن طريق محاذاة المسافات البيضاء - العناصر النصية التي تشترك في إحداثيات x متسقة عبر الصفوف تشكل أعمدة ضمنية. شائعة في الأوراق البحثية، والفواتير، وكتالوجات المنتجات.

الجداول شبه المحددة لها حدود جزئية فقط - عادةً خطوط أفقية بين الأقسام ولكن لا توجد فواصل عمودية. شائعة للغاية في كشوف الحسابات البنكية، وتقارير السمسرة، وفواتير الخدمات. هذه هي الأصعب في الاستخراج لأن الحدود الجزئية تضلل محللات وضع الشبكة بينما تقلل الحدود المفقودة من ثقة وضع المجرى.

ملفات PDF المصنفة مقابل غير المصنفة

تتضمن ملفات PDF المصنفة بيانات وصفية هيكلية تحدد العناوين والفقرات وخلايا الجدول. ملفات PDF غير المصنفة لا تحتوي على أي من هذا - تحصل أداة الاستخراج فقط على إحداثيات خام. الغالبية العظمى من ملفات PDF غير مصنفة، بما في ذلك جميع كشوف الحسابات البنكية والفواتير والتقارير المالية تقريبًا.

الطريقة الأولى: PDFSub استخراج الجداول (مجاني + بديل AI)

تستخدم أداة استخراج الجداول من PDFSub نهجًا ثلاثي المستويات يزيد الدقة إلى أقصى حد مع تقليل التكلفة:

المستوى الأول: الكشف المستند إلى الإحداثيات (المتصفح، مجاني)

تحاول الأداة أولاً الاستخراج بالكامل في متصفحك:

تحليل مجرى محتوى PDF لاستخراج كل عنصر نصي مع إحداثياته x,y
تجميع العناصر النصية في أسطر بناءً على قرب إحداثيات y
تحليل أنماط محاذاة إحداثيات x عبر الأسطر للكشف عن حدود الأعمدة
يتطلب حد أدنى 3 صفوف، 2 عمود، وثقة 70%+

إذا تم العثور على جداول جيدة، تحصل على بيانات منظمة على الفور - لا يوجد تحميل للخادم، ولا استهلاك لوحدات AI، وملفك لا يغادر جهازك أبدًا.

المستوى الثاني: الاستخراج من جانب الخادم (pdfplumber، مجاني)

إذا لم يكتشف الكشف المستند إلى الإحداثيات أي جداول، تستخدم الأداة pdfplumber (ترخيص MIT) على الخادم. يكتشف هذا الخطوط الصريحة (الحدود المرسومة) والخطوط الضمنية (أنماط محاذاة الكلمات)، ويجد التقاطعات، ويحدد المستطيلات، ويربط النص بالخلايا.

المستوى الثالث: استخراج AI (يستهلك وحدات)

بالنسبة لملفات PDF الممسوحة ضوئيًا، أو التخطيطات المعقدة، أو الجداول التي لا تستطيع الطرق المستندة إلى القواعد تحليلها، تلجأ الأداة إلى الاستخراج المرئي المدعوم بالذكاء الاصطناعي. يمكنك أيضًا تبديل "فرض استخراج AI" للانتقال مباشرة إلى هذا المستوى عندما تعرف أن الجدول معقد.

تنسيقات الإخراج: Excel (.xlsx)، CSV، JSON.

الأفضل لـ: الاستخراج السريع بدون تثبيت برامج. تتم معالجة ملفات PDF الرقمية بالكامل في متصفحك لتحقيق أقصى قدر من الخصوصية.

الطريقة الثانية: Power Query في Excel (Windows فقط)

متوفر في Excel 2019+ و Microsoft 365 على Windows: Data → Get Data → From File → From PDF.

كيف يعمل

انقر فوق Data → Get Data → From File → From PDF
حدد ملف PDF الخاص بك
يعرض Power Query لوحة Navigator تسرد الجداول المكتشفة لكل صفحة
حدد الجداول التي تريدها، وانقر فوق Transform Data للتنظيف، ثم Load

نقاط القوة

مدمج في Excel - لا توجد تكلفة إضافية لمشتركي Microsoft 365
محرك تحويل Power Query يتعامل مع المعالجة اللاحقة بشكل جيد (fill down، pivot، merge columns)
يمكن تحديث البيانات إذا تم تحديث ملف PDF المصدر
يدعم ربط جداول متعددة من نفس ملف PDF

القيود

Windows فقط - غير متوفر في Excel لنظام Mac أو Excel Online أو الأجهزة المحمولة
يعاني مع الجداول غير المحددة - يعمل بشكل أفضل مع الجداول المحددة بوضوح
لا يوجد OCR - لا يمكن الاستخراج من ملفات PDF الممسوحة ضوئيًا / المستندة إلى الصور
الجداول متعددة الصفحات إشكالية - غالبًا ما يتم استيراد كل صفحة كجدول منفصل، مما يتطلب تجميعًا يدويًا
صفوف متعددة الأسطر - غالبًا ما ينقسم النص الملتف داخل الخلايا إلى صفوف متعددة، مما يتطلب تنظيفًا

الأفضل لـ: مستخدمي Windows الذين لديهم Microsoft 365 ولديهم جداول بسيطة ومحددة.

الطريقة الثالثة: Adobe Acrobat (مدفوع)

File → Export a PDF → Spreadsheet → Microsoft Excel Workbook

التسعير (2026)

Acrobat Standard: 12.99 دولارًا شهريًا (خطة سنوية)
Acrobat Pro: 19.99 دولارًا شهريًا (خطة سنوية)
Export PDF (مستقل): خطة تحويل فقط ذات مستوى أدنى

نقاط القوة

OCR مدمج للمستندات الممسوحة ضوئيًا
يحافظ بشكل عام على التنسيق للجداول المحددة البسيطة
معالجة الدُفعات متاحة في Pro

القيود

مكلف لاستخراج الجداول فقط - 156–240 دولارًا سنويًا
الجداول المعقدة ذات الخلايا المدمجة والامتدادات متعددة الصفحات لا تزال تنتج مخرجات غير متوازنة
قد يتم تحميل الملفات إلى سحابة Adobe للمعالجة - إشكالية للبيانات المالية الحساسة
يتطلب تثبيت سطح المكتب

الأفضل لـ: المستخدمين الذين يدفعون بالفعل مقابل Acrobat Pro ويحتاجون إلى تصدير جداول عرضية مع OCR.

الطريقة الرابعة: النسخ واللصق (يدوي)

النهج الأكثر بديهية - وهو النهج الذي يفشل في معظم الأحيان للجداول.

المشاكل الشائعة

كل البيانات في عمود واحد - يتم لصق الجدول بأكمله بدون فواصل أعمدة
الأرقام تصبح نصًا - رموز العملات والأقواس والفواصل تكسر التنسيق الرقمي
محتوى الخلية متعدد الأسطر ينشئ صفوفًا وهمية - وصف يلتف عبر سطرين في الخلية يصبح صفين منفصلين
العناوين منفصلة عن البيانات - يتم فصل صف العنوان
الأعمدة غير متوازنة - تتحول البيانات لأن تباعد الأحرف لا يترجم إلى علامات جدولة

حل جزئي

الصق في Excel، ثم استخدم Data → Text to Columns مع فواصل المسافات أو العرض الثابت. قم بتمكين "Treat consecutive delimiters as one" (عامل الفواصل المتتالية كواحد). يعمل هذا مع الجداول البسيطة جدًا والمتباعدة جيدًا ولكنه يفشل مع أي شيء يحتوي على محتوى خلية متعدد الكلمات.

الأفضل لـ: استخراج جدول واحد صغير وبسيط كملاذ أخير.

الطريقة الخامسة: مكتبات Python (للمطورين)

ثلاث مكتبات مرخصة بموجب MIT تتعامل مع استخراج جداول PDF برمجيًا:

Tabula-py

غلاف Python حول Tabula (Java). يتطلب وقت تشغيل Java.

وضع Lattice للجداول المحددة (يجد الخطوط والتقاطعات)
وضع Stream للجداول غير المحددة (يستخدم محاذاة النص)
جيد للمعالجة الدُفعية في البرامج النصية
لا يدعم OCR

Camelot

يقدم أيضًا أوضاع Lattice و Stream.

يتفوق بشكل عام على Tabula للجداول المحددة
وضع Stream لديه المزيد من معلمات التكوين للضبط الدقيق
يوفر تقارير دقة مع كل استخراج
يتطلب تبعية Ghostscript. لا يدعم OCR

pdfplumber

نهج قائم على الإحداثيات: يستخرج كل حرف بموقعه الدقيق، ثم يستنتج الهيكل.

يتعامل مع أوسع نطاق من أنواع الجداول
يوفر أكبر قدر من التحكم ولكنه يتطلب المزيد من التكوين
هذه هي المكتبة التي تستخدمها PDFSub من جانب الخادم
لا يدعم OCR

الأفضل لـ: المطورين الذين يقومون بأتمتة سير عمل استخراج الجداول المتكررة، ومعالجة الدُفعات الكبيرة من المستندات المتشابهة.

مشاكل شائعة وكيفية حلها

الخلايا المدمجة

عندما تمتد الخلايا عبر صفوف أو أعمدة متعددة، تقوم معظم الأدوات إما بوضع المحتوى في الخلية العلوية اليسرى وترك الخلايا الأخرى فارغة، أو تسبب عدم محاذاة جميع الأعمدة اللاحقة. لا يوجد حل عالمي - تنسيق CSV ليس له مفهوم الدمج، لذا يتم دائمًا فقدان معلومات الدمج.

الإصلاح: استخرج الجدول، ثم قم بإصلاح آثار الدمج يدويًا في Excel. بالنسبة للجداول المتكررة بنفس نمط الدمج، فكر في برنامج معالجة لاحق.

محتوى متعدد الأسطر داخل الخلايا

الأوصاف الطويلة التي تلتف داخل خلية تصبح صفوفًا متعددة في الإخراج، مما يدفع جميع البيانات اللاحقة خارج المحاذاة. هذا هو الخطأ الأكثر شيوعًا في الاستخراج للمستندات المالية.

الإصلاح: بعد الاستخراج، ابحث عن الصفوف التي تفتقد إلى التواريخ والمبالغ - هذه على الأرجح سطور متابعة تنتمي إلى الصف أعلاه. في Excel، ادمجها يدويًا أو استخدم صيغة مساعدة.

الجداول الممتدة عبر صفحات متعددة

يجب على الأدوات تحديد مكان استمرار الجدول، وما إذا كان سيتم إزالة الرؤوس المكررة، وكيفية تصفية تذييلات الصفحة. تعامل العديد من الأدوات كل صفحة بشكل مستقل.

الإصلاح: إذا أعطتك أداتك نتائج لكل صفحة، فقم بدمج الأوراق وإزالة صفوف الرأس المكررة. تحقق من أن الصف الأخير في الصفحة N يتصل بشكل صحيح بالصف الأول في الصفحة N+1.

مشاكل تنسيق العملة

الأرقام السالبة بين قوسين ((1,234.56)) يتم لصقها كنص، وليس أرقامًا. رموز العملات وفواصل الآلاف تكسر أيضًا التنسيق الرقمي.

الإصلاح: بعد الاستخراج، حدد عمود المبلغ واستخدم البحث والاستبدال لإزالة رموز $, (, ) . ثم قم بتنسيق العمود كرقم. بالنسبة للأرقام السالبة بين قوسين، استبدل ( بـ - وأزل ) ، ثم قم بالتحويل إلى تنسيق رقمي.

غموض التاريخ

01/02/2026 - هل هو 2 يناير أم 1 فبراير؟ تحتفظ أداة الاستخراج بالسلسلة كما هي، ولكن قد يعيد Excel تفسيرها بناءً على منطقتك.

الإصلاح: تحقق من ملف PDF المصدر للحصول على أدلة تنسيق التاريخ (ابحث عن تواريخ بقيم يوم > 12). قم بتعيين تنسيق تاريخ Excel لمطابقة المصدر قبل الاستيراد.

مقارنة الدقة

الطريقة	بسيطة ومحددة	غير محددة	شبه محددة	ملفات PDF ممسوحة ضوئيًا
PDFSub (إحداثيات + AI)	90–99%	75–95%	70–95%	85–95% (AI)
Power Query	85–95%	40–60%	50–70%	غير مدعوم
Adobe Acrobat	90–95%	70–80%	70–85%	80–90%
Tabula	~68%	55–70%	50–65%	غير مدعوم
Camelot	~73%	65–75%	60–70%	غير مدعوم
النسخ واللصق	30–50%	10–30%	10–30%	غير ممكن

تعكس النطاقات التباين عبر تعقيد المستند. بيانات المعيار من Procycons 2025 PDF Extraction Benchmark ودراسات مقارنة Camelot.

أي طريقة يجب أن تستخدم؟

السيناريو	أفضل طريقة	لماذا
استخراج سريع لمرة واحدة	PDFSub	لا يتطلب تثبيت، يعتمد على المتصفح، استخراج إحداثيات مجاني
جدول بسيط ومحدد، Windows	Power Query	مدمج في Excel، لا تكلفة إضافية
ملف PDF ممسوح ضوئيًا	PDFSub (AI) أو Adobe Acrobat	يتطلب قدرة OCR
بيانات مالية حساسة	PDFSub	معالجة تعتمد على المتصفح، لا يتم تحميل الملف أبدًا
معالجة دفعات متكررة	Python (pdfplumber)	قابل للبرمجة، قابل للأتمتة
لديك بالفعل Acrobat Pro	Adobe Acrobat	تدفع بالفعل، الجداول البسيطة تعمل بشكل جيد
جدول صغير واحد، لا توجد أدوات	النسخ واللصق	الملاذ الأخير، تحقق من كل شيء

نصائح للحصول على أفضل النتائج

استخدم ملفات PDF الأصلية. قم بتنزيل المستندات من مصدرها بدلاً من مسح الورق ضوئيًا. تحتوي ملفات PDF الأصلية على نص مثالي، مما يجعل الاستخراج أكثر دقة بشكل كبير.

حدد نوع الجدول أولاً. الجداول المحددة تعمل مع أي أداة تقريبًا. الجداول غير المحددة تحتاج إلى وضع Stream أو استخراج AI. معرفة النوع تساعدك على اختيار الطريقة الصحيحة مقدمًا.

ابدأ بالطرق المجانية المستندة إلى القواعد. جرب الاستخراج المستند إلى الإحداثيات أولاً. لا تلجأ إلى AI إلا عندما تنتج الطرق المستندة إلى القواعد نتائج سيئة - هذا يوفر الوقت والوحدات.

تحقق دائمًا من المخرجات. تحقق من عدد الصفوف، ومحاذاة الأعمدة، والقيم الرقمية، والإجماليات. لا تثق أبدًا بمخرجات الاستخراج بشكل أعمى.

انتبه لتنسيق الأرقام. بعد الاستخراج، تحقق من أن الأرقام هي بالفعل أرقام في Excel (محاذاة لليمين)، وليست سلاسل نصية (محاذاة لليسار). رموز العملات والأرقام السالبة بين قوسين هي أسباب شائعة.

للبيانات الحساسة، فضل الأدوات المستندة إلى المتصفح. تحتوي التقارير المالية وكشوف الحسابات البنكية والإقرارات الضريبية على معلومات حساسة. الأدوات التي تعالج ملفات PDF في متصفحك لا تقوم بتحميل ملفك أبدًا، مما يلغي خطر كشف البيانات.

جرب مجانًا

هل أنت مستعد لاستخراج الجداول من ملف PDF الخاص بك؟ قم بتحميل ملف الآن - يحاول PDFSub أولاً الاستخراج المجاني المستند إلى الإحداثيات، مع بديل AI للجداول المعقدة. تتم معالجة ملفات PDF الرقمية بالكامل في متصفحك. ابدأ تجربة مجانية لمدة 7 أيام.

How to Extract Tables from PDF to Excel: 5 Methods Compared

يغطي هذا الدليل 5 طرق لاستخراج الجداول من ملفات PDF، ومتى تعمل كل طريقة بشكل أفضل، وماذا تفعل عندما تسوء الأمور.

لماذا استخراج الجداول من ملفات PDF صعب

5 Methods for Extracting PDF Tables to Excel - Accuracy Comparison

تنسيق PDF لا يحتوي على جداول

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Office Supplies) Tj 180 0 Td (125.00) Tj ET

ثلاثة أنواع من حدود الجداول

ملفات PDF المصنفة مقابل غير المصنفة

الطريقة الأولى: PDFSub استخراج الجداول (مجاني + بديل AI)

تستخدم أداة استخراج الجداول من PDFSub نهجًا ثلاثي المستويات يزيد الدقة إلى أقصى حد مع تقليل التكلفة:

المستوى الأول: الكشف المستند إلى الإحداثيات (المتصفح، مجاني)

تحاول الأداة أولاً الاستخراج بالكامل في متصفحك:

تحليل مجرى محتوى PDF لاستخراج كل عنصر نصي مع إحداثياته x,y
تجميع العناصر النصية في أسطر بناءً على قرب إحداثيات y
تحليل أنماط محاذاة إحداثيات x عبر الأسطر للكشف عن حدود الأعمدة
يتطلب حد أدنى 3 صفوف، 2 عمود، وثقة 70%+

المستوى الثاني: الاستخراج من جانب الخادم (pdfplumber، مجاني)

المستوى الثالث: استخراج AI (يستهلك وحدات)

تنسيقات الإخراج: Excel (.xlsx)، CSV، JSON.

الطريقة الثانية: Power Query في Excel (Windows فقط)

متوفر في Excel 2019+ و Microsoft 365 على Windows: Data → Get Data → From File → From PDF.

كيف يعمل

انقر فوق Data → Get Data → From File → From PDF
حدد ملف PDF الخاص بك
يعرض Power Query لوحة Navigator تسرد الجداول المكتشفة لكل صفحة
حدد الجداول التي تريدها، وانقر فوق Transform Data للتنظيف، ثم Load

نقاط القوة

مدمج في Excel - لا توجد تكلفة إضافية لمشتركي Microsoft 365
محرك تحويل Power Query يتعامل مع المعالجة اللاحقة بشكل جيد (fill down، pivot، merge columns)
يمكن تحديث البيانات إذا تم تحديث ملف PDF المصدر
يدعم ربط جداول متعددة من نفس ملف PDF

القيود

Windows فقط - غير متوفر في Excel لنظام Mac أو Excel Online أو الأجهزة المحمولة
يعاني مع الجداول غير المحددة - يعمل بشكل أفضل مع الجداول المحددة بوضوح
لا يوجد OCR - لا يمكن الاستخراج من ملفات PDF الممسوحة ضوئيًا / المستندة إلى الصور
الجداول متعددة الصفحات إشكالية - غالبًا ما يتم استيراد كل صفحة كجدول منفصل، مما يتطلب تجميعًا يدويًا
صفوف متعددة الأسطر - غالبًا ما ينقسم النص الملتف داخل الخلايا إلى صفوف متعددة، مما يتطلب تنظيفًا

الأفضل لـ: مستخدمي Windows الذين لديهم Microsoft 365 ولديهم جداول بسيطة ومحددة.

الطريقة الثالثة: Adobe Acrobat (مدفوع)

File → Export a PDF → Spreadsheet → Microsoft Excel Workbook

التسعير (2026)

Acrobat Standard: 12.99 دولارًا شهريًا (خطة سنوية)
Acrobat Pro: 19.99 دولارًا شهريًا (خطة سنوية)
Export PDF (مستقل): خطة تحويل فقط ذات مستوى أدنى

نقاط القوة

OCR مدمج للمستندات الممسوحة ضوئيًا
يحافظ بشكل عام على التنسيق للجداول المحددة البسيطة
معالجة الدُفعات متاحة في Pro

القيود

مكلف لاستخراج الجداول فقط - 156–240 دولارًا سنويًا
الجداول المعقدة ذات الخلايا المدمجة والامتدادات متعددة الصفحات لا تزال تنتج مخرجات غير متوازنة
قد يتم تحميل الملفات إلى سحابة Adobe للمعالجة - إشكالية للبيانات المالية الحساسة
يتطلب تثبيت سطح المكتب

الأفضل لـ: المستخدمين الذين يدفعون بالفعل مقابل Acrobat Pro ويحتاجون إلى تصدير جداول عرضية مع OCR.

الطريقة الرابعة: النسخ واللصق (يدوي)

النهج الأكثر بديهية - وهو النهج الذي يفشل في معظم الأحيان للجداول.

المشاكل الشائعة

كل البيانات في عمود واحد - يتم لصق الجدول بأكمله بدون فواصل أعمدة
الأرقام تصبح نصًا - رموز العملات والأقواس والفواصل تكسر التنسيق الرقمي
محتوى الخلية متعدد الأسطر ينشئ صفوفًا وهمية - وصف يلتف عبر سطرين في الخلية يصبح صفين منفصلين
العناوين منفصلة عن البيانات - يتم فصل صف العنوان
الأعمدة غير متوازنة - تتحول البيانات لأن تباعد الأحرف لا يترجم إلى علامات جدولة

وضع Lattice للجداول المحددة (يجد الخطوط والتقاطعات)
وضع Stream للجداول غير المحددة (يستخدم محاذاة النص)
جيد للمعالجة الدُفعية في البرامج النصية
لا يدعم OCR

Camelot

يقدم أيضًا أوضاع Lattice و Stream.

يتفوق بشكل عام على Tabula للجداول المحددة
وضع Stream لديه المزيد من معلمات التكوين للضبط الدقيق
يوفر تقارير دقة مع كل استخراج
يتطلب تبعية Ghostscript. لا يدعم OCR

pdfplumber

نهج قائم على الإحداثيات: يستخرج كل حرف بموقعه الدقيق، ثم يستنتج الهيكل.

يتعامل مع أوسع نطاق من أنواع الجداول
يوفر أكبر قدر من التحكم ولكنه يتطلب المزيد من التكوين
هذه هي المكتبة التي تستخدمها PDFSub من جانب الخادم
لا يدعم OCR

الطريقة	بسيطة ومحددة	غير محددة	شبه محددة	ملفات PDF ممسوحة ضوئيًا
PDFSub (إحداثيات + AI)	90–99%	75–95%	70–95%	85–95% (AI)
Power Query	85–95%	40–60%	50–70%	غير مدعوم
Adobe Acrobat	90–95%	70–80%	70–85%	80–90%
Tabula	~68%	55–70%	50–65%	غير مدعوم
Camelot	~73%	65–75%	60–70%	غير مدعوم
النسخ واللصق	30–50%	10–30%	10–30%	غير ممكن

تعكس النطاقات التباين عبر تعقيد المستند. بيانات المعيار من Procycons 2025 PDF Extraction Benchmark ودراسات مقارنة Camelot.

أي طريقة يجب أن تستخدم؟

السيناريو	أفضل طريقة	لماذا
استخراج سريع لمرة واحدة	PDFSub	لا يتطلب تثبيت، يعتمد على المتصفح، استخراج إحداثيات مجاني
جدول بسيط ومحدد، Windows	Power Query	مدمج في Excel، لا تكلفة إضافية
ملف PDF ممسوح ضوئيًا	PDFSub (AI) أو Adobe Acrobat	يتطلب قدرة OCR
بيانات مالية حساسة	PDFSub	معالجة تعتمد على المتصفح، لا يتم تحميل الملف أبدًا
معالجة دفعات متكررة	Python (pdfplumber)	قابل للبرمجة، قابل للأتمتة
لديك بالفعل Acrobat Pro	Adobe Acrobat	تدفع بالفعل، الجداول البسيطة تعمل بشكل جيد
جدول صغير واحد، لا توجد أدوات	النسخ واللصق	الملاذ الأخير، تحقق من كل شيء