PDFSub
الأسعارAPIMergeCompressEditE-Signكشوفات الحساب البنكيةالمدونة
العودة إلى المدونة
دليلExcelجداولأدوات PDF

كيفية استخراج الجداول من PDF إلى Excel: مقارنة بين 5 طرق

28 فبراير 2026
T
Todd Lahman
Founder, PDFSub

يخزن PDF الجداول كأجزاء نصية متناثرة في إحداثيات x,y - لا صفوف، لا أعمدة، لا خلايا. إليك كيفية نقل هذه البيانات فعليًا إلى جدول بيانات، بدءًا من الأدوات المجانية المستندة إلى المتصفح وصولًا إلى برمجة Python.


How to Extract Tables from PDF to Excel: 5 Methods Compared

لديك ملف PDF يحتوي على جدول تحتاجه في Excel. قد يكون تقريرًا ماليًا، أو كشف حساب بنكي، أو فاتورة، أو ورقة بحثية. البيانات موجودة هناك - منظمة بشكل جيد في صفوف وأعمدة على الشاشة. ولكن عندما تحاول استخراجها، ينهار كل شيء.

يحدث هذا لأن PDF ليس تنسيق بيانات. إنه تنسيق عرض. لا يوجد مفهوم "جدول" أو "صف" أو "عمود" في مواصفات PDF. ما يبدو كجدول منظم هو في الواقع عشرات الأجزاء النصية الموضوعة في إحداثيات x,y محددة على لوحة. استخراج هذا الهيكل مرة أخرى إلى جدول بيانات هو مشكلة هندسة عكسية - وأدوات مختلفة تتعامل معها بدرجات متفاوتة من النجاح.

يغطي هذا الدليل 5 طرق لاستخراج الجداول من ملفات PDF، ومتى تعمل كل طريقة بشكل أفضل، وماذا تفعل عندما تسوء الأمور.

لماذا استخراج الجداول من ملفات PDF صعب

5 Methods for Extracting PDF Tables to Excel - Accuracy Comparison

تنسيق PDF لا يحتوي على جداول

تحدد مواصفات PDF (ISO 32000-2:2020) مجرى محتوى - تسلسل من العوامل التي تضع الأحرف الفردية في إحداثيات دقيقة. قد يتم تخزين صف جدول بسيط مثل "التاريخ | الوصف | المبلغ" على النحو التالي:

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Office Supplies) Tj 180 0 Td (125.00) Tj ET

لا توجد علامات <table> أو <tr> أو <td>. لا توجد معرفات للصفوف. لا توجد حدود للأعمدة. الخطوط المرئية التي تراها حول الخلايا هي عمليات رسم منفصلة غير متصلة تمامًا بالنص. يجب على أداة الاستخراج استنتاج الهيكل بأكمله من العلاقات المكانية.

ثلاثة أنواع من حدود الجداول

الجداول المحددة (شبكية) لها خطوط مرئية حول كل خلية. هذه هي الأسهل في الاستخراج لأن الخطوط تحدد بوضوح حدود الخلايا. شائعة في البيانات المالية الرسمية، والنماذج الحكومية، والتقارير الموحدة.

الجداول غير المحددة (مجرى) ليس لها خطوط على الإطلاق. يتم تحديد الهيكل بالكامل عن طريق محاذاة المسافات البيضاء - العناصر النصية التي تشترك في إحداثيات x متسقة عبر الصفوف تشكل أعمدة ضمنية. شائعة في الأوراق البحثية، والفواتير، وكتالوجات المنتجات.

الجداول شبه المحددة لها حدود جزئية فقط - عادةً خطوط أفقية بين الأقسام ولكن لا توجد فواصل عمودية. شائعة للغاية في كشوف الحسابات البنكية، وتقارير السمسرة، وفواتير الخدمات. هذه هي الأصعب في الاستخراج لأن الحدود الجزئية تضلل محللات وضع الشبكة بينما تقلل الحدود المفقودة من ثقة وضع المجرى.

ملفات PDF المصنفة مقابل غير المصنفة

تتضمن ملفات PDF المصنفة بيانات وصفية هيكلية تحدد العناوين والفقرات وخلايا الجدول. ملفات PDF غير المصنفة لا تحتوي على أي من هذا - تحصل أداة الاستخراج فقط على إحداثيات خام. الغالبية العظمى من ملفات PDF غير مصنفة، بما في ذلك جميع كشوف الحسابات البنكية والفواتير والتقارير المالية تقريبًا.


الطريقة الأولى: PDFSub استخراج الجداول (مجاني + بديل AI)

تستخدم أداة استخراج الجداول من PDFSub نهجًا ثلاثي المستويات يزيد الدقة إلى أقصى حد مع تقليل التكلفة:

المستوى الأول: الكشف المستند إلى الإحداثيات (المتصفح، مجاني)

تحاول الأداة أولاً الاستخراج بالكامل في متصفحك:

  • تحليل مجرى محتوى PDF لاستخراج كل عنصر نصي مع إحداثياته x,y
  • تجميع العناصر النصية في أسطر بناءً على قرب إحداثيات y
  • تحليل أنماط محاذاة إحداثيات x عبر الأسطر للكشف عن حدود الأعمدة
  • يتطلب حد أدنى 3 صفوف، 2 عمود، وثقة 70%+

إذا تم العثور على جداول جيدة، تحصل على بيانات منظمة على الفور - لا يوجد تحميل للخادم، ولا استهلاك لوحدات AI، وملفك لا يغادر جهازك أبدًا.

المستوى الثاني: الاستخراج من جانب الخادم (pdfplumber، مجاني)

إذا لم يكتشف الكشف المستند إلى الإحداثيات أي جداول، تستخدم الأداة pdfplumber (ترخيص MIT) على الخادم. يكتشف هذا الخطوط الصريحة (الحدود المرسومة) والخطوط الضمنية (أنماط محاذاة الكلمات)، ويجد التقاطعات، ويحدد المستطيلات، ويربط النص بالخلايا.

المستوى الثالث: استخراج AI (يستهلك وحدات)

بالنسبة لملفات PDF الممسوحة ضوئيًا، أو التخطيطات المعقدة، أو الجداول التي لا تستطيع الطرق المستندة إلى القواعد تحليلها، تلجأ الأداة إلى الاستخراج المرئي المدعوم بالذكاء الاصطناعي. يمكنك أيضًا تبديل "فرض استخراج AI" للانتقال مباشرة إلى هذا المستوى عندما تعرف أن الجدول معقد.

تنسيقات الإخراج: Excel (.xlsx)، CSV، JSON.

الأفضل لـ: الاستخراج السريع بدون تثبيت برامج. تتم معالجة ملفات PDF الرقمية بالكامل في متصفحك لتحقيق أقصى قدر من الخصوصية.


الطريقة الثانية: Power Query في Excel (Windows فقط)

متوفر في Excel 2019+ و Microsoft 365 على Windows: Data → Get Data → From File → From PDF.

كيف يعمل

  1. انقر فوق Data → Get Data → From File → From PDF
  2. حدد ملف PDF الخاص بك
  3. يعرض Power Query لوحة Navigator تسرد الجداول المكتشفة لكل صفحة
  4. حدد الجداول التي تريدها، وانقر فوق Transform Data للتنظيف، ثم Load

نقاط القوة

  • مدمج في Excel - لا توجد تكلفة إضافية لمشتركي Microsoft 365
  • محرك تحويل Power Query يتعامل مع المعالجة اللاحقة بشكل جيد (fill down، pivot، merge columns)
  • يمكن تحديث البيانات إذا تم تحديث ملف PDF المصدر
  • يدعم ربط جداول متعددة من نفس ملف PDF

القيود

  • Windows فقط - غير متوفر في Excel لنظام Mac أو Excel Online أو الأجهزة المحمولة
  • يعاني مع الجداول غير المحددة - يعمل بشكل أفضل مع الجداول المحددة بوضوح
  • لا يوجد OCR - لا يمكن الاستخراج من ملفات PDF الممسوحة ضوئيًا / المستندة إلى الصور
  • الجداول متعددة الصفحات إشكالية - غالبًا ما يتم استيراد كل صفحة كجدول منفصل، مما يتطلب تجميعًا يدويًا
  • صفوف متعددة الأسطر - غالبًا ما ينقسم النص الملتف داخل الخلايا إلى صفوف متعددة، مما يتطلب تنظيفًا

الأفضل لـ: مستخدمي Windows الذين لديهم Microsoft 365 ولديهم جداول بسيطة ومحددة.


الطريقة الثالثة: Adobe Acrobat (مدفوع)

File → Export a PDF → Spreadsheet → Microsoft Excel Workbook

التسعير (2026)

  • Acrobat Standard: 12.99 دولارًا شهريًا (خطة سنوية)
  • Acrobat Pro: 19.99 دولارًا شهريًا (خطة سنوية)
  • Export PDF (مستقل): خطة تحويل فقط ذات مستوى أدنى

نقاط القوة

  • OCR مدمج للمستندات الممسوحة ضوئيًا
  • يحافظ بشكل عام على التنسيق للجداول المحددة البسيطة
  • معالجة الدُفعات متاحة في Pro

القيود

  • مكلف لاستخراج الجداول فقط - 156–240 دولارًا سنويًا
  • الجداول المعقدة ذات الخلايا المدمجة والامتدادات متعددة الصفحات لا تزال تنتج مخرجات غير متوازنة
  • قد يتم تحميل الملفات إلى سحابة Adobe للمعالجة - إشكالية للبيانات المالية الحساسة
  • يتطلب تثبيت سطح المكتب

الأفضل لـ: المستخدمين الذين يدفعون بالفعل مقابل Acrobat Pro ويحتاجون إلى تصدير جداول عرضية مع OCR.


الطريقة الرابعة: النسخ واللصق (يدوي)

النهج الأكثر بديهية - وهو النهج الذي يفشل في معظم الأحيان للجداول.

المشاكل الشائعة

  • كل البيانات في عمود واحد - يتم لصق الجدول بأكمله بدون فواصل أعمدة
  • الأرقام تصبح نصًا - رموز العملات والأقواس والفواصل تكسر التنسيق الرقمي
  • محتوى الخلية متعدد الأسطر ينشئ صفوفًا وهمية - وصف يلتف عبر سطرين في الخلية يصبح صفين منفصلين
  • العناوين منفصلة عن البيانات - يتم فصل صف العنوان
  • الأعمدة غير متوازنة - تتحول البيانات لأن تباعد الأحرف لا يترجم إلى علامات جدولة

حل جزئي

الصق في Excel، ثم استخدم Data → Text to Columns مع فواصل المسافات أو العرض الثابت. قم بتمكين "Treat consecutive delimiters as one" (عامل الفواصل المتتالية كواحد). يعمل هذا مع الجداول البسيطة جدًا والمتباعدة جيدًا ولكنه يفشل مع أي شيء يحتوي على محتوى خلية متعدد الكلمات.

الأفضل لـ: استخراج جدول واحد صغير وبسيط كملاذ أخير.


الطريقة الخامسة: مكتبات Python (للمطورين)

ثلاث مكتبات مرخصة بموجب MIT تتعامل مع استخراج جداول PDF برمجيًا:

Tabula-py

غلاف Python حول Tabula (Java). يتطلب وقت تشغيل Java.

  • وضع Lattice للجداول المحددة (يجد الخطوط والتقاطعات)
  • وضع Stream للجداول غير المحددة (يستخدم محاذاة النص)
  • جيد للمعالجة الدُفعية في البرامج النصية
  • لا يدعم OCR

Camelot

يقدم أيضًا أوضاع Lattice و Stream.

  • يتفوق بشكل عام على Tabula للجداول المحددة
  • وضع Stream لديه المزيد من معلمات التكوين للضبط الدقيق
  • يوفر تقارير دقة مع كل استخراج
  • يتطلب تبعية Ghostscript. لا يدعم OCR

pdfplumber

نهج قائم على الإحداثيات: يستخرج كل حرف بموقعه الدقيق، ثم يستنتج الهيكل.

  • يتعامل مع أوسع نطاق من أنواع الجداول
  • يوفر أكبر قدر من التحكم ولكنه يتطلب المزيد من التكوين
  • هذه هي المكتبة التي تستخدمها PDFSub من جانب الخادم
  • لا يدعم OCR

الأفضل لـ: المطورين الذين يقومون بأتمتة سير عمل استخراج الجداول المتكررة، ومعالجة الدُفعات الكبيرة من المستندات المتشابهة.


مشاكل شائعة وكيفية حلها

الخلايا المدمجة

عندما تمتد الخلايا عبر صفوف أو أعمدة متعددة، تقوم معظم الأدوات إما بوضع المحتوى في الخلية العلوية اليسرى وترك الخلايا الأخرى فارغة، أو تسبب عدم محاذاة جميع الأعمدة اللاحقة. لا يوجد حل عالمي - تنسيق CSV ليس له مفهوم الدمج، لذا يتم دائمًا فقدان معلومات الدمج.

الإصلاح: استخرج الجدول، ثم قم بإصلاح آثار الدمج يدويًا في Excel. بالنسبة للجداول المتكررة بنفس نمط الدمج، فكر في برنامج معالجة لاحق.

محتوى متعدد الأسطر داخل الخلايا

الأوصاف الطويلة التي تلتف داخل خلية تصبح صفوفًا متعددة في الإخراج، مما يدفع جميع البيانات اللاحقة خارج المحاذاة. هذا هو الخطأ الأكثر شيوعًا في الاستخراج للمستندات المالية.

الإصلاح: بعد الاستخراج، ابحث عن الصفوف التي تفتقد إلى التواريخ والمبالغ - هذه على الأرجح سطور متابعة تنتمي إلى الصف أعلاه. في Excel، ادمجها يدويًا أو استخدم صيغة مساعدة.

الجداول الممتدة عبر صفحات متعددة

يجب على الأدوات تحديد مكان استمرار الجدول، وما إذا كان سيتم إزالة الرؤوس المكررة، وكيفية تصفية تذييلات الصفحة. تعامل العديد من الأدوات كل صفحة بشكل مستقل.

الإصلاح: إذا أعطتك أداتك نتائج لكل صفحة، فقم بدمج الأوراق وإزالة صفوف الرأس المكررة. تحقق من أن الصف الأخير في الصفحة N يتصل بشكل صحيح بالصف الأول في الصفحة N+1.

مشاكل تنسيق العملة

الأرقام السالبة بين قوسين ((1,234.56)) يتم لصقها كنص، وليس أرقامًا. رموز العملات وفواصل الآلاف تكسر أيضًا التنسيق الرقمي.

الإصلاح: بعد الاستخراج، حدد عمود المبلغ واستخدم البحث والاستبدال لإزالة رموز $, (, ) . ثم قم بتنسيق العمود كرقم. بالنسبة للأرقام السالبة بين قوسين، استبدل ( بـ - وأزل ) ، ثم قم بالتحويل إلى تنسيق رقمي.

غموض التاريخ

01/02/2026 - هل هو 2 يناير أم 1 فبراير؟ تحتفظ أداة الاستخراج بالسلسلة كما هي، ولكن قد يعيد Excel تفسيرها بناءً على منطقتك.

الإصلاح: تحقق من ملف PDF المصدر للحصول على أدلة تنسيق التاريخ (ابحث عن تواريخ بقيم يوم > 12). قم بتعيين تنسيق تاريخ Excel لمطابقة المصدر قبل الاستيراد.


مقارنة الدقة

الطريقة بسيطة ومحددة غير محددة شبه محددة ملفات PDF ممسوحة ضوئيًا
PDFSub (إحداثيات + AI) 90–99% 75–95% 70–95% 85–95% (AI)
Power Query 85–95% 40–60% 50–70% غير مدعوم
Adobe Acrobat 90–95% 70–80% 70–85% 80–90%
Tabula ~68% 55–70% 50–65% غير مدعوم
Camelot ~73% 65–75% 60–70% غير مدعوم
النسخ واللصق 30–50% 10–30% 10–30% غير ممكن

تعكس النطاقات التباين عبر تعقيد المستند. بيانات المعيار من Procycons 2025 PDF Extraction Benchmark ودراسات مقارنة Camelot.


أي طريقة يجب أن تستخدم؟

السيناريو أفضل طريقة لماذا
استخراج سريع لمرة واحدة PDFSub لا يتطلب تثبيت، يعتمد على المتصفح، استخراج إحداثيات مجاني
جدول بسيط ومحدد، Windows Power Query مدمج في Excel، لا تكلفة إضافية
ملف PDF ممسوح ضوئيًا PDFSub (AI) أو Adobe Acrobat يتطلب قدرة OCR
بيانات مالية حساسة PDFSub معالجة تعتمد على المتصفح، لا يتم تحميل الملف أبدًا
معالجة دفعات متكررة Python (pdfplumber) قابل للبرمجة، قابل للأتمتة
لديك بالفعل Acrobat Pro Adobe Acrobat تدفع بالفعل، الجداول البسيطة تعمل بشكل جيد
جدول صغير واحد، لا توجد أدوات النسخ واللصق الملاذ الأخير، تحقق من كل شيء

نصائح للحصول على أفضل النتائج

استخدم ملفات PDF الأصلية. قم بتنزيل المستندات من مصدرها بدلاً من مسح الورق ضوئيًا. تحتوي ملفات PDF الأصلية على نص مثالي، مما يجعل الاستخراج أكثر دقة بشكل كبير.

حدد نوع الجدول أولاً. الجداول المحددة تعمل مع أي أداة تقريبًا. الجداول غير المحددة تحتاج إلى وضع Stream أو استخراج AI. معرفة النوع تساعدك على اختيار الطريقة الصحيحة مقدمًا.

ابدأ بالطرق المجانية المستندة إلى القواعد. جرب الاستخراج المستند إلى الإحداثيات أولاً. لا تلجأ إلى AI إلا عندما تنتج الطرق المستندة إلى القواعد نتائج سيئة - هذا يوفر الوقت والوحدات.

تحقق دائمًا من المخرجات. تحقق من عدد الصفوف، ومحاذاة الأعمدة، والقيم الرقمية، والإجماليات. لا تثق أبدًا بمخرجات الاستخراج بشكل أعمى.

انتبه لتنسيق الأرقام. بعد الاستخراج، تحقق من أن الأرقام هي بالفعل أرقام في Excel (محاذاة لليمين)، وليست سلاسل نصية (محاذاة لليسار). رموز العملات والأرقام السالبة بين قوسين هي أسباب شائعة.

للبيانات الحساسة، فضل الأدوات المستندة إلى المتصفح. تحتوي التقارير المالية وكشوف الحسابات البنكية والإقرارات الضريبية على معلومات حساسة. الأدوات التي تعالج ملفات PDF في متصفحك لا تقوم بتحميل ملفك أبدًا، مما يلغي خطر كشف البيانات.


جرب مجانًا

هل أنت مستعد لاستخراج الجداول من ملف PDF الخاص بك؟ قم بتحميل ملف الآن - يحاول PDFSub أولاً الاستخراج المجاني المستند إلى الإحداثيات، مع بديل AI للجداول المعقدة. تتم معالجة ملفات PDF الرقمية بالكامل في متصفحك. ابدأ تجربة مجانية لمدة 7 أيام.

العودة إلى المدونة

أسئلة؟ اتصل بنا

PDFSub

كل أدوات PDF والمستندات التي تحتاجها في مكان واحد. سريعة وآمنة وخاصة.

متوافق مع GDPRمتوافق مع CCPAجاهز لـ SOC 2
مدعوم بمحرك PDFSub

المنتج

  • كل الأدوات
  • الميزات
  • كشوفات الحساب البنكية
  • API
  • الأسعار
  • الأسئلة الشائعة
  • المدونة

الدعم

  • عن
  • مركز المساعدة
  • اتصل بنا
  • الأسئلة الشائعة

قانوني

  • سياسة الخصوصية
  • شروط الخدمة
  • سياسة ملفات تعريف الارتباط

© 2026 PDFSub. جميع الحقوق محفوظة.

صُنع في أمريكا بـ لأشخاص في كل مكان