كيفية استخراج الجداول من PDF إلى Excel: مقارنة بين 5 طرق
تقوم ملفات PDF بتخزين الجداول كشظايا نصية متناثرة في إحداثيات x,y — لا صفوف، لا أعمدة، لا خلايا. إليك كيفية نقل هذه البيانات بالفعل إلى جدول بيانات، بدءًا من الأدوات المجانية المستندة إلى المتصفح وصولاً إلى برمجة Python.
لديك ملف PDF يحتوي على جدول تحتاجه في Excel. قد يكون تقريرًا ماليًا، أو كشف حساب بنكي، أو فاتورة، أو ورقة بحثية. البيانات موجودة هناك — منظمة بدقة في صفوف وأعمدة على الشاشة. ولكن عندما تحاول استخراجها، ينهار كل شيء.
يحدث هذا لأن PDF ليس تنسيق بيانات. إنه تنسيق عرض. لا يوجد مفهوم "جدول" أو "صف" أو "عمود" في مواصفات PDF. ما يبدو كجدول منظم هو في الواقع عشرات الشظايا النصية الموضوعة في إحداثيات x,y محددة على لوحة. استخراج هذا الهيكل مرة أخرى إلى جدول بيانات هو مشكلة هندسة عكسية — وأدوات مختلفة تتعامل معها بدرجات متفاوتة من النجاح.
يغطي هذا الدليل 5 طرق لاستخراج الجداول من ملفات PDF، ومتى تعمل كل طريقة بشكل أفضل، وماذا تفعل عندما تسوء الأمور.
لماذا استخراج الجداول من ملفات PDF صعب؟
تنسيق PDF لا يحتوي على جداول
تحدد مواصفات PDF (ISO 32000-2:2020) مجرى المحتوى (content stream) — تسلسل من العمليات التي تحدد مواقع الأحرف الفردية في إحداثيات دقيقة. قد يتم تخزين صف جدول بسيط مثل "التاريخ | الوصف | المبلغ" كالتالي:
BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Office Supplies) Tj 180 0 Td (125.00) Tj ET
لا توجد علامات <table> أو <tr> أو <td>. لا توجد معرفات للصفوف. لا توجد حدود للأعمدة. الخطوط المرئية التي تراها حول الخلايا هي عمليات رسم منفصلة غير متصلة تمامًا بالنص. يجب على أداة الاستخراج استنتاج الهيكل بأكمله من العلاقات المكانية.
ثلاثة أنواع من حدود الجداول
الجداول ذات الحدود (Lattice) تحتوي على خطوط مرئية حول كل خلية. هذه هي الأسهل في الاستخراج لأن الخطوط تحدد حدود الخلايا بوضوح. شائعة في البيانات المالية الرسمية، والنماذج الحكومية، والتقارير الموحدة.
الجداول بدون حدود (Stream) لا تحتوي على أي خطوط على الإطلاق. يتم تحديد الهيكل بالكامل بواسطة محاذاة المسافات البيضاء — العناصر النصية التي تشترك في إحداثيات x متسقة عبر الصفوف تشكل أعمدة ضمنية. شائعة في الأوراق البحثية، والفواتير، وكتالوجات المنتجات.
الجداول شبه الحدود تحتوي على حدود جزئية فقط — عادةً خطوط أفقية بين الأقسام ولكن لا توجد فواصل عمودية. شائعة للغاية في كشوف الحسابات البنكية، وتقارير السمسرة، وفواتير الخدمات. هذه هي الأصعب في الاستخراج لأن الحدود الجزئية تضلل محللات وضع الشبكة بينما تقلل الحدود المفقودة من ثقة وضع التدفق.
ملفات PDF الموسومة مقابل غير الموسومة
تتضمن ملفات PDF الموسومة بيانات وصفية هيكلية تحدد العناوين والفقرات وخلايا الجدول. ملفات PDF غير الموسومة لا تحتوي على أي من هذا — تحصل أداة الاستخراج على إحداثيات خام فقط. الغالبية العظمى من ملفات PDF غير موسومة، بما في ذلك جميع كشوف الحسابات البنكية والفواتير والتقارير المالية تقريبًا.
الطريقة 1: PDFSub لاستخراج الجداول (مجاني + دعم AI)
تستخدم أداة استخراج الجداول من PDFSub نهجًا ثلاثي المستويات يزيد من الدقة مع تقليل التكلفة:
المستوى 1: الكشف المستند إلى الإحداثيات (المتصفح، مجاني)
تحاول الأداة أولاً الاستخراج بالكامل في متصفحك:
- تحليل مجرى محتوى PDF لاستخراج كل عنصر نصي مع إحداثياته x,y
- تجميع العناصر النصية في أسطر بناءً على قرب الإحداثيات y
- تحليل أنماط محاذاة الإحداثيات x عبر الأسطر للكشف عن حدود الأعمدة
- يتطلب حد أدنى 3 صفوف، 2 عمود، وثقة 70%+
إذا تم العثور على جداول جيدة، تحصل على بيانات منظمة على الفور — لا تحميل للخادم، لا استهلاك لرصيد AI، وملفك لا يغادر جهازك أبدًا.
المستوى 2: الاستخراج من جانب الخادم (pdfplumber، مجاني)
إذا فشل الكشف المستند إلى الإحداثيات في العثور على جداول، تستخدم الأداة pdfplumber (ترخيص MIT) على الخادم. يكتشف هذا كلاً من الخطوط الصريحة (الحدود المرسومة) والخطوط الضمنية (أنماط محاذاة الكلمات)، ويجد التقاطعات، ويحدد المستطيلات، ويربط النص بالخلايا.
المستوى 3: استخراج AI (يستهلك أرصدة)
بالنسبة لملفات PDF الممسوحة ضوئيًا، أو التخطيطات المعقدة، أو الجداول التي لا تستطيع الطرق المستندة إلى القواعد تحليلها، تعود الأداة إلى الاستخراج المرئي المدعوم بالذكاء الاصطناعي. يمكنك أيضًا تبديل "فرض استخراج AI" للانتقال مباشرة إلى هذا المستوى عندما تعرف أن الجدول معقد.
تنسيقات الإخراج: Excel (.xlsx)، CSV، JSON.
الأفضل لـ: الاستخراج السريع دون تثبيت برامج. تتم معالجة ملفات PDF الرقمية بالكامل في متصفحك لتحقيق أقصى قدر من الخصوصية.
الطريقة 2: Power Query في Excel (Windows فقط)
متوفر في Excel 2019+ و Microsoft 365 على Windows: Data → Get Data → From File → From PDF.
كيف تعمل
- انقر فوق Data → Get Data → From File → From PDF
- حدد ملف PDF الخاص بك
- يعرض Power Query لوحة Navigator تسرد الجداول المكتشفة لكل صفحة
- حدد الجداول التي تريدها، وانقر فوق Transform Data للتنظيف، ثم Load
نقاط القوة
- مدمج في Excel — لا توجد تكلفة إضافية لمشتركي Microsoft 365
- محرك تحويل Power Query يتعامل مع المعالجة اللاحقة بشكل جيد (fill down، pivot، merge columns)
- يمكن تحديث البيانات إذا تم تحديث ملف PDF المصدر
- يدعم ربط جداول متعددة من نفس ملف PDF
القيود
- Windows فقط — غير متوفر في Excel لنظام Mac أو Excel Online أو الأجهزة المحمولة
- يواجه صعوبة مع الجداول بدون حدود — يعمل بشكل أفضل مع الجداول ذات الحدود الواضحة
- لا يوجد OCR — لا يمكن الاستخراج من ملفات PDF الممسوحة ضوئيًا/الصور
- الجداول متعددة الصفحات تمثل مشكلة — غالبًا ما يتم استيراد كل صفحة كجدول منفصل، مما يتطلب تجميعًا يدويًا
- صفوف متعددة الأسطر — غالبًا ما ينقسم النص الملتف داخل الخلايا إلى صفوف متعددة، مما يتطلب التنظيف
الأفضل لـ: مستخدمي Windows الذين لديهم Microsoft 365 ولديهم جداول بسيطة ذات حدود.
الطريقة 3: Adobe Acrobat (مدفوع)
File → Export a PDF → Spreadsheet → Microsoft Excel Workbook
التسعير (2026)
- Acrobat Standard: 12.99 دولار شهريًا (خطة سنوية)
- Acrobat Pro: 19.99 دولار شهريًا (خطة سنوية)
- Export PDF (مستقل): خطة تحويل فقط ذات مستوى أدنى
نقاط القوة
- OCR مدمج للمستندات الممسوحة ضوئيًا
- يحافظ بشكل عام على التنسيق للجداول البسيطة ذات الحدود
- معالجة الدُفعات متاحة في Pro
القيود
- مكلف لاستخراج الجداول فقط — 156-240 دولارًا سنويًا
- لا تزال الجداول المعقدة ذات الخلايا المدمجة والامتدادات متعددة الصفحات تنتج مخرجات غير محاذية
- قد يتم تحميل الملفات إلى سحابة Adobe للمعالجة — مشكلة للبيانات المالية الحساسة
- يتطلب تثبيت سطح المكتب
الأفضل لـ: المستخدمين الذين يدفعون بالفعل مقابل Acrobat Pro ويحتاجون إلى تصدير جداول بشكل متقطع مع OCR.
الطريقة 4: النسخ واللصق (يدوي)
النهج الأكثر بديهية — وهو النهج الذي يفشل في أغلب الأحيان للجداول.
المشاكل الشائعة
- كل البيانات في عمود واحد — يتم لصق الجدول بأكمله بدون فواصل أعمدة
- الأرقام تصبح نصًا — رموز العملات والأقواس والفواصل تكسر التنسيق الرقمي
- محتوى الخلية متعدد الأسطر ينشئ صفوفًا وهمية — وصف يلتف عبر سطرين في الخلية يصبح سطرين منفصلين
- العناوين منفصلة عن البيانات — يتم فصل صف العنوان
- الأعمدة غير محاذية — تنزاح البيانات لأن تباعد الأحرف لا يترجم إلى علامات جدولة
حل جزئي
الصق في Excel، ثم استخدم Data → Text to Columns مع فواصل المسافات أو العرض الثابت. قم بتمكين "Treat consecutive delimiters as one". يعمل هذا مع الجداول البسيطة جدًا ذات التباعد الجيد ولكنه يفشل مع أي محتوى خلية متعدد الكلمات.
الأفضل لـ: استخراج جدول واحد صغير وبسيط كملاذ أخير.
الطريقة 5: مكتبات Python (للمطورين)
ثلاث مكتبات مرخصة بموجب MIT تتعامل مع استخراج جداول PDF برمجيًا:
Tabula-py
غلاف Python حول Tabula (Java). يتطلب وقت تشغيل Java.
- وضع Lattice للجداول ذات الحدود (يجد الخطوط والتقاطعات)
- وضع Stream للجداول بدون حدود (يستخدم محاذاة النص)
- جيد لمعالجة الدُفعات في البرامج النصية
- لا يدعم OCR
Camelot
يوفر أيضًا وضعي Lattice و Stream.
- يتفوق بشكل عام على Tabula للجداول ذات الحدود
- وضع Stream لديه المزيد من معلمات التكوين للضبط الدقيق
- يوفر تقارير دقة مع كل استخراج
- يتطلب تبعية Ghostscript. لا يدعم OCR
pdfplumber
نهج قائم على الإحداثيات: يستخرج كل حرف بموقعه الدقيق، ثم يستنتج الهيكل.
- يتعامل مع أوسع نطاق من أنواع الجداول
- يوفر أكبر قدر من التحكم ولكنه يتطلب المزيد من التكوين
- هذه هي المكتبة التي يستخدمها PDFSub من جانب الخادم
- لا يدعم OCR
الأفضل لـ: المطورين الذين يقومون بأتمتة سير عمل استخراج الجداول المتكررة، ومعالجة دفعات كبيرة من المستندات المتشابهة.
مشاكل شائعة وكيفية حلها
الخلايا المدمجة
عندما تمتد الخلايا عبر صفوف أو أعمدة متعددة، فإن معظم الأدوات إما تضع المحتوى في الخلية العلوية اليسرى وتترك الخلايا الأخرى فارغة، أو تسبب عدم محاذاة جميع الأعمدة اللاحقة. لا يوجد حل عالمي — تنسيق CSV ليس لديه مفهوم الدمج، لذا يتم دائمًا فقدان معلومات الدمج.
الإصلاح: استخرج الجدول، ثم قم بإصلاح آثار الدمج يدويًا في Excel. بالنسبة للجداول المتكررة بنفس نمط الدمج، فكر في برنامج معالجة لاحق.
محتوى متعدد الأسطر داخل الخلايا
الأوصاف الطويلة التي تلتف داخل خلية تصبح صفوفًا متعددة في الإخراج، مما يدفع جميع البيانات اللاحقة خارج المحاذاة. هذا هو الخطأ الأكثر شيوعًا في الاستخراج للمستندات المالية.
الإصلاح: بعد الاستخراج، ابحث عن الصفوف التي تفتقر إلى التواريخ والمبالغ — هذه على الأرجح سطور متابعة تنتمي إلى الصف أعلاه. في Excel، قم بدمجها يدويًا أو استخدم صيغة مساعدة.
الجداول الممتدة عبر صفحات متعددة
يجب على الأدوات تحديد مكان استمرار الجدول، وما إذا كان سيتم تجريد العناوين المكررة، وكيفية تصفية تذييلات الصفحات. تعامل العديد من الأدوات كل صفحة بشكل مستقل.
الإصلاح: إذا كانت أداتك تعطي نتائج لكل صفحة، فقم بدمج الأوراق وإزالة صفوف العناوين المكررة. تحقق من أن الصف الأخير في الصفحة N يتصل بشكل صحيح بالصف الأول في الصفحة N+1.
مشاكل تنسيق العملة
الأرقام السالبة بين قوسين ((1,234.56)) يتم لصقها كنص، وليس أرقامًا. رموز العملات وفواصل الآلاف تكسر أيضًا التنسيق الرقمي.
الإصلاح: بعد الاستخراج، حدد عمود المبلغ واستخدم البحث والاستبدال لإزالة رموز $, (, ). ثم قم بتنسيق العمود كرقم. بالنسبة للأرقام السالبة بين قوسين، استبدل ( بـ - وأزل )، ثم قم بالتحويل إلى تنسيق رقمي.
غموض التاريخ
01/02/2026 — هل هو 2 يناير أم 1 فبراير؟ تحتفظ أداة الاستخراج بالسلسلة النصية كما هي، ولكن قد يعيد Excel تفسيرها بناءً على منطقتك.
الإصلاح: تحقق من ملف PDF المصدر للحصول على أدلة تنسيق التاريخ (ابحث عن تواريخ بقيم يوم > 12). قم بتعيين تنسيق التاريخ في Excel لمطابقة المصدر قبل الاستيراد.
مقارنة الدقة
| الطريقة | حدود بسيطة | بدون حدود | شبه حدود | ملفات PDF ممسوحة ضوئيًا |
|---|---|---|---|---|
| PDFSub (إحداثيات + AI) | 90–99% | 75–95% | 70–95% | 85–95% (AI) |
| Power Query | 85–95% | 40–60% | 50–70% | غير مدعوم |
| Adobe Acrobat | 90–95% | 70–80% | 70–85% | 80–90% |
| Tabula | ~68% | 55–70% | 50–65% | غير مدعوم |
| Camelot | ~73% | 65–75% | 60–70% | غير مدعوم |
| النسخ واللصق | 30–50% | 10–30% | 10–30% | غير ممكن |
تعكس النطاقات التباين عبر تعقيد المستند. بيانات قياس الأداء من دراسات مقارنة Procyons 2025 PDF Extraction Benchmark و Camelot.
أي طريقة يجب أن تستخدم؟
| السيناريو | أفضل طريقة | السبب |
|---|---|---|
| استخراج سريع لمرة واحدة | PDFSub | لا يتطلب تثبيت، يعتمد على المتصفح، استخراج إحداثيات مجاني |
| جدول بسيط ذو حدود، Windows | Power Query | مدمج في Excel، لا توجد تكلفة إضافية |
| ملف PDF ممسوح ضوئيًا | PDFSub (AI) أو Adobe Acrobat | يتطلب قدرة OCR |
| بيانات مالية حساسة | PDFSub | معالجة تعتمد على المتصفح، لا يتم تحميل الملف أبدًا |
| معالجة دفعات متكررة | Python (pdfplumber) | قابل للبرمجة، قابل للأتمتة |
| لديك بالفعل Acrobat Pro | Adobe Acrobat | تدفع بالفعل، الجداول البسيطة تعمل بشكل جيد |
| جدول صغير واحد، لا توجد أدوات | النسخ واللصق | الملاذ الأخير، تحقق من كل شيء |
نصائح للحصول على أفضل النتائج
استخدم ملفات PDF الأصلية. قم بتنزيل المستندات من مصدرها بدلاً من مسح الورق ضوئيًا. تحتوي ملفات PDF الأصلية على نص مثالي، مما يجعل الاستخراج أكثر دقة بشكل كبير.
حدد نوع الجدول أولاً. تعمل الجداول ذات الحدود مع أي أداة تقريبًا. تتطلب الجداول بدون حدود وضع التدفق أو استخراج AI. معرفة النوع تساعدك على اختيار الطريقة الصحيحة مقدمًا.
ابدأ بالطرق المجانية المستندة إلى القواعد. جرب الاستخراج المستند إلى الإحداثيات أولاً. لا تصعد إلى AI إلا عندما تنتج الطرق المستندة إلى القواعد نتائج سيئة — هذا يوفر الوقت والأرصدة.
تحقق دائمًا من المخرجات. تحقق من عدد الصفوف، ومحاذاة الأعمدة، والقيم الرقمية، والإجماليات. لا تثق أبدًا بمخرجات الاستخراج بشكل أعمى.
انتبه لتنسيق الأرقام. بعد الاستخراج، تحقق من أن الأرقام هي بالفعل أرقام في Excel (محاذاة لليمين)، وليست سلاسل نصية (محاذاة لليسار). رموز العملات والأرقام السالبة بين قوسين هي أسباب شائعة.
للبيانات الحساسة، فضل الأدوات المستندة إلى المتصفح. تحتوي التقارير المالية وكشوف الحسابات البنكية والمستندات الضريبية على معلومات حساسة. الأدوات التي تعالج ملفات PDF في متصفحك لا تقوم أبدًا بتحميل ملفك، مما يلغي خطر تعرض البيانات.
جربها مجانًا
هل أنت مستعد لاستخراج الجداول من ملف PDF الخاص بك؟ قم بتحميل ملف الآن — يحاول PDFSub أولاً الاستخراج المجاني المستند إلى الإحداثيات، مع دعم AI للجداول المعقدة. تتم معالجة ملفات PDF الرقمية بالكامل في متصفحك. ابدأ تجربة مجانية لمدة 7 أيام.