تُعد ملفات PDF رائعة في الحفاظ على المستندات بنفس الشكل الذي تم تصميمها به. لكنها سيئة للغاية في استخراج البيانات الموجودة بداخلها. يمكنك رؤية جدول. يمكنك رؤية قائمة بالتواريخ والمبالغ المالية. يمكنك قراءة شروط العقد وأسماء الأطراف. ولكن الحصول على هذه المعلومات من ملف PDF وإدخالها في جدول بيانات أو قاعدة بيانات أو تطبيق؟ هنا تبدأ المشاكل.

النسخ واللصق ينتج نصًا مشوشًا. أدوات استخراج الجداول تتعثر في التخطيطات المعقدة. التعرف الضوئي على الحروف (OCR) يقرأ الأحرف بشكل خاطئ. وإعادة كتابة كل شيء يدويًا أمر بطيء وعرضة للأخطاء ومُرهق للنفس.

استخراج البيانات بالذكاء الاصطناعي مختلف. بدلاً من الاعتماد على قواعد صارمة حول مكان وجود النص في الصفحة، يقرأ الذكاء الاصطناعي المستند بالطريقة التي يقرأ بها الإنسان - فهم السياق، وتحديد العلاقات، وإخراج البيانات المنظمة. يشرح هذا الدليل كيفية عمله، ومتى يكون الأداة المناسبة، وكيفية استخدامه.

How to extract data from PDFs with AI

ما يفعله استخراج البيانات بالذكاء الاصطناعي فعليًا

يعمل استخراج PDF التقليدي حسب الموقع: "خذ النص الموجود في الإحداثيات (100، 200) وضعه في العمود A". هذا يعمل للمستندات القياسية حيث لا يتغير التخطيط أبدًا. ولكنه يفشل فورًا عندما يختلف التنسيق - قوالب مختلفة، أحجام صفحات مختلفة، خطوط مختلفة.

يعمل استخراج البيانات بالذكاء الاصطناعي عن طريق الفهم. يقرأ النص، ويتعرف على نوع المستند، ويحدد نقاط البيانات المهمة، ويخرجها بتنسيق منظم. إليك الفرق عمليًا:

النهج التقليدي:

تحديد قالب بإحداثيات دقيقة لكل حقل
استخراج النص في تلك الإحداثيات
الأمل في أن يتطابق المستند مع القالب
الفشل عندما لا يتطابق

نهج الذكاء الاصطناعي:

تحميل المستند
يقرأ الذكاء الاصطناعي المحتوى بالكامل
يحدد الذكاء الاصطناعي نقاط البيانات بناءً على السياق (وليس الموقع)
يخرج بيانات منظمة (JSON، CSV، أزواج مفتاح-قيمة)

نهج الذكاء الاصطناعي أكثر مرونة لأنه لا يعتمد على التنسيق الدقيق. قد يظهر تاريخ العقد في السطر 3 من مستند واحد والسطر 15 من مستند آخر - سيجده الذكاء الاصطناعي في كلتا الحالتين لأنه يفهم ما هو التاريخ ولماذا هو مهم في العقد.

أنواع البيانات التي يمكنك استخراجها

استخراج البيانات بالذكاء الاصطناعي لا يقتصر على نوع واحد من البيانات. إليك ما يمكنه سحبه من أنواع مختلفة من المستندات:

أزواج المفتاح-القيمة

الهدف الأكثر شيوعًا للاستخراج. الأسماء، التواريخ، العناوين، المبالغ، أرقام المرجع - أي حقل له تسمية وقيمة.

عقد: تاريخ السريان، الأطراف، مدة العقد، مبلغ الدفع
فاتورة: رقم الفاتورة، التاريخ، البائع، بنود السطر، الإجمالي
إيصال: التاجر، التاريخ، العناصر، الضريبة، الإجمالي
نموذج: جميع الحقول المملوءة وتسمياتها

جداول

الجداول صعبة الاستخراج من ملفات PDF بشكل سيئ لأن الشبكة المرئية التي تراها لا توجد في البنية الأساسية للملف. الصفوف والأعمدة هي مجرد نص تم وضعه ليبدو كجدول. يفهم الذكاء الاصطناعي البنية الجدولية من السياق ويستخرج صفوفًا وأعمدة نظيفة.

قوائم وتعدادات

القوائم ذات النقاط، العناصر المرقمة، التسلسلات الهرمية المتداخلة - يمكن للذكاء الاصطناعي تحديد هياكل القوائم وإخراجها كمصفوفات منظمة، مع الحفاظ على التسلسل الهرمي والترتيب.

ملخصات ونقاط رئيسية

بالإضافة إلى استخراج البيانات الأولية، يمكن للذكاء الاصطناعي تحديد أهم المعلومات وتلخيصها. استخرج فقط الشروط الرئيسية من عقد، أو النتائج الرئيسية من تقرير بحثي، أو بنود العمل من محاضر الاجتماعات.

بيانات مالية

أرقام الإيرادات، تفاصيل المصروفات، مقارنات ربع سنوية، نمو سنوي - يمكن للذكاء الاصطناعي تحديد البيانات المالية في التقارير وتنظيمها في تنسيقات منظمة جاهزة للتحليل.

كيفية استخراج البيانات باستخدام PDFSub

يقدم PDFSub العديد من أدوات استخراج البيانات بالذكاء الاصطناعي، كل منها مُحسَّن لأنواع مستندات مختلفة. كلها تستخدم أرصدة الذكاء الاصطناعي (مضمنة في خطتك)، والعملية بسيطة.

استخراج البيانات العام

للمستندات التي لا تندرج تحت فئة معينة - العقود، التقارير، المراسلات، النماذج، أو أي ملف PDF يحتوي على معلومات منظمة.

الخطوة 1: انتقل إلى أداة استخراج البيانات من PDFSub.

الخطوة 2: قم بتحميل ملف PDF الخاص بك أو اسحبه وأفلته في الأداة. يحاول PDFSub أولاً استخراج النص مباشرة من ملف PDF (للمستندات الرقمية). إذا كانت جودة النص جيدة، فإنه يرسل النص إلى الذكاء الاصطناعي. إذا كان ملف PDF ممسوحًا ضوئيًا أو يعتمد على الصور، فإنه يرسل ملف PDF بالكامل للتحليل المرئي.

الخطوة 3: راجع البيانات المستخرجة. يخرج الذكاء الاصطناعي أزواج مفتاح-قيمة منظمة وأي جداول وجدها. يمكنك نسخ النتائج، أو تنزيلها بتنسيق JSON، أو تصديرها إلى تنسيق يناسب سير عملك.

مستخرج الفواتير

مُحسَّن للفواتير والمستندات الفوترة. يحدد تلقائيًا:

رقم الفاتورة وتاريخها
معلومات البائع/المورد
معلومات العميل/الفوترة
بنود السطر (الوصف، الكمية، سعر الوحدة، الإجمالي)
مبالغ الضرائب والإجماليات
شروط الدفع وتواريخ الاستحقاق

انتقل إلى مستخرج الفواتير من PDFSub لتجربته. تم ضبط الذكاء الاصطناعي للتعرف على الأنماط الخاصة بالفواتير، لذا فهو أسرع وأكثر دقة على الفواتير من أداة الاستخراج العامة.

مستخرج الجداول

يركز حصريًا على العثور على الجداول واستخراجها من ملفات PDF. إذا كان مستندك يحتوي على بيانات جدولية - جداول مالية، رسوم بيانية مقارنة، شبكات بيانات، جداول زمنية - فإن هذه الأداة تستخرجها كبيانات منظمة ونظيفة.

انتقل إلى مستخرج الجداول من PDFSub. تحاول الأداة أولاً اكتشاف الجداول بناءً على الإحداثيات (والتي لا تستخدم أي أرصدة ذكاء اصطناعي). إذا لم ينتج عن ذلك نتائج جيدة، يمكنك تمكين استخراج الذكاء الاصطناعي للجداول الأكثر تعقيدًا أو غير المنتظمة.

ماسح الإيصالات

مصمم للإيصالات - تلك الأوراق الممزقة، المطبوعة بشكل سيئ، والتي لا تزال حاسمة لتقارير النفقات. يتعامل الذكاء الاصطناعي مع:

اسم التاجر وموقعه
التاريخ والوقت
العناصر الفردية والأسعار
تفاصيل الضريبة
الإجمالي وطريقة الدفع

انتقل إلى ماسح الإيصالات من PDFSub. يعمل على كل من الإيصالات الرقمية (PDF) والإيصالات الممسوحة ضوئيًا/المصورة.

استخراج البيانات بالذكاء الاصطناعي مقابل الطرق الأخرى

كيف يقارن استخراج البيانات بالذكاء الاصطناعي بالطرق التقليدية؟

النسخ واللصق

الطريقة الأبسط - والأقل موثوقية. حدد النص في عارض PDF، انسخه، الصقه في جدول بيانات. المشاكل: تفقد الجداول هيكلها، تتشوش تخطيطات الأعمدة المتعددة، تختلط الرؤوس والتذييلات مع نص الجسم، وغالبًا ما تتلف الأحرف الخاصة.

الحكم: جيد لالتقاط جملة واحدة. عديم الفائدة للبيانات المنظمة.

الاستخراج المستند إلى القواعد (القوالب)

حدد إحداثيات دقيقة لكل حقل: "رقم الفاتورة موجود في الموضع X، Y". يعمل بشكل مثالي للمستندات التي تستخدم دائمًا نفس القالب. يفشل تمامًا عندما يتغير القالب. يتطلب تكوينًا مسبقًا لكل نوع مستند.

الحكم: رائع للمستندات القياسية ذات الحجم الكبير (مثل معالجة 10000 فاتورة من نفس المورد). غير عملي لأنواع المستندات المتنوعة.

التعرف الضوئي على الحروف (OCR)

يحول الصور النصية إلى نص فعلي. ضروري للمستندات الممسوحة ضوئيًا. لكن OCR يمنحك النص الخام فقط - فهو لا يفهم البيانات. لا تزال بحاجة إلى تحليل وتنظيم المخرجات بنفسك. وتتطلب أخطاء OCR (الخلط بين "O" و "0"، "l" و "1") التحقق اليدوي.

الحكم: خطوة ضرورية للمستندات الممسوحة ضوئيًا، ولكنها ليست حلاً استخراجيًا كاملاً بحد ذاتها.

استخراج الذكاء الاصطناعي

يقرأ المستند بفهم سياقي. يتعامل مع التنسيقات المتنوعة، ويحدد علاقات البيانات، ويخرج نتائج منظمة. يعمل على ملفات PDF الرقمية والممسوحة ضوئيًا. المقايضة: يستخدم معالجة الذكاء الاصطناعي (الأرصدة)، لذا فهو يكلف أكثر لكل مستند من استخراج النص الخالص.

الحكم: الأفضل لأنواع المستندات المتنوعة، والتخطيطات المعقدة، وعندما تحتاج إلى مخرجات منظمة دون تكوين يدوي.

الطريقة	تتعامل مع التنسيقات المتنوعة	مخرجات منظمة	الدقة	التكلفة لكل مستند
النسخ واللصق	لا	لا	منخفضة	مجاني
المستند إلى القالب	لا	نعم	عالية (عند التطابق)	منخفضة
OCR فقط	ممسوح ضوئيًا فقط	لا	متوسطة	منخفضة
استخراج الذكاء الاصطناعي	نعم	نعم	عالية	متوسطة

الحصول على أفضل النتائج من استخراج الذكاء الاصطناعي

استخدم ملفات PDF الرقمية إن أمكن

تحتوي ملفات PDF الرقمية (المنشأة من Word أو InDesign أو برامج أخرى) على بيانات نصية فعلية. يمكن للذكاء الاصطناعي قراءة هذا النص مباشرة، وهو أسرع وأرخص وأكثر دقة من معالجة الصور الممسوحة ضوئيًا. إذا كان لديك خيار بين ملف PDF رقمي ونسخة ممسوحة ضوئيًا، فاستخدم دائمًا النسخة الرقمية.

نوع مستند واحد لكل استخراج

إذا كان لديك ملف PDF يحتوي على أنواع مستندات متعددة (على سبيل المثال، فاتورة مُثبتة بعقد)، ففكر في تقسيم الملف أولاً واستخراج كل جزء على حدة. يعمل الذكاء الاصطناعي بشكل أفضل عندما يمكنه التركيز على نوع مستند واحد في كل مرة.

تحقق من النتائج

استخراج البيانات بالذكاء الاصطناعي دقيق للغاية، ولكنه ليس مثاليًا. تحقق دائمًا من البيانات المستخرجة، خاصة بالنسبة لـ:

الأرقام والمبالغ - تحقق من صحة علامات الدولار والنقاط العشرية والفواصل
التواريخ - تأكد من أن التنسيق يطابق توقعاتك (هل هو 3 يناير أم 1 مارس؟)
الأسماء والعناوين - تحقق من وجود أي أخطاء في التعرف على الأحرف.

استخدم الأداة المناسبة

لدى PDFSub أدوات استخراج متخصصة لأنواع مستندات معينة. سيكون مستخرج الفواتير أفضل من أداة استخراج البيانات العامة على الفواتير لأنه تم تحسينه لهذا التنسيق المحدد. وبالمثل، تم ضبط ماسح الإيصالات للإيصالات، ويركز مستخرج الجداول على البيانات الجدولية. استخدم الأداة الأكثر تحديدًا المتاحة لنوع مستندك.

فهم أرصدة الذكاء الاصطناعي

يستخدم استخراج البيانات بالذكاء الاصطناعي أرصدة معالجة لأنه يتضمن تشغيل نماذج الذكاء الاصطناعي على مستندك. إليك ما يجب أن تعرفه:

استخراج البيانات المستند إلى النص أرخص. عندما يتمكن PDFSub من استخراج نص جيد من ملف PDF مباشرة، فإنه يرسل هذا النص إلى الذكاء الاصطناعي. هذا يستخدم أرصدة أقل من إرسال ملف PDF بالكامل كصورة.
استخراج البيانات المستند إلى الصور يكلف أكثر. يتم إرسال ملفات PDF الممسوحة ضوئيًا والمستندات ذات التخطيطات المرئية المعقدة كصور إلى الذكاء الاصطناعي، مما يتطلب المزيد من قوة المعالجة والأرصدة.
الأرصدة مضمنة في خطتك. تتضمن خطط PDFSub أرصدة ذكاء اصطناعي. يعتمد العدد الدقيق على مستوى اشتراكك. يمكنك رؤية الأرصدة المتبقية في لوحة التحكم الخاصة بك.
توجد بدائل غير قائمة على الذكاء الاصطناعي. لا تحتاج بعض مهام الاستخراج إلى الذكاء الاصطناعي على الإطلاق. وضع استخراج الجداول المستند إلى الإحداثيات، على سبيل المثال، لا يستخدم أي أرصدة. استخراج النص الأساسي مجاني دائمًا.

أسئلة متكررة

ما مدى دقة استخراج البيانات بالذكاء الاصطناعي؟

بالنسبة لملفات PDF الرقمية ذات التنسيق الواضح، تتراوح الدقة عادةً بين 95-99٪ للحقول الرئيسية مثل التواريخ والمبالغ والأسماء. المستندات الممسوحة ضوئيًا أقل قليلاً بسبب تحديات OCR - عادةً 85-95٪، اعتمادًا على جودة المسح. قد تقلل التخطيطات المعقدة ذات العناصر المتداخلة أو الخطوط غير العادية من الدقة.

هل يمكنني استخراج البيانات من ملفات PDF المحمية بكلمة مرور؟

ستحتاج إلى إدخال كلمة المرور لفتح ملف PDF أولاً. لدى PDFSub أداة لفتح ملفات PDF يمكنها إزالة حماية كلمة المرور (إذا كنت تعرف كلمة المرور). بمجرد إلغاء القفل، يعمل الاستخراج بشكل طبيعي.

هل يعمل استخراج الذكاء الاصطناعي على المستندات المكتوبة بخط اليد؟

بالنسبة للنص المكتوب بخط اليد، تنخفض الدقة بشكل كبير. يمكن للذكاء الاصطناعي تفسير الكتابة اليدوية الواضحة بشكل معقول، ولكن الكتابة اليدوية غير الواضحة أو الملاحظات الطبية أو النص المكتوب بخط متصل ستنتج نتائج غير موثوقة. النص المطبوع - حتى في المسح ذي الجودة الرديئة - أكثر موثوقية بكثير.

ما هي تنسيقات المخرجات المتاحة للبيانات المستخرجة؟

يخرج PDFSub البيانات المستخرجة بتنسيق JSON منظم ويوفر أيضًا عروضًا نصية منسقة. يمكنك نسخ البيانات مباشرة، أو تنزيلها، أو استخدامها في سير العمل اللاحق. بالنسبة لاستخراج الجداول على وجه التحديد، يمكنك التصدير إلى CSV أو Excel.

كيف يختلف هذا عن أداة "الدردشة مع PDF" من PDFSub؟

تسمح لك أداة "الدردشة مع PDF" بطرح أسئلة حول مستند بلغة طبيعية - "ما هو مصطلح الدفع؟" أو "لخص القسم 3". استخراج البيانات أكثر منهجية - فهو يسحب جميع البيانات المنظمة من المستند دفعة واحدة، ويخرج كل شيء بتنسيق منظم. استخدم الدردشة للأسئلة المحددة، واستخراج البيانات عندما تريد مخرجات منظمة شاملة.

يحول استخراج البيانات بالذكاء الاصطناعي البيانات المقفلة داخل ملفات PDF إلى شيء يمكنك استخدامه بالفعل. بدلاً من النسخ واللصق، أو بناء جداول بيانات يدويًا، أو تكوين قوالب لكل تنسيق مستند، تقوم بتحميل الملف وتحصل على بيانات منظمة. يعمل على العقود والفواتير والإيصالات والتقارير والنماذج وأي مستند آخر تقريبًا يحتوي على بيانات تستحق الاستخراج.

جربه على pdfsub.com/tools/extract-data.