لقد قمت بمسح مجموعة من المستندات ضوئيًا إلى ملف PDF. تبدو جيدة على الشاشة - واضحة، قابلة للقراءة، احترافية. ولكن حاول البحث عن كلمة، أو نسخ فقرة، أو تحديد رقم هاتف، ولن يحدث شيء. يسحب المؤشر مستطيلاً أزرق عبر الصفحة كما لو كنت تحدد صورة. لأن هذا هو بالضبط ما تفعله.

ملفات PDF الممسوحة ضوئيًا هي صور فوتوغرافية. كل صفحة هي صورة واحدة - شبكة مسطحة من البكسلات بدون مفهوم للحروف أو الكلمات أو الجمل. يرى جهاز الكمبيوتر الخاص بك نفس القدر من النص في ملف PDF ممسوح ضوئيًا كما يراه في صورة JPEG لغروب الشمس: لا شيء.

يحل التعرف الضوئي على الحروف (OCR) هذه المشكلة. يقوم بتحليل صورة كل صفحة، وتحديد الأحرف، وإضافة طبقة نصية غير مرئية فوق المسح الأصلي. يظل المظهر المرئي متطابقًا، ولكن الآن يمكنك البحث ونسخ وتحديد النص، والسماح لقارئات الشاشة بالوصول إليه.

يغطي هذا الدليل ما هو التعرف الضوئي على الحروف (OCR)، وكيف يعمل، وثلاث طرق لإجراء التعرف الضوئي على الحروف لملفات PDF الممسوحة ضوئيًا، وكيفية الحصول على أفضل النتائج.

How to OCR a scanned PDF - converting image-only pages into searchable, selectable text

كيف تعرف ما إذا كان ملف PDF الخاص بك يحتاج إلى OCR

قبل استثمار الوقت في التعرف الضوئي على الحروف (OCR)، تحقق مما إذا كان ملف PDF الخاص بك يحتاجه بالفعل. العديد من ملفات PDF "رقمية" - تم إنشاؤها من مستندات Word أو جداول بيانات Excel أو صفحات الويب - وتحتوي بالفعل على طبقة نصية حقيقية.

اختبار الثواني الخمس

افتح ملف PDF الخاص بك في أي عارض (Adobe Reader، Preview، Chrome، Edge)
اضغط على Ctrl+F (Windows/Linux) أو Cmd+F (Mac)
اكتب كلمة تراها على الصفحة
إذا قام العارض بتمييز الكلمة: يحتوي ملف PDF الخاص بك بالفعل على نص قابل للبحث. لا حاجة لـ OCR.
إذا لم يتم العثور على شيء: ملف PDF الخاص بك عبارة عن صورة فقط. يحتاج إلى OCR.

اختبار التحديد

حاول النقر والسحب لتحديد النص على الصفحة:

إذا كان بإمكانك تحديد كلمات فردية وتمييزها باللون الأزرق: يحتوي ملف PDF على طبقة نصية.
إذا تم تحديد الصفحة بأكملها كوحدة واحدة (مثل تحديد صورة): ملف PDF عبارة عن مسح ضوئي بدون طبقة نصية.
إذا كان بإمكانك تحديد بعض النصوص ولكن ليس نصوصًا أخرى: يحتوي ملف PDF على OCR جزئي أو محتوى مختلط - بعض الصفحات رقمية، والبعض الآخر ممسوح ضوئيًا.

أنواع PDF الشائعة التي تحتاج إلى OCR

نوع المستند	هل يحتاج عادةً إلى OCR؟	السبب
المستندات الورقية الممسوحة ضوئيًا	نعم	صورة خالصة، لا توجد بيانات نصية
المستندات المرسلة بالفاكس والمحفوظة كملف PDF	نعم	خرج الفاكس عبارة عن صورة نقطية
صور المستندات (كاميرا الهاتف)	نعم	التقاط الكاميرا = صورة
ملفات PDF من "المسح إلى البريد الإلكتروني" لآلة التصوير	نعم	معظم آلات التصوير تنتج ملفات PDF صورية
ملفات PDF المصدرة من Word/Excel	لا	رقمية المنشأ، تتضمن طبقة نصية
ملفات PDF من متصفحات الويب (طباعة إلى PDF)	لا	يتم الاحتفاظ بالنص
النماذج الحكومية التي تم تنزيلها عبر الإنترنت	عادة لا	معظمها رقمية المنشأ
الإيصالات المرسلة عبر البريد الإلكتروني كملفات PDF مرفقة	عادة لا	تم إنشاؤها بواسطة أنظمة نقاط البيع مع نص

ما هو التعرف الضوئي على الحروف (OCR)؟ شرح باللغة العادية

OCR تعني التعرف الضوئي على الحروف (Optical Character Recognition). إنها التقنية التي تقرأ النص من الصور - تحليل أنماط البكسل لتحديد الأحرف والأرقام والرموز، تشبه إلى حد كبير قراءة عينيك للكلمات على الصفحة.

عند مسح مستند ضوئيًا، يقوم الماسح الضوئي بإنشاء صورة فوتوغرافية. تحتوي تلك الصورة على بكسلات - داكنة حيث كان الحبر، فاتحة حيث كانت الورقة - ولكن لا توجد بيانات نصية فعلية. لا يعرف الماسح الضوئي أن ترتيبًا من البكسلات يتهجى "فاتورة". إنه يسجل الصورة فقط.

يأخذ التعرف الضوئي على الحروف (OCR) تلك الصورة، ويحلل الأشكال، ويطابقها مع أنماط الأحرف المعروفة، ويخرج النص الذي تمثله تلك الأشكال. النتيجة هي ملف PDF يبدو مطابقًا للمسح الأصلي ولكنه يحتوي على طبقة نصية غير مرئية. عندما تضغط على Ctrl+F وتبحث عن "ديسمبر"، يتحقق عارض PDF من طبقة النص، ويجد المطابقة، ويميز المنطقة الموجودة على الصورة حيث تظهر تلك الكلمة.

مدى تطور التعرف الضوئي على الحروف (OCR)

يعود تاريخ التعرف الضوئي على الحروف (OCR) إلى الخمسينيات من القرن الماضي، عندما كانت الأنظمة المبكرة قادرة فقط على التعامل مع خطوط محددة في بيئات خاضعة للرقابة. تطورت التقنية من خلال مطابقة القوالب (السبعينيات - الثمانينيات)، واستخراج الميزات (التسعينيات - الألفية)، والتعلم الآلي (العقد الأول من القرن الحادي والعشرين). تجمع تقنية OCR الحديثة بين الشبكات العصبية العميقة للتعرف على الأحرف ونماذج اللغة التي تستخدم السياق لحل الغموض - إذا لم يكن النظام متأكدًا مما إذا كان الحرف "l" أو "1"، فإن الكلمات المحيطة تساعده على اتخاذ القرار.

تحقق محركات OCR الحديثة دقة تزيد عن 99٪ من الأحرف في المستندات المطبوعة النظيفة والممسوحة ضوئيًا جيدًا.

كيف يعمل التعرف الضوئي على الحروف (OCR): العملية التقنية

التعرف الضوئي على الحروف (OCR) ليس خوارزمية واحدة. إنها خط أنابيب من الخطوات، كل خطوة تبني على الخطوة السابقة.

الخطوة 1: معالجة الصورة الأولية

قبل حدوث أي تعرف على الأحرف، يقوم محرك OCR بتنظيف الصورة. يشمل ذلك التحويل الثنائي (التحويل إلى أسود وأبيض لتحقيق أقصى تباين)، وتصحيح الميل (تصحيح حتى دوران الصفحة الطفيف - يمكن أن يقلل الميل بمقدار 1-2 درجة من الدقة بشكل ملحوظ)، وإزالة الضوضاء (التخلص من عيوب الماسح الضوئي والبقع)، وإزالة الحدود (إزالة الحواف السوداء وظلال الربط).

الخطوة 2: تحليل التخطيط

يحدد المحرك بنية الصفحة - كتل النص، والأعمدة، والصور، والرؤوس، والتذييلات، والجداول، وترتيب القراءة. بدون هذه الخطوة، قد ينتج عن مستند ذي عمودين مخرجات مشوشة تقرأ عبر العمودين في وقت واحد.

الخطوة 3: تجزئة الأحرف

داخل كل كتلة نصية، يتم عزل الأحرف الفردية. يتم فصل الأسطر عن طريق المسافة الرأسية، والكلمات عن طريق الفجوات الأفقية، والأحرف داخل الكلمات عن طريق حدودها. هذا أصعب مما يبدو - تتداخل الأحرف في العديد من الخطوط أو تتصل، وفي نصوص مثل العربية والديوناغارية، تتصل الأحرف بطرق معقدة.

الخطوة 4: التعرف على الأحرف

يتم تصنيف كل صورة حرف مجزأة باستخدام شبكات عصبية عميقة تم تدريبها على ملايين صور الأحرف المصنفة. ينتج الشبكة قائمة مرشحة ذات ثقة، وليس إجابة واحدة. قد تحصل "A" النظيفة على ثقة بنسبة 99.8٪. قد ينتج حرف متدهور توزيعًا أقل استواءً بكثير.

الخطوة 5: نمذجة اللغة

التعرف الخام على الأحرف عرضة للأخطاء. السياق يحل الغموض. هل "lnvoice" كلمة؟ لا - "l" كانت في الواقع "I"، مما يجعلها "Invoice". تتنبأ نماذج اللغة الإحصائية بتسلسلات الأحرف المحتملة، ويطبق التحقق من التنسيق قواعد على أنماط مثل التواريخ والأرقام.

الخطوة 6: إنشاء المخرجات

يتم تعيين النص المعترف به مرة أخرى إلى إحداثيات الصورة الأصلية وكتابته في ملف PDF كطبقة نصية غير مرئية. كل كلمة تتماشى بدقة مع نظيرتها المرئية، مما يتيح وظيفة البحث والتظليل.

الطريقة 1: أداة PDFSub للتعرف الضوئي على الحروف (OCR) (موصى بها)

How OCR converts a scanned PDF to searchable text - Upload Scan, OCR Analysis, Extract Text, Searchable PDF

تقوم أداة OCR الخاصة بـ PDFSub بمعالجة ملفات PDF الممسوحة ضوئيًا وتضيف طبقة نصية قابلة للبحث مع الحفاظ على المظهر المرئي الأصلي لكل صفحة.

تعليمات خطوة بخطوة

انتقل إلى أداة OCR - انتقل إلى pdfsub.com/tools/ocr
قم بتحميل ملف PDF الممسوح ضوئيًا - اسحب وأفلت ملفك أو انقر للاستعراض. لا حاجة لتقسيم المستندات الكبيرة - يتم التعامل مع ملفات PDF متعددة الصفحات تلقائيًا.
تقوم أداة OCR بمعالجة المستند الخاص بك - تقوم الأداة بتحليل كل صفحة، والتعرف على النص، وإنشاء طبقة النص غير المرئية. يعتمد وقت المعالجة على عدد الصفحات وتعقيدها، ولكن معظم المستندات تكتمل في ثوانٍ.
قم بتنزيل ملف PDF القابل للبحث - يبدو ملف الإخراج مطابقًا للمسح الأصلي الخاص بك ولكنه يدعم الآن البحث عن النص وتحديد النص والنسخ واللصق.

لماذا PDFSub

دعم أكثر من 130 لغة. تعمل تقنية OCR مع المستندات باللغات الإنجليزية والإسبانية والفرنسية والألمانية والصينية واليابانية والكورية والعربية والهندية والروسية والبرتغالية وأكثر من 120 لغة إضافية. يتم التعامل مع المستندات متعددة اللغات تلقائيًا - لا تحتاج إلى تحديد اللغة مسبقًا.

المظهر الأصلي محفوظ. تضيف عملية OCR بيانات نصية دون تغيير المحتوى المرئي. تبدو صفحاتك الممسوحة ضوئيًا كما هي تمامًا. تظل الخطوط والتخطيطات والأختام والتوقيعات والتعليقات المكتوبة بخط اليد دون تغيير.

لا حاجة لتثبيت برامج. كل شيء يعمل في متصفحك أو على خوادم آمنة. لا يوجد شيء لتنزيله، ولا توجد متطلبات نظام للتحقق منها، ولا توجد مشاكل توافق.

تصميم يراعي الخصوصية. تتم معالجة المستندات التي تم تحميلها ثم حذفها. لا يقوم PDFSub بتخزين ملفاتك أو استخدامها للتدريب.

جربها مجانًا. يقدم PDFSub تجربة مجانية لمدة 7 أيام حتى تتمكن من اختبار OCR على مستنداتك الخاصة قبل الالتزام.

الطريقة 2: Adobe Acrobat Pro

يتضمن Adobe Acrobat Pro ميزة OCR مدمجة تسمى "التعرف على النص" ضمن أدوات المسح الضوئي و OCR.

تعليمات خطوة بخطوة

افتح ملف PDF الممسوح ضوئيًا في Adobe Acrobat Pro
انتقل إلى الأدوات وحدد المسح الضوئي و OCR
انقر فوق التعرف على النص واختر في هذا الملف أو في ملفات متعددة
ضمن الإعدادات، حدد صورة قابلة للبحث (تضيف طبقة نصية غير مرئية - موصى بها)
انقر فوق التعرف على النص لبدء المعالجة
احفظ الملف

نقاط القوة والقيود

يقدم Adobe دقة عالية في المسح الضوئي النظيف باللغة الإنجليزية، ويدعم المعالجة المجمعة، ويتيح لك تصحيح أخطاء OCR مباشرة. ومع ذلك، فإن Acrobat Pro يكلف 19.99 دولارًا شهريًا بخطة سنوية (239.88 دولارًا سنويًا)، ويتطلب تثبيتًا على سطح المكتب (لا يوجد OCR قائم على المتصفح)، ويدعم حوالي 20 لغة فقط، ويمكن أن يكون بطيئًا في المستندات التي تزيد عن 50 صفحة.

الطريقة 3: Google Drive (مجاني، ولكنه يسبب فقدان البيانات)

يتضمن Google Drive ميزة OCR أساسية تستخرج النص من ملفات PDF الممسوحة ضوئيًا - ولكن مع مقايضة كبيرة.

تعليمات خطوة بخطوة

قم بتحميل ملف PDF الممسوح ضوئيًا إلى Google Drive
انقر بزر الماوس الأيمن فوق الملف وحدد فتح باستخدام ثم Google Docs
يقوم Google بمعالجة ملف PDF وإنشاء مستند Google بالنص المستخرج
النص الآن قابل للبحث والتحديد والتعديل

نقاط القوة والقيود

تعد ميزة OCR في Google Drive مجانية تمامًا، وتقدم دقة جيدة في المستندات المطبوعة النظيفة، وتكتشف اللغات تلقائيًا. ومع ذلك، هناك مقايضة حرجة: إنها تدمر التنسيق. لا يضيف Google طبقة نصية إلى ملف PDF الخاص بك - بل يستخرج النص إلى مستند Google. تصبح الجداول نصًا عاديًا، وتنهار الأعمدة، ويضيع التخطيط الأصلي. ينتهي بك الأمر بمستند Google، وليس ملف PDF قابل للبحث.

كما أنه يعمل بشكل أفضل على المستندات التي تقل عن 10 صفحات. قد يتم اقتطاع المستندات الأطول.

الأفضل لـ: استخراج المحتوى النصي عندما لا تحتاج إلى التخطيط الأصلي. إذا كنت بحاجة إلى ملف PDF قابل للبحث يحافظ على المظهر، فاستخدم الطريقة 1 أو الطريقة 2.

دقة التعرف الضوئي على الحروف (OCR): ما يمكن توقعه حسب نوع المستند

التعرف الضوئي على الحروف (OCR) ليس سحرًا. تختلف الدقة بشكل كبير بناءً على جودة المستند ونوع المحتوى وظروف المسح الضوئي. إليك ما تظهره الاختبارات الواقعية.

المستندات المطبوعة (الخطوط الحديثة): 95-99%

المستندات المطبوعة الحديثة - الفواتير والعقود والتقارير المطبوعة على طابعات الليزر - هي أفضل سيناريو. يتم تمثيل الخطوط القياسية بشكل جيد في بيانات تدريب OCR، وتنتج المطبوعات النظيفة على ورق أبيض صورًا عالية التباين. بدقة 99٪ في صفحة تحتوي على 250 كلمة (حوالي 1500 حرف)، تتوقع حوالي 15 خطأ في الأحرف - معظمها غير مهم، مثل نقطة تم قراءتها بشكل خاطئ كفاصلة أو حرف "l" صغير تم الخلط بينه وبين "1".

المستندات المطبوعة بالآلة الكاتبة القديمة: 85-95%

تقدم الآلات الكاتبة الميكانيكية تحديات: محاذاة غير متسقة للأحرف، وكثافة حبر متفاوتة من تآكل الشريط، وعرض أحرف موحد يسبب ارتباكًا في التجزئة. ومع ذلك، فإن النص المطبوع بالآلة الكاتبة يتكون بشكل فردي ومحاذاة أفقيًا، لذا فإن معظم محركات OCR تتعامل معه بشكل جيد بما يكفي لأغراض البحث.

النص المكتوب بخط اليد: 60-80%

لا يزال خط اليد يمثل التحدي الأكبر لـ OCR. التباين هائل - ليس فقط بين الأشخاص ولكن داخل كتابة شخص واحد في صفحة واحدة. قد تصل الطباعة الكتلية الأنيقة إلى 80-85٪. قد ينخفض الخط المائل بالحبر على ورق مسطر إلى أقل من 60٪. تحقق دائمًا يدويًا من البيانات الهامة من المستندات المكتوبة بخط اليد.

المحتوى المختلط (نص + جداول): 90-97%

تضيف المستندات التي تجمع بين النص والبيانات الجدولية تحديًا في تحليل التخطيط. عادة ما تكون التعرف على الأحرف داخل الخلايا دقيقة، ولكن الأخطاء الهيكلية - حدود الخلايا المحددة بشكل خاطئ، والأعمدة المعينة بشكل غير صحيح، والخلايا متعددة الأسطر المقسمة إلى صفوف - تفسد علاقات البيانات وتكون أكثر أهمية من أخطاء الأحرف الفردية.

جدول ملخص الدقة

نوع المستند	دقة الأحرف	قابل للبحث؟	استخراج البيانات موثوق؟
مطبوع حديث (ليزر)	95-99%	ممتاز	نعم
مطبوع حديث (نافث للحبر)	93-98%	ممتاز	عادةً
مطبوع بالآلة الكاتبة القديمة	85-95%	جيد	مع التحقق
خط يد نظيف (كتل)	70-80%	جزئي	لا - تحقق من كل شيء
خط يد مائل	60-70%	ضعيف	لا
نص مختلط + جداول	90-97%	جيد	مع مراجعة هيكلية
ورق متدهور / تالف	70-90%	يختلف	مع تحقق مكثف

أفضل الممارسات للمسح الضوئي قبل OCR

أكبر عامل منفرد في دقة OCR ليس برنامج OCR - بل جودة المسح الضوئي. محرك OCR رائع يعمل على مسح ضوئي ضعيف سينتج نتائج أسوأ من محرك متوسط يعمل على مسح ضوئي رائع.

الدقة: 300 نقطة في البوصة كحد أدنى

DPI (نقاط في البوصة) تحدد مقدار التفاصيل التي يلتقطها الماسح الضوئي.

300 DPI: المعيار لمعظم المستندات. كافٍ للتعرف الموثوق على الخطوط القياسية بأحجام نص عادية (10-12 نقطة).
600 DPI: موصى به للنصوص الصغيرة (الحواشي السفلية، الطباعة الدقيقة) أو عندما تحتاج إلى أقصى دقة.
150 DPI أو أقل: غير موصى به. الأحرف صغيرة جدًا للتعرف الموثوق. تنخفض الدقة بشكل كبير.
1200 DPI: مبالغ فيه لـ OCR. لا تحسن في الدقة، وتصبح أحجام الملفات ضخمة.

وضع الألوان: التدرج الرمادي هو الأفضل عادةً

التدرج الرمادي: الأفضل لمعظم المستندات. يحافظ على تباين كافٍ للتحويل الثنائي الجيد مع الحفاظ على أحجام الملفات قابلة للإدارة.
أسود وأبيض: يمكن أن يعمل للمستندات النظيفة وعالية التباين ولكنه قد يدمر التفاصيل في المناطق الهامشية.
ملون: ضروري فقط إذا كان المستند يحتوي على معلومات مرمزة بالألوان تحتاج إلى الاحتفاظ بها. لأغراض OCR، لا يضيف اللون أي فائدة مقارنة بالتدرج الرمادي.

المحاذاة والاتجاه

حافظ على استقامة الصفحات. حتى ميل 2-3 درجات يمكن أن يقلل من دقة OCR بنسبة 5-10٪. استخدم أدلة الورق في الماسح الضوئي للحفاظ على محاذاة الصفحات.
امسح الصفحات ذات الوجه الواحد لأسفل. تجنب تسرب الحبر من الجانب الخلفي لإنشاء نص ظل يربك محرك OCR.
استخدم ماسحًا ضوئيًا مسطحًا للمستندات المربوطة. يمكن للماسحات الضوئية ذات التغذية الورقية أن تميل صفحات الكتب أو التقارير المربوطة. يحافظ المسح الضوئي المسطح على الصفحة مستوية ومحاذية بشكل صحيح.

صيانة الماسح الضوئي وإعداد المستند

نظف الزجاج قبل مسح الدُفعات - البقع تخلق عيوبًا في كل صفحة
تحقق من وجود خطوط عن طريق مسح صفحة فارغة - تشير الخطوط العمودية إلى بكرات متسخة
قم بإزالة الدبابيس ومشابك الورق لمنع التشويش والخدوش
قم بتسطيح الصفحات المجعدة - التجاعيد العميقة تخلق ظلالًا قد يقرأها محرك OCR بشكل خاطئ
قم بإصلاح التمزقات بشريط لاصق على الجانب الخلفي - الشريط اللاصق على الأمام يخلق انعكاسات

بعد التعرف الضوئي على الحروف (OCR): ماذا تفعل بعد ذلك

تشغيل OCR هو مجرد الخطوة الأولى. إليك كيفية تحقيق أقصى استفادة من مستنداتك القابلة للبحث حديثًا.

التحقق من النتائج

تحقق دائمًا من نتائج OCR، خاصة للمستندات الهامة:

ابحث عن مصطلحات رئيسية تعرف أنها تظهر في المستند. إذا وجدها Ctrl+F باستمرار، فإن OCR يعمل.
انسخ فقرة والصقها في محرر نصوص. اقرأ بحثًا عن أخطاء واضحة - كلمات مشوشة، أحرف مفقودة، استبدالات غير منطقية.
تحقق من الأرقام بعناية. المبالغ المالية والتواريخ وأرقام الهواتف وأرقام الحسابات هي بيانات عالية المخاطر. "6" تم قراءتها بشكل خاطئ كـ "8" في مبلغ معاملة يمثل مشكلة حقيقية. محركات OCR تربك أحيانًا الأرقام المتشابهة (0/O، 1/l، 5/S، 6/8).

تصحيح الأخطاء والتنظيم

إذا وجدت أخطاء في المستندات الهامة، يتيح لك Adobe Acrobat Pro تحرير طبقة النص مباشرة، أو يمكنك إعادة مسح الصفحات الإشكالية بدقة 600 DPI وإعادة تشغيل OCR. بالنسبة للأقسام المكتوبة بخط اليد، غالبًا ما يكون النسخ اليدوي أسرع من تصحيح OCR الضعيف.

بمجرد أن تصبح قابلة للبحث، تتكامل ملفات PDF الخاصة بك مع سير العمل الحالي. يقوم البحث على سطح المكتب (Windows Search، Spotlight على Mac) بفهرستها تلقائيًا. تتيح أنظمة إدارة المستندات (SharePoint، Google Drive، Dropbox) البحث النصي الكامل عبر مكتبتك. أسماء الملفات الجيدة بالإضافة إلى المحتوى القابل للبحث هو المزيج المثالي.

حالات الاستخدام الواقعية لـ OCR

رقمنة الأرشيفات الورقية

غالبًا ما تمتلك الشركات والمكاتب القانونية والوكالات الحكومية عقودًا من المستندات الورقية. مجرد المسح الضوئي إلى PDF ينشئ ملفات صور قابلة للبحث فقط حسب اسم الملف. إضافة OCR تحول الأرشيف السلبي إلى قاعدة بيانات قابلة للاستعلام. سير العمل النموذجي: المسح الضوئي بدقة 300 DPI بالتدرج الرمادي، تشغيل OCR، تطبيق اصطلاحات التسمية، وتحميلها إلى نظام إدارة المستندات.

جعل المستندات القانونية قابلة للبحث

يتعامل المحامون مع كميات هائلة من المستندات أثناء الكشف والمراجعة الدقيقة. قد يقدم محامي الخصم آلاف الصفحات من المستندات الممسوحة ضوئيًا. بدون OCR، يعني المراجعة قراءة كل صفحة يدويًا. مع OCR، يمكن للمحامين البحث عن المصطلحات الرئيسية والأسماء والتواريخ والمبالغ عبر المجموعة بأكملها - مما يجعل المراجعة ممكنة ضمن أطر زمنية واقعية.

الامتثال لإمكانية الوصول

بموجب قانون الأمريكيين ذوي الإعاقة (ADA) والقسم 508، يجب أن تكون المستندات الرقمية من الوكالات الحكومية والمؤسسات الممولة فيدراليًا متاحة. لا تستطيع قارئات الشاشة تفسير ملفات PDF التي تحتوي على صور فقط - فهي تحتاج إلى طبقة نصية. OCR هو الخطوة الأولى نحو الامتثال. قد يتبع ذلك عمل إضافي (هيكل العناوين، نص بديل، علامات ترتيب القراءة)، ولكن بدون طبقة النص، تكون إمكانية الوصول مستحيلة.

معالجة التأمين والمالية

تتلقى شركات التأمين والبنوك ملايين نماذج المطالبات الممسوحة ضوئيًا والسجلات الطبية والشيكات وطلبات القروض. يتيح OCR استخراج البيانات تلقائيًا - سحب أرقام السياسات ومبالغ المطالبات وتواريخ الخدمة وتفاصيل الحساب من المستندات الممسوحة ضوئيًا إلى أنظمة المعالجة.

الأرشيفات الأكاديمية والبحثية

تقوم الجامعات والمكتبات والأرشيفات برقمنة المستندات التاريخية والصحف والمخطوطات. يجعل OCR قرونًا من المعرفة قابلة للبحث. قامت مشاريع مثل Google Books و Internet Archive بإجراء OCR لمليارات الصفحات، مما يتيح البحث النصي الكامل عبر المجموعات التي تستغرق قراءتها يدويًا عمرًا.

أسئلة متكررة

هل يمكنني إجراء OCR لملفات PDF متعددة مرة واحدة (معالجة مجمعة)؟

نعم. يدعم PDFSub معالجة المستندات متعددة الصفحات في عملية واحدة. بالنسبة لمجموعات العمل الكبيرة - مئات أو آلاف الملفات - ستقوم بمعالجتها بالتتابع من خلال الأداة. يوفر Adobe Acrobat Pro أيضًا OCR مجمعًا من خلال ميزة Action Wizard الخاصة به، والتي يمكنها معالجة مجلدات كاملة من ملفات PDF تلقائيًا.

هل يغير OCR شكل ملف PDF الخاص بي؟

لا. يضيف OCR المناسب طبقة نصية غير مرئية خلف صورة الصفحة المرئية. المظهر المرئي لملف PDF الممسوح ضوئيًا دون تغيير - نفس الصفحات، نفس التخطيط، نفس الدقة. طبقة النص "مرئية" فقط لوظائف البحث وتحديد النص والنسخ واللصق وقارئات الشاشة.

ماذا يحدث إذا قمت بتشغيل OCR على ملف PDF يحتوي بالفعل على نص قابل للبحث؟

تكتشف معظم أدوات OCR طبقات النص الموجودة وتتخطى تلك الصفحات أو تمنحك خيار إعادة معالجتها. تشغيل OCR على ملف PDF قابل للبحث بالفعل غير ضار بشكل عام ولكنه غير ضروري - لن يحسن طبقة النص الموجودة وقد يزيد حجم الملف قليلاً بسبب البيانات المتكررة.

هل سيزداد حجم ملفي بعد OCR؟

بشكل طفيف. توقع زيادة بنسبة 5-15٪ لمستند ممسوح ضوئيًا نموذجي. طبقة النص نفسها صغيرة (أحرف وبيانات موضع)، والزيادة ضئيلة مقارنة ببيانات الصورة التي تشكل الجزء الأكبر من ملف PDF الممسوح ضوئيًا.

هل يمكن لـ OCR التعامل مع ملفات PDF التي هي مزيج من الصفحات الممسوحة ضوئيًا والرقمية؟

نعم. تعالج أدوات OCR الجيدة كل صفحة بشكل مستقل. يتم اكتشاف الصفحات التي تحتوي بالفعل على طبقة نصية ويمكن تخطيها. يتم معالجة الصفحات التي تحتوي على صور فقط. النتيجة هي ملف PDF قابل للبحث بالكامل بغض النظر عن كيفية تجميع الملف الأصلي.

ما هي اللغات التي يدعمها OCR؟

يختلف دعم اللغة حسب الأداة. يدعم OCR الخاص بـ PDFSub أكثر من 130 لغة، بما في ذلك نصوص لاتينية (الإنجليزية، الإسبانية، الفرنسية، الألمانية)، CJK (الصينية، اليابانية، الكورية)، السيريلية (الروسية، الأوكرانية)، نصوص عربية (العربية، الفارسية، الأردية)، ديوناغارية (الهندية، الماراثية)، والعديد من اللغات الأخرى.

هل يمكن لـ OCR قراءة خط اليد؟

جزئيًا. تصل الطباعة الكتلية الأنيقة إلى دقة 70-80٪. الخط المائل أصعب بكثير (60-70٪ أو أقل). للبيانات الهامة من المستندات المكتوبة بخط اليد، تحقق دائمًا من النتائج يدويًا.

هل OCR هو نفس استخراج نص PDF؟

لا. يقوم OCR بتحويل صور النص إلى أحرف فعلية - وهو أمر ضروري عندما لا توجد بيانات نصية، فقط بكسلات. يستخرج استخراج نص PDF النص الموجود بالفعل في تدفق محتوى PDF رقمي - وهو أمر ضروري عندما يكون النص محاصرًا في تنسيق لا يمكنك العمل معه بسهولة. إذا كان ملف PDF الخاص بك رقميًا منذ المنشأ، فأنت بحاجة إلى الاستخراج. إذا تم مسحه ضوئيًا، فأنت بحاجة إلى OCR أولاً.

هل يعمل OCR على الصور الملتقطة بكاميرا الهاتف؟

نعم، ولكن الدقة تعتمد على جودة الصورة. للحصول على أفضل النتائج: أمسك الهاتف بشكل موازٍ للمستند، وتأكد من الإضاءة المتساوية (بدون ظلال)، واملأ الإطار، وثبّت الهاتف، واستخدم وضع مسح المستندات في هاتفك إذا كان متاحًا. تنتج صور الهاتف عادةً دقة 85-95٪ للنص المطبوع النظيف - أقل من المسح الضوئي المسطح ولكنه غالبًا ما يكون جيدًا بما يكفي للبحث.

هل يمكنني تعديل النص بعد OCR؟

طبقة نص OCR غير مرئية وموضوعة فوق صورة المسح. يمكنك نسخ النص ولصقه في أي محرر، أو استخدام Adobe Acrobat Pro لتحرير طبقة النص مباشرة، أو التصدير إلى Word أو نص عادي للتعديل. لتغيير المحتوى المرئي لمستند ممسوح ضوئيًا، ستحتاج إلى إعادة المسح أو استخدام محرر PDF لإضافة تعليقات توضيحية فوق الصورة.

البدء مع OCR

إذا كان لديك ملفات PDF ممسوحة ضوئيًا تحتاج إلى أن تكون قابلة للبحث، فإن أسرع مسار مباشر:

اختبر ملفات PDF الخاصة بك - استخدم اختبار Ctrl+F للتأكد من أنها تحتاج إلى OCR
جرب أداة PDFSub للتعرف الضوئي على الحروف (OCR) - قم بتحميل ملف PDF ممسوح ضوئيًا على pdfsub.com/tools/ocr وشاهد النتائج
تحقق من المخرجات - تحقق من بعض الصفحات للتأكد من أن الدقة تلبي احتياجاتك
قم بمعالجة مستنداتك المتبقية - بمجرد أن تكون واثقًا من النتائج، اعمل على معالجة مخزونك المتراكم

يقدم PDFSub تجربة مجانية لمدة 7 أيام تتضمن الوصول إلى أداة OCR وجميع أدوات PDF الأخرى على المنصة. قم بتحميل مستند ممسوح ضوئيًا وشاهد الفرق الذي يحدثه النص القابل للبحث. يمكنك الإلغاء في أي وقت.

How to OCR a scanned PDF - converting image-only pages into searchable, selectable text

كيف تعرف ما إذا كان ملف PDF الخاص بك يحتاج إلى OCR

اختبار الثواني الخمس

افتح ملف PDF الخاص بك في أي عارض (Adobe Reader، Preview، Chrome، Edge)
اضغط على Ctrl+F (Windows/Linux) أو Cmd+F (Mac)
اكتب كلمة تراها على الصفحة
إذا قام العارض بتمييز الكلمة: يحتوي ملف PDF الخاص بك بالفعل على نص قابل للبحث. لا حاجة لـ OCR.
إذا لم يتم العثور على شيء: ملف PDF الخاص بك عبارة عن صورة فقط. يحتاج إلى OCR.

اختبار التحديد

حاول النقر والسحب لتحديد النص على الصفحة:

إذا كان بإمكانك تحديد كلمات فردية وتمييزها باللون الأزرق: يحتوي ملف PDF على طبقة نصية.
إذا تم تحديد الصفحة بأكملها كوحدة واحدة (مثل تحديد صورة): ملف PDF عبارة عن مسح ضوئي بدون طبقة نصية.
إذا كان بإمكانك تحديد بعض النصوص ولكن ليس نصوصًا أخرى: يحتوي ملف PDF على OCR جزئي أو محتوى مختلط - بعض الصفحات رقمية، والبعض الآخر ممسوح ضوئيًا.

أنواع PDF الشائعة التي تحتاج إلى OCR

نوع المستند	هل يحتاج عادةً إلى OCR؟	السبب
المستندات الورقية الممسوحة ضوئيًا	نعم	صورة خالصة، لا توجد بيانات نصية
المستندات المرسلة بالفاكس والمحفوظة كملف PDF	نعم	خرج الفاكس عبارة عن صورة نقطية
صور المستندات (كاميرا الهاتف)	نعم	التقاط الكاميرا = صورة
ملفات PDF من "المسح إلى البريد الإلكتروني" لآلة التصوير	نعم	معظم آلات التصوير تنتج ملفات PDF صورية
ملفات PDF المصدرة من Word/Excel	لا	رقمية المنشأ، تتضمن طبقة نصية
ملفات PDF من متصفحات الويب (طباعة إلى PDF)	لا	يتم الاحتفاظ بالنص
النماذج الحكومية التي تم تنزيلها عبر الإنترنت	عادة لا	معظمها رقمية المنشأ
الإيصالات المرسلة عبر البريد الإلكتروني كملفات PDF مرفقة	عادة لا	تم إنشاؤها بواسطة أنظمة نقاط البيع مع نص

انتقل إلى أداة OCR - انتقل إلى pdfsub.com/tools/ocr
قم بتحميل ملف PDF الممسوح ضوئيًا - اسحب وأفلت ملفك أو انقر للاستعراض. لا حاجة لتقسيم المستندات الكبيرة - يتم التعامل مع ملفات PDF متعددة الصفحات تلقائيًا.
تقوم أداة OCR بمعالجة المستند الخاص بك - تقوم الأداة بتحليل كل صفحة، والتعرف على النص، وإنشاء طبقة النص غير المرئية. يعتمد وقت المعالجة على عدد الصفحات وتعقيدها، ولكن معظم المستندات تكتمل في ثوانٍ.
قم بتنزيل ملف PDF القابل للبحث - يبدو ملف الإخراج مطابقًا للمسح الأصلي الخاص بك ولكنه يدعم الآن البحث عن النص وتحديد النص والنسخ واللصق.

افتح ملف PDF الممسوح ضوئيًا في Adobe Acrobat Pro
انتقل إلى الأدوات وحدد المسح الضوئي و OCR
انقر فوق التعرف على النص واختر في هذا الملف أو في ملفات متعددة
ضمن الإعدادات، حدد صورة قابلة للبحث (تضيف طبقة نصية غير مرئية - موصى بها)
انقر فوق التعرف على النص لبدء المعالجة
احفظ الملف

قم بتحميل ملف PDF الممسوح ضوئيًا إلى Google Drive
انقر بزر الماوس الأيمن فوق الملف وحدد فتح باستخدام ثم Google Docs
يقوم Google بمعالجة ملف PDF وإنشاء مستند Google بالنص المستخرج
النص الآن قابل للبحث والتحديد والتعديل

نوع المستند	دقة الأحرف	قابل للبحث؟	استخراج البيانات موثوق؟
مطبوع حديث (ليزر)	95-99%	ممتاز	نعم
مطبوع حديث (نافث للحبر)	93-98%	ممتاز	عادةً
مطبوع بالآلة الكاتبة القديمة	85-95%	جيد	مع التحقق
خط يد نظيف (كتل)	70-80%	جزئي	لا - تحقق من كل شيء
خط يد مائل	60-70%	ضعيف	لا
نص مختلط + جداول	90-97%	جيد	مع مراجعة هيكلية
ورق متدهور / تالف	70-90%	يختلف	مع تحقق مكثف

أفضل الممارسات للمسح الضوئي قبل OCR

الدقة: 300 نقطة في البوصة كحد أدنى

DPI (نقاط في البوصة) تحدد مقدار التفاصيل التي يلتقطها الماسح الضوئي.

300 DPI: المعيار لمعظم المستندات. كافٍ للتعرف الموثوق على الخطوط القياسية بأحجام نص عادية (10-12 نقطة).
600 DPI: موصى به للنصوص الصغيرة (الحواشي السفلية، الطباعة الدقيقة) أو عندما تحتاج إلى أقصى دقة.
150 DPI أو أقل: غير موصى به. الأحرف صغيرة جدًا للتعرف الموثوق. تنخفض الدقة بشكل كبير.
1200 DPI: مبالغ فيه لـ OCR. لا تحسن في الدقة، وتصبح أحجام الملفات ضخمة.

وضع الألوان: التدرج الرمادي هو الأفضل عادةً

التدرج الرمادي: الأفضل لمعظم المستندات. يحافظ على تباين كافٍ للتحويل الثنائي الجيد مع الحفاظ على أحجام الملفات قابلة للإدارة.
أسود وأبيض: يمكن أن يعمل للمستندات النظيفة وعالية التباين ولكنه قد يدمر التفاصيل في المناطق الهامشية.
ملون: ضروري فقط إذا كان المستند يحتوي على معلومات مرمزة بالألوان تحتاج إلى الاحتفاظ بها. لأغراض OCR، لا يضيف اللون أي فائدة مقارنة بالتدرج الرمادي.

المحاذاة والاتجاه

حافظ على استقامة الصفحات. حتى ميل 2-3 درجات يمكن أن يقلل من دقة OCR بنسبة 5-10٪. استخدم أدلة الورق في الماسح الضوئي للحفاظ على محاذاة الصفحات.
امسح الصفحات ذات الوجه الواحد لأسفل. تجنب تسرب الحبر من الجانب الخلفي لإنشاء نص ظل يربك محرك OCR.
استخدم ماسحًا ضوئيًا مسطحًا للمستندات المربوطة. يمكن للماسحات الضوئية ذات التغذية الورقية أن تميل صفحات الكتب أو التقارير المربوطة. يحافظ المسح الضوئي المسطح على الصفحة مستوية ومحاذية بشكل صحيح.

صيانة الماسح الضوئي وإعداد المستند

نظف الزجاج قبل مسح الدُفعات - البقع تخلق عيوبًا في كل صفحة
تحقق من وجود خطوط عن طريق مسح صفحة فارغة - تشير الخطوط العمودية إلى بكرات متسخة
قم بإزالة الدبابيس ومشابك الورق لمنع التشويش والخدوش
قم بتسطيح الصفحات المجعدة - التجاعيد العميقة تخلق ظلالًا قد يقرأها محرك OCR بشكل خاطئ
قم بإصلاح التمزقات بشريط لاصق على الجانب الخلفي - الشريط اللاصق على الأمام يخلق انعكاسات

بعد التعرف الضوئي على الحروف (OCR): ماذا تفعل بعد ذلك

تشغيل OCR هو مجرد الخطوة الأولى. إليك كيفية تحقيق أقصى استفادة من مستنداتك القابلة للبحث حديثًا.

التحقق من النتائج

تحقق دائمًا من نتائج OCR، خاصة للمستندات الهامة:

ابحث عن مصطلحات رئيسية تعرف أنها تظهر في المستند. إذا وجدها Ctrl+F باستمرار، فإن OCR يعمل.
انسخ فقرة والصقها في محرر نصوص. اقرأ بحثًا عن أخطاء واضحة - كلمات مشوشة، أحرف مفقودة، استبدالات غير منطقية.
تحقق من الأرقام بعناية. المبالغ المالية والتواريخ وأرقام الهواتف وأرقام الحسابات هي بيانات عالية المخاطر. "6" تم قراءتها بشكل خاطئ كـ "8" في مبلغ معاملة يمثل مشكلة حقيقية. محركات OCR تربك أحيانًا الأرقام المتشابهة (0/O، 1/l، 5/S، 6/8).

اختبر ملفات PDF الخاصة بك - استخدم اختبار Ctrl+F للتأكد من أنها تحتاج إلى OCR
جرب أداة PDFSub للتعرف الضوئي على الحروف (OCR) - قم بتحميل ملف PDF ممسوح ضوئيًا على pdfsub.com/tools/ocr وشاهد النتائج
تحقق من المخرجات - تحقق من بعض الصفحات للتأكد من أن الدقة تلبي احتياجاتك
قم بمعالجة مستنداتك المتبقية - بمجرد أن تكون واثقًا من النتائج، اعمل على معالجة مخزونك المتراكم