چگونه یک PDF اسکن شده را OCR کنیم (جستجوپذیر کردن فایل‌ها)؟ | PDFSub فارسی

بهترین شیوه‌ها برای اسکن قبل از OCR

مهم‌ترین عامل در دقت OCR، نرم‌افزار OCR نیست - بلکه کیفیت اسکن است. یک موتور OCR عالی که روی یک اسکن ضعیف کار می‌کند، نتایج بدتری نسبت به یک موتور متوسط که روی یک اسکن عالی کار می‌کند، تولید خواهد کرد.

وضوح: حداقل 300 DPI

DPI (نقطه در اینچ) تعیین می‌کند که اسکنر چه مقدار جزئیات را ثبت می‌کند.

300 DPI: استاندارد برای اکثر اسناد. برای تشخیص قابل اعتماد فونت‌های استاندارد در اندازه‌های متن معمولی (10-12pt) کافی است.
600 DPI: برای متن‌های کوچک (پاورقی‌ها، متن‌های ریز) یا زمانی که به حداکثر دقت نیاز دارید توصیه می‌شود.
150 DPI یا کمتر: توصیه نمی‌شود. کاراکترها برای تشخیص قابل اعتماد خیلی کوچک هستند. دقت به طور قابل توجهی کاهش می‌یابد.
1200 DPI: برای OCR بیش از حد لازم است. هیچ بهبود دقتی ندارد و حجم فایل‌ها بسیار زیاد می‌شود.

حالت رنگ: معمولاً خاکستری بهترین است

خاکستری: برای اکثر اسناد بهترین است. کنتراست کافی را برای باینری‌سازی خوب حفظ می‌کند و در عین حال حجم فایل‌ها را قابل مدیریت نگه می‌دارد.
سیاه و سفید: می‌تواند برای اسناد تمیز و با کنتراست بالا کار کند اما ممکن است جزئیات را در نواحی حاشیه‌ای از بین ببرد.
رنگی: فقط در صورتی ضروری است که سند حاوی اطلاعات کدگذاری شده با رنگ باشد که نیاز به حفظ آن دارید. برای اهداف OCR، رنگ هیچ مزیتی نسبت به خاکستری ندارد.

تراز و جهت‌گیری

صفحات را صاف نگه دارید. حتی 2-3 درجه انحراف می‌تواند دقت OCR را 5-10% کاهش دهد. از راهنماهای کاغذ اسکنر برای تراز نگه داشتن صفحات استفاده کنید.
صفحات یک‌طرفه را رو به پایین اسکن کنید. از نشت متن از پشت که متن سایه‌دار ایجاد می‌کند و موتور OCR را گیج می‌کند، خودداری کنید.
از اسکنر تخت برای اسناد صحافی شده استفاده کنید. اسکنرهای تغذیه کننده ورق می‌توانند صفحات کتاب‌ها یا گزارش‌های صحافی شده را کج کنند. اسکن تخت صفحه را صاف و تراز نگه می‌دارد.

نگهداری اسکنر و آماده‌سازی سند

قبل از اسکن دسته‌ای، شیشه را تمیز کنید - لکه‌ها روی هر صفحه مصنوع ایجاد می‌کنند
برای بررسی خطوط، یک صفحه خالی اسکن کنید - خطوط عمودی نشان دهنده غلتک‌های کثیف است
منگنه‌ها و گیره‌های کاغذ را بردارید تا از گیر کردن و خراش جلوگیری شود
صفحات چین‌خورده را صاف کنید - چین‌های عمیق سایه‌هایی ایجاد می‌کنند که موتور OCR ممکن است اشتباه بخواند
پارگی‌ها را با نوار در سمت پشتی تعمیر کنید - نوار در جلو باعث ایجاد بازتاب می‌شود

پس از OCR: گام‌های بعدی

اجرای OCR تنها اولین قدم است. در اینجا نحوه استفاده حداکثری از اسناد قابل جستجوی جدیدتان آورده شده است.

نتایج را تأیید کنید

همیشه خروجی OCR را بررسی کنید، به خصوص برای اسناد حیاتی:

عبارات کلیدی را که می‌دانید در سند وجود دارند جستجو کنید. اگر Ctrl+F آنها را به طور مداوم پیدا می‌کند، OCR کار می‌کند.
یک پاراگراف را کپی کرده و در یک ویرایشگر متن پیست کنید. برای یافتن خطاهای آشکار - کلمات نامفهوم، کاراکترهای گمشده، جایگزینی‌های بی‌معنی - آن را بخوانید.
اعداد را با دقت بررسی کنید. مبالغ مالی، تاریخ‌ها، شماره تلفن‌ها و شماره حساب‌ها داده‌های پرخطر هستند. خوانده شدن اشتباه "6" به عنوان "8" در مبلغ تراکنش یک مشکل واقعی است. موتورهای OCR گاهی اوقات ارقام مشابه را اشتباه می‌گیرند (0/O، 1/l، 5/S، 6/8).

خطاها را تصحیح و سازماندهی کنید

اگر در اسناد حیاتی خطا پیدا کردید، Adobe Acrobat Pro به شما امکان می‌دهد لایه متن را مستقیماً ویرایش کنید، یا می‌توانید صفحات مشکل‌دار را با 600 DPI مجدداً اسکن کرده و OCR را دوباره اجرا کنید. برای بخش‌های دست‌نویس، رونویسی دستی اغلب سریع‌تر از تصحیح OCR ضعیف است.

پس از قابل جستجو شدن، PDFهای شما در گردش کار موجود ادغام می‌شوند. جستجوی دسکتاپ (Windows Search، Spotlight در Mac) به طور خودکار آنها را نمایه‌سازی می‌کند. سیستم‌های مدیریت اسناد (SharePoint، Google Drive، Dropbox) جستجوی تمام متن را در کتابخانه شما امکان‌پذیر می‌سازند. نام فایل‌های خوب به علاوه محتوای قابل جستجو، ترکیب ایده‌آل است.