چگونه یک PDF اسکن شده را OCR کنیم (جستجوپذیر کردن فایلها)؟ | PDFSub فارسی
بهترین شیوهها برای اسکن قبل از OCR
مهمترین عامل در دقت OCR، نرمافزار OCR نیست - بلکه کیفیت اسکن است. یک موتور OCR عالی که روی یک اسکن ضعیف کار میکند، نتایج بدتری نسبت به یک موتور متوسط که روی یک اسکن عالی کار میکند، تولید خواهد کرد.
وضوح: حداقل 300 DPI
DPI (نقطه در اینچ) تعیین میکند که اسکنر چه مقدار جزئیات را ثبت میکند.
- 300 DPI: استاندارد برای اکثر اسناد. برای تشخیص قابل اعتماد فونتهای استاندارد در اندازههای متن معمولی (10-12pt) کافی است.
- 600 DPI: برای متنهای کوچک (پاورقیها، متنهای ریز) یا زمانی که به حداکثر دقت نیاز دارید توصیه میشود.
- 150 DPI یا کمتر: توصیه نمیشود. کاراکترها برای تشخیص قابل اعتماد خیلی کوچک هستند. دقت به طور قابل توجهی کاهش مییابد.
- 1200 DPI: برای OCR بیش از حد لازم است. هیچ بهبود دقتی ندارد و حجم فایلها بسیار زیاد میشود.
حالت رنگ: معمولاً خاکستری بهترین است
- خاکستری: برای اکثر اسناد بهترین است. کنتراست کافی را برای باینریسازی خوب حفظ میکند و در عین حال حجم فایلها را قابل مدیریت نگه میدارد.
- سیاه و سفید: میتواند برای اسناد تمیز و با کنتراست بالا کار کند اما ممکن است جزئیات را در نواحی حاشیهای از بین ببرد.
- رنگی: فقط در صورتی ضروری است که سند حاوی اطلاعات کدگذاری شده با رنگ باشد که نیاز به حفظ آن دارید. برای اهداف OCR، رنگ هیچ مزیتی نسبت به خاکستری ندارد.
تراز و جهتگیری
- صفحات را صاف نگه دارید. حتی 2-3 درجه انحراف میتواند دقت OCR را 5-10% کاهش دهد. از راهنماهای کاغذ اسکنر برای تراز نگه داشتن صفحات استفاده کنید.
- صفحات یکطرفه را رو به پایین اسکن کنید. از نشت متن از پشت که متن سایهدار ایجاد میکند و موتور OCR را گیج میکند، خودداری کنید.
- از اسکنر تخت برای اسناد صحافی شده استفاده کنید. اسکنرهای تغذیه کننده ورق میتوانند صفحات کتابها یا گزارشهای صحافی شده را کج کنند. اسکن تخت صفحه را صاف و تراز نگه میدارد.
نگهداری اسکنر و آمادهسازی سند
- قبل از اسکن دستهای، شیشه را تمیز کنید - لکهها روی هر صفحه مصنوع ایجاد میکنند
- برای بررسی خطوط، یک صفحه خالی اسکن کنید - خطوط عمودی نشان دهنده غلتکهای کثیف است
- منگنهها و گیرههای کاغذ را بردارید تا از گیر کردن و خراش جلوگیری شود
- صفحات چینخورده را صاف کنید - چینهای عمیق سایههایی ایجاد میکنند که موتور OCR ممکن است اشتباه بخواند
- پارگیها را با نوار در سمت پشتی تعمیر کنید - نوار در جلو باعث ایجاد بازتاب میشود
پس از OCR: گامهای بعدی
اجرای OCR تنها اولین قدم است. در اینجا نحوه استفاده حداکثری از اسناد قابل جستجوی جدیدتان آورده شده است.
نتایج را تأیید کنید
همیشه خروجی OCR را بررسی کنید، به خصوص برای اسناد حیاتی:
- عبارات کلیدی را که میدانید در سند وجود دارند جستجو کنید. اگر Ctrl+F آنها را به طور مداوم پیدا میکند، OCR کار میکند.
- یک پاراگراف را کپی کرده و در یک ویرایشگر متن پیست کنید. برای یافتن خطاهای آشکار - کلمات نامفهوم، کاراکترهای گمشده، جایگزینیهای بیمعنی - آن را بخوانید.
- اعداد را با دقت بررسی کنید. مبالغ مالی، تاریخها، شماره تلفنها و شماره حسابها دادههای پرخطر هستند. خوانده شدن اشتباه "6" به عنوان "8" در مبلغ تراکنش یک مشکل واقعی است. موتورهای OCR گاهی اوقات ارقام مشابه را اشتباه میگیرند (0/O، 1/l، 5/S، 6/8).
خطاها را تصحیح و سازماندهی کنید
اگر در اسناد حیاتی خطا پیدا کردید، Adobe Acrobat Pro به شما امکان میدهد لایه متن را مستقیماً ویرایش کنید، یا میتوانید صفحات مشکلدار را با 600 DPI مجدداً اسکن کرده و OCR را دوباره اجرا کنید. برای بخشهای دستنویس، رونویسی دستی اغلب سریعتر از تصحیح OCR ضعیف است.
پس از قابل جستجو شدن، PDFهای شما در گردش کار موجود ادغام میشوند. جستجوی دسکتاپ (Windows Search، Spotlight در Mac) به طور خودکار آنها را نمایهسازی میکند. سیستمهای مدیریت اسناد (SharePoint، Google Drive، Dropbox) جستجوی تمام متن را در کتابخانه شما امکانپذیر میسازند. نام فایلهای خوب به علاوه محتوای قابل جستجو، ترکیب ایدهآل است.