ווי אַזוי צו מאַכן אַ סקאַנירטן PDF זוכבאַר (OCR)?
בעסטע פּראַקטיצן פֿאַר סקאַנינג איידער OCR
דער איינציקער גרעסטער פאַקטאָר אין OCR אַקיוראַסי איז נישט די OCR סאָפֿטוואַרע — עס איז די קוואַליטעט פֿון דער סקאַן. אַ גוטע OCR מאָטאָר וואָס אַרבעט אויף אַ שלעכטער סקאַן וועט פּראָדוצירן ערגער רעזולטאַטן ווי אַ מיטלמעסיקער מאָטאָר וואָס אַרבעט אויף אַ גוטער סקאַן.
רעזאָלוציע: 300 DPI מינימום
DPI (דאַטן פּער אינטש) באַשטימט ווי פיל דעטאַל דער סקאַנער כאַפּט.
- 300 DPI: דער סטאַנדאַרט פֿאַר די מערהייט דאָקומענטן. גענוג פֿאַר פאַרלאָזלעכע דערקענונג פֿון נאָרמאַל פֿאָנטן בײַ נאָרמאַל טעקסט גרייס (10-12pt).
- 600 DPI: רעקאָמענדירט פֿאַר קליין טעקסט (פֿוטנאָטן, פֿײַנע דרוק) אָדער ווען איר דאַרפֿט מאַקסימאַל אַקיוראַסי.
- 150 DPI אָדער נידעריקער: נישט רעקאָמענדירט. אותיות זענען צו קליין פֿאַר פאַרלאָזלעכע דערקענונג. די אַקיוראַסי פֿאַלט באַדײַטנדיק.
- 1200 DPI: איבערגענוג פֿאַר OCR. קיין פֿאַרבעסערונג אין אַקיוראַסי, און די טעקע־גרייסן ווערן ריזיק.
קאָליר מאָדע: גרויסע קאָלירן איז געוויינלעך בעסטע
- גרויסע קאָלירן: בעסטע פֿאַר די מערהייט דאָקומענטן. באַהיט גענוג קאָנטראַסט פֿאַר גוטע בינאַריזאַציע, בשעת האַלטן די טעקע־גרייסן באַדאַפּט.
- שוואַרץ און ווײַס: קען אַרבעטן פֿאַר ריינע, הויך־קאָנטראַסט דאָקומענטן, אָבער קען צעשטערן דעטאַל אין גרענעץ־געגנטן.
- קאָליר: נאָר נויטיק אויב דאָס דאָקומענט כּולט קאָליר־קאָדירטע אינפֿאָרמאַציע וואָס איר דאַרפֿט באַהיטן. פֿאַר OCR צוועקן, קאָליר גיט קיין פֿאַרבעסערונג איבער גרויסע קאָלירן.
אויסליינינג און אָריענטאַציע
- האַלט די בלעטער גלײַך. אַפֿילו 2-3 גראַדן פון שײַט קען רעדוצירן OCR אַקיוראַסי מיט 5-10%. ניצט די סקאַנערס פּאַפּיר־גיידס צו האַלטן די בלעטער אויסגעלײַנט.
- סורקירט איינזײַטיקע בלעטער פנים־אַראָפּ. אויסמײַדט דאָס דורכדרינגען פֿון דער צוריק־זײַט צו שאָפֿן שאָטן־טעקסט וואָס פֿאַרצווייפֿלט דעם OCR מאָטאָר.
- ניצט אַ פֿלאַטבעד סקאַנער פֿאַר געבונדענע דאָקומענטן. בלאַט־פֿיד סקאַנערס קענען שיפֿטן בלעטער פֿון ביכער אָדער געבונדענע באַריכטן. פֿלאַטבעד סקאַנינג האַלט דאָס בלאַט גלאַט און ריכטיק אויסגעלײַנט.
סקאַנער אונטערהאַלטונג און דאָקומענט צוגרייטונג
- רייניקט דאָס גלאָז איידער סקאַנינג באַטשעס — פֿלעקן שאָפֿן אַרטיפֿאַקטן אויף יעדן בלאַט
- טשעקירט פֿאַר סטריקס דורך סקאַנינג אַ ליידיקן בלאַט — ווערטיקאַלע שורות צייגן אויף פֿאַרגליטערטע ראָלערס
- אַראָפּנעמט קלאַמערס און פּאַפּיר־קליפּס צו פֿאַרהיטן דזשאַמז און קראַצן
- גלאַט מאַכט געקרימטע בלעטער — טיפֿע קרימפּונגען שאָפֿן שאָטנס וואָס דער OCR מאָטאָר קען פֿאַלש לייענען
נאָך OCR: וואָס צו טאָן ווײַטער
OCR דורכפירן איז נאָר דער ערשטער שריט. אַזוי מאַכט איר דאָס מערסטע פֿון אייערע ניי־זוכעוודיקע דאָקומענטן.
באַשטעטיקן די רעזולטאַטן
אימער קוקט אויף OCR רעזולטאַטן, ספּעציעל פֿאַר קריטישע דאָקומענטן:
- זוכן פֿאַר שליסל־ווערטער וואָס איר ווייסט זענען אין דעם דאָקומענט. אויב Ctrl+F געפֿינט זיי קאָנסיסטענט, אַרבעט די OCR.
- קאָפּירט אַ פּאַראַגראַף און פּאַסט עס אין אַ טעקסט רעדאַקטאָר. לייענט דורך פֿאַר אָפֿענע טעותים — פֿאַרגליטערטע ווערטער, פֿעלנדיקע אותיות, ניט־לאַגישע פֿאַרבײַטונגען.
- קוקט קערפֿול פֿאַר נומערן. פינאַנציעלע סומעס, דאַטעס, טעלעפֿאָן־נומערן, און חשבון־נומערן זענען הויך־געפֿערלעכע דאַטן. אַ "6" וואָס ווערט פֿאַלש געלייענט ווי "8" אין אַ טראַנזאַקציע־סומע איז אַן עכט פּראָבלעם. OCR מאָטאָרן פֿאַרצווייפֿלען מאָל ענלעכע ציפֿערן (0/O, 1/l, 5/S, 6/8).
פֿאַרריכטן טעותים און אָרגאַניזירן
אויב איר געפֿינט טעותים אין קריטישע דאָקומענטן, אַדאָבי אַקראָבאַט פּראָ לאָזט אייך רעדאַקטירן דעם טעקסט־שיכט דירעקט, אָדער איר קענט רעסורקירן פּראָבלעמאַטישע בלעטער בײַ 600 DPI און רעאָקראַן. פֿאַר געשריבענע טיילן, מאַנועלע טראַנסקריפּציע איז אָפֿט שנעלער ווי פֿאַרריכטן שלעכטע OCR.
אַמאָל זוכעוודיק, אייערע פּדפֿס אינטעגרירן זיך אין עקזיסטירנדיקע ווערקפֿלאָסן. דעסקטאָפּ זוך (Windows Search, Spotlight אויף Mac) אויטאָמאַטיש אינדעקסירט זיי. דאָקומענט פֿאַרוואַלטונג סיסטעמען (SharePoint, Google Drive, Dropbox) דערמעגלעכן פֿול־טעקסט זוך איבער אייער ביבליאָטעק. גוטע טעקע־נעמען פּלוס זוכעוודיקער אינהאַלט איז די אידעאַלע קאָמבינאַציע.