כיצד לבצע OCR לקובץ PDF סרוק (להפוך אותו לניתן לחיפוש)
קבצי PDF סרוקים הם פשוט תמונות של דפים — אי אפשר לחפש, להעתיק או לערוך את הטקסט. OCR פותר זאת על ידי הוספת שכבת טקסט בלתי נראית. כך עושים זאת בשלוש שיטות שונות.
סרקתם ערימת מסמכים ל-PDF. הם נראים בסדר על המסך - ברורים, קריאים, מקצועיים. אבל נסו לחפש מילה, להעתיק פסקה, או לבחור מספר טלפון, ושום דבר לא קורה. הסמן שלכם פשוט גורר מלבן כחול על הדף כאילו אתם בוחרים תמונה. כי זה בדיוק מה שאתם עושים.
קבצי PDF סרוקים הם תצלומים. כל דף הוא תמונה בודדת - רשת שטוחה של פיקסלים ללא מושג של אותיות, מילים או משפטים. המחשב שלכם רואה בדיוק כמויות טקסט זהות בקובץ PDF סרוק כמו שהוא רואה בתמונת JPEG של שקיעה: אפס.
OCR (זיהוי תווים אופטי) פותר זאת. הוא מנתח את התמונה של כל דף, מזהה את התווים, ומוסיף שכבת טקסט בלתי נראית מעל הסריקה המקורית. המראה החזותי נשאר זהה, אך כעת ניתן לחפש, להעתיק, לבחור טקסט, ולאפשר לקוראי מסך לגשת אליו.
מדריך זה מכסה מהו OCR, כיצד הוא פועל, שלוש שיטות לביצוע OCR לקבצי PDF סרוקים, וכיצד להשיג את התוצאות הטובות ביותר.

כיצד לדעת אם קובץ ה-PDF שלכם זקוק ל-OCR
לפני שמשקיעים זמן ב-OCR, בדקו אם קובץ ה-PDF שלכם באמת זקוק לו. קבצי PDF רבים הם "דיגיטליים מלידה" - נוצרו ממסמכי Word, גיליונות אלקטרוניים של Excel, או דפי אינטרנט - וכבר מכילים שכבת טקסט אמיתית.
מבחן 5 השניות
- פתחו את קובץ ה-PDF שלכם בכל קורא (Adobe Reader, Preview, Chrome, Edge)
- לחצו על Ctrl+F (Windows/Linux) או Cmd+F (Mac)
- הקלידו מילה שאתם רואים על הדף
- אם הקורא מדגיש את המילה: לקובץ ה-PDF שלכם כבר יש טקסט שניתן לחיפוש. אין צורך ב-OCR.
- אם לא נמצא דבר: קובץ ה-PDF שלכם מורכב מתמונות בלבד. הוא זקוק ל-OCR.
מבחן הבחירה
נסו ללחוץ ולגרור כדי לבחור טקסט על הדף:
- אם אתם יכולים לבחור מילים בודדות והן מודגשות בכחול: לקובץ ה-PDF יש שכבת טקסט.
- אם כל הדף נבחר כבלוק אחד (כמו בחירת תמונה): קובץ ה-PDF הוא סריקה ללא שכבת טקסט.
- אם אתם יכולים לבחור חלק מהטקסט אך לא טקסט אחר: לקובץ ה-PDF יש OCR חלקי או תוכן מעורב - חלק מהדפים דיגיטליים, אחרים סרוקים.
סוגי קבצי PDF נפוצים הדורשים OCR
| סוג מסמך | בדרך כלל דורש OCR? | למה |
|---|---|---|
| מסמכים מודפסים סרוקים | כן | תמונה טהורה, ללא נתוני טקסט |
| מסמכים שנשלחו בפקס ונשמרו כ-PDF | כן | פלט פקס הוא תמונת רסטר |
| תצלומים של מסמכים (מצלמת טלפון) | כן | לכידת מצלמה = תמונה |
| קבצי PDF ממכונות צילום "סרוק למייל" | כן | רוב המכונות מייצרות קבצי PDF של תמונות |
| קבצי PDF שיוצאו מ-Word/Excel | לא | דיגיטלי מלידה, שכבת טקסט כלולה |
| קבצי PDF מדפדפני אינטרנט (הדפס ל-PDF) | לא | הטקסט נשמר |
| טפסים ממשלתיים שהורדו מהאינטרנט | בדרך כלל לא | רובם דיגיטליים מלידה |
| קבלות שנשלחו במייל כקובצי PDF מצורפים | בדרך כלל לא | נוצרו ממערכות קופה עם טקסט |
מהו OCR? הסבר בשפה פשוטה
OCR מייצג זיהוי תווים אופטי (Optical Character Recognition). זוהי הטכנולוגיה שקוראת טקסט מתמונות - מנתחת דפוסי פיקסלים לזיהוי אותיות, מספרים וסמלים, בדומה לאופן שבו העיניים שלכם קוראות מילים על דף.
כאשר אתם סורקים מסמך, הסורק יוצר תמונה. התמונה הזו מכילה פיקסלים - כהים היכן שהיה דיו, בהירים היכן שהיה נייר - אך ללא נתוני טקסט אמיתיים. הסורק אינו יודע שסידור פיקסלים מסוים אומר "חשבונית". הוא רק רושם את התמונה.
OCR לוקח את התמונה הזו, מנתח את הצורות, משווה אותן לדפוסי תווים ידועים, ומוציא את הטקסט שהצורות הללו מייצגות. התוצאה היא קובץ PDF שנראה זהה לסריקה המקורית אך מכיל שכבת טקסט בלתי נראית. כאשר אתם לוחצים Ctrl+F ומחפשים "דצמבר", קורא ה-PDF בודק את שכבת הטקסט, מוצא התאמה, ומדגיש את האזור בתמונה היכן שהמילה מופיעה.
עד כמה ה-OCR התקדם
ה-OCR קיים מאז שנות ה-50, כאשר מערכות מוקדמות יכלו לטפל רק בגופנים ספציפיים בסביבות מבוקרות. הטכנולוגיה התפתחה דרך התאמת תבניות (שנות ה-70-80), חילוץ תכונות (שנות ה-90-2000), ולמידת מכונה (שנות ה-2010). OCR של היום משלב רשתות נוירונים עמוקות לזיהוי תווים עם מודלים לשוניים המשתמשים בהקשר כדי לפתור עמימות - אם המערכת לא בטוחה אם תו הוא "l" או "1", המילים הסובבות עוזרות לה להחליט.
מנועי OCR מודרניים משיגים דיוק של מעל 99% תווים במסמכים מודפסים נקיים וסרוקים היטב.
כיצד OCR פועל: התהליך הטכני
OCR אינו אלגוריתם יחיד. זהו צינור של שלבים, שכל אחד מהם נבנה על קודמו.
שלב 1: עיבוד מקדים של התמונה
לפני שמתבצע זיהוי תווים כלשהו, מנוע ה-OCR מנקה את התמונה. זה כולל בינריזציה (המרת שחור-לבן לקונטרסט מקסימלי), יישור הטיה (תיקון אפילו הטיה קלה של הדף - הטיה של 1-2 מעלות יכולה להפחית את הדיוק באופן ניכר), הסרת רעשים (ביטול ארטיפקטים של הסורק וכתמים), והסרת גבולות (הסרת קצוות שחורים וצללי חיבור).
שלב 2: ניתוח פריסה
המנוע מזהה את מבנה הדף - בלוקי טקסט, עמודות, תמונות, כותרות עליונות ותחתונות, טבלאות, וסדר קריאה. ללא שלב זה, מסמך בעל שתי עמודות עלול להפיק פלט מבולבל שקורא את שתי העמודות בו-זמנית.
שלב 3: פילוח תווים
בתוך כל בלוק טקסט, תווים בודדים מבודדים. שורות מופרדות על ידי רווח אנכי, מילים על ידי רווחים אופקיים, ותווים בתוך מילים על ידי גבולותיהם. זה קשה יותר ממה שזה נשמע - תווים בגופנים רבים חופפים או נוגעים זה בזה, ובכתבים כמו ערבית ודוונאגרי, תווים מתחברים בדרכים מורכבות.
שלב 4: זיהוי תווים
כל תמונת תו מופלחת מסווגת באמצעות רשתות נוירונים עמוקות שאומנו על מיליוני תמונות תווים מתויגות. הרשת מוציאה רשימת מועמדים מדורגת לפי ביטחון, לא תשובה בודדת. "A" נקי עשוי לקבל ביטחון של 99.8%. תו פגום עשוי להפיק התפלגות שטוחה הרבה יותר.
שלב 5: מידול שפה
זיהוי תווים גולמי נוטה לשגיאות. הקשר פותר עמימות. האם "lnvoice" היא מילה? לא - ה-"l" היה למעשה "I", מה שהופך אותה ל-"Invoice". מודלים לשוניים סטטיסטיים חוזים רצפי תווים סבירים, ואימות פורמט מיישם כללים לדפוסים כמו תאריכים ומספרים.
שלב 6: יצירת פלט
הטקסט שזוהה ממופה בחזרה לקואורדינטות התמונה המקוריות ונכתב לתוך קובץ ה-PDF כשכבת טקסט בלתי נראית. כל מילה מתיישרת במדויק עם המקבילה החזותית שלה, ומאפשרת פונקציונליות חיפוש והדגשה.
שיטה 1: כלי ה-OCR של PDFSub (מומלץ)

כלי ה-OCR של PDFSub מעבד קבצי PDF סרוקים ומוסיף שכבת טקסט ניתנת לחיפוש תוך שמירה על המראה החזותי המקורי של כל דף.
הוראות שלב אחר שלב
- עברו לכלי ה-OCR - נווטו אל pdfsub.com/tools/ocr
- העלו את קובץ ה-PDF הסרוק שלכם - גררו ושחררו את הקובץ או לחצו כדי לדפדף. אין צורך לפצל מסמכים גדולים - קבצי PDF מרובי דפים מטופלים אוטומטית.
- ה-OCR מעבד את המסמך שלכם - הכלי מנתח כל דף, מזהה טקסט, ובונה את שכבת הטקסט הבלתי נראית. זמן העיבוד תלוי במספר הדפים ובמורכבותם, אך רוב המסמכים מסתיימים תוך שניות.
- הורידו את קובץ ה-PDF הניתן לחיפוש - קובץ הפלט נראה זהה לסריקה המקורית שלכם אך כעת תומך בחיפוש טקסט, בחירת טקסט, והעתקה-הדבקה.
למה PDFSub
תמיכה ביותר מ-130 שפות. OCR עובד עם מסמכים באנגלית, ספרדית, צרפתית, גרמנית, סינית, יפנית, קוריאנית, ערבית, הינדי, רוסית, פורטוגזית, ויותר מ-120 שפות נוספות. מסמכים מרובי שפות מטופלים אוטומטית - אין צורך לציין את השפה מראש.
המראה המקורי נשמר. תהליך ה-OCR מוסיף נתוני טקסט מבלי לשנות את התוכן החזותי. דפי הסריקה שלכם נראים בדיוק אותו הדבר. גופנים, פריסות, חותמות, חתימות, והערות בכתב יד נשארים ללא שינוי.
אין צורך להתקין תוכנה. הכל פועל בדפדפן שלכם או על שרתים מאובטחים. אין מה להוריד, אין דרישות מערכת לבדוק, ואין בעיות תאימות.
עיצוב מודע לפרטיות. מסמכים שהועלו מעובדים ואז נמחקים. PDFSub אינו שומר את הקבצים שלכם או משתמש בהם לאימון.
נסו בחינם. PDFSub מציע ניסיון חינם של 7 ימים כדי שתוכלו לבדוק OCR על המסמכים שלכם לפני התחייבות.
שיטה 2: Adobe Acrobat Pro
Adobe Acrobat Pro כולל תכונת OCR מובנית בשם "Recognize Text" (זיהוי טקסט) במסגרת כלי הסריקה וה-OCR שלו.
הוראות שלב אחר שלב
- פתחו את קובץ ה-PDF הסרוק שלכם ב-Adobe Acrobat Pro
- עברו אל Tools (כלים) ובחרו Scan & OCR (סריקה ו-OCR)
- לחצו על Recognize Text (זיהוי טקסט) ובחרו In This File (בקובץ זה) או In Multiple Files (בקבצים מרובים)
- תחת Settings (הגדרות), בחרו Searchable Image (תמונה ניתנת לחיפוש) (מוסיף שכבת טקסט בלתי נראית - מומלץ)
- לחצו על Recognize Text (זיהוי טקסט) כדי להתחיל בעיבוד
- שמרו את הקובץ
יתרונות ומגבלות
Adobe מספק דיוק גבוה בסריקות אנגליות נקיות, תומך בעיבוד אצווה, ומאפשר לכם לתקן שגיאות OCR ישירות. עם זאת, Acrobat Pro עולה 19.99 דולר לחודש בתוכנית שנתית (239.88 דולר לשנה), דורש התקנה על שולחן העבודה (אין OCR מבוסס דפדפן), תומך בכ-20 שפות בלבד, ויכול להיות איטי במסמכים מעל 50 עמודים.
שיטה 3: Google Drive (חינם, אך עם אובדן איכות)
Google Drive כולל תכונת OCR בסיסית המחולצת טקסט מקבצי PDF סרוקים - אך עם פשרה משמעותית.
הוראות שלב אחר שלב
- העלו את קובץ ה-PDF הסרוק שלכם ל-Google Drive
- לחצו לחיצה ימנית על הקובץ ובחרו Open with (פתח באמצעות) ואז Google Docs (מסמכים של גוגל)
- גוגל מעבד את קובץ ה-PDF ויוצר מסמך Google Doc עם הטקסט שחולץ
- הטקסט כעת ניתן לחיפוש, בחירה ועריכה
יתרונות ומגבלות
ה-OCR של Google Drive הוא חינם לחלוטין, מספק דיוק טוב במסמכים מודפסים נקיים, ומזהה שפות באופן אוטומטי. עם זאת, יש פשרה קריטית: הוא הורס את העיצוב. גוגל אינו מוסיף שכבת טקסט לקובץ ה-PDF שלכם - הוא מחלץ טקסט למסמך Google Doc. טבלאות הופכות לטקסט רגיל, עמודות מתמוטטות, והפריסה המקורית אובדת. בסופו של דבר מקבלים מסמך Google Doc, לא קובץ PDF ניתן לחיפוש.
הוא גם עובד הכי טוב במסמכים מתחת ל-10 עמודים. מסמכים ארוכים יותר עלולים להיחתך.
הכי טוב עבור: חילוץ תוכן טקסטואלי כאשר אינכם זקוקים לפריסה המקורית. אם אתם זקוקים לקובץ PDF ניתן לחיפוש ששומר על המראה, השתמשו בשיטה 1 או שיטה 2.
דיוק OCR: מה לצפות לפי סוג מסמך
OCR אינו קסם. הדיוק משתנה באופן דרמטי בהתאם לאיכות המסמך, סוג התוכן, ותנאי הסריקה. הנה מה שמראות בדיקות בעולם האמיתי.
מסמכים מודפסים (גופנים מודרניים): 95-99%
מסמכים מודפסים מודרניים - חשבוניות, חוזים, דוחות שהודפסו במדפסות לייזר - הם התרחיש הטוב ביותר. גופנים סטנדרטיים מיוצגים היטב בנתוני האימון של OCR, והדפסות נקיות על נייר לבן מייצרות תמונות עם קונטרסט גבוה. בדיוק של 99% על דף של 250 מילים (כ-1,500 תווים), הייתם מצפים לכ-15 שגיאות תווים - רובן חסרות משמעות, כמו נקודה שנקראה בטעות כפסיק או "l" קטנה שהתבלבלה עם "1".
מסמכים מוקלדים ישנים יותר: 85-95%
מכונות כתיבה מכניות מציבות אתגרים: יישור אותיות לא עקבי, צפיפות דיו משתנה משחיקת סרט, ורוחב תווים אחיד שגורם לבלבול בפילוח. עדיין, טקסט מוקלד נוצר בנפרד ומיושר אופקית, כך שרוב מנועי ה-OCR מטפלים בו בצורה טובה מספיק למטרות חיפוש.
טקסט בכתב יד: 60-80%
כתב יד נותר האתגר הקשה ביותר של OCR. השונות עצומה - לא רק בין אנשים אלא גם בתוך כתב ידו של אדם אחד על דף אחד. הדפסה בלוקים מסודרת עשויה להגיע ל-80-85%. כתב יד בדיו על נייר עם שורות עשוי לרדת מתחת ל-60%. תמיד בדקו ידנית נתונים קריטיים ממסמכים בכתב יד.
תוכן מעורב (טקסט + טבלאות): 90-97%
מסמכים המשלבים טקסט עם נתונים טבלאיים מוסיפים אתגר של ניתוח פריסה. זיהוי תווים בתוך תאים הוא בדרך כלל מדויק, אך שגיאות מבניות - גבולות תאים שזוהו בטעות, עמודות ששויכו באופן שגוי, תאים מרובי שורות שפוצלו לשורות - פוגעים ביחסי הנתונים וחשובים יותר משגיאות תווים בודדות.
סיכום דיוק טבלה
| סוג מסמך | דיוק תווים | ניתן לחיפוש? | חילוץ נתונים אמין? |
|---|---|---|---|
| מודפס מודרני (לייזר) | 95-99% | מצוין | כן |
| מודפס מודרני (הזרקת דיו) | 93-98% | מצוין | בדרך כלל |
| מוקלד ישן | 85-95% | טוב | עם אימות |
| כתב יד נקי (בלוק) | 70-80% | חלקי | לא - יש לאמת הכל |
| כתב יד רציף | 60-70% | נמוך | לא |
| טקסט + טבלאות מעורבים | 90-97% | טוב | עם סקירה מבנית |
| נייר פגום/פגום | 70-90% | משתנה | עם אימות כבד |
שיטות עבודה מומלצות לסריקה לפני OCR
הגורם המשפיע ביותר על דיוק ה-OCR אינו תוכנת ה-OCR - אלא איכות הסריקה. מנוע OCR מצוין שעובד על סריקה גרועה יפיק תוצאות גרועות יותר ממנוע בינוני שעובד על סריקה מצוינת.
רזולוציה: 300 DPI מינימום
DPI (נקודות לאינץ') קובע כמה פרטים הסורק לוכד.
- 300 DPI: הסטנדרט לרוב המסמכים. מספיק לזיהוי אמין של גופנים סטנדרטיים בגדלי טקסט רגילים (10-12 נק').
- 600 DPI: מומלץ לטקסט קטן (הערות שוליים, אותיות קטנות) או כאשר אתם זקוקים לדיוק מקסימלי.
- 150 DPI או פחות: לא מומלץ. תווים קטנים מדי לזיהוי אמין. הדיוק יורד באופן משמעותי.
- 1200 DPI: מוגזם עבור OCR. אין שיפור בדיוק, וגודלי הקבצים הופכים עצומים.
מצב צבע: גווני אפור בדרך כלל הכי טוב
- גווני אפור: הכי טוב לרוב המסמכים. שומר על קונטרסט מספיק לבינריזציה טובה תוך שמירה על גדלי קבצים סבירים.
- שחור-לבן: יכול לעבוד עבור מסמכים נקיים עם קונטרסט גבוה אך עלול להרוס פרטים באזורים שוליים.
- צבע: נחוץ רק אם המסמך מכיל מידע בצבעים שאתם צריכים לשמר. למטרות OCR, צבע אינו מוסיף יתרון על פני גווני אפור.
יישור וכיוון
- שמרו על דפים ישרים. אפילו הטיה של 2-3 מעלות יכולה להפחית את דיוק ה-OCR ב-5-10%. השתמשו במדריכי הנייר של הסורק כדי לשמור על יישור הדפים.
- סרקו דפים חד-צדדיים עם הפנים כלפי מטה. הימנעו מחדירת דיו מהצד האחורי ליצירת טקסט צל שמבלבל את מנוע ה-OCR.
- השתמשו בסורק שטוח למסמכים כרוכים. סורקי הזנה אוטומטית עלולים להטות דפים מספרים או דוחות כרוכים. סריקה שטוחה שומרת על הדף ישר ומיושר כראוי.
תחזוקת סורק והכנת מסמך
- נקו את הזכוכית לפני סריקת אצוות - כתמים יוצרים ארטיפקטים בכל דף
- בדקו אם יש פסים על ידי סריקת דף ריק - קווים אנכיים מצביעים על גלילים מלוכלכים
- הסירו סיכות ומהדקים כדי למנוע תקלות ושריטות
- שטחו דפים מקומטים - קמטים עמוקים יוצרים צללים שמנוע ה-OCR עלול לקרוא בטעות
- תקנו קרעים עם סרט דביק בצד האחורי - סרט בצד הקדמי יוצר השתקפויות
לאחר ה-OCR: מה לעשות הלאה
הרצת OCR היא רק הצעד הראשון. הנה כיצד להפיק את המרב מהמסמכים החדשים שלכם הניתנים לחיפוש.
אימות התוצאות
תמיד בדקו באופן מדגמי את פלט ה-OCR, במיוחד עבור מסמכים קריטיים:
- חפשו מונחי מפתח שאתם יודעים שמופיעים במסמך. אם Ctrl+F מוצא אותם באופן עקבי, ה-OCR פועל.
- העתיקו פסקה והדביקו אותה בעורך טקסט. קראו לאיתור שגיאות ברורות - מילים מקולקלות, תווים חסרים, החלפות חסרות היגיון.
- בדקו מספרים בקפידה. סכומי כסף, תאריכים, מספרי טלפון, ומספרי חשבון הם נתונים בעלי סיכון גבוה. "6" שנקרא בטעות כ-"8" בסכום עסקה הוא בעיה אמיתית. מנועי OCR מבלבלים מדי פעם בין ספרות דומות (0/O, 1/l, 5/S, 6/8).
תיקון שגיאות וארגון
אם מצאתם שגיאות במסמכים קריטיים, Adobe Acrobat Pro מאפשר לערוך את שכבת הטקסט ישירות, או שתוכלו לסרוק מחדש דפים בעייתיים ברזולוציית 600 DPI ולהריץ OCR מחדש. עבור קטעים בכתב יד, תמלול ידני הוא לעיתים קרובות מהיר יותר מתיקון OCR גרוע.
לאחר שהם ניתנים לחיפוש, קבצי ה-PDF שלכם משתלבים בזרימות עבודה קיימות. חיפוש שולחני (Windows Search, Spotlight ב-Mac) מנדקס אותם אוטומטית. מערכות ניהול מסמכים (SharePoint, Google Drive, Dropbox) מאפשרות חיפוש טקסט מלא בספרייה שלכם. שמות קבצים טובים בתוספת תוכן ניתן לחיפוש הם השילוב האידיאלי.
מקרי שימוש בעולם האמיתי עבור OCR
דיגיטציה של ארכיונים מודפסים
עסקים, משרדי עורכי דין וסוכנויות ממשלתיות מחזיקים לעיתים קרובות עשורים של מסמכים מודפסים. סריקה פשוטה ל-PDF יוצרת קבצי תמונה הניתנים לחיפוש רק לפי שם קובץ. הוספת OCR הופכת ארכיון פסיבי למאגר נתונים שניתן לשאילתות. זרימת העבודה הטיפוסית: סריקה ב-300 DPI בגווני אפור, הרצת OCR, החלת מוסכמות שמות, והעלאה למערכת ניהול מסמכים.
הפיכת מסמכים משפטיים לניתנים לחיפוש
אנשי מקצוע בתחום המשפט מתמודדים עם נפחי מסמכים עצומים במהלך גילוי וביקורת נאותות. צד שני עשוי להפיק אלפי עמודים של מסמכים סרוקים. ללא OCR, הסקירה פירושה קריאת כל עמוד באופן ידני. עם OCR, עורכי דין יכולים לחפש מילות מפתח, שמות, תאריכים, וסכומים בכל הסט - מה שהופך את הסקירה לאפשרית במסגרות זמן ריאליות.
תאימות נגישות
על פי חוק האמריקאים עם מוגבלויות (ADA) וסעיף 508, מסמכים דיגיטליים מסוכנויות ממשלתיות ומארגונים במימון פדרלי חייבים להיות נגישים. קוראי מסך אינם יכולים לפרש קבצי PDF מבוססי תמונה בלבד - הם זקוקים לשכבת טקסט. OCR הוא הצעד הראשון לקראת תאימות. ייתכן שידרשו עבודות נוספות (מבנה כותרות, טקסט חלופי, תגיות סדר קריאה), אך ללא שכבת הטקסט, נגישות אינה אפשרית.
עיבוד ביטוחי ופיננסי
חברות ביטוח ובנקים מקבלים מיליוני טפסי תביעה סרוקים, רשומות רפואיות, המחאות, ובקשות הלוואה. OCR מאפשר חילוץ נתונים אוטומטי - משיכת מספרי פוליסה, סכומי תביעה, תאריכי שירות, ופרטי חשבון ממסמכים סרוקים למערכות עיבוד.
ארכיונים אקדמיים ומחקריים
אוניברסיטאות, ספריות, וארכיונים מבצעים דיגיטציה של מסמכים היסטוריים, עיתונים, וכתבי יד. OCR הופך מאות שנות ידע לניתנות לחיפוש. פרויקטים כמו Google Books ו-Internet Archive ביצעו OCR למיליארדי דפים, ומאפשרים חיפוש טקסט מלא על פני אוספים שהיו לוקחים חיים שלמים לקרוא ידנית.
שאלות נפוצות
האם ניתן לבצע OCR למספר קבצי PDF בו-זמנית (עיבוד אצווה)?
כן. PDFSub תומך בעיבוד מסמכים מרובי דפים בפעולה אחת. עבור משימות אצווה גדולות - מאות או אלפי קבצים - תצטרכו לעבד אותם באופן סדרתי דרך הכלי. Adobe Acrobat Pro מציע גם OCR אצווה דרך תכונת ה-Action Wizard שלו, שיכולה לעבד תיקיות שלמות של קבצי PDF באופן אוטומטי.
האם OCR משנה את מראה קובץ ה-PDF שלי?
לא. OCR תקין מוסיף שכבת טקסט בלתי נראית מאחורי תמונת הדף הגלויה. המראה החזותי של קובץ ה-PDF הסרוק שלכם נשאר ללא שינוי - אותם דפים, אותה פריסה, אותה רזולוציה. שכבת הטקסט "נראית" רק לפונקציות חיפוש, בחירת טקסט, העתקה-הדבקה, וקוראי מסך.
מה קורה אם אני מריץ OCR על קובץ PDF שכבר יש לו טקסט ניתן לחיפוש?
רוב כלי ה-OCR מזהים שכבות טקסט קיימות ופשוט מדלגים על דפים אלו או נותנים לכם אפשרות לעבד אותם מחדש. הרצת OCR על קובץ שכבר ניתן לחיפוש היא בדרך כלל לא מזיקה אך מיותרת - היא לא תשפר את שכבת הטקסט הקיימת ועלולה להגדיל מעט את גודל הקובץ עקב הנתונים הכפולים.
האם גודל הקובץ שלי יגדל לאחר OCR?
מעט. צפו לגידול של 5-15% עבור מסמך סרוק טיפוסי. שכבת הטקסט עצמה קטנה (תווים ונתוני מיקום), והגידול זניח בהשוואה לנתוני התמונה המרכיבים את רוב קובץ ה-PDF הסרוק.
האם OCR עובד על קבצי PDF שהם תערובת של דפים סרוקים ודיגיטליים?
כן. כלי OCR טובים מעבדים כל דף באופן עצמאי. דפים שכבר יש להם שכבת טקסט מזוהים וניתן לדלג עליהם. דפים שהם תמונות בלבד עוברים עיבוד. התוצאה היא קובץ PDF הניתן לחיפוש מלא ללא קשר לאופן שבו המקור הורכב.
אילו שפות OCR תומך?
תמיכת השפות משתנה בין כלים. ה-OCR של PDFSub תומך ביותר מ-130 שפות, כולל שפות לטיניות (אנגלית, ספרדית, צרפתית, גרמנית), CJK (סינית, יפנית, קוריאנית), קירילית (רוסית, אוקראינית), ערבית (ערבית, פרסית, אורדו), דבנגרי (הינדי, מראטהי), ועוד רבות.
האם OCR יכול לקרוא כתב יד?
באופן חלקי. הדפסה בלוקים מסודרת מגיעה לדיוק של 70-80%. כתב יד רציף קשה יותר באופן משמעותי (60-70% או פחות). עבור נתונים קריטיים ממסמכים בכתב יד, תמיד יש לאמת תוצאות ידנית.
האם OCR זהה לחילוץ טקסט מ-PDF?
לא. OCR ממיר תמונות של טקסט לתווים אמיתיים - נחוץ כאשר אין נתוני טקסט, רק פיקסלים. חילוץ טקסט מ-PDF קורא טקסט שכבר קיים בזרם התוכן של PDF דיגיטלי - נחוץ כאשר טקסט לכוד בפורמט שאינכם יכולים לעבוד איתו בקלות. אם קובץ ה-PDF שלכם דיגיטלי מלידה, אתם זקוקים לחילוץ. אם הוא סרוק, אתם זקוקים ל-OCR תחילה.
האם OCR עובד על תמונות שצולמו במצלמת טלפון?
כן, אך הדיוק תלוי באיכות התמונה. לתוצאות הטובות ביותר: החזיקו את הטלפון במקביל למסמך, ודאו תאורה אחידה (ללא צללים), מלאו את הפריים, החזיקו יציב, והשתמשו במצב סריקת מסמכים של הטלפון שלכם אם זמין. תמונות טלפון מייצרות בדרך כלל דיוק של 85-95% לטקסט מודפס נקי - נמוך יותר מסריקות שטוחות אך לעיתים קרובות טוב מספיק לחיפוש.
האם ניתן לערוך את הטקסט לאחר OCR?
שכבת הטקסט של OCR בלתי נראית וממוקמת מעל תמונת הסריקה. ניתן להעתיק טקסט ולהדביק אותו לכל עורך, להשתמש ב-Adobe Acrobat Pro לעריכת שכבת הטקסט ישירות, או לייצא ל-Word או לטקסט רגיל לעריכה. כדי לשנות את התוכן הנראה של מסמך סרוק, תצטרכו לסרוק מחדש או להשתמש בעורך PDF כדי להוסיף הערות מעל התמונה.
התחלה עם OCR
אם יש לכם קבצי PDF סרוקים שצריכים להיות ניתנים לחיפוש, הדרך המהירה ביותר פשוטה:
- בדקו את קבצי ה-PDF שלכם - השתמשו במבחן Ctrl+F כדי לאשר שהם זקוקים ל-OCR
- נסו את כלי ה-OCR של PDFSub - העלו קובץ PDF סרוק בכתובת pdfsub.com/tools/ocr וראו את התוצאות
- אמתו את הפלט - בדקו באופן מדגמי כמה דפים כדי לאשר שהדיוק עונה על צרכיכם
- עבדו על המסמכים הנותרים שלכם - לאחר שאתם בטוחים בתוצאות, עברו על המלאי שלכם
PDFSub מציע ניסיון חינם של 7 ימים הכולל גישה לכלי ה-OCR ולכל כלי ה-PDF האחרים בפלטפורמה. העלו מסמך סרוק וראו את ההבדל שטקסט ניתן לחיפוש עושה. ניתן לבטל בכל עת.