Taranmış PDF'e OCR Nasıl Yapılır (Aranabilir Hale Getirme)
Taranmış PDF'ler yalnızca sayfa resimleridir — metni arayamaz, kopyalayamaz veya düzenleyemezsiniz. OCR, görünmez bir metin katmanı ekleyerek bunu düzeltir. İşte bunu üç farklı yöntemle nasıl yapabileceğiniz.
Belgelerden oluşan bir yığını PDF olarak taradınız. Ekranda iyi görünüyorlar — net, okunabilir, profesyonel. Ancak bir kelimeyi aramayı, bir paragrafı kopyalamayı veya bir telefon numarasını seçmeyi deneyin ve hiçbir şey olmaz. İmleciniz, sanki bir resmi seçiyormuşsunuz gibi sayfanın üzerinde mavi bir dikdörtgen sürükler. Çünkü tam olarak yaptığınız şey bu.
Taranmış PDF'ler fotoğraftır. Her sayfa, harfler, kelimeler veya cümleler kavramı olmayan tek bir görüntü — düz bir piksel ızgarasıdır. Bilgisayarınız, taranmış bir PDF'de gün batımı JPEG'inde gördüğü kadar metin görür: hiç.
OCR (Optik Karakter Tanıma) bunu çözer. Her sayfanın görüntüsünü analiz eder, karakterleri tanımlar ve orijinal taramanın üzerine görünmez bir metin katmanı ekler. Görsel görünüm aynı kalır, ancak artık arama yapabilir, kopyalayabilir, metin seçebilir ve ekran okuyucuların erişmesini sağlayabilirsiniz.
Bu kılavuz, OCR'nin ne olduğunu, nasıl çalıştığını, taranmış PDF'lerinizi OCR'ye dönüştürmek için üç yöntemi ve en iyi sonuçları nasıl alacağınızı kapsar.
PDF'nizin OCR'ye İhtiyacı Olup Olmadığını Nasıl Anlarsınız?
OCR'ye zaman ayırmadan önce, PDF'nizin gerçekten ihtiyacı olup olmadığını kontrol edin. Birçok PDF "dijital doğumlu"dur — Word belgeleri, Excel elektronik tabloları veya web sayfalarından oluşturulmuştur — ve zaten gerçek bir metin katmanı içerir.
5 Saniyelik Test
- PDF'nizi herhangi bir görüntüleyicide açın (Adobe Reader, Preview, Chrome, Edge)
- Ctrl+F (Windows/Linux) veya Cmd+F (Mac) tuşlarına basın
- Sayfada gördüğünüz bir kelime yazın
- Görüntüleyici kelimeyi vurgularsa: PDF'niz zaten aranabilir metin içeriyor. OCR gerekmez.
- Hiçbir şey bulunamazsa: PDF'niz yalnızca resimdir. OCR gerektirir.
Seçim Testi
Sayfadaki metni seçmek için tıklayıp sürüklemeyi deneyin:
- Tek tek kelimeleri seçebiliyorsanız ve mavi renkte vurgulanıyorsa: PDF metin katmanı içerir.
- Tüm sayfa tek bir blok olarak seçiliyorsa (bir resmi seçmek gibi): PDF, metin katmanı olmayan bir taramadır.
- Bazı metinleri seçip diğerlerini seçemiyorsanız: PDF'niz kısmi OCR veya karma içerik içerir — bazı sayfalar dijital, diğerleri taranmıştır.
OCR Gerektiren Yaygın PDF Türleri
| Belge Türü | Genellikle OCR Gerektirir mi? | Neden |
|---|---|---|
| Taranmış kağıt belgeler | Evet | Saf resim, metin verisi yok |
| Faks olarak gönderilip PDF'ye kaydedilen belgeler | Evet | Faks çıktısı raster görüntüdür |
| Belge fotoğrafları (telefon kamerası) | Evet | Kamera çekimi = resim |
| Kopyalayıcıdan "e-postaya tara" ile alınan PDF'ler | Evet | Çoğu kopyalayıcı resim PDF'leri üretir |
| Word/Excel'den dışa aktarılan PDF'ler | Hayır | Dijital doğumlu, metin katmanı dahil |
| Web tarayıcılarından alınan PDF'ler (PDF'ye yazdır) | Hayır | Metin korunur |
| Çevrimiçi indirilen devlet formları | Genellikle hayır | Çoğu dijital doğumludur |
| PDF ekleri olarak gönderilen makbuzlar | Genellikle hayır | Metin içeren POS sistemleri tarafından oluşturulur |
OCR Nedir? Basit Bir Açıklama
OCR, Optik Karakter Tanıma anlamına gelir. Görüntülerdeki metni okuyan teknolojidir — tıpkı gözlerinizin bir sayfadaki kelimeleri okuması gibi, harfleri, sayıları ve sembolleri tanımlamak için piksel desenlerini analiz eder.
Bir belgeyi taradığınızda, tarayıcı bir fotoğraf oluşturur. Bu fotoğraf, mürekkep olan yerlerde koyu, kağıt olan yerlerde açık pikseller içerir — ancak gerçek metin verisi içermez. Tarayıcı, bir piksel dizisinin "Fatura" yazdığını bilmez. Sadece görüntüyü kaydeder.
OCR bu görüntüyü alır, şekilleri analiz eder, bilinen karakter desenleriyle eşleştirir ve bu şekillerin temsil ettiği metni çıkarır. Sonuç, orijinal taramayla aynı görünen ancak görünmez bir metin katmanı içeren bir PDF'dir. Ctrl+F tuşlarına basıp "Aralık" kelimesini aradığınızda, PDF görüntüleyici metin katmanını kontrol eder, eşleşmeyi bulur ve o kelimenin göründüğü yerdeki görüntünün üzerindeki alanı vurgular.
OCR Ne Kadar Gelişti?
OCR, yalnızca kontrollü ortamlarda belirli yazı tiplerini işleyebilen ilk sistemlerin olduğu 1950'lere dayanır. Teknoloji, şablon eşleştirme (1970'ler-80'ler), özellik çıkarma (1990'lar-2000'ler) ve makine öğrenimi (2010'lar) yoluyla gelişti. Günümüz OCR'si, belirsizlikleri gidermek için bağlamı kullanan dil modelleriyle karakter tanıma için derin sinir ağlarını birleştirir — sistem bir karakterin "l" mi yoksa "1" mi olduğundan emin değilse, çevresindeki kelimeler karar vermesine yardımcı olur.
Modern OCR motorları, temiz, iyi taranmış basılı belgelerde %99'un üzerinde karakter doğruluğu elde eder.
OCR Nasıl Çalışır: Teknik Süreç
OCR tek bir algoritma değildir. Birbirini takip eden ve her biri bir öncekinin üzerine inşa edilen adımlardan oluşan bir işlem hattıdır.
Adım 1: Görüntü Ön İşleme
Herhangi bir karakter tanıma işlemi gerçekleşmeden önce, OCR motoru görüntüyü temizler. Bu, ikilileştirme (maksimum kontrast için siyaha beyaza dönüştürme), eğrilik düzeltme (çok hafif sayfa döndürmeyi bile düzeltme — 1-2 derecelik bir eğim doğruluğu fark edilir şekilde azaltabilir), gürültü giderme (tarayıcı artefaktlarını ve lekeleri ortadan kaldırma) ve kenar kaldırma (siyah kenarları ve bağlama gölgelerini soyma) işlemlerini içerir.
Adım 2: Düzen Analizi
Motor, sayfanın yapısını belirler — metin blokları, sütunlar, resimler, başlıklar, altbilgiler, tablolar ve okuma sırası. Bu adım olmadan, iki sütunlu bir belge her iki sütunu aynı anda okuyarak karışık bir çıktı üretebilir.
Adım 3: Karakter Segmentasyonu
Her metin bloğu içinde, tek tek karakterler izole edilir. Satırlar dikey boşluklarla, kelimeler yatay boşluklarla ve kelimeler içindeki karakterler sınırlarıyla ayrılır. Bu, göründüğünden daha zordur — birçok yazı tipindeki karakterler üst üste biner veya birbirine dokunur ve Arapça ve Devanagari gibi yazılarda karakterler karmaşık şekillerde birbirine bağlanır.
Adım 4: Karakter Tanıma
Her bir segmentlenmiş karakter görüntüsü, milyonlarca etiketlenmiş karakter görüntüsü üzerinde eğitilmiş derin sinir ağları kullanılarak sınıflandırılır. Ağ, tek bir cevap yerine güven dereceli bir aday listesi çıkarır. Temiz bir "A" %99,8 güven derecesi alabilir. Bozulmuş bir karakter çok daha düz bir dağılım üretebilir.
Adım 5: Dil Modelleme
Ham karakter tanıma hataya eğilimlidir. Bağlam belirsizlikleri çözer. "lnvoice" bir kelime midir? Hayır — "l" aslında "I" idi, bu da onu "Invoice" yapar. İstatistiksel dil modelleri olası karakter dizilerini tahmin eder ve format doğrulama tarihler ve sayılar gibi desenlere kurallar uygular.
Adım 6: Çıktı Üretimi
Tanınan metin, orijinal görüntü koordinatlarına geri eşlenir ve görünmez bir metin katmanı olarak PDF'ye yazılır. Her kelime, görsel karşılığıyla tam olarak hizalanır, bu da arama ve vurgulama işlevselliğini sağlar.
Yöntem 1: PDFSub OCR Aracı (Önerilen)
PDFSub'ın OCR aracı, taranmış PDF'leri işler ve her sayfanın orijinal görsel görünümünü korurken aranabilir bir metin katmanı ekler.
Adım Adım Talimatlar
- OCR aracına gidin — pdfsub.com/tools/ocr adresine gidin
- Taranmış PDF'nizi yükleyin — Dosyanızı sürükleyip bırakın veya göz atmak için tıklayın. Büyük belgeleri bölmenize gerek yok — çok sayfalı PDF'ler otomatik olarak işlenir.
- OCR belgenizi işler — Araç her sayfayı analiz eder, metni tanır ve görünmez metin katmanını oluşturur. İşlem süresi sayfa sayısına ve karmaşıklığa bağlıdır, ancak çoğu belge saniyeler içinde tamamlanır.
- Aranabilir PDF'nizi indirin — Çıktı dosyası orijinal taramanızla aynı görünür ancak artık metin arama, metin seçme ve kopyala-yapıştır işlevlerini destekler.
Neden PDFSub
130'dan fazla dil desteği. OCR, İngilizce, İspanyolca, Fransızca, Almanca, Çince, Japonca, Korece, Arapça, Hintçe, Rusça, Portekizce ve 120'den fazla ek dildeki belgelerle çalışır. Çok dilli belgeler otomatik olarak işlenir — dili önceden belirtmenize gerek yoktur.
Orijinal görünüm korunur. OCR işlemi, görsel içeriği değiştirmeden metin verileri ekler. Taranmış sayfalarınız tam olarak aynı görünür. Yazı tipleri, düzenler, damgalar, imzalar ve el yazısı ek açıklamaları olduğu gibi kalır.
Yüklenmesi gereken yazılım yok. Her şey tarayıcınızda veya güvenli sunucularda çalışır. İndirilecek bir şey yok, kontrol edilecek sistem gereksinimleri yok ve uyumluluk sorunları yok.
Gizlilik odaklı tasarım. Yüklenen belgeler işlenir ve ardından silinir. PDFSub dosyalarınızı saklamaz veya eğitim için kullanmaz.
Ücretsiz deneyin. PDFSub, taahhütte bulunmadan önce OCR'yi kendi belgelerinizde test edebilmeniz için 7 günlük ücretsiz deneme sürümü sunar.
Yöntem 2: Adobe Acrobat Pro
Adobe Acrobat Pro, Scan & OCR araç setinde "Metni Tanı" adlı yerleşik bir OCR özelliğine sahiptir.
Adım Adım Talimatlar
- Taranmış PDF'nizi Adobe Acrobat Pro'da açın
- Araçlar'a gidin ve Tara & OCR'yi seçin
- Metni Tanı'ya tıklayın ve Bu Dosyada veya Birden Fazla Dosyada'yı seçin
- Ayarlar altında, Arama Yapılabilir Görüntü'yü seçin (görünmez metin katmanı ekler — önerilir)
- İşlemi başlatmak için Metni Tanı'ya tıklayın
- Dosyayı kaydedin
Güçlü Yönleri ve Sınırlamaları
Adobe, temiz İngilizce taramalarda yüksek doğruluk sağlar, toplu işlemeyi destekler ve OCR hatalarını doğrudan düzeltmenize olanak tanır. Ancak, Acrobat Pro yıllık planda ayda 19,99 ABD doları (yıllık 239,88 ABD doları) tutarındadır, masaüstü kurulumu gerektirir (tarayıcı tabanlı OCR yok), yalnızca yaklaşık 20 dili destekler ve 50 sayfadan fazla belgelerde yavaş olabilir.
Yöntem 3: Google Drive (Ücretsiz, Ancak Kayıplı)
Google Drive, taranmış PDF'lerden metin çıkaran temel bir OCR özelliği içerir — ancak önemli bir ödünle.
Adım Adım Talimatlar
- Taranmış PDF'nizi Google Drive'a yükleyin
- Dosyaya sağ tıklayın ve Şununla aç ardından Google Dokümanlar'ı seçin
- Google PDF'yi işler ve çıkarılan metinle bir Google Dokümanı oluşturur
- Metin artık aranabilir, seçilebilir ve düzenlenebilir durumdadır
Güçlü Yönleri ve Sınırlamaları
Google Drive OCR tamamen ücretsizdir, temiz yazılı belgelerde iyi doğruluk sağlar ve dilleri otomatik olarak algılar. Ancak, kritik bir ödün vardır: biçimlendirmeyi bozar. Google PDF'nize bir metin katmanı eklemez — metni bir Google Dokümanına çıkarır. Tablolar düz metne dönüşür, sütunlar çöker ve orijinal düzen kaybolur. Sonuç olarak aranabilir bir PDF yerine bir Google Dokümanınız olur.
Ayrıca 10 sayfadan az belgelerde en iyi şekilde çalışır. Daha uzun belgeler kesilebilir.
En iyi: Orijinal düzeni istemediğinizde metin içeriğini çıkarmak için. Görünümü koruyan aranabilir bir PDF'ye ihtiyacınız varsa, Yöntem 1 veya Yöntem 2'yi kullanın.
OCR Doğruluğu: Belge Türüne Göre Ne Beklemeli
OCR sihirli değildir. Doğruluk, belge kalitesine, içerik türüne ve tarama koşullarına bağlı olarak büyük ölçüde değişir. İşte gerçek dünya testlerinin gösterdikleri.
Yazılı Belgeler (Modern Yazı Tipleri): %95-99
Modern basılı belgeler — faturalar, sözleşmeler, lazer yazıcılarla basılmış raporlar — en iyi senaryodur. Standart yazı tipleri OCR eğitim verilerinde iyi temsil edilir ve beyaz kağıt üzerindeki temiz baskılar yüksek kontrastlı görüntüler üretir. 250 kelimelik bir sayfada (%99 doğrulukla yaklaşık 1.500 karakter), yaklaşık 15 karakter hatası beklersiniz — çoğu önemsizdir, örneğin bir nokta virgül olarak yanlış okunmuş veya küçük "l" harfinin "1" ile karıştırılması gibi.
Eski Daktilo Belgeleri: %85-95
Daktilolar zorluklar sunar: tutarsız harf hizalaması, kurdele aşınmasından kaynaklanan değişken mürekkep yoğunluğu ve karakter genişliğinin tekdüze olması nedeniyle segmentasyon karışıklığı. Yine de, daktilo metni ayrı ayrı oluşturulur ve yatay olarak hizalanır, bu nedenle çoğu OCR motoru arama amaçları için yeterince iyi işler.
El Yazısı Metin: %60-80
El yazısı, OCR'nin en zorlu mücadelesi olmaya devam ediyor. Değişkenlik çok büyüktür — sadece insanlar arasında değil, tek bir kişinin tek bir sayfadaki yazısı içinde bile. Düzgün blok harflerle yazılmış metin %80-85'e ulaşabilir. Çizgili kağıt üzerindeki kurşun kalemle yazılmış italik metin %60'ın altına düşebilir. El yazısı belgelerden kritik verileri her zaman manuel olarak doğrulayın.
Karışık İçerik (Metin + Tablolar): %90-97
Metni tablo verileriyle birleştiren belgeler bir düzen analizi zorluğu ekler. Hücre içindeki karakter tanıma genellikle doğrudur, ancak yapısal hatalar — yanlış tanımlanmış hücre sınırları, yanlış atanmış sütunlar, çok satırlı hücrelerin satırlara ayrılması — bireysel karakter hatalarından daha önemli olan veri ilişkilerini bozar.
Doğruluk Özeti Tablosu
| Belge Türü | Karakter Doğruluğu | Aranabilir mi? | Veri Çıkarma Güvenilir mi? |
|---|---|---|---|
| Modern basılı (lazer) | %95-99 | Mükemmel | Evet |
| Modern basılı (mürekkep püskürtmeli) | %93-98 | Mükemmel | Genellikle |
| Eski daktilo | %85-95 | İyi | Doğrulama ile |
| Temiz el yazısı (blok) | %70-80 | Kısmi | Hayır — her şeyi doğrulayın |
| İtalik el yazısı | %60-70 | Zayıf | Hayır |
| Karışık metin + tablolar | %90-97 | İyi | Yapısal inceleme ile |
| Bozulmuş/hasarlı kağıt | %70-90 | Değişir | Yoğun doğrulama ile |
OCR Öncesi Tarama İçin En İyi Uygulamalar
OCR doğruluğundaki en büyük faktör OCR yazılımı değil, tarama kalitesidir. Kötü bir tarama üzerinde çalışan harika bir OCR motoru, harika bir tarama üzerinde çalışan vasat bir motordan daha kötü sonuçlar üretecektir.
Çözünürlük: Minimum 300 DPI
DPI (inç başına nokta), tarayıcının ne kadar ayrıntı yakaladığını belirler.
- 300 DPI: Çoğu belge için standarttır. Normal metin boyutlarındaki (10-12pt) standart yazı tiplerinin güvenilir tanınması için yeterlidir.
- 600 DPI: Küçük metinler (dipnotlar, ince baskı) veya maksimum doğruluk istediğinizde önerilir.
- 150 DPI veya daha düşük: Önerilmez. Karakterler güvenilir tanıma için çok küçüktür. Doğruluk önemli ölçüde düşer.
- 1200 DPI: OCR için fazladır. Doğrulukta iyileşme olmaz ve dosya boyutları devasa hale gelir.
Renk Modu: Genellikle Gri Tonlamalı En İyisidir
- Gri Tonlamalı: Çoğu belge için en iyisidir. İyi ikilileştirme için yeterli kontrastı korurken dosya boyutlarını yönetilebilir tutar.
- Siyah beyaz: Temiz, yüksek kontrastlı belgeler için işe yarayabilir ancak kenar alanlarındaki ayrıntıları yok edebilir.
- Renkli: Yalnızca korumanız gereken renk kodlu bilgiler içeriyorsa gereklidir. OCR amaçları için renk, gri tonlamalıya göre hiçbir fayda sağlamaz.
Hizalama ve Yönlendirme
- Sayfaları düz tutun. 2-3 derecelik bir eğim bile OCR doğruluğunu %5-10 azaltabilir. Sayfaları hizalamak için tarayıcının kağıt kılavuzlarını kullanın.
- Tek taraflı sayfaları yüzü aşağı tarayın. Arka taraftaki sızıntının OCR motorunu karıştıran gölge metinler oluşturmasını önleyin.
- Ciltli belgeler için düz yataklı tarayıcı kullanın. Kağıt beslemeli tarayıcılar kitap veya ciltli raporlardaki sayfaları eğebilir. Düz yataklı tarama, sayfayı düz ve doğru şekilde hizalanmış tutar.
Tarayıcı Bakımı ve Belge Hazırlığı
-
Yığınları taramadan önce camı temizleyin — lekeler her sayfada artefaktlar oluşturur
-
Boş bir sayfayı tarayarak çizgileri kontrol edin — dikey çizgiler kirli makaraları gösterir
-
Sıkışmaları ve ataşları önlemek için zımbaları ve ataşları çıkarın
-
Kıvrılmış sayfaları düzeltin — derin kıvrımlar OCR motorunun yanlış okuyabileceği gölgeler oluşturur
-
Yırtıkları arka taraftan bantla onarın — ön taraftaki bant yansımalar oluşturur
OCR Sonrası: Sonraki Adımlar
OCR çalıştırmak sadece ilk adımdır. Yeni aranabilir belgelerinizden en iyi şekilde nasıl yararlanacağınız aşağıda açıklanmıştır.
Sonuçları Doğrulayın
Özellikle kritik belgeler için OCR çıktısını her zaman rastgele kontrol edin:
- Belgede göründüğünü bildiğiniz anahtar terimleri arayın. Ctrl+F bunları tutarlı bir şekilde buluyorsa, OCR çalışıyor demektir.
- Bir paragrafı kopyalayıp bir metin düzenleyiciye yapıştırın. Açık hatalar için okuyun — bozuk kelimeler, eksik karakterler, anlamsız ikameler.
- Sayıları dikkatlice kontrol edin. Finansal tutarlar, tarihler, telefon numaraları ve hesap numaraları yüksek riskli verilerdir. Bir işlem tutarındaki "6"nın "8" olarak yanlış okunması gerçek bir sorundur. OCR motorları zaman zaman benzer rakamları karıştırır (0/O, 1/l, 5/S, 6/8).
Hataları Düzeltin ve Düzenleyin
Kritik belgelerde hatalar bulursanız, Adobe Acrobat Pro metin katmanını doğrudan düzenlemenize olanak tanır veya sorunlu sayfaları 600 DPI'da yeniden tarayıp OCR'yi tekrar çalıştırabilirsiniz. El yazısı bölümleri için, kötü OCR'yi düzeltmekten manuel transkripsiyon genellikle daha hızlıdır.
Aranabilir hale geldikten sonra, PDF'leriniz mevcut iş akışlarına entegre olur. Masaüstü araması (Windows Arama, Mac'te Spotlight) bunları otomatik olarak indeksler. Belge yönetim sistemleri (SharePoint, Google Drive, Dropbox) kütüphanenizde tam metin aramayı etkinleştirir. İyi dosya adları artı aranabilir içerik ideal kombinasyondur.
OCR'nin Gerçek Dünya Kullanım Alanları
Kağıt Arşivlerini Dijitalleştirme
İşletmeler, hukuk büroları ve devlet kurumları genellikle onlarca yıllık kağıt belgelere sahiptir. Basitçe PDF'ye taramak, yalnızca dosya adıyla aranabilen resim dosyaları oluşturur. OCR eklemek, pasif bir arşivi sorgulanabilir bir veritabanına dönüştürür. Tipik iş akışı: 300 DPI grayscale olarak tarayın, OCR çalıştırın, adlandırma kuralları uygulayın ve bir belge yönetim sistemine yükleyin.
Hukuki Belgeleri Aranabilir Hale Getirme
Hukuk profesyonelleri, keşif ve durum tespiti sırasında devasa belge hacimleriyle uğraşırlar. Karşı taraf vekili binlerce sayfa taranmış belge sunabilir. OCR olmadan, inceleme her sayfayı manuel olarak okumak anlamına gelir. OCR ile avukatlar, tüm set boyunca anahtar terimleri, adları, tarihleri ve tutarları arayabilirler - bu da incelemeyi gerçekçi zaman çizelgeleri içinde mümkün kılar.
Erişilebilirlik Uyumluluğu
Engelliler Yasası (ADA) ve Bölüm 508 uyarınca, devlet kurumlarından ve federal olarak finanse edilen kuruluşlardan gelen dijital belgeler erişilebilir olmalıdır. Ekran okuyucular yalnızca resim içeren PDF'leri yorumlayamaz - metin katmanına ihtiyaç duyarlar. OCR, uyumluluğa giden ilk adımdır. Ek çalışma (başlık yapısı, alt metin, okuma sırası etiketleri) takip edebilir, ancak metin katmanı olmadan erişilebilirlik imkansızdır.
Sigorta ve Finansal İşleme
Sigorta şirketleri ve bankalar, taranmış talep formları, tıbbi kayıtlar, çekler ve kredi başvurularından milyonlarca alır. OCR, otomatik veri çıkarmayı sağlar - taranmış belgelerden poliçe numaralarını, talep tutarlarını, hizmet tarihlerini ve hesap ayrıntılarını işleme sistemlerine çeker.
Akademik ve Araştırma Arşivleri
Üniversiteler, kütüphaneler ve arşivler, tarihi belgeleri, gazeteleri ve el yazmalarını dijitalleştiriyor. OCR, yüzyıllarca süren bilgiyi aranabilir hale getirir. Google Kitaplar ve İnternet Arşivi gibi projeler milyarlarca sayfayı OCR'den geçirerek, manuel olarak okumanın ömürler süreceği koleksiyonlar arasında tam metin aramayı mümkün kılmıştır.
Sıkça Sorulan Sorular
Birden fazla PDF'yi aynı anda OCR yapabilir miyim (toplu işleme)?
Evet. PDFSub, çok sayfalı belgeleri tek bir işlemde işlemeyi destekler. Büyük toplu işler için - yüzlerce veya binlerce dosya - bunları araç üzerinden sırayla işlersiniz. Adobe Acrobat Pro ayrıca, tüm PDF klasörlerini otomatik olarak işleyebilen Eylem Sihirbazı özelliği aracılığıyla toplu OCR sunar.
OCR, PDF'min görünümünü değiştirir mi?
Hayır. Doğru OCR, görünür sayfa görüntüsünün arkasına görünmez bir metin katmanı ekler. Taranmış PDF'nizin görsel görünümü değişmez - aynı sayfalar, aynı düzen, aynı çözünürlük. Metin katmanı yalnızca arama işlevleri, metin seçimi, kopyala-yapıştır ve ekran okuyucular için "görünür"dür.
Zaten aranabilir metin içeren bir PDF'ye OCR çalıştırırsam ne olur?
Çoğu OCR aracı mevcut metin katmanlarını algılar ve bu sayfaları atlar veya yeniden işlemeyi seçeneği sunar. Zaten aranabilir bir PDF'ye OCR çalıştırmak genellikle zararsızdır ancak gereksizdir - mevcut metin katmanını iyileştirmez ve yinelenen veri nedeniyle dosya boyutunu biraz artırabilir.
OCR'den sonra dosya boyutum artacak mı?
Biraz. Tipik bir taranmış belge için %5-15'lik bir artış bekleyin. Metin katmanının kendisi küçüktür (karakterler ve konum verileri) ve taranmış bir PDF'nin büyük çoğunluğunu oluşturan görüntü verilerine kıyasla artış ihmal edilebilir düzeydedir.
OCR, taranmış ve dijital sayfaların karışımı olan PDF'lerle çalışır mı?
Evet. İyi OCR araçları her sayfayı bağımsız olarak işler. Zaten bir metin katmanı olan sayfalar algılanır ve atlanabilir. Yalnızca resim olan sayfalar işlenir. Sonuç, orijinalin nasıl birleştirildiğine bakılmaksızın tamamen aranabilir bir PDF'dir.
OCR hangi dilleri destekler?
Dil desteği araca göre değişir. PDFSub'ın OCR'si Latince (İngilizce, İspanyolca, Fransızca, Almanca), CJK (Çince, Japonca, Korece), Kiril (Rusça, Ukraynaca), Arap alfabesi (Arapça, Farsça, Urduca), Devanagari (Hintçe, Marathi) ve daha fazlası dahil olmak üzere 130'dan fazla dili destekler.
OCR el yazısını okuyabilir mi?
Kısmen. Düzgün blok harflerle %70-80 doğruluk oranına ulaşılır. El yazısı önemli ölçüde daha zordur (%60-70 veya daha düşük). El yazısıyla yazılmış belgelerden kritik veriler için her zaman sonuçları manuel olarak doğrulayın.
OCR, PDF metin çıkarma ile aynı mı?
Hayır. OCR, metin görüntüsünü gerçek karakterlere dönüştürür - metin verisi olmadığında, yalnızca pikseller olduğunda gereklidir. PDF metin çıkarma, dijital bir PDF'nin içerik akışında zaten bulunan metni okur - kolayca çalışamayacağınız bir biçimde sıkışmış metin olduğunda gereklidir. PDF'niz dijital olarak oluşturulmuşsa, çıkarma işlemine ihtiyacınız vardır. Taranmışsa, önce OCR'ye ihtiyacınız vardır.
OCR, telefon kamerasıyla çekilen fotoğraflarda çalışır mı?
Evet, ancak doğruluk fotoğraf kalitesine bağlıdır. En iyi sonuçlar için: telefonu belgeye paralel tutun, eşit aydınlatma sağlayın (gölge yok), çerçeveyi doldurun, sabit tutun ve varsa telefonunuzun belge tarama modunu kullanın. Telefon fotoğrafları genellikle temiz basılı metin için %85-95 doğruluk oranı üretir - düz taramalardan daha düşük ancak aranabilirlik için genellikle yeterince iyidir.
OCR'den sonra metni düzenleyebilir miyim?
OCR metin katmanı görünmezdir ve tarama görüntüsünün üzerine yerleştirilmiştir. Metni kopyalayıp herhangi bir düzenleyiciye yapıştırabilir, metin katmanını doğrudan düzenlemek için Adobe Acrobat Pro'yu kullanabilir veya düzenleme için Word veya düz metne aktarabilirsiniz. Taranmış bir belgenin görünür içeriğini değiştirmek için yeniden taramanız veya görüntü üzerine ek açıklamalar eklemek için bir PDF düzenleyici kullanmanız gerekir.
OCR ile Başlarken
Aranabilir olması gereken taranmış PDF'leriniz varsa, en hızlı yol basittir:
- PDF'lerinizi test edin — OCR'ye ihtiyaçları olup olmadığını doğrulamak için Ctrl+F testini kullanın
- PDFSub'ın OCR aracını deneyin — pdfsub.com/tools/ocr adresinde taranmış bir PDF yükleyin ve sonuçları görün
- Çıktıyı doğrulayın — Doğruluğun ihtiyaçlarınızı karşıladığını doğrulamak için birkaç sayfayı rastgele kontrol edin
- Kalan belgelerinizi işleyin — Sonuçlardan emin olduğunuzda, birikmiş işlerinizi tamamlayın
PDFSub, OCR aracına ve platformdaki diğer tüm PDF araçlarına erişimi içeren 7 günlük ücretsiz deneme sunar. Taranmış bir belge yükleyin ve aranabilir metnin farkını görün. İstediğiniz zaman iptal edebilirsiniz.