Hoe een gescand PDF te OCR'en (Maak het doorzoekbaar)
Gescande PDF's zijn slechts afbeeldingen van pagina's — u kunt de tekst niet doorzoeken, kopiëren of bewerken. OCR lost dit op door een onzichtbare tekstlaag toe te voegen. Hier leest u hoe u dit met drie verschillende methoden doet.
U hebt een stapel documenten naar PDF gescand. Ze zien er prima uit op het scherm — scherp, leesbaar, professioneel. Maar probeer een woord te zoeken, een paragraaf te kopiëren of een telefoonnummer te selecteren, en er gebeurt niets. Uw cursor sleept gewoon een blauw rechthoek over de pagina alsof u een afbeelding selecteert. Want dat is precies wat u doet.
Gescande PDF's zijn foto's. Elke pagina is een enkele afbeelding — een plat raster van pixels zonder enig besef van letters, woorden of zinnen. Uw computer ziet niet meer tekst in een gescande PDF dan in een JPEG van een zonsondergang: niets.
OCR (Optical Character Recognition) lost dit op. Het analyseert de afbeelding van elke pagina, identificeert de tekens en voegt een onzichtbare tekstlaag toe bovenop de originele scan. Het visuele uiterlijk blijft identiek, maar nu kunt u zoeken, kopiëren, tekst selecteren en schermlezers toegang geven.
Deze gids behandelt wat OCR is, hoe het werkt, drie methoden om uw gescande PDF's te OCR'en, en hoe u de beste resultaten krijgt.
Hoe te bepalen of uw PDF OCR nodig heeft
Controleer of uw PDF daadwerkelijk OCR nodig heeft voordat u tijd investeert. Veel PDF's zijn "born digital" — gemaakt van Word-documenten, Excel-spreadsheets of webpagina's — en bevatten al een echte tekstlaag.
De 5-seconden test
- Open uw PDF in een willekeurige viewer (Adobe Reader, Preview, Chrome, Edge)
- Druk op Ctrl+F (Windows/Linux) of Cmd+F (Mac)
- Typ een woord dat u op de pagina kunt zien
- Als de viewer het woord markeert: uw PDF heeft al doorzoekbare tekst. Geen OCR nodig.
- Als er niets wordt gevonden: uw PDF is alleen een afbeelding. Het heeft OCR nodig.
De selectietest
Probeer tekst op de pagina te selecteren door te klikken en te slepen:
- Als u individuele woorden kunt selecteren en ze blauw worden gemarkeerd: de PDF heeft een tekstlaag.
- Als de hele pagina als één blok wordt geselecteerd (zoals het selecteren van een afbeelding): de PDF is een scan zonder tekstlaag.
- Als u sommige tekst kunt selecteren, maar andere tekst niet: de PDF heeft gedeeltelijke OCR of gemengde inhoud — sommige pagina's zijn digitaal, andere zijn gescand.
Veelvoorkomende PDF-typen die OCR nodig hebben
| Documenttype | Heeft meestal OCR nodig? | Waarom |
|---|---|---|
| Gescande papieren documenten | Ja | Pure afbeelding, geen tekstdata |
| Gefaxte documenten opgeslagen als PDF | Ja | Faxuitvoer is een rasterafbeelding |
| Foto's van documenten (telefooncamera) | Ja | Camera-opname = afbeelding |
| PDF's van "scannen naar e-mail" van kopieerapparaten | Ja | De meeste kopieerapparaten produceren afbeeldings-PDF's |
| PDF's geëxporteerd uit Word/Excel | Nee | Born digital, tekstlaag inbegrepen |
| PDF's van webbrowser (print naar PDF) | Nee | Tekst blijft behouden |
| Overheidsformulieren online gedownload | Meestal niet | De meeste zijn born digital |
| Facturen als PDF-bijlagen gemaild | Meestal niet | Gegenereerd door POS-systemen met tekst |
Wat is OCR? Een uitleg in eenvoudige taal
OCR staat voor Optical Character Recognition (Optische Tekenherkenning). Het is de technologie die tekst uit afbeeldingen leest — het analyseert pixelpatronen om letters, cijfers en symbolen te identificeren, net zoals uw ogen woorden op een pagina lezen.
Wanneer u een document scant, maakt de scanner een foto. Die foto bevat pixels — donker waar inkt was, licht waar papier was — maar geen werkelijke tekstgegevens. De scanner weet niet dat een rangschikking van pixels "Factuur" spelt. Het registreert alleen de afbeelding.
OCR neemt die afbeelding, analyseert de vormen, vergelijkt ze met bekende tekenpatronen en produceert de tekst die die vormen vertegenwoordigen. Het resultaat is een PDF die identiek is aan de originele scan, maar een onzichtbare tekstlaag bevat. Wanneer u Ctrl+F indrukt en zoekt naar "December", controleert de PDF-viewer de tekstlaag, vindt de overeenkomst en markeert het gebied op de afbeelding waar dat woord verschijnt.
Hoe ver OCR is gekomen
OCR dateert uit de jaren '50, toen vroege systemen alleen specifieke lettertypen in gecontroleerde omgevingen konden verwerken. De technologie evolueerde via template matching (jaren '70-'80), feature extraction (jaren '90-2000) en machine learning (jaren '10). Huidige OCR combineert deep neural networks voor tekenherkenning met taalmodellen die context gebruiken om ambiguïteiten op te lossen — als het systeem niet zeker weet of een teken "l" of "1" is, helpen de omringende woorden bij de beslissing.
Moderne OCR-engines bereiken meer dan 99% tekennauwkeurigheid op schone, goed gescande gedrukte documenten.
Hoe OCR werkt: Het technische proces
OCR is geen enkel algoritme. Het is een reeks stappen, die elk voortbouwen op de vorige.
Stap 1: Beeldvoorverwerking
Voordat er enige tekenherkenning plaatsvindt, maakt de OCR-engine de afbeelding schoon. Dit omvat binarisatie (omzetten naar zwart-wit voor maximaal contrast), deskewing (corrigeren van zelfs lichte paginarotatie — een kanteling van 1-2 graden kan de nauwkeurigheid merkbaar verminderen), ruisverwijdering (verwijderen van scannerartefacten en spikkels) en randverwijdering (verwijderen van zwarte randen en bindschaduwen).
Stap 2: Lay-outanalyse
De engine identificeert de paginastructuur — tekstblokken, kolommen, afbeeldingen, koppen, voetteksten, tabellen en leesvolgorde. Zonder deze stap kan een document met twee kolommen een rommelige uitvoer produceren die tegelijkertijd beide kolommen leest.
Stap 3: Tekensegmentatie
Binnen elk tekstblok worden individuele tekens geïsoleerd. Regels worden gescheiden door verticale afstand, woorden door horizontale spaties, en tekens binnen woorden door hun grenzen. Dit is moeilijker dan het klinkt — tekens in veel lettertypen overlappen of raken elkaar, en in scripts zoals Arabisch en Devanagari verbinden tekens op complexe manieren.
Stap 4: Tekenherkenning
Elke gesegmenteerde tekenafbeelding wordt geclassificeerd met behulp van deep neural networks die zijn getraind op miljoenen gelabelde tekenafbeeldingen. Het netwerk produceert een lijst met kandidaten, gerangschikt op betrouwbaarheid, niet één enkel antwoord. Een schone "A" kan 99,8% betrouwbaarheid krijgen. Een beschadigd teken kan een veel vlakkere verdeling opleveren.
Stap 5: Taalmodellering
Ruwe tekenherkenning is foutgevoelig. Context lost ambiguïteiten op. Is "lnvoice" een woord? Nee — de "l" was eigenlijk een "I", waardoor het "Invoice" wordt. Statistische taalmodellen voorspellen waarschijnlijke tekenreeksen, en formaatvalidatie past regels toe op patronen zoals datums en getallen.
Stap 6: Uitvoergeneratie
De herkende tekst wordt teruggekoppeld naar de oorspronkelijke beeldcoördinaten en in de PDF geschreven als een onzichtbare tekstlaag. Elk woord komt precies overeen met zijn visuele tegenhanger, waardoor de zoek-en-markeerfunctionaliteit mogelijk wordt.
Methode 1: PDFSub OCR-tool (Aanbevolen)
De OCR-tool van PDFSub verwerkt gescande PDF's en voegt een doorzoekbare tekstlaag toe, terwijl het oorspronkelijke visuele uiterlijk van elke pagina behouden blijft.
Stapsgewijze instructies
- Ga naar de OCR-tool — Navigeer naar pdfsub.com/tools/ocr
- Upload uw gescande PDF — Sleep uw bestand hierheen of klik om te bladeren. U hoeft grote documenten niet op te splitsen — meerpagina PDF's worden automatisch verwerkt.
- OCR verwerkt uw document — De tool analyseert elke pagina, herkent tekst en bouwt de onzichtbare tekstlaag op. De verwerkingstijd is afhankelijk van het aantal pagina's en de complexiteit, maar de meeste documenten zijn binnen enkele seconden klaar.
- Download uw doorzoekbare PDF — Het uitvoerbestand ziet er identiek uit als uw originele scan, maar ondersteunt nu tekstzoeken, tekstselectie en kopiëren/plakken.
Waarom PDFSub
Ondersteuning voor 130+ talen. OCR werkt met documenten in het Engels, Spaans, Frans, Duits, Chinees, Japans, Koreaans, Arabisch, Hindi, Russisch, Portugees en meer dan 120 extra talen. Documenten in meerdere talen worden automatisch verwerkt — u hoeft de taal niet van tevoren op te geven.
Origineel uiterlijk behouden. Het OCR-proces voegt tekstgegevens toe zonder de visuele inhoud te wijzigen. Uw gescande pagina's zien er precies hetzelfde uit. Lettertypen, lay-outs, stempels, handtekeningen en handgeschreven annotaties blijven onaangetast.
Geen software te installeren. Alles draait in uw browser of op beveiligde servers. Er hoeft niets te worden gedownload, er zijn geen systeemeisen te controleren en geen compatibiliteitsproblemen.
Privacybewust ontwerp. Geüploade documenten worden verwerkt en vervolgens verwijderd. PDFSub bewaart uw bestanden niet en gebruikt ze niet voor training.
Probeer het gratis. PDFSub biedt een 7-daagse gratis proefperiode zodat u OCR op uw eigen documenten kunt testen voordat u zich vastlegt.
Methode 2: Adobe Acrobat Pro
Adobe Acrobat Pro bevat een ingebouwde OCR-functie genaamd "Tekst herkennen" binnen de Scan & OCR-werkset.
Stapsgewijze instructies
- Open uw gescande PDF in Adobe Acrobat Pro
- Ga naar Tools en selecteer Scan & OCR
- Klik op Tekst herkennen en kies In dit bestand of In meerdere bestanden
- Selecteer onder Instellingen Doorzoekbare afbeelding (voegt onzichtbare tekstlaag toe — aanbevolen)
- Klik op Tekst herkennen om de verwerking te starten
- Sla het bestand op
Sterke punten en beperkingen
Adobe levert hoge nauwkeurigheid op schone Engelse scans, ondersteunt batchverwerking en laat u OCR-fouten direct corrigeren. Acrobat Pro kost echter $19,99/maand op een jaarlijks abonnement ($239,88/jaar), vereist desktopinstallatie (geen browsergebaseerde OCR), ondersteunt slechts ongeveer 20 talen en kan traag zijn op documenten van meer dan 50 pagina's.
Methode 3: Google Drive (Gratis, maar met verlies van kwaliteit)
Google Drive bevat een basisfunctie voor OCR die tekst uit gescande PDF's extraheert — maar met een aanzienlijk compromis.
Stapsgewijze instructies
- Upload uw gescande PDF naar Google Drive
- Klik met de rechtermuisknop op het bestand en selecteer Openen met en vervolgens Google Documenten
- Google verwerkt de PDF en maakt een Google Document met de geëxtraheerde tekst
- De tekst is nu doorzoekbaar, selecteerbaar en bewerkbaar
Sterke punten en beperkingen
Google Drive OCR is volledig gratis, levert goede nauwkeurigheid op schone getypte documenten en detecteert talen automatisch. Er is echter een cruciaal nadeel: het vernietigt de opmaak. Google voegt geen tekstlaag toe aan uw PDF — het extraheert tekst naar een Google Document. Tabellen worden platte tekst, kolommen vallen weg en de oorspronkelijke lay-out gaat verloren. U eindigt met een Google Document, geen doorzoekbare PDF.
Het werkt ook het beste op documenten van minder dan 10 pagina's. Langere documenten kunnen worden afgekapt.
Het beste voor: Het extraheren van tekstinhoud wanneer u de oorspronkelijke lay-out niet nodig hebt. Als u een doorzoekbare PDF nodig hebt die het uiterlijk behoudt, gebruik dan Methode 1 of Methode 2.
OCR-nauwkeurigheid: Wat te verwachten per documenttype
OCR is geen magie. De nauwkeurigheid varieert dramatisch op basis van de documentkwaliteit, het inhoudstype en de scanomstandigheden. Hier ziet u wat tests in de praktijk laten zien.
Getypte documenten (moderne lettertypen): 95-99%
Moderne gedrukte documenten — facturen, contracten, rapporten gedrukt op laserprinters — zijn het beste scenario. Standaard lettertypen zijn goed vertegenwoordigd in OCR-trainingsgegevens, en schone afdrukken op wit papier produceren beelden met een hoog contrast. Bij 99% nauwkeurigheid op een pagina van 250 woorden (ongeveer 1.500 tekens) zou u ongeveer 15 tekenfouten verwachten — de meeste onbeduidend, zoals een punt die wordt aangezien voor een komma of een kleine "l" die wordt verward met "1".
Oudere getypte documenten: 85-95%
Mechanische typemachines vormen uitdagingen: inconsistente tekenuitlijning, variërende inktdichtheid door slijtage van de linten, en uniforme tekenbreedte die segmentatieverwarring veroorzaakt. Toch is getypte tekst individueel gevormd en horizontaal uitgelijnd, dus de meeste OCR-engines verwerken het goed genoeg voor zoekdoeleinden.
Handgeschreven tekst: 60-80%
Handschrift blijft de grootste uitdaging voor OCR. De variabiliteit is enorm — niet alleen tussen mensen, maar ook binnen het handschrift van één persoon op één pagina. Netjes blokschrift kan 80-85% bereiken. Cursief schrift in potlood op gelinieerd papier kan onder de 60% zakken. Verifieer kritieke gegevens uit handgeschreven documenten altijd handmatig.
Gemengde inhoud (tekst + tabellen): 90-97%
Documenten die tekst combineren met tabelgegevens voegen een uitdaging voor lay-outanalyse toe. Tekenherkenning binnen cellen is doorgaans nauwkeurig, maar structurele fouten — verkeerd geïdentificeerde celgrenzen, verkeerd toegewezen kolommen, meerregelige cellen opgesplitst in rijen — corrumperen gegevensrelaties en zijn belangrijker dan individuele tekenfouten.
Samenvattingstabel nauwkeurigheid
| Documenttype | Tekennauwkeurigheid | Doorzoekbaar? | Betrouwbare data-extractie? |
|---|---|---|---|
| Modern gedrukt (laser) | 95-99% | Uitstekend | Ja |
| Modern gedrukt (inkjet) | 93-98% | Uitstekend | Meestal |
| Ouder getypt | 85-95% | Goed | Met verificatie |
| Netjes handschrift (blok) | 70-80% | Gedeeltelijk | Nee — alles verifiëren |
| Cursief handschrift | 60-70% | Slecht | Nee |
| Gemengde tekst + tabellen | 90-97% | Goed | Met structurele beoordeling |
| Beschadigd/vervuild papier | 70-90% | Varieert | Met zware verificatie |
Beste praktijken voor scannen vóór OCR
De belangrijkste factor voor OCR-nauwkeurigheid is niet de OCR-software — het is de scan Kwaliteit. Een geweldige OCR-engine die op een slechte scan werkt, levert slechtere resultaten op dan een middelmatige engine die op een geweldige scan werkt.
Resolutie: minimaal 300 DPI
DPI (dots per inch) bepaalt hoeveel detail de scanner vastlegt.
- 300 DPI: De standaard voor de meeste documenten. Genoeg voor betrouwbare herkenning van standaard lettertypen op normale tekstgroottes (10-12pt).
- 600 DPI: Aanbevolen voor kleine tekst (voetnoten, kleine lettertjes) of wanneer u maximale nauwkeurigheid nodig hebt.
- 150 DPI of lager: Niet aanbevolen. Tekens zijn te klein voor betrouwbare herkenning. De nauwkeurigheid neemt aanzienlijk af.
- 1200 DPI: Overbodig voor OCR. Geen verbetering van de nauwkeurigheid en de bestandsgroottes worden enorm.
Kleurmodus: Grijstinten is meestal het beste
- Grijstinten: Het beste voor de meeste documenten. Behoudt voldoende contrast voor goede binarisatie, terwijl de bestandsgroottes beheersbaar blijven.
- Zwart-wit: Kan werken voor schone documenten met hoog contrast, maar kan details in marginale gebieden vernietigen.
- Kleur: Alleen nodig als het document kleurenspecifieke informatie bevat die u wilt behouden. Voor OCR-doeleinden biedt kleur geen voordeel ten opzichte van grijstinten.
Uitlijning en oriëntatie
- Houd pagina's recht. Zelfs een scheefstand van 2-3 graden kan de OCR-nauwkeurigheid met 5-10% verminderen. Gebruik de papiergeleiders van de scanner om pagina's uitgelijnd te houden.
- Scan enkelzijdige pagina's met de voorkant naar beneden. Voorkom dat doordruk van de achterkant schaduwtekst creëert die de OCR-engine verstoort.
- Gebruik een flatbedscanner voor gebonden documenten. Documentinvoerscanners kunnen pagina's van boeken of gebonden rapporten scheef trekken. Flatbedscannen houdt de pagina plat en correct uitgelijnd.
Scanneronderhoud en documentvoorbereiding
- Maak het glas schoon voordat u batches scant — vlekken creëren artefacten op elke pagina
- Controleer op strepen door een lege pagina te scannen — verticale lijnen duiden op vuile rollers
- Verwijder nietjes en paperclips om vastlopen en krassen te voorkomen
- Vlak kreukelige pagina's — diepe kreukels creëren schaduwen die de OCR-engine verkeerd kan lezen
- Repareer scheuren met tape aan de achterkant — tape aan de voorkant veroorzaakt reflecties
Na OCR: Wat nu te doen
OCR uitvoeren is slechts de eerste stap. Hier leest u hoe u het meeste uit uw nieuw doorzoekbare documenten haalt.
Controleer de resultaten
Controleer altijd de OCR-uitvoer, vooral voor kritieke documenten:
- Zoek naar trefwoorden waarvan u weet dat ze in het document voorkomen. Als Ctrl+F ze consequent vindt, werkt de OCR.
- Kopieer een paragraaf en plak deze in een teksteditor. Lees deze door op duidelijke fouten — onleesbare woorden, ontbrekende tekens, onzinnige vervangingen.
- Controleer getallen zorgvuldig. Financiële bedragen, datums, telefoonnummers en accountnummers zijn gegevens met een hoog risico. Een "6" die wordt aangezien voor een "8" in een transactiebedrag is een echt probleem. OCR-engines verwarren af en toe vergelijkbare cijfers (0/O, 1/l, 5/S, 6/8).
Corrigeer fouten en organiseer
Als u fouten vindt in kritieke documenten, kunt u met Adobe Acrobat Pro de tekstlaag direct bewerken, of u kunt problematische pagina's opnieuw scannen op 600 DPI en OCR opnieuw uitvoeren. Voor handgeschreven secties is handmatige transcriptie vaak sneller dan het corrigeren van slechte OCR.
Eenmaal doorzoekbaar, integreren uw PDF's in bestaande workflows. Desktopzoekfuncties (Windows Search, Spotlight op Mac) indexeren ze automatisch. Documentbeheersystemen (SharePoint, Google Drive, Dropbox) maken volledige tekstzoekopdrachten in uw bibliotheek mogelijk. Goede bestandsnamen plus doorzoekbare inhoud is de ideale combinatie.
Gebruiksscenario's voor OCR in de praktijk
Digitaliseren van papieren archieven
Bedrijven, advocatenkantoren en overheidsinstanties hebben vaak decennia aan papieren documenten. Alleen al scannen naar PDF creëert afbeeldingsbestanden die alleen door bestandsnaam doorzoekbaar zijn. Het toevoegen van OCR verandert een passief archief in een bevraagbare database. De typische workflow: scannen op 300 DPI grijstinten, OCR uitvoeren, naamgevingsconventies toepassen en uploaden naar een documentbeheersysteem.
Juridische documenten doorzoekbaar maken
Juridische professionals hebben te maken met enorme documentvolumes tijdens ontdekking en due diligence. Tegenpartijen kunnen duizenden pagina's gescande documenten produceren. Zonder OCR betekent beoordeling het handmatig lezen van elke pagina. Met OCR kunnen advocaten zoeken naar trefwoorden, namen, datums en bedragen in de hele set — waardoor beoordeling haalbaar wordt binnen realistische tijdlijnen.
Toegankelijkheidsnaleving
Volgens de Americans with Disabilities Act (ADA) en Sectie 508 moeten digitale documenten van overheidsinstanties en door de federale overheid gefinancierde organisaties toegankelijk zijn. Schermlezers kunnen alleen-afbeeldings-PDF's niet interpreteren — ze hebben een tekstlaag nodig. OCR is de eerste stap naar naleving. Aanvullend werk (kopstructuur, alt-tekst, leesordertags) kan volgen, maar zonder de tekstlaag is toegankelijkheid onmogelijk.
Verzekerings- en financiële verwerking
Verzekeringsmaatschappijen en banken ontvangen miljoenen gescande claimformulieren, medische dossiers, cheques en leningaanvragen. OCR maakt geautomatiseerde data-extractie mogelijk — het ophalen van polisnummers, claimbedragen, service datums en rekeninggegevens uit gescande documenten naar verwerkingssystemen.
Academische en onderzoeksarchieven
Universiteiten, bibliotheken en archieven digitaliseren historische documenten, kranten en manuscripten. OCR maakt eeuwen aan kennis doorzoekbaar. Projecten zoals Google Books en het Internet Archive hebben miljarden pagina's ge-OCR'd, waardoor volledige tekstzoekopdrachten mogelijk zijn in collecties die levens zouden duren om handmatig te lezen.
Veelgestelde vragen
Kan ik meerdere PDF's tegelijk OCR'en (batchverwerking)?
Ja. PDFSub ondersteunt het verwerken van documenten met meerdere pagina's in één bewerking. Voor grote batchopdrachten — honderden of duizenden bestanden — zou u ze sequentieel via de tool verwerken. Adobe Acrobat Pro biedt ook batch OCR via de Action Wizard-functie, die automatisch volledige mappen met PDF's kan verwerken.
Verandert OCR hoe mijn PDF eruitziet?
Nee. Correcte OCR voegt een onzichtbare tekstlaag toe achter de zichtbare paginabeeld. Het visuele uiterlijk van uw gescande PDF blijft onveranderd — dezelfde pagina's, dezelfde lay-out, dezelfde resolutie. De tekstlaag is alleen "zichtbaar" voor zoekfuncties, tekstselectie, kopiëren/plakken en schermlezers.
Wat gebeurt er als ik OCR uitvoer op een PDF die al doorzoekbare tekst heeft?
De meeste OCR-tools detecteren bestaande tekstlagen en slaan die pagina's over of geven u de optie om ze opnieuw te verwerken. OCR uitvoeren op een reeds doorzoekbare PDF is over het algemeen onschadelijk maar onnodig — het verbetert de bestaande tekstlaag niet en kan de bestandsgrootte enigszins vergroten door de redundante gegevens.
Zal mijn bestandsgrootte toenemen na OCR?
Lichtjes. Verwacht een toename van 5-15% voor een typisch gescand document. De tekstlaag zelf is klein (tekens en positiegegevens), en de toename is verwaarloosbaar vergeleken met de afbeeldingsgegevens die het grootste deel van een gescande PDF vormen.
Kan OCR PDF's verwerken die een mix zijn van gescande en digitale pagina's?
Ja. Goede OCR-tools verwerken elke pagina onafhankelijk. Pagina's die al een tekstlaag hebben, worden gedetecteerd en kunnen worden overgeslagen. Pagina's die alleen afbeeldingen zijn, worden verwerkt. Het resultaat is een volledig doorzoekbare PDF, ongeacht hoe het origineel is samengesteld.
Welke talen ondersteunt OCR?
Taalondersteuning varieert per tool. De OCR van PDFSub ondersteunt meer dan 130 talen, waaronder Latijnse scripts (Engels, Spaans, Frans, Duits), CJK (Chinees, Japans, Koreaans), Cyrillisch (Russisch, Oekraïens), Arabische scripts (Arabisch, Perzisch, Urdu), Devanagari (Hindi, Marathi) en nog veel meer.
Kan OCR handschrift lezen?
Gedeeltelijk. Netjes blokschrift bereikt 70-80% nauwkeurigheid. Cursief schrift is aanzienlijk moeilijker (60-70% of lager). Voor kritieke gegevens uit handgeschreven documenten, verifieer resultaten altijd handmatig.
Is OCR hetzelfde als PDF-tekstextractie?
Nee. OCR converteert afbeeldingen van tekst naar werkelijke tekens — nodig wanneer er geen tekstgegevens zijn, alleen pixels. PDF-tekstextractie leest tekst die al bestaat in de content stream van een digitale PDF — nodig wanneer tekst is opgesloten in een formaat dat u niet gemakkelijk kunt bewerken. Als uw PDF born digital is, hebt u extractie nodig. Als deze is gescand, hebt u eerst OCR nodig.
Werkt OCR op foto's gemaakt met een telefooncamera?
Ja, maar de nauwkeurigheid hangt af van de fotokwaliteit. Voor de beste resultaten: houd de telefoon parallel aan het document, zorg voor gelijkmatige verlichting (geen schaduwen), vul het frame, houd stabiel, en gebruik de documentscanmodus van uw telefoon indien beschikbaar. Telefoonfoto's produceren doorgaans 85-95% nauwkeurigheid voor schone gedrukte tekst — lager dan flatbedscans, maar vaak goed genoeg voor doorzoekbaarheid.
Kan ik de tekst na OCR bewerken?
De OCR-tekstlaag is onzichtbaar en gepositioneerd over de scanafbeelding. U kunt tekst kopiëren en plakken in elke editor, Adobe Acrobat Pro gebruiken om de tekstlaag direct te bewerken, of exporteren naar Word of platte tekst om te bewerken. Om de zichtbare inhoud van een gescand document te wijzigen, moet u opnieuw scannen of een PDF-editor gebruiken om annotaties over de afbeelding toe te voegen.
Aan de slag met OCR
Als u gescande PDF's hebt die doorzoekbaar moeten zijn, is de snelste weg eenvoudig:
- Test uw PDF's — Gebruik de Ctrl+F-test om te bevestigen dat ze OCR nodig hebben
- Probeer de OCR-tool van PDFSub — Upload een gescande PDF op pdfsub.com/tools/ocr en bekijk de resultaten
- Verifieer de uitvoer — Controleer een paar pagina's om te bevestigen dat de nauwkeurigheid aan uw behoeften voldoet
- Verwerk uw resterende documenten — Zodra u vertrouwen hebt in de resultaten, werkt u uw achterstand weg
PDFSub biedt een 7-daagse gratis proefperiode die toegang biedt tot de OCR-tool en alle andere PDF-tools op het platform. Upload een gescand document en ervaar het verschil dat doorzoekbare tekst maakt. Annuleer op elk moment.