So machen Sie gescannte PDFs durchsuchbar (OCR)
Gescannte PDFs sind nur Seitenbilder – Sie können den Text nicht durchsuchen, kopieren oder bearbeiten. OCR behebt dies, indem eine unsichtbare Textebene hinzugefügt wird. Hier sind drei Methoden, wie das geht.
Sie haben einen Stapel Dokumente als PDF gescannt. Sie sehen auf dem Bildschirm gut aus – klar, lesbar, professionell. Aber versuchen Sie, nach einem Wort zu suchen, einen Absatz zu kopieren oder eine Telefonnummer auszuwählen, und nichts passiert. Ihr Cursor zieht einen blauen Kasten über die Seite, als würden Sie ein Bild auswählen. Denn genau das tun Sie.
Gescannte PDFs sind Fotografien. Jede Seite ist ein einzelnes Bild – ein flaches Pixelraster ohne Konzept von Buchstaben, Wörtern oder Sätzen. Ihr Computer sieht in einem gescannten PDF genauso wenig Text wie in einem JPEG eines Sonnenuntergangs: nichts.
OCR (Optical Character Recognition – Optische Zeichenerkennung) löst dieses Problem. Es analysiert das Bild jeder Seite, identifiziert die Zeichen und fügt eine unsichtbare Textebene über dem ursprünglichen Scan hinzu. Das visuelle Erscheinungsbild bleibt identisch, aber jetzt können Sie Text suchen, kopieren, auswählen und von Screenreadern zugänglich machen.
Diese Anleitung erklärt, was OCR ist, wie es funktioniert, drei Methoden zum OCR-Scannen Ihrer gescannten PDFs und wie Sie die besten Ergebnisse erzielen.
So erkennen Sie, ob Ihr PDF OCR benötigt
Bevor Sie Zeit in OCR investieren, prüfen Sie, ob Ihr PDF dies tatsächlich benötigt. Viele PDFs sind "digital geboren" – erstellt aus Word-Dokumenten, Excel-Tabellen oder Webseiten – und enthalten bereits eine echte Textebene.
Der 5-Sekunden-Test
- Öffnen Sie Ihr PDF in einem beliebigen Viewer (Adobe Reader, Vorschau, Chrome, Edge)
- Drücken Sie Strg+F (Windows/Linux) oder Cmd+F (Mac)
- Geben Sie ein Wort ein, das Sie auf der Seite sehen können
- Wenn der Viewer das Wort hervorhebt: Ihr PDF hat bereits durchsuchbaren Text. Kein OCR erforderlich.
- Wenn nichts gefunden wird: Ihr PDF besteht nur aus Bildern. Es benötigt OCR.
Der Auswahltest
Versuchen Sie, Text auf der Seite auszuwählen und zu ziehen:
- Wenn Sie einzelne Wörter auswählen können und sie blau hervorgehoben werden: Das PDF hat eine Textebene.
- Wenn die gesamte Seite als ein Block ausgewählt wird (wie beim Auswählen eines Bildes): Das PDF ist ein Scan ohne Textebene.
- Wenn Sie teilweise Text auswählen können, aber nicht anderen Text: Das PDF hat teilweise OCR oder gemischte Inhalte – einige Seiten sind digital, andere gescannt.
Häufige PDF-Typen, die OCR benötigen
| Dokumententyp | Benötigt normalerweise OCR? | Warum |
|---|---|---|
| Gescannte Papierdokumente | Ja | Reines Bild, keine Textdaten |
| Als PDF gespeicherte Faxdokumente | Ja | Faxausgabe ist Rasterbild |
| Fotos von Dokumenten (Handykamera) | Ja | Kameraaufnahme = Bild |
| PDFs aus Kopierer "Scan to Email" | Ja | Die meisten Kopierer erstellen Bild-PDFs |
| PDFs aus Word/Excel exportiert | Nein | Digital geboren, Textebene enthalten |
| PDFs aus Webbrowsern (Drucken als PDF) | Nein | Text wird beibehalten |
| Online heruntergeladene Formulare von Behörden | Normalerweise nein | Die meisten sind digital geboren |
| Als PDF-Anhänge gesendete Belege | Normalerweise nein | Generiert von Kassensystemen mit Text |
Was ist OCR? Eine Erklärung in einfacher Sprache
OCR steht für Optical Character Recognition (Optische Zeichenerkennung). Es ist die Technologie, die Text aus Bildern liest – sie analysiert Pixelmuster, um Buchstaben, Zahlen und Symbole zu identifizieren, ähnlich wie Ihre Augen Wörter auf einer Seite lesen.
Wenn Sie ein Dokument scannen, erstellt der Scanner ein Foto. Dieses Foto enthält Pixel – dunkel, wo Tinte war, hell, wo Papier war – aber keine tatsächlichen Textdaten. Der Scanner weiß nicht, dass eine Anordnung von Pixeln "Rechnung" bedeutet. Er zeichnet nur das Bild auf.
OCR nimmt dieses Bild, analysiert die Formen, gleicht sie mit bekannten Zeichenmustern ab und gibt den Text aus, den diese Formen darstellen. Das Ergebnis ist ein PDF, das identisch mit dem Originalscan aussieht, aber eine unsichtbare Textebene enthält. Wenn Sie Strg+F drücken und nach "Dezember" suchen, prüft der PDF-Viewer die Textebene, findet die Übereinstimmung und hebt den Bereich auf dem Bild hervor, wo dieses Wort erscheint.
Wie weit OCR gekommen ist
OCR reicht bis in die 1950er Jahre zurück, als frühe Systeme nur bestimmte Schriftarten unter kontrollierten Bedingungen verarbeiten konnten. Die Technologie entwickelte sich über Template-Matching (1970er-80er), Feature-Extraktion (1990er-2000er) und maschinelles Lernen (2010er). Heutige OCR kombiniert tiefe neuronale Netze zur Zeichenerkennung mit Sprachmodellen, die Kontext nutzen, um Mehrdeutigkeiten aufzulösen – wenn das System unsicher ist, ob ein Zeichen "l" oder "1" ist, helfen die umgebenden Wörter bei der Entscheidung.
Moderne OCR-Engines erreichen über 99 % Zeichengenauigkeit bei sauberen, gut gescannten gedruckten Dokumenten.
Wie OCR funktioniert: Der technische Prozess
OCR ist kein einzelner Algorithmus. Es ist eine Pipeline von Schritten, die aufeinander aufbauen.
Schritt 1: Bildvorverarbeitung
Bevor eine Zeichenerkennung stattfindet, bereinigt die OCR-Engine das Bild. Dazu gehören Binarisierung (Umwandlung in Schwarzweiß für maximalen Kontrast), Schräglagenkorrektur (Korrektur selbst geringer Seitenrotation – eine Neigung von 1-2 Grad kann die Genauigkeit merklich reduzieren), Rauschunterdrückung (Entfernung von Scannerartefakten und Flecken) und Randentfernung (Entfernung schwarzer Ränder und Bindeschatten).
Schritt 2: Layout-Analyse
Die Engine identifiziert die Seitenstruktur – Textblöcke, Spalten, Bilder, Kopf- und Fußzeilen, Tabellen und Lesereihenfolge. Ohne diesen Schritt könnte ein zweiseitiges Dokument durcheinandergeratenes Ergebnis liefern, das beide Spalten gleichzeitig liest.
Schritt 3: Zeichensegmentierung
Innerhalb jedes Textblocks werden einzelne Zeichen isoliert. Zeilen werden durch vertikalen Abstand, Wörter durch horizontale Lücken und Zeichen innerhalb von Wörtern durch ihre Grenzen getrennt. Das ist schwieriger als es klingt – Zeichen in vielen Schriftarten überlappen oder berühren sich, und in Schriften wie Arabisch und Devanagari verbinden sich Zeichen auf komplexe Weise.
Schritt 4: Zeichenerkennung
Jedes segmentierte Zeichenbild wird mithilfe tiefer neuronaler Netze klassifiziert, die auf Millionen von beschrifteten Zeichenbildern trainiert wurden. Das Netzwerk gibt eine Liste von Kandidaten mit Konfidenzrang aus, nicht eine einzige Antwort. Ein sauberes "A" könnte eine Konfidenz von 99,8 % erhalten. Ein degradiertes Zeichen könnte eine viel flachere Verteilung ergeben.
Schritt 5: Sprachmodellierung
Die rohe Zeichenerkennung ist fehleranfällig. Kontext löst Mehrdeutigkeiten auf. Ist "lnvoice" ein Wort? Nein – das "l" war eigentlich ein "I", was "Invoice" ergibt. Statistische Sprachmodelle sagen wahrscheinliche Zeichenfolgen voraus, und Formatvalidierung wendet Regeln auf Muster wie Daten und Zahlen an.
Schritt 6: Ausgabegenerierung
Der erkannte Text wird den ursprünglichen Bildkoordinaten zugeordnet und als unsichtbare Textebene in das PDF geschrieben. Jedes Wort liegt genau über seinem visuellen Gegenstück, was die Such- und Hervorhebungsfunktion ermöglicht.
Methode 1: PDFSub OCR-Tool (Empfohlen)
Das OCR-Tool von PDFSub verarbeitet gescannte PDFs und fügt eine durchsuchbare Textebene hinzu, während das ursprüngliche visuelle Erscheinungsbild jeder Seite erhalten bleibt.
Schritt-für-Schritt-Anleitung
- Zum OCR-Tool gehen – Navigieren Sie zu pdfsub.com/tools/ocr
- Ihr gescanntes PDF hochladen – Ziehen Sie Ihre Datei per Drag & Drop oder klicken Sie zum Durchsuchen. Sie müssen große Dokumente nicht aufteilen – mehrseitige PDFs werden automatisch verarbeitet.
- OCR verarbeitet Ihr Dokument – Das Tool analysiert jede Seite, erkennt Text und erstellt die unsichtbare Textebene. Die Verarbeitungszeit hängt von der Seitenzahl und Komplexität ab, aber die meisten Dokumente sind in Sekunden fertig.
- Ihr durchsuchbares PDF herunterladen – Die Ausgabedatei sieht genauso aus wie Ihr Originalscan, unterstützt aber jetzt Textsuche, Textauswahl und Kopieren/Einfügen.
Warum PDFSub
Über 130 Sprachen unterstützt. OCR funktioniert mit Dokumenten in Englisch, Spanisch, Französisch, Deutsch, Chinesisch, Japanisch, Koreanisch, Arabisch, Hindi, Russisch, Portugiesisch und über 120 weiteren Sprachen. Mehrsprachige Dokumente werden automatisch verarbeitet – Sie müssen die Sprache nicht im Voraus angeben.
Ursprüngliches Erscheinungsbild erhalten. Der OCR-Prozess fügt Textdaten hinzu, ohne den visuellen Inhalt zu verändern. Ihre gescannten Seiten sehen genau gleich aus. Schriftarten, Layouts, Stempel, Unterschriften und handschriftliche Anmerkungen bleiben unberührt.
Keine Software zu installieren. Alles läuft in Ihrem Browser oder auf sicheren Servern. Es gibt nichts herunterzuladen, keine Systemanforderungen zu prüfen und keine Kompatibilitätsprobleme.
Datenschutzfreundliches Design. Hochgeladene Dokumente werden verarbeitet und dann gelöscht. PDFSub speichert Ihre Dateien nicht und verwendet sie nicht zum Training.
Kostenlos testen. PDFSub bietet eine 7-tägige kostenlose Testversion, damit Sie OCR mit Ihren eigenen Dokumenten testen können, bevor Sie sich festlegen.
Methode 2: Adobe Acrobat Pro
Adobe Acrobat Pro enthält eine integrierte OCR-Funktion namens "Text erkennen" in seinen Werkzeugen für Scans & OCR.
Schritt-für-Schritt-Anleitung
- Öffnen Sie Ihr gescanntes PDF in Adobe Acrobat Pro
- Gehen Sie zu Werkzeuge und wählen Sie Scan & OCR
- Klicken Sie auf Text erkennen und wählen Sie In dieser Datei oder In mehreren Dateien
- Wählen Sie unter Einstellungen Durchsuchbares Bild (fügt eine unsichtbare Textebene hinzu – empfohlen)
- Klicken Sie auf Text erkennen, um die Verarbeitung zu starten
- Speichern Sie die Datei
Stärken und Einschränkungen
Adobe liefert hohe Genauigkeit bei sauberen englischen Scans, unterstützt Stapelverarbeitung und ermöglicht die direkte Korrektur von OCR-Fehlern. Acrobat Pro kostet jedoch 19,99 $/Monat im Jahresabonnement (239,88 $/Jahr), erfordert eine Desktop-Installation (kein browserbasiertes OCR), unterstützt nur etwa 20 Sprachen und kann bei Dokumenten über 50 Seiten langsam sein.
Methode 3: Google Drive (Kostenlos, aber verlustbehaftet)
Google Drive enthält eine grundlegende OCR-Funktion, die Text aus gescannten PDFs extrahiert – jedoch mit einem erheblichen Kompromiss.
Schritt-für-Schritt-Anleitung
- Laden Sie Ihr gescanntes PDF auf Google Drive hoch
- Klicken Sie mit der rechten Maustaste auf die Datei und wählen Sie Öffnen mit und dann Google Docs
- Google verarbeitet das PDF und erstellt ein Google Doc mit dem extrahierten Text
- Der Text ist jetzt durchsuchbar, auswählbar und bearbeitbar
Stärken und Einschränkungen
Google Drive OCR ist völlig kostenlos, liefert gute Genauigkeit bei sauberen, getippten Dokumenten und erkennt Sprachen automatisch. Es gibt jedoch einen entscheidenden Nachteil: Es zerstört die Formatierung. Google fügt Ihrem PDF keine Textebene hinzu – es extrahiert Text in ein Google Doc. Tabellen werden zu einfachem Text, Spalten kollabieren und das ursprüngliche Layout geht verloren. Sie erhalten ein Google Doc, kein durchsuchbares PDF.
Es funktioniert auch am besten bei Dokumenten unter 10 Seiten. Längere Dokumente können abgeschnitten werden.
Am besten geeignet für: Extrahieren von Textinhalten, wenn Sie das ursprüngliche Layout nicht benötigen. Wenn Sie ein durchsuchbares PDF benötigen, das das Erscheinungsbild beibehält, verwenden Sie Methode 1 oder 2.
OCR-Genauigkeit: Was Sie je nach Dokumententyp erwarten können
OCR ist keine Magie. Die Genauigkeit variiert dramatisch je nach Dokumentenqualität, Inhaltstyp und Scanbedingungen. Hier sind die Ergebnisse realer Tests.
Getippte Dokumente (moderne Schriftarten): 95-99%
Moderne gedruckte Dokumente – Rechnungen, Verträge, Berichte, die auf Laserdruckern gedruckt wurden – sind das beste Szenario. Standard-Schriftarten sind in OCR-Trainingsdaten gut vertreten, und saubere Drucke auf weißem Papier erzeugen kontrastreiche Bilder. Bei 99 % Genauigkeit auf einer Seite mit 250 Wörtern (ca. 1.500 Zeichen) würden Sie etwa 15 Zeichenfehler erwarten – die meisten unbedeutend, wie ein Punkt, der als Komma falsch gelesen wird, oder ein Kleinbuchstabe "l", der mit "1" verwechselt wird.
Ältere Schreibmaschinendokumente: 85-95%
Mechanische Schreibmaschinen stellen Herausforderungen dar: inkonsistente Buchstabenjustierung, unterschiedliche Tintendichte durch Bandverschleiß und gleichmäßige Zeichenbreite, die zu Segmentierungsfehlern führt. Dennoch ist Schreibmaschinentext einzeln geformt und horizontal ausgerichtet, sodass die meisten OCR-Engines ihn für Suchzwecke gut genug verarbeiten.
Handschriftlicher Text: 60-80%
Handschrift bleibt die größte Herausforderung für OCR. Die Variabilität ist enorm – nicht nur zwischen Personen, sondern auch innerhalb der Handschrift einer einzelnen Person auf einer Seite. Saubere Blockbuchstaben können 80-85 % erreichen. Kursive Schrift in Bleistift auf liniiertem Papier kann unter 60 % fallen. Überprüfen Sie kritische Daten aus handschriftlichen Dokumenten immer manuell.
Gemischte Inhalte (Text + Tabellen): 90-97%
Dokumente, die Text mit tabellarischen Daten kombinieren, stellen eine zusätzliche Herausforderung für die Layout-Analyse dar. Die Zeichenerkennung innerhalb von Zellen ist in der Regel genau, aber strukturelle Fehler – falsch identifizierte Zellgrenzen, falsch zugeordnete Spalten, in Zeilen aufgeteilte mehrzeilige Zellen – verderben Datenbeziehungen und sind wichtiger als einzelne Zeichenfehler.
Zusammenfassung der Genauigkeitstabelle
| Dokumententyp | Zeichengenauigkeit | Durchsuchbar? | Datenextraktion zuverlässig? |
|---|---|---|---|
| Modern gedruckt (Laser) | 95-99% | Ausgezeichnet | Ja |
| Modern gedruckt (Inkjet) | 93-98% | Ausgezeichnet | Normalerweise |
| Ältere Schreibmaschine | 85-95% | Gut | Mit Verifizierung |
| Saubere Handschrift (Block) | 70-80% | Teilweise | Nein – alles überprüfen |
| Kursive Handschrift | 60-70% | Schlecht | Nein |
| Gemischter Text + Tabellen | 90-97% | Gut | Mit struktureller Überprüfung |
| Beschädigtes/verblasstes Papier | 70-90% | Variiert | Mit starker Verifizierung |
Best Practices für das Scannen vor OCR
Der wichtigste Faktor für die OCR-Genauigkeit ist nicht die OCR-Software – es ist die Scanqualität. Eine großartige OCR-Engine, die auf einem schlechten Scan arbeitet, liefert schlechtere Ergebnisse als eine mittelmäßige Engine, die auf einem großartigen Scan arbeitet.
Auflösung: Mindestens 300 DPI
DPI (dots per inch – Punkte pro Zoll) bestimmt, wie viele Details der Scanner erfasst.
- 300 DPI: Der Standard für die meisten Dokumente. Ausreichend für die zuverlässige Erkennung von Standardschriftarten bei normalen Textgrößen (10-12pt).
- 600 DPI: Empfohlen für kleinen Text (Fußnoten, Kleingedrucktes) oder wenn Sie maximale Genauigkeit benötigen.
- 150 DPI oder niedriger: Nicht empfohlen. Zeichen sind zu klein für eine zuverlässige Erkennung. Die Genauigkeit sinkt erheblich.
- 1200 DPI: Überflüssig für OCR. Keine Genauigkeitsverbesserung, und die Dateigrößen werden riesig.
Farbmodus: Graustufen ist normalerweise am besten
- Graustufen: Am besten für die meisten Dokumente. Erhält genügend Kontrast für eine gute Binarisierung und hält die Dateigrößen überschaubar.
- Schwarzweiß: Kann für saubere, kontrastreiche Dokumente funktionieren, kann aber Details in Randbereichen zerstören.
- Farbe: Nur notwendig, wenn das Dokument farbkodierte Informationen enthält, die Sie beibehalten müssen. Für OCR-Zwecke bietet Farbe keine Vorteile gegenüber Graustufen.
Ausrichtung und Orientierung
- Seiten gerade halten. Selbst eine Schräglage von 2-3 Grad kann die OCR-Genauigkeit um 5-10 % reduzieren. Verwenden Sie die Papierführungen des Scanners, um die Seiten auszurichten.
- Einseitige Seiten nach unten scannen. Vermeiden Sie, dass durchscheinender Text von der Rückseite Schatten erzeugt, die die OCR-Engine verwirren.
- Flachbettscanner für gebundene Dokumente verwenden. Stapelscanner können Seiten aus Büchern oder gebundenen Berichten schräg einziehen. Flachbettscannen hält die Seite flach und richtig ausgerichtet.
Scannerwartung und Dokumentenvorbereitung
- Reinigen Sie das Glas, bevor Sie Stapel scannen – Schlieren erzeugen auf jeder Seite Artefakte
- Prüfen Sie auf Streifen, indem Sie eine leere Seite scannen – vertikale Linien deuten auf verschmutzte Walzen hin
- Entfernen Sie Klammern und Büroklammern, um Staus und Kratzer zu vermeiden
- Geknickte Seiten glätten – tiefe Knicke erzeugen Schatten, die die OCR-Engine falsch lesen kann
- Risse auf der Rückseite mit Klebeband reparieren – Klebeband auf der Vorderseite erzeugt Reflexionen
Nach dem OCR: Was als Nächstes zu tun ist
Das Ausführen von OCR ist nur der erste Schritt. Hier erfahren Sie, wie Sie Ihre neu durchsuchbaren Dokumente optimal nutzen können.
Ergebnisse überprüfen
Überprüfen Sie die OCR-Ergebnisse immer stichprobenartig, insbesondere bei kritischen Dokumenten:
- Suchen Sie nach Schlüsselbegriffen, von denen Sie wissen, dass sie im Dokument vorkommen. Wenn Strg+F sie konsistent findet, funktioniert die OCR.
- Kopieren Sie einen Absatz und fügen Sie ihn in einen Texteditor ein. Lesen Sie ihn auf offensichtliche Fehler durch – unleserliche Wörter, fehlende Zeichen, unsinnige Ersetzungen.
- Prüfen Sie Zahlen sorgfältig. Geldbeträge, Daten, Telefonnummern und Kontonummern sind hochriskante Daten. Eine "6", die in einem Transaktionsbetrag als "8" fehlgelesen wird, ist ein echtes Problem. OCR-Engines verwechseln gelegentlich ähnliche Ziffern (0/O, 1/l, 5/S, 6/8).
Fehler korrigieren und organisieren
Wenn Sie Fehler in kritischen Dokumenten finden, können Sie mit Adobe Acrobat Pro die Textebene direkt bearbeiten, oder Sie können problematische Seiten mit 600 DPI neu scannen und OCR erneut ausführen. Für handschriftliche Abschnitte ist eine manuelle Transkription oft schneller als die Korrektur schlechter OCR.
Sobald sie durchsuchbar sind, lassen sich Ihre PDFs in bestehende Arbeitsabläufe integrieren. Die Desktop-Suche (Windows-Suche, Spotlight auf dem Mac) indiziert sie automatisch. Dokumentenverwaltungssysteme (SharePoint, Google Drive, Dropbox) ermöglichen die Volltextsuche in Ihrer Bibliothek. Gute Dateinamen plus durchsuchbarer Inhalt ist die ideale Kombination.
Anwendungsfälle für OCR in der Praxis
Digitalisierung von Papierarchiven
Unternehmen, Anwaltskanzleien und Behörden verfügen oft über jahrzehntealte Papierdokumente. Einfaches Scannen als PDF erstellt Bilddateien, die nur nach Dateiname durchsuchbar sind. Hinzufügen von OCR verwandelt ein passives Archiv in eine abfragbare Datenbank. Der typische Workflow: Scannen bei 300 DPI Graustufen, OCR ausführen, Namenskonventionen anwenden und in ein Dokumentenverwaltungssystem hochladen.
Durchsuchbarmachung von Rechtsdokumenten
Juristen befassen sich während der Beweiserhebung und Due Diligence mit riesigen Dokumentenmengen. Die Gegenseite kann Tausende von Seiten gescannter Dokumente vorlegen. Ohne OCR bedeutet die Überprüfung, jede Seite manuell zu lesen. Mit OCR können Anwälte nach Schlüsselbegriffen, Namen, Daten und Beträgen im gesamten Satz suchen – was die Überprüfung innerhalb realistischer Zeitrahmen ermöglicht.
Barrierefreiheitskonformität
Gemäß dem Americans with Disabilities Act (ADA) und Section 508 müssen digitale Dokumente von Behörden und staatlich finanzierten Organisationen barrierefrei sein. Screenreader können bildbasierte PDFs nicht interpretieren – sie benötigen eine Textebene. OCR ist der erste Schritt zur Konformität. Zusätzliche Arbeiten (Überschriftenstruktur, Alternativtexte, Lesereihenfolgen-Tags) können folgen, aber ohne die Textebene ist Barrierefreiheit unmöglich.
Versicherungs- und Finanzverarbeitung
Versicherungsgesellschaften und Banken erhalten Millionen von gescannten Antragsformularen, medizinischen Unterlagen, Schecks und Kreditanträgen. OCR ermöglicht die automatisierte Datenextraktion – das Herausziehen von Policennummern, Anspruchsbeträgen, Leistungsdaten und Kontodetails aus gescannten Dokumenten in Verarbeitungssysteme.
Akademische und Forschungsarchive
Universitäten, Bibliotheken und Archive digitalisieren historische Dokumente, Zeitungen und Manuskripte. OCR macht jahrhundertealtes Wissen durchsuchbar. Projekte wie Google Books und das Internet Archive haben Milliarden von Seiten per OCR verarbeitet, was die Volltextsuche in Sammlungen ermöglicht, deren manuelle Lektüre Lebenszeiten dauern würde.
Häufig gestellte Fragen
Kann ich mehrere PDFs gleichzeitig OCR-scannen (Stapelverarbeitung)?
Ja. PDFSub unterstützt die Verarbeitung mehrseitiger Dokumente in einem einzigen Vorgang. Für große Stapeljobs – Hunderte oder Tausende von Dateien – würden Sie diese nacheinander über das Tool verarbeiten. Adobe Acrobat Pro bietet auch Stapel-OCR über seine Action Wizard-Funktion, die ganze Ordner mit PDFs automatisch verarbeiten kann.
Verändert OCR das Aussehen meines PDFs?
Nein. Ordentliches OCR fügt eine unsichtbare Textebene hinter dem sichtbaren Seitenbild hinzu. Das visuelle Erscheinungsbild Ihres gescannten PDFs bleibt unverändert – dieselben Seiten, dasselbe Layout, dieselbe Auflösung. Die Textebene ist nur für Suchfunktionen, Textauswahl, Kopieren/Einfügen und Screenreader "sichtbar".
Was passiert, wenn ich OCR auf ein PDF anwende, das bereits durchsuchbaren Text enthält?
Die meisten OCR-Tools erkennen vorhandene Textebenen und überspringen diese Seiten oder geben Ihnen die Option, sie erneut zu verarbeiten. Das Anwenden von OCR auf ein bereits durchsuchbares PDF ist im Allgemeinen harmlos, aber unnötig – es verbessert die vorhandene Textebene nicht und kann die Dateigröße aufgrund redundanter Daten leicht erhöhen.
Wird meine Dateigröße nach OCR zunehmen?
Leicht. Rechnen Sie mit einer Zunahme von 5-15 % für ein typisches gescanntes Dokument. Die Textebene selbst ist klein (Zeichen und Positionsdaten), und die Zunahme ist vernachlässigbar im Vergleich zu den Bilddaten, die den Großteil eines gescannten PDFs ausmachen.
Kann OCR PDFs verarbeiten, die eine Mischung aus gescannten und digitalen Seiten sind?
Ja. Gute OCR-Tools verarbeiten jede Seite unabhängig. Seiten, die bereits eine Textebene haben, werden erkannt und können übersprungen werden. Seiten, die nur Bilder sind, werden verarbeitet. Das Ergebnis ist ein vollständig durchsuchbares PDF, unabhängig davon, wie das Original zusammengestellt wurde.
Welche Sprachen unterstützt OCR?
Die Sprachunterstützung variiert je nach Tool. Die OCR von PDFSub unterstützt über 130 Sprachen, darunter lateinische Schriften (Englisch, Spanisch, Französisch, Deutsch), CJK (Chinesisch, Japanisch, Koreanisch), Kyrillisch (Russisch, Ukrainisch), Arabisch (Arabisch, Persisch, Urdu), Devanagari (Hindi, Marathi) und viele mehr.
Kann OCR Handschrift lesen?
Teilweise. Saubere Blockbuchstaben erreichen 70-80 % Genauigkeit. Kursive Schrift ist deutlich schwieriger (60-70 % oder niedriger). Für kritische Daten aus handschriftlichen Dokumenten überprüfen Sie die Ergebnisse immer manuell.
Ist OCR dasselbe wie PDF-Textextraktion?
Nein. OCR konvertiert Bilder von Text in tatsächliche Zeichen – benötigt, wenn keine Textdaten vorhanden sind, nur Pixel. PDF-Textextraktion liest Text, der bereits im Inhaltsstrom eines digitalen PDFs vorhanden ist – benötigt, wenn Text in einem Format gefangen ist, mit dem Sie nicht einfach arbeiten können. Wenn Ihr PDF digital geboren ist, benötigen Sie Extraktion. Wenn es gescannt wurde, benötigen Sie zuerst OCR.
Funktioniert OCR auf Fotos, die mit einer Handykamera aufgenommen wurden?
Ja, aber die Genauigkeit hängt von der Fotoqualität ab. Für beste Ergebnisse: Halten Sie das Telefon parallel zum Dokument, sorgen Sie für gleichmäßige Beleuchtung (keine Schatten), füllen Sie den Rahmen aus, halten Sie es ruhig und verwenden Sie den Dokumenten-Scanmodus Ihres Telefons, falls verfügbar. Handyfotos liefern typischerweise 85-95 % Genauigkeit für sauberen gedruckten Text – weniger als Flachbettscans, aber oft gut genug für die Durchsuchbarkeit.
Kann ich den Text nach OCR bearbeiten?
Die OCR-Textebene ist unsichtbar und über dem Scanbild positioniert. Sie können Text kopieren und in jeden Editor einfügen, Adobe Acrobat Pro verwenden, um die Textebene direkt zu bearbeiten, oder nach Word oder als einfachen Text exportieren, um ihn zu bearbeiten. Um den sichtbaren Inhalt eines gescannten Dokuments zu ändern, müssten Sie es neu scannen oder einen PDF-Editor verwenden, um Anmerkungen über dem Bild hinzuzufügen.
Erste Schritte mit OCR
Wenn Sie gescannte PDFs haben, die durchsuchbar sein müssen, ist der schnellste Weg ganz einfach:
- Testen Sie Ihre PDFs – Verwenden Sie den Strg+F-Test, um zu bestätigen, dass sie OCR benötigen
- Probieren Sie das OCR-Tool von PDFSub aus – Laden Sie ein gescanntes PDF unter pdfsub.com/tools/ocr hoch und sehen Sie sich die Ergebnisse an
- Überprüfen Sie die Ausgabe – Überprüfen Sie stichprobenartig einige Seiten, um zu bestätigen, dass die Genauigkeit Ihren Anforderungen entspricht
- Verarbeiten Sie Ihre restlichen Dokumente – Sobald Sie von den Ergebnissen überzeugt sind, arbeiten Sie Ihren Rückstand ab
PDFSub bietet eine 7-tägige kostenlose Testversion, die den Zugriff auf das OCR-Tool und alle anderen PDF-Tools auf der Plattform beinhaltet. Laden Sie ein gescanntes Dokument hoch und erleben Sie den Unterschied, den durchsuchbarer Text macht. Jederzeit kündbar.