Sie haben einen Stapel Dokumente als PDF gescannt. Sie sehen auf dem Bildschirm gut aus – klar, lesbar, professionell. Aber versuchen Sie, nach einem Wort zu suchen, einen Absatz zu kopieren oder eine Telefonnummer auszuwählen, und nichts passiert. Ihr Cursor zieht einfach ein blaues Rechteck über die Seite, als würden Sie ein Bild auswählen. Denn genau das tun Sie.

Gescannte PDFs sind Fotografien. Jede Seite ist ein einzelnes Bild – ein flaches Pixelraster ohne Konzept von Buchstaben, Wörtern oder Sätzen. Ihr Computer sieht in einem gescannten PDF genauso wenig Text wie in einem JPEG eines Sonnenuntergangs: gar keinen.

OCR (Optical Character Recognition – Optische Zeichenerkennung) löst dieses Problem. Es analysiert das Bild jeder Seite, identifiziert die Zeichen und fügt eine unsichtbare Textebene über dem ursprünglichen Scan hinzu. Das visuelle Erscheinungsbild bleibt identisch, aber jetzt können Sie Text suchen, kopieren, auswählen und von Screenreadern zugänglich machen.

Diese Anleitung erklärt, was OCR ist, wie es funktioniert, drei Methoden zum OCR-Scannen Ihrer gescannten PDFs und wie Sie die besten Ergebnisse erzielen.

How to OCR a scanned PDF - converting image-only pages into searchable, selectable text

So erkennen Sie, ob Ihr PDF OCR benötigt

Bevor Sie Zeit in OCR investieren, prüfen Sie, ob Ihr PDF es tatsächlich benötigt. Viele PDFs sind "digital geboren" – erstellt aus Word-Dokumenten, Excel-Tabellen oder Webseiten – und enthalten bereits eine echte Textebene.

Der 5-Sekunden-Test

Öffnen Sie Ihr PDF in einem beliebigen Betrachter (Adobe Reader, Vorschau, Chrome, Edge)
Drücken Sie Strg+F (Windows/Linux) oder Cmd+F (Mac)
Geben Sie ein Wort ein, das Sie auf der Seite sehen können
Wenn der Betrachter das Wort hervorhebt: Ihr PDF hat bereits durchsuchbaren Text. Kein OCR erforderlich.
Wenn nichts gefunden wird: Ihr PDF ist nur ein Bild. Es benötigt OCR.

Der Auswahltest

Versuchen Sie, Text auf der Seite anzuklicken und zu ziehen, um ihn auszuwählen:

Wenn Sie einzelne Wörter auswählen können und diese blau hervorgehoben werden: Das PDF hat eine Textebene.
Wenn die gesamte Seite als ein Block ausgewählt wird (wie beim Auswählen eines Bildes): Das PDF ist ein Scan ohne Textebene.
Wenn Sie teilweise Text auswählen können, aber nicht anderen Text: Das PDF hat teilweise OCR oder gemischten Inhalt – einige Seiten sind digital, andere gescannt.

Häufige PDF-Typen, die OCR benötigen

Dokumententyp	Benötigt normalerweise OCR?	Warum
Gescannte Papierdokumente	Ja	Reines Bild, keine Textdaten
Als PDF gespeicherte Faxdokumente	Ja	Faxausgabe ist Rasterbild
Fotos von Dokumenten (Handykamera)	Ja	Kameraaufnahme = Bild
PDFs aus Kopierer "Scan to Email"	Ja	Die meisten Kopierer erstellen Bild-PDFs
PDFs aus Word/Excel exportiert	Nein	Digital geboren, Textebene enthalten
PDFs aus Webbrowsern (Drucken als PDF)	Nein	Text bleibt erhalten
Online heruntergeladene Formulare	Normalerweise nein	Die meisten sind digital geboren
Als PDF-Anhänge gesendete Rechnungen	Normalerweise nein	Von Kassensystemen mit Text generiert

Was ist OCR? Eine Erklärung in einfacher Sprache

OCR steht für Optical Character Recognition (Optische Zeichenerkennung). Es ist die Technologie, die Text aus Bildern liest – sie analysiert Pixelmuster, um Buchstaben, Zahlen und Symbole zu identifizieren, ähnlich wie Ihre Augen Wörter auf einer Seite lesen.

Wenn Sie ein Dokument scannen, erstellt der Scanner ein Foto. Dieses Foto enthält Pixel – dunkel, wo Tinte war, hell, wo Papier war – aber keine tatsächlichen Textdaten. Der Scanner weiß nicht, dass eine Anordnung von Pixeln "Rechnung" bedeutet. Er zeichnet nur das Bild auf.

OCR nimmt dieses Bild, analysiert die Formen, gleicht sie mit bekannten Zeichenmustern ab und gibt den Text aus, den diese Formen darstellen. Das Ergebnis ist ein PDF, das dem ursprünglichen Scan identisch aussieht, aber eine unsichtbare Textebene enthält. Wenn Sie Strg+F drücken und nach "Dezember" suchen, prüft der PDF-Betrachter die Textebene, findet die Übereinstimmung und hebt den Bereich auf dem Bild hervor, wo dieses Wort erscheint.

Wie weit OCR gekommen ist

OCR reicht bis in die 1950er Jahre zurück, als frühe Systeme nur bestimmte Schriftarten unter kontrollierten Bedingungen verarbeiten konnten. Die Technologie entwickelte sich durch Template-Matching (1970er-80er), Merkmalsextraktion (1990er-2000er) und maschinelles Lernen (2010er). Heutige OCR kombiniert tiefe neuronale Netze zur Zeichenerkennung mit Sprachmodellen, die den Kontext nutzen, um Mehrdeutigkeiten aufzulösen – wenn das System unsicher ist, ob ein Zeichen ein "l" oder eine "1" ist, helfen die umgebenden Wörter bei der Entscheidung.

Moderne OCR-Engines erreichen über 99 % Zeichengenauigkeit bei sauberen, gut gescannten gedruckten Dokumenten.

Wie OCR funktioniert: Der technische Prozess

OCR ist kein einzelner Algorithmus. Es ist eine Pipeline von Schritten, die jeweils auf dem vorherigen aufbauen.

Schritt 1: Bildvorverarbeitung

Bevor die Zeichenerkennung stattfindet, bereinigt die OCR-Engine das Bild. Dies umfasst die Binarisierung (Umwandlung in Schwarzweiß für maximalen Kontrast), das Schräglagenkorrigieren (Korrektur selbst geringer Seitenrotation – eine Neigung von 1-2 Grad kann die Genauigkeit merklich reduzieren), die Rauschunterdrückung (Entfernen von Scannerartefakten und Flecken) und die Randentfernung (Entfernen schwarzer Ränder und Bindeschatten).

Schritt 2: Layout-Analyse

Die Engine identifiziert die Seitenstruktur – Textblöcke, Spalten, Bilder, Kopf- und Fußzeilen, Tabellen und Lesereihenfolge. Ohne diesen Schritt könnte ein zweiseitiges Dokument durcheinandergeratenes Ergebnis liefern, das beide Spalten gleichzeitig liest.

Schritt 3: Zeichensegmentierung

Innerhalb jedes Textblocks werden einzelne Zeichen isoliert. Zeilen werden durch vertikalen Abstand, Wörter durch horizontale Lücken und Zeichen innerhalb von Wörtern durch ihre Grenzen getrennt. Dies ist schwieriger als es klingt – Zeichen in vielen Schriftarten überlappen sich oder berühren sich, und in Schriften wie Arabisch und Devanagari verbinden sich Zeichen auf komplexe Weise.

Schritt 4: Zeichenerkennung

Jedes segmentierte Zeichenbild wird mithilfe tiefer neuronaler Netze klassifiziert, die auf Millionen von beschrifteten Zeichenbildern trainiert wurden. Das Netzwerk gibt eine Liste von Kandidaten mit Konfidenzrangliste aus, keine einzelne Antwort. Ein sauberes "A" könnte eine Konfidenz von 99,8 % erhalten. Ein beschädigtes Zeichen könnte eine viel flachere Verteilung ergeben.

Schritt 5: Sprachmodellierung

Die rohe Zeichenerkennung ist fehleranfällig. Kontext löst Mehrdeutigkeiten auf. Ist "Rechnunq" ein Wort? Nein – das "q" war eigentlich ein "g", was "Rechnung" ergibt. Statistische Sprachmodelle sagen wahrscheinliche Zeichenfolgen voraus, und Formatvalidierung wendet Regeln auf Muster wie Daten und Zahlen an.

Schritt 6: Ausgabeerstellung

Der erkannte Text wird den ursprünglichen Bildkoordinaten zugeordnet und als unsichtbare Textebene in das PDF geschrieben. Jedes Wort liegt genau über seinem visuellen Gegenstück, was die Such- und Hervorhebungsfunktion ermöglicht.

Methode 1: PDFSub OCR-Tool (Empfohlen)

How OCR converts a scanned PDF to searchable text - Upload Scan, OCR Analysis, Extract Text, Searchable PDF

Das OCR-Tool von PDFSub verarbeitet gescannte PDFs und fügt eine durchsuchbare Textebene hinzu, während das ursprüngliche visuelle Erscheinungsbild jeder Seite erhalten bleibt.

Schritt-für-Schritt-Anleitung

Zum OCR-Tool gehen – Navigieren Sie zu pdfsub.com/tools/ocr
Laden Sie Ihr gescanntes PDF hoch – Ziehen Sie Ihre Datei per Drag & Drop oder klicken Sie zum Durchsuchen. Große Dokumente müssen nicht aufgeteilt werden – mehrseitige PDFs werden automatisch verarbeitet.
OCR verarbeitet Ihr Dokument – Das Tool analysiert jede Seite, erkennt Text und erstellt die unsichtbare Textebene. Die Verarbeitungszeit hängt von der Seitenzahl und Komplexität ab, aber die meisten Dokumente sind in Sekunden fertig.
Laden Sie Ihr durchsuchbares PDF herunter – Die Ausgabedatei sieht genauso aus wie Ihr Originalscan, unterstützt aber jetzt Textsuche, Textauswahl und Kopieren/Einfügen.

Warum PDFSub

Unterstützung für über 130 Sprachen. OCR funktioniert mit Dokumenten in Englisch, Spanisch, Französisch, Deutsch, Chinesisch, Japanisch, Koreanisch, Arabisch, Hindi, Russisch, Portugiesisch und über 120 weiteren Sprachen. Mehrsprachige Dokumente werden automatisch verarbeitet – Sie müssen die Sprache nicht im Voraus angeben.

Ursprüngliches Erscheinungsbild bleibt erhalten. Der OCR-Prozess fügt Textdaten hinzu, ohne den visuellen Inhalt zu verändern. Ihre gescannten Seiten sehen genau gleich aus. Schriftarten, Layouts, Stempel, Unterschriften und handschriftliche Anmerkungen bleiben unberührt.

Keine Softwareinstallation erforderlich. Alles läuft in Ihrem Browser oder auf sicheren Servern. Es gibt nichts herunterzuladen, keine Systemanforderungen zu prüfen und keine Kompatibilitätsprobleme.

Datenschutzfreundliches Design. Hochgeladene Dokumente werden verarbeitet und dann gelöscht. PDFSub speichert Ihre Dateien nicht und verwendet sie nicht zum Training.

Kostenlos testen. PDFSub bietet eine 7-tägige kostenlose Testversion, damit Sie OCR mit Ihren eigenen Dokumenten testen können, bevor Sie sich festlegen.

Methode 2: Adobe Acrobat Pro

Adobe Acrobat Pro enthält eine integrierte OCR-Funktion namens "Text erkennen" in seinen Werkzeugen für Scans und OCR.

Schritt-für-Schritt-Anleitung

Öffnen Sie Ihr gescanntes PDF in Adobe Acrobat Pro
Gehen Sie zu Werkzeuge und wählen Sie Scan & OCR
Klicken Sie auf Text erkennen und wählen Sie In dieser Datei oder In mehreren Dateien
Wählen Sie unter Einstellungen Durchsuchbares Bild (fügt eine unsichtbare Textebene hinzu – empfohlen)
Klicken Sie auf Text erkennen, um die Verarbeitung zu starten
Speichern Sie die Datei

Stärken und Einschränkungen

Adobe liefert hohe Genauigkeit bei sauberen englischen Scans, unterstützt Stapelverarbeitung und ermöglicht die direkte Korrektur von OCR-Fehlern. Acrobat Pro kostet jedoch 19,99 $/Monat im Jahresabonnement (239,88 $/Jahr), erfordert eine Desktop-Installation (kein browserbasiertes OCR), unterstützt nur etwa 20 Sprachen und kann bei Dokumenten über 50 Seiten langsam sein.

Methode 3: Google Drive (Kostenlos, aber verlustbehaftet)

Google Drive bietet eine grundlegende OCR-Funktion, die Text aus gescannten PDFs extrahiert – jedoch mit einem erheblichen Nachteil.

Schritt-für-Schritt-Anleitung

Laden Sie Ihr gescanntes PDF in Google Drive hoch
Klicken Sie mit der rechten Maustaste auf die Datei und wählen Sie Öffnen mit und dann Google Docs
Google verarbeitet das PDF und erstellt ein Google Doc mit dem extrahierten Text
Der Text ist jetzt durchsuchbar, auswählbar und bearbeitbar

Stärken und Einschränkungen

Google Drive OCR ist völlig kostenlos, liefert gute Genauigkeit bei sauberen, getippten Dokumenten und erkennt Sprachen automatisch. Es gibt jedoch einen entscheidenden Nachteil: Es zerstört die Formatierung. Google fügt Ihrem PDF keine Textebene hinzu – es extrahiert Text in ein Google Doc. Tabellen werden zu einfachem Text, Spalten kollabieren und das ursprüngliche Layout geht verloren. Sie erhalten ein Google Doc, kein durchsuchbares PDF.

Es funktioniert auch am besten bei Dokumenten unter 10 Seiten. Längere Dokumente können abgeschnitten werden.

Am besten geeignet für: Extrahieren von Textinhalten, wenn Sie das ursprüngliche Layout nicht benötigen. Wenn Sie ein durchsuchbares PDF benötigen, das das Erscheinungsbild beibehält, verwenden Sie Methode 1 oder 2.

OCR-Genauigkeit: Was Sie je nach Dokumententyp erwarten können

OCR ist keine Magie. Die Genauigkeit variiert dramatisch je nach Dokumentenqualität, Inhaltstyp und Scanbedingungen. Hier sind die Ergebnisse realer Tests.

Getippte Dokumente (moderne Schriftarten): 95-99%

Moderne gedruckte Dokumente – Rechnungen, Verträge, Berichte, die auf Laserdruckern gedruckt wurden – sind das beste Szenario. Standard-Schriftarten sind in OCR-Trainingsdaten gut vertreten, und saubere Drucke auf weißem Papier erzeugen kontrastreiche Bilder. Bei 99% Genauigkeit auf einer Seite mit 250 Wörtern (ca. 1.500 Zeichen) würden Sie etwa 15 Zeichenfehler erwarten – die meisten davon unbedeutend, wie ein Punkt, der als Komma fehlgelesen wird, oder ein Kleinbuchstabe "l", der mit "1" verwechselt wird.

Ältere Schreibmaschinendokumente: 85-95%

Moderne Schreibmaschinen stellen Herausforderungen dar: inkonsistente Buchstabenanordnung, unterschiedliche Tintendichte durch Bandverschleiß und einheitliche Zeichenbreite, die Segmentierungsverwirrung verursacht. Dennoch ist maschinengeschriebener Text einzeln geformt und horizontal ausgerichtet, sodass die meisten OCR-Engines ihn für Suchzwecke gut genug verarbeiten.

Handschriftlicher Text: 60-80%

Handschrift bleibt die größte Herausforderung für OCR. Die Variabilität ist enorm – nicht nur zwischen Personen, sondern auch innerhalb der Handschrift einer einzelnen Person auf einer Seite. Saubere Blockbuchstaben können 80-85% erreichen. Kursive Schrift mit Bleistift auf linierten Papier kann unter 60% fallen. Überprüfen Sie kritische Daten aus handschriftlichen Dokumenten immer manuell.

Gemischter Inhalt (Text + Tabellen): 90-97%

Dokumente, die Text mit tabellarischen Daten kombinieren, stellen eine zusätzliche Herausforderung für die Layout-Analyse dar. Die Zeichenerkennung innerhalb von Zellen ist in der Regel genau, aber strukturelle Fehler – falsch identifizierte Zellgrenzen, falsch zugeordnete Spalten, mehrzeilige Zellen, die in Zeilen aufgeteilt werden – beeinträchtigen Datenbeziehungen und sind wichtiger als einzelne Zeichenfehler.

Genauigkeits-Zusammenfassungstabelle

Dokumententyp	Zeichengenauigkeit	Durchsuchbar?	Datenextraktion zuverlässig?
Modern gedruckt (Laser)	95-99%	Ausgezeichnet	Ja
Modern gedruckt (Inkjet)	93-98%	Ausgezeichnet	Normalerweise
Ältere Schreibmaschine	85-95%	Gut	Mit Verifizierung
Saubere Handschrift (Block)	70-80%	Teilweise	Nein - alles überprüfen
Kursive Handschrift	60-70%	Gering	Nein
Gemischter Text + Tabellen	90-97%	Gut	Mit struktureller Überprüfung
Beschädigtes/schlechtes Papier	70-90%	Variiert	Mit intensiver Verifizierung

Best Practices für das Scannen vor OCR

Der wichtigste Faktor für die OCR-Genauigkeit ist nicht die OCR-Software – es ist die Scanqualität. Eine großartige OCR-Engine, die auf einem schlechten Scan arbeitet, liefert schlechtere Ergebnisse als eine mittelmäßige Engine, die auf einem großartigen Scan arbeitet.

Auflösung: Mindestens 300 DPI

DPI (dots per inch – Punkte pro Zoll) bestimmt, wie viele Details der Scanner erfasst.

300 DPI: Der Standard für die meisten Dokumente. Ausreichend für die zuverlässige Erkennung von Standardschriftarten bei normalen Textgrößen (10-12pt).
600 DPI: Empfohlen für kleinen Text (Fußnoten, Kleingedrucktes) oder wenn Sie maximale Genauigkeit benötigen.
150 DPI oder niedriger: Nicht empfohlen. Zeichen sind zu klein für zuverlässige Erkennung. Die Genauigkeit sinkt erheblich.
1200 DPI: Überflüssig für OCR. Keine Genauigkeitsverbesserung, und die Dateigrößen werden enorm.

Farbmodus: Graustufen ist normalerweise am besten

Graustufen: Am besten für die meisten Dokumente. Erhält genügend Kontrast für eine gute Binarisierung und hält gleichzeitig die Dateigrößen überschaubar.
Schwarzweiß: Kann für saubere, kontrastreiche Dokumente funktionieren, kann aber Details in Randbereichen zerstören.
Farbe: Nur notwendig, wenn das Dokument farbkodierte Informationen enthält, die Sie erhalten müssen. Für OCR-Zwecke bietet Farbe keinen Vorteil gegenüber Graustufen.

Ausrichtung und Orientierung

Seiten gerade halten. Selbst eine Schräglage von 2-3 Grad kann die OCR-Genauigkeit um 5-10% reduzieren. Verwenden Sie die Papierführungen des Scanners, um die Seiten auszurichten.
Einseitige Seiten nach unten scannen. Vermeiden Sie, dass durchscheinende Rückseiten Schatten erzeugen, die die OCR-Engine verwirren.
Flachbettscanner für gebundene Dokumente verwenden. Einblattzuführungen können Seiten aus Büchern oder gebundenen Berichten schräg einziehen. Flachbettscans halten die Seite flach und richtig ausgerichtet.

Scannerwartung und Dokumentenvorbereitung

Reinigen Sie das Glas vor dem Scannen von Stapeln – Schlieren erzeugen auf jeder Seite Artefakte.
Prüfen Sie auf Streifen, indem Sie eine leere Seite scannen – vertikale Linien deuten auf verschmutzte Walzen hin.
Entfernen Sie Klammern und Büroklammern, um Staus und Kratzer zu vermeiden.
Knicke glätten – tiefe Knicke erzeugen Schatten, die die OCR-Engine falsch interpretieren kann.
Risse mit Klebeband auf der Rückseite reparieren – Klebeband auf der Vorderseite erzeugt Reflexionen.

Nach der OCR: Was als Nächstes zu tun ist

Die Durchführung von OCR ist nur der erste Schritt. Hier erfahren Sie, wie Sie das Beste aus Ihren neu durchsuchbaren Dokumenten machen.

Ergebnisse überprüfen

Überprüfen Sie die OCR-Ergebnisse immer stichprobenartig, insbesondere bei kritischen Dokumenten:

Suchen Sie nach Schlüsselbegriffen, von denen Sie wissen, dass sie im Dokument vorkommen. Wenn Strg+F sie konsistent findet, funktioniert die OCR.
Kopieren Sie einen Absatz und fügen Sie ihn in einen Texteditor ein. Lesen Sie ihn auf offensichtliche Fehler durch – unleserliche Wörter, fehlende Zeichen, unsinnige Ersetzungen.
Überprüfen Sie Zahlen sorgfältig. Geldbeträge, Daten, Telefonnummern und Kontonummern sind Daten mit hohem Risiko. Eine "6", die in einem Transaktionsbetrag als "8" fehlgelesen wird, ist ein echtes Problem. OCR-Engines verwechseln gelegentlich ähnliche Ziffern (0/O, 1/l, 5/S, 6/8).

Fehler korrigieren und organisieren

Wenn Sie Fehler in kritischen Dokumenten finden, können Sie mit Adobe Acrobat Pro die Textebene direkt bearbeiten, oder Sie können problematische Seiten mit 600 DPI erneut scannen und die OCR erneut ausführen. Für handschriftliche Abschnitte ist eine manuelle Transkription oft schneller als die Korrektur schlechter OCR.

Sobald sie durchsuchbar sind, lassen sich Ihre PDFs in bestehende Arbeitsabläufe integrieren. Die Desktop-Suche (Windows Search, Spotlight auf dem Mac) indiziert sie automatisch. Dokumentenmanagementsysteme (SharePoint, Google Drive, Dropbox) ermöglichen die Volltextsuche in Ihrer Bibliothek. Gute Dateinamen plus durchsuchbarer Inhalt ist die ideale Kombination.

Anwendungsfälle für OCR in der Praxis

Digitalisierung von Papierarchiven

Unternehmen, Anwaltskanzleien und Behörden verfügen oft über jahrzehntealte Papierdokumente. Einfaches Scannen als PDF erstellt Bilddateien, die nur nach Dateinamen durchsuchbar sind. Hinzufügen von OCR verwandelt ein passives Archiv in eine abfragbare Datenbank. Der typische Workflow: Scannen mit 300 DPI Graustufen, OCR ausführen, Namenskonventionen anwenden und in ein Dokumentenmanagementsystem hochladen.

Durchsuchbarmachung von Rechtsdokumenten

Juristen befassen sich mit riesigen Dokumentenmengen während der Beweiserhebung und Due Diligence. Die Gegenseite kann Tausende von Seiten gescannter Dokumente vorlegen. Ohne OCR bedeutet die Überprüfung, jede Seite manuell zu lesen. Mit OCR können Anwälte nach Schlüsselbegriffen, Namen, Daten und Beträgen im gesamten Satz suchen – was die Überprüfung innerhalb realistischer Zeitrahmen ermöglicht.

Barrierefreiheitskonformität

Gemäß dem Americans with Disabilities Act (ADA) und Section 508 müssen digitale Dokumente von Regierungsbehörden und staatlich finanzierten Organisationen zugänglich sein. Screenreader können bildbasierte PDFs nicht interpretieren – sie benötigen eine Textebene. OCR ist der erste Schritt zur Konformität. Zusätzliche Arbeiten (Überschriftenstruktur, Alternativtexte, Lesereihenfolgen-Tags) können folgen, aber ohne die Textebene ist Barrierefreiheit unmöglich.

Versicherungs- und Finanzverarbeitung

Versicherungsgesellschaften und Banken erhalten Millionen von gescannten Antragsformularen, Krankenakten, Schecks und Darlehensanträgen. OCR ermöglicht die automatisierte Datenextraktion – das Extrahieren von Policennummern, Anspruchsbeträgen, Leistungsdaten und Kontodetails aus gescannten Dokumenten in Verarbeitungssysteme.

Akademische und Forschungsarchive

Universitäten, Bibliotheken und Archive digitalisieren historische Dokumente, Zeitungen und Manuskripte. OCR macht jahrhundertealtes Wissen durchsuchbar. Projekte wie Google Books und das Internet Archive haben Milliarden von Seiten mit OCR verarbeitet, was die Volltextsuche in Sammlungen ermöglicht, deren manuelle Lektüre Lebenszeiten dauern würde.

Häufig gestellte Fragen

Kann ich mehrere PDFs gleichzeitig OCR-scannen (Stapelverarbeitung)?

Ja. PDFSub unterstützt die Verarbeitung von mehrseitigen Dokumenten in einer einzigen Operation. Für große Stapeljobs – Hunderte oder Tausende von Dateien – würden Sie diese nacheinander über das Tool verarbeiten. Adobe Acrobat Pro bietet auch Stapel-OCR über seine Aktionsassistent-Funktion, die ganze Ordner von PDFs automatisch verarbeiten kann.

Ändert OCR das Aussehen meines PDFs?

Nein. Eine ordnungsgemäße OCR fügt eine unsichtbare Textebene hinter dem sichtbaren Seitenbild hinzu. Das visuelle Erscheinungsbild Ihres gescannten PDFs bleibt unverändert – gleiche Seiten, gleiches Layout, gleiche Auflösung. Die Textebene ist nur für Suchfunktionen, Textauswahl, Kopieren/Einfügen und Screenreader "sichtbar".

Was passiert, wenn ich OCR auf ein PDF anwende, das bereits durchsuchbaren Text enthält?

Die meisten OCR-Tools erkennen vorhandene Textebenen und überspringen diese Seiten oder geben Ihnen die Option, sie erneut zu verarbeiten. Das Anwenden von OCR auf ein bereits durchsuchbares PDF ist im Allgemeinen harmlos, aber unnötig – es verbessert die vorhandene Textebene nicht und kann die Dateigröße aufgrund der redundanten Daten leicht erhöhen.

Wird meine Dateigröße nach OCR zunehmen?

Leicht. Rechnen Sie mit einer Zunahme von 5-15% für ein typisches gescanntes Dokument. Die Textebene selbst ist klein (Zeichen und Positionsdaten), und die Zunahme ist vernachlässigbar im Vergleich zu den Bilddaten, die den Großteil eines gescannten PDFs ausmachen.

Kann OCR PDFs verarbeiten, die eine Mischung aus gescannten und digitalen Seiten sind?

Ja. Gute OCR-Tools verarbeiten jede Seite unabhängig. Seiten, die bereits eine Textebene haben, werden erkannt und können übersprungen werden. Seiten, die nur Bilder sind, werden verarbeitet. Das Ergebnis ist ein vollständig durchsuchbares PDF, unabhängig davon, wie das Original zusammengestellt wurde.

Welche Sprachen unterstützt OCR?

Die Sprachunterstützung variiert je nach Tool. PDFSubs OCR unterstützt über 130 Sprachen, darunter lateinische Schriften (Englisch, Spanisch, Französisch, Deutsch), CJK (Chinesisch, Japanisch, Koreanisch), Kyrillisch (Russisch, Ukrainisch), Arabisch (Arabisch, Persisch, Urdu), Devanagari (Hindi, Marathi) und viele mehr.

Kann OCR Handschrift lesen?

Teilweise. Saubere Blockbuchstaben erreichen eine Genauigkeit von 70-80%. Kursive Schrift ist deutlich schwieriger (60-70% oder niedriger). Für kritische Daten aus handschriftlichen Dokumenten überprüfen Sie die Ergebnisse immer manuell.

Ist OCR dasselbe wie PDF-Textextraktion?

Nein. OCR wandelt Textbilder in tatsächliche Zeichen um – benötigt, wenn keine Textdaten vorhanden sind, nur Pixel. PDF-Textextraktion liest Text, der bereits im Inhaltsstrom eines digitalen PDFs vorhanden ist – benötigt, wenn Text in einem Format gefangen ist, mit dem Sie nicht einfach arbeiten können. Wenn Ihr PDF digital geboren ist, benötigen Sie Extraktion. Wenn es gescannt wurde, benötigen Sie zuerst OCR.

Funktioniert OCR auf Fotos, die mit einer Handykamera aufgenommen wurden?

Ja, aber die Genauigkeit hängt von der Fotoqualität ab. Für beste Ergebnisse: Halten Sie das Telefon parallel zum Dokument, sorgen Sie für gleichmäßige Beleuchtung (keine Schatten), füllen Sie den Rahmen aus, halten Sie es ruhig und verwenden Sie den Dokumenten-Scanmodus Ihres Telefons, falls verfügbar. Handyfotos liefern typischerweise 85-95% Genauigkeit für sauberen gedruckten Text – weniger als Flachbettscans, aber oft gut genug für die Durchsuchbarkeit.

Kann ich den Text nach OCR bearbeiten?

Die OCR-Textebene ist unsichtbar und über dem Scanbild positioniert. Sie können Text kopieren und in jeden Editor einfügen, Adobe Acrobat Pro verwenden, um die Textebene direkt zu bearbeiten, oder nach Word oder als einfachen Text exportieren, um ihn zu bearbeiten. Um den sichtbaren Inhalt eines gescannten Dokuments zu ändern, müssten Sie es erneut scannen oder einen PDF-Editor verwenden, um Anmerkungen über dem Bild hinzuzufügen.

Erste Schritte mit OCR

Wenn Sie gescannte PDFs haben, die durchsuchbar sein müssen, ist der schnellste Weg ganz einfach:

Testen Sie Ihre PDFs – Verwenden Sie den Strg+F-Test, um zu bestätigen, dass sie OCR benötigen.
Probieren Sie das OCR-Tool von PDFSub aus – Laden Sie ein gescanntes PDF unter pdfsub.com/tools/ocr hoch und sehen Sie sich die Ergebnisse an.
Überprüfen Sie die Ausgabe – Überprüfen Sie stichprobenartig einige Seiten, um zu bestätigen, dass die Genauigkeit Ihren Anforderungen entspricht.
Verarbeiten Sie Ihre restlichen Dokumente – Sobald Sie von den Ergebnissen überzeugt sind, arbeiten Sie Ihren Rückstand ab.

PDFSub bietet eine 7-tägige kostenlose Testversion, die den Zugriff auf das OCR-Tool und alle anderen PDF-Tools auf der Plattform beinhaltet. Laden Sie ein gescanntes Dokument hoch und sehen Sie den Unterschied, den durchsuchbarer Text macht. Jederzeit kündbar.

Diese Anleitung erklärt, was OCR ist, wie es funktioniert, drei Methoden zum OCR-Scannen Ihrer gescannten PDFs und wie Sie die besten Ergebnisse erzielen.

How to OCR a scanned PDF - converting image-only pages into searchable, selectable text

So erkennen Sie, ob Ihr PDF OCR benötigt

Der 5-Sekunden-Test

Öffnen Sie Ihr PDF in einem beliebigen Betrachter (Adobe Reader, Vorschau, Chrome, Edge)
Drücken Sie Strg+F (Windows/Linux) oder Cmd+F (Mac)
Geben Sie ein Wort ein, das Sie auf der Seite sehen können
Wenn der Betrachter das Wort hervorhebt: Ihr PDF hat bereits durchsuchbaren Text. Kein OCR erforderlich.
Wenn nichts gefunden wird: Ihr PDF ist nur ein Bild. Es benötigt OCR.

Der Auswahltest

Versuchen Sie, Text auf der Seite anzuklicken und zu ziehen, um ihn auszuwählen:

Wenn Sie einzelne Wörter auswählen können und diese blau hervorgehoben werden: Das PDF hat eine Textebene.
Wenn die gesamte Seite als ein Block ausgewählt wird (wie beim Auswählen eines Bildes): Das PDF ist ein Scan ohne Textebene.
Wenn Sie teilweise Text auswählen können, aber nicht anderen Text: Das PDF hat teilweise OCR oder gemischten Inhalt – einige Seiten sind digital, andere gescannt.

Häufige PDF-Typen, die OCR benötigen

Dokumententyp	Benötigt normalerweise OCR?	Warum
Gescannte Papierdokumente	Ja	Reines Bild, keine Textdaten
Als PDF gespeicherte Faxdokumente	Ja	Faxausgabe ist Rasterbild
Fotos von Dokumenten (Handykamera)	Ja	Kameraaufnahme = Bild
PDFs aus Kopierer "Scan to Email"	Ja	Die meisten Kopierer erstellen Bild-PDFs
PDFs aus Word/Excel exportiert	Nein	Digital geboren, Textebene enthalten
PDFs aus Webbrowsern (Drucken als PDF)	Nein	Text bleibt erhalten
Online heruntergeladene Formulare	Normalerweise nein	Die meisten sind digital geboren
Als PDF-Anhänge gesendete Rechnungen	Normalerweise nein	Von Kassensystemen mit Text generiert

Was ist OCR? Eine Erklärung in einfacher Sprache

Wie weit OCR gekommen ist

Moderne OCR-Engines erreichen über 99 % Zeichengenauigkeit bei sauberen, gut gescannten gedruckten Dokumenten.

Wie OCR funktioniert: Der technische Prozess

OCR ist kein einzelner Algorithmus. Es ist eine Pipeline von Schritten, die jeweils auf dem vorherigen aufbauen.

Schritt 1: Bildvorverarbeitung

Schritt 2: Layout-Analyse

Schritt 3: Zeichensegmentierung

Schritt 4: Zeichenerkennung

Schritt 5: Sprachmodellierung

Schritt 6: Ausgabeerstellung

Methode 1: PDFSub OCR-Tool (Empfohlen)

How OCR converts a scanned PDF to searchable text - Upload Scan, OCR Analysis, Extract Text, Searchable PDF

Das OCR-Tool von PDFSub verarbeitet gescannte PDFs und fügt eine durchsuchbare Textebene hinzu, während das ursprüngliche visuelle Erscheinungsbild jeder Seite erhalten bleibt.

Schritt-für-Schritt-Anleitung

Zum OCR-Tool gehen – Navigieren Sie zu pdfsub.com/tools/ocr
Laden Sie Ihr gescanntes PDF hoch – Ziehen Sie Ihre Datei per Drag & Drop oder klicken Sie zum Durchsuchen. Große Dokumente müssen nicht aufgeteilt werden – mehrseitige PDFs werden automatisch verarbeitet.
OCR verarbeitet Ihr Dokument – Das Tool analysiert jede Seite, erkennt Text und erstellt die unsichtbare Textebene. Die Verarbeitungszeit hängt von der Seitenzahl und Komplexität ab, aber die meisten Dokumente sind in Sekunden fertig.
Laden Sie Ihr durchsuchbares PDF herunter – Die Ausgabedatei sieht genauso aus wie Ihr Originalscan, unterstützt aber jetzt Textsuche, Textauswahl und Kopieren/Einfügen.

Warum PDFSub

Datenschutzfreundliches Design. Hochgeladene Dokumente werden verarbeitet und dann gelöscht. PDFSub speichert Ihre Dateien nicht und verwendet sie nicht zum Training.

Kostenlos testen. PDFSub bietet eine 7-tägige kostenlose Testversion, damit Sie OCR mit Ihren eigenen Dokumenten testen können, bevor Sie sich festlegen.

Methode 2: Adobe Acrobat Pro

Adobe Acrobat Pro enthält eine integrierte OCR-Funktion namens "Text erkennen" in seinen Werkzeugen für Scans und OCR.

Schritt-für-Schritt-Anleitung

Öffnen Sie Ihr gescanntes PDF in Adobe Acrobat Pro
Gehen Sie zu Werkzeuge und wählen Sie Scan & OCR
Klicken Sie auf Text erkennen und wählen Sie In dieser Datei oder In mehreren Dateien
Wählen Sie unter Einstellungen Durchsuchbares Bild (fügt eine unsichtbare Textebene hinzu – empfohlen)
Klicken Sie auf Text erkennen, um die Verarbeitung zu starten
Speichern Sie die Datei

Stärken und Einschränkungen

Methode 3: Google Drive (Kostenlos, aber verlustbehaftet)

Google Drive bietet eine grundlegende OCR-Funktion, die Text aus gescannten PDFs extrahiert – jedoch mit einem erheblichen Nachteil.

Schritt-für-Schritt-Anleitung

Laden Sie Ihr gescanntes PDF in Google Drive hoch
Klicken Sie mit der rechten Maustaste auf die Datei und wählen Sie Öffnen mit und dann Google Docs
Google verarbeitet das PDF und erstellt ein Google Doc mit dem extrahierten Text
Der Text ist jetzt durchsuchbar, auswählbar und bearbeitbar

Dokumententyp	Zeichengenauigkeit	Durchsuchbar?	Datenextraktion zuverlässig?
Modern gedruckt (Laser)	95-99%	Ausgezeichnet	Ja
Modern gedruckt (Inkjet)	93-98%	Ausgezeichnet	Normalerweise
Ältere Schreibmaschine	85-95%	Gut	Mit Verifizierung
Saubere Handschrift (Block)	70-80%	Teilweise	Nein - alles überprüfen
Kursive Handschrift	60-70%	Gering	Nein
Gemischter Text + Tabellen	90-97%	Gut	Mit struktureller Überprüfung
Beschädigtes/schlechtes Papier	70-90%	Variiert	Mit intensiver Verifizierung

Best Practices für das Scannen vor OCR

Auflösung: Mindestens 300 DPI

DPI (dots per inch – Punkte pro Zoll) bestimmt, wie viele Details der Scanner erfasst.

300 DPI: Der Standard für die meisten Dokumente. Ausreichend für die zuverlässige Erkennung von Standardschriftarten bei normalen Textgrößen (10-12pt).
600 DPI: Empfohlen für kleinen Text (Fußnoten, Kleingedrucktes) oder wenn Sie maximale Genauigkeit benötigen.
150 DPI oder niedriger: Nicht empfohlen. Zeichen sind zu klein für zuverlässige Erkennung. Die Genauigkeit sinkt erheblich.
1200 DPI: Überflüssig für OCR. Keine Genauigkeitsverbesserung, und die Dateigrößen werden enorm.

Farbmodus: Graustufen ist normalerweise am besten

Graustufen: Am besten für die meisten Dokumente. Erhält genügend Kontrast für eine gute Binarisierung und hält gleichzeitig die Dateigrößen überschaubar.
Schwarzweiß: Kann für saubere, kontrastreiche Dokumente funktionieren, kann aber Details in Randbereichen zerstören.
Farbe: Nur notwendig, wenn das Dokument farbkodierte Informationen enthält, die Sie erhalten müssen. Für OCR-Zwecke bietet Farbe keinen Vorteil gegenüber Graustufen.

Ausrichtung und Orientierung

Seiten gerade halten. Selbst eine Schräglage von 2-3 Grad kann die OCR-Genauigkeit um 5-10% reduzieren. Verwenden Sie die Papierführungen des Scanners, um die Seiten auszurichten.
Einseitige Seiten nach unten scannen. Vermeiden Sie, dass durchscheinende Rückseiten Schatten erzeugen, die die OCR-Engine verwirren.
Flachbettscanner für gebundene Dokumente verwenden. Einblattzuführungen können Seiten aus Büchern oder gebundenen Berichten schräg einziehen. Flachbettscans halten die Seite flach und richtig ausgerichtet.

Scannerwartung und Dokumentenvorbereitung

Reinigen Sie das Glas vor dem Scannen von Stapeln – Schlieren erzeugen auf jeder Seite Artefakte.
Prüfen Sie auf Streifen, indem Sie eine leere Seite scannen – vertikale Linien deuten auf verschmutzte Walzen hin.
Entfernen Sie Klammern und Büroklammern, um Staus und Kratzer zu vermeiden.
Knicke glätten – tiefe Knicke erzeugen Schatten, die die OCR-Engine falsch interpretieren kann.
Risse mit Klebeband auf der Rückseite reparieren – Klebeband auf der Vorderseite erzeugt Reflexionen.

Nach der OCR: Was als Nächstes zu tun ist

Die Durchführung von OCR ist nur der erste Schritt. Hier erfahren Sie, wie Sie das Beste aus Ihren neu durchsuchbaren Dokumenten machen.

Ergebnisse überprüfen

Überprüfen Sie die OCR-Ergebnisse immer stichprobenartig, insbesondere bei kritischen Dokumenten:

Suchen Sie nach Schlüsselbegriffen, von denen Sie wissen, dass sie im Dokument vorkommen. Wenn Strg+F sie konsistent findet, funktioniert die OCR.
Kopieren Sie einen Absatz und fügen Sie ihn in einen Texteditor ein. Lesen Sie ihn auf offensichtliche Fehler durch – unleserliche Wörter, fehlende Zeichen, unsinnige Ersetzungen.
Überprüfen Sie Zahlen sorgfältig. Geldbeträge, Daten, Telefonnummern und Kontonummern sind Daten mit hohem Risiko. Eine "6", die in einem Transaktionsbetrag als "8" fehlgelesen wird, ist ein echtes Problem. OCR-Engines verwechseln gelegentlich ähnliche Ziffern (0/O, 1/l, 5/S, 6/8).

Testen Sie Ihre PDFs – Verwenden Sie den Strg+F-Test, um zu bestätigen, dass sie OCR benötigen.
Probieren Sie das OCR-Tool von PDFSub aus – Laden Sie ein gescanntes PDF unter pdfsub.com/tools/ocr hoch und sehen Sie sich die Ergebnisse an.
Überprüfen Sie die Ausgabe – Überprüfen Sie stichprobenartig einige Seiten, um zu bestätigen, dass die Genauigkeit Ihren Anforderungen entspricht.
Verarbeiten Sie Ihre restlichen Dokumente – Sobald Sie von den Ergebnissen überzeugt sind, arbeiten Sie Ihren Rückstand ab.