Vous avez numérisé une pile de documents en PDF. Ils semblent corrects à l'écran — nets, lisibles, professionnels. Mais essayez de rechercher un mot, de copier un paragraphe ou de sélectionner un numéro de téléphone, et rien ne se passe. Votre curseur fait glisser un rectangle bleu sur la page comme si vous sélectionniez une image. Parce que c'est exactement ce que vous faites.

Les PDF numérisés sont des photographies. Chaque page est une seule image — une grille plate de pixels sans notion de lettres, de mots ou de phrases. Votre ordinateur voit autant de texte dans un PDF numérisé qu'il en voit dans un JPEG de coucher de soleil : aucun.

L'OCR (Reconnaissance Optique de Caractères) résout ce problème. Elle analyse l'image de chaque page, identifie les caractères et ajoute une couche de texte invisible par-dessus le scan original. L'apparence visuelle reste identique, mais vous pouvez maintenant rechercher, copier, sélectionner du texte et laisser les lecteurs d'écran y accéder.

Ce guide explique ce qu'est l'OCR, comment elle fonctionne, trois méthodes pour effectuer l'OCR de vos PDF numérisés et comment obtenir les meilleurs résultats.

How to OCR a scanned PDF - converting image-only pages into searchable, selectable text

Comment savoir si votre PDF a besoin d'OCR

Avant d'investir du temps dans l'OCR, vérifiez si votre PDF en a réellement besoin. De nombreux PDF sont "nés numériques" — créés à partir de documents Word, de feuilles de calcul Excel ou de pages Web — et contiennent déjà une véritable couche de texte.

Le test des 5 secondes

Ouvrez votre PDF dans n'importe quel visualiseur (Adobe Reader, Aperçu, Chrome, Edge)
Appuyez sur Ctrl+F (Windows/Linux) ou Cmd+F (Mac)
Tapez un mot que vous voyez sur la page
Si le visualiseur met en surbrillance le mot : votre PDF a déjà du texte consultable. Aucune OCR nécessaire.
Si rien n'est trouvé : votre PDF est uniquement une image. Il a besoin d'OCR.

Le test de sélection

Essayez de cliquer et de faire glisser pour sélectionner du texte sur la page :

Si vous pouvez sélectionner des mots individuels et qu'ils se surlignent en bleu : le PDF a une couche de texte.
Si la page entière se sélectionne comme un bloc (comme la sélection d'une image) : le PDF est un scan sans couche de texte.
Si vous pouvez sélectionner du texte mais pas d'autre texte : le PDF a une OCR partielle ou un contenu mixte — certaines pages sont numériques, d'autres sont numérisées.

Types de PDF courants nécessitant l'OCR

Type de document	Nécessite généralement l'OCR ?	Pourquoi
Documents papier numérisés	Oui	Image pure, pas de données textuelles
Documents faxés enregistrés en PDF	Oui	La sortie fax est une image matricielle
Photos de documents (appareil photo du téléphone)	Oui	La capture de l'appareil photo = image
PDF issus de la fonction "numériser vers e-mail" des copieurs	Oui	La plupart des copieurs produisent des PDF image
PDF exportés depuis Word/Excel	Non	Né dans le numérique, couche de texte incluse
PDF depuis les navigateurs Web (imprimer en PDF)	Non	Le texte est préservé
Formulaires gouvernementaux téléchargés en ligne	Généralement non	La plupart sont nés numériques
Reçus envoyés par e-mail en pièces jointes PDF	Généralement non	Générés par des systèmes de point de vente avec du texte

Qu'est-ce que l'OCR ? Une explication simple

OCR signifie Reconnaissance Optique de Caractères. C'est la technologie qui lit le texte à partir d'images — analysant les motifs de pixels pour identifier les lettres, les chiffres et les symboles, un peu comme vos yeux lisant des mots sur une page.

Lorsque vous numérisez un document, le scanner crée une photographie. Cette photographie contient des pixels — sombres là où il y avait de l'encre, clairs là où il y avait du papier — mais aucune donnée textuelle réelle. Le scanner ne sait pas qu'un arrangement de pixels épelle "Facture". Il enregistre simplement l'image.

L'OCR prend cette image, analyse les formes, les fait correspondre à des motifs de caractères connus et produit le texte que ces formes représentent. Le résultat est un PDF qui ressemble exactement au scan original mais contient une couche de texte invisible. Lorsque vous appuyez sur Ctrl+F et recherchez "Décembre", le visualiseur PDF vérifie la couche de texte, trouve la correspondance et met en surbrillance la zone de l'image où ce mot apparaît.

Les progrès de l'OCR

L'OCR remonte aux années 1950, lorsque les premiers systèmes ne pouvaient gérer que des polices spécifiques dans des environnements contrôlés. La technologie a évolué par la mise en correspondance de modèles (années 1970-80), l'extraction de caractéristiques (années 1990-2000) et l'apprentissage automatique (années 2010). L'OCR d'aujourd'hui combine des réseaux neuronaux profonds pour la reconnaissance des caractères avec des modèles linguistiques qui utilisent le contexte pour résoudre les ambiguïtés — si le système n'est pas sûr qu'un caractère soit "l" ou "1", les mots environnants l'aident à décider.

Les moteurs d'OCR modernes atteignent plus de 99 % de précision des caractères sur des documents imprimés propres et bien numérisés.

Comment fonctionne l'OCR : Le processus technique

L'OCR n'est pas un algorithme unique. C'est un pipeline d'étapes, chacune s'appuyant sur la précédente.

Étape 1 : Prétraitement de l'image

Avant toute reconnaissance de caractères, le moteur OCR nettoie l'image. Cela comprend la binarisation (conversion en noir et blanc pour un contraste maximal), le redressement (correction même d'une légère rotation de page — une inclinaison de 1 à 2 degrés peut réduire considérablement la précision), la suppression du bruit (élimination des artefacts du scanner et des points) et la suppression des bordures (élimination des bords noirs et des ombres de reliure).

Étape 2 : Analyse de la mise en page

Le moteur identifie la structure de la page — blocs de texte, colonnes, images, en-têtes, pieds de page, tableaux et ordre de lecture. Sans cette étape, un document à deux colonnes pourrait produire un résultat confus qui lit simultanément les deux colonnes.

Étape 3 : Segmentation des caractères

Dans chaque bloc de texte, les caractères individuels sont isolés. Les lignes sont séparées par un espacement vertical, les mots par des espaces horizontaux et les caractères au sein des mots par leurs limites. C'est plus difficile qu'il n'y paraît — les caractères de nombreuses polices se chevauchent ou se touchent, et dans des écritures comme l'arabe et le devanagari, les caractères se connectent de manière complexe.

Étape 4 : Reconnaissance des caractères

Chaque image de caractère segmentée est classifiée à l'aide de réseaux neuronaux profonds entraînés sur des millions d'images de caractères étiquetées. Le réseau produit une liste de candidats classés par confiance, pas une seule réponse. Un "A" propre pourrait obtenir une confiance de 99,8 %. Un caractère dégradé pourrait produire une distribution beaucoup plus plate.

Étape 5 : Modélisation linguistique

La reconnaissance brute des caractères est sujette aux erreurs. Le contexte résout les ambiguïtés. "lnvoice" est-ce un mot ? Non — le "l" était en fait un "I", ce qui en fait "Invoice". Les modèles linguistiques statistiques prédisent les séquences de caractères probables, et la validation des formats applique des règles aux modèles tels que les dates et les nombres.

Étape 6 : Génération de la sortie

Le texte reconnu est remappé sur les coordonnées d'origine de l'image et écrit dans le PDF sous forme de couche de texte invisible. Chaque mot s'aligne précisément sur sa contrepartie visuelle, permettant la fonctionnalité de recherche et de surlignage.

Méthode 1 : Outil OCR PDFSub (Recommandé)

How OCR converts a scanned PDF to searchable text - Upload Scan, OCR Analysis, Extract Text, Searchable PDF

L'outil OCR de PDFSub traite les PDF numérisés et ajoute une couche de texte consultable tout en préservant l'apparence visuelle originale de chaque page.

Instructions étape par étape

Accédez à l'outil OCR — Naviguez vers pdfsub.com/tools/ocr
Téléchargez votre PDF numérisé — Faites glisser votre fichier ou cliquez pour parcourir. Il n'est pas nécessaire de diviser les documents volumineux — les PDF multipages sont gérés automatiquement.
L'OCR traite votre document — L'outil analyse chaque page, reconnaît le texte et crée la couche de texte invisible. Le temps de traitement dépend du nombre de pages et de la complexité, mais la plupart des documents se terminent en quelques secondes.
Téléchargez votre PDF consultable — Le fichier de sortie est identique à votre scan original, mais prend désormais en charge la recherche de texte, la sélection de texte et le copier-coller.

Pourquoi PDFSub

Prise en charge de plus de 130 langues. L'OCR fonctionne avec des documents en anglais, espagnol, français, allemand, chinois, japonais, coréen, arabe, hindi, russe, portugais et plus de 120 autres langues. Les documents multilingues sont gérés automatiquement — vous n'avez pas besoin de spécifier la langue à l'avance.

Apparence originale préservée. Le processus d'OCR ajoute des données textuelles sans modifier le contenu visuel. Vos pages numérisées ont exactement le même aspect. Les polices, les mises en page, les tampons, les signatures et les annotations manuscrites restent inchangés.

Aucun logiciel à installer. Tout s'exécute dans votre navigateur ou sur des serveurs sécurisés. Il n'y a rien à télécharger, aucune configuration système à vérifier et aucun problème de compatibilité.

Conception axée sur la confidentialité. Les documents téléchargés sont traités puis supprimés. PDFSub ne stocke pas vos fichiers et ne les utilise pas pour l'entraînement.

Essayez gratuitement. PDFSub offre un essai gratuit de 7 jours pour que vous puissiez tester l'OCR sur vos propres documents avant de vous engager.

Méthode 2 : Adobe Acrobat Pro

Adobe Acrobat Pro inclut une fonction OCR intégrée appelée "Reconnaître le texte" dans ses outils d'analyse et d'OCR.

Instructions étape par étape

Ouvrez votre PDF numérisé dans Adobe Acrobat Pro
Allez dans Outils et sélectionnez Scanner et OCR
Cliquez sur Reconnaître le texte et choisissez Dans ce fichier ou Dans plusieurs fichiers
Sous Paramètres, sélectionnez Image consultable (ajoute une couche de texte invisible — recommandé)
Cliquez sur Reconnaître le texte pour démarrer le traitement
Enregistrez le fichier

Points forts et limites

Adobe offre une grande précision sur les scans anglais propres, prend en charge le traitement par lots et vous permet de corriger directement les erreurs d'OCR. Cependant, Acrobat Pro coûte 19,99 $/mois avec un plan annuel (239,88 $/an), nécessite une installation sur ordinateur (pas d'OCR basée sur navigateur), ne prend en charge qu'environ 20 langues et peut être lent sur les documents de plus de 50 pages.

Méthode 3 : Google Drive (Gratuit, mais avec perte)

Google Drive inclut une fonction OCR de base qui extrait le texte des PDF numérisés — mais avec un compromis important.

Instructions étape par étape

Téléchargez votre PDF numérisé sur Google Drive
Faites un clic droit sur le fichier et sélectionnez Ouvrir avec puis Google Docs
Google traite le PDF et crée un Google Doc avec le texte extrait
Le texte est maintenant consultable, sélectionnable et modifiable

Points forts et limites

L'OCR de Google Drive est entièrement gratuite, offre une bonne précision sur les documents tapés propres et détecte automatiquement les langues. Cependant, il y a un compromis crucial : elle détruit la mise en forme. Google n'ajoute pas de couche de texte à votre PDF — elle extrait le texte dans un Google Doc. Les tableaux deviennent du texte brut, les colonnes s'effondrent et la mise en page originale est perdue. Vous vous retrouvez avec un Google Doc, pas un PDF consultable.

Elle fonctionne également mieux sur les documents de moins de 10 pages. Les documents plus longs peuvent être tronqués.

Idéal pour : Extraire le contenu textuel lorsque vous n'avez pas besoin de la mise en page originale. Si vous avez besoin d'un PDF consultable qui préserve l'apparence, utilisez la méthode 1 ou 2.

Précision de l'OCR : Ce qu'il faut attendre selon le type de document

L'OCR n'est pas de la magie. La précision varie considérablement en fonction de la qualité du document, du type de contenu et des conditions de numérisation. Voici ce que montrent les tests en conditions réelles.

Documents tapés (Polices modernes) : 95-99 %

Les documents imprimés modernes — factures, contrats, rapports imprimés sur des imprimantes laser — sont le scénario idéal. Les polices standard sont bien représentées dans les données d'entraînement de l'OCR, et les impressions propres sur papier blanc produisent des images à fort contraste. À 99 % de précision sur une page de 250 mots (environ 1 500 caractères), vous pouvez vous attendre à environ 15 erreurs de caractères — la plupart sans conséquence, comme un point mal lu comme une virgule ou un "l" minuscule confondu avec "1".

Documents dactylographiés plus anciens : 85-95 %

Les machines à écrire mécaniques présentent des défis : alignement incohérent des lettres, densité d'encre variable due à l'usure du ruban et largeur de caractère uniforme causant des confusions de segmentation. Néanmoins, le texte dactylographié est formé individuellement et aligné horizontalement, de sorte que la plupart des moteurs OCR le gèrent suffisamment bien à des fins de recherche.

Texte manuscrit : 60-80 %

L'écriture manuscrite reste le défi le plus difficile pour l'OCR. La variabilité est énorme — pas seulement entre les personnes, mais au sein de l'écriture d'une seule personne sur une page. Une écriture en blocs soignée peut atteindre 80-85 %. L'écriture cursive au crayon sur papier ligné peut descendre en dessous de 60 %. Vérifiez toujours manuellement les données critiques des documents manuscrits.

Contenu mixte (Texte + Tableaux) : 90-97 %

Les documents combinant du texte avec des données tabulaires ajoutent un défi d'analyse de mise en page. La reconnaissance des caractères dans les cellules est généralement précise, mais les erreurs structurelles — limites de cellules mal identifiées, colonnes mal attribuées, cellules multilignes divisées en lignes — corrompent les relations de données et sont plus importantes que les erreurs de caractères individuels.

Tableau récapitulatif de la précision

Type de document	Précision des caractères	Consultable ?	Extraction de données fiable ?
Moderne imprimé (laser)	95-99 %	Excellent	Oui
Moderne imprimé (jet d'encre)	93-98 %	Excellent	Généralement
Dactylographié ancien	85-95 %	Bon	Avec vérification
Écriture manuscrite propre (bloc)	70-80 %	Partiel	Non - vérifier tout
Écriture manuscrite cursive	60-70 %	Faible	Non
Texte + tableaux mixtes	90-97 %	Bon	Avec revue structurelle
Papier dégradé/endommagé	70-90 %	Variable	Avec vérification intensive

Meilleures pratiques pour la numérisation avant l'OCR

Le facteur le plus important dans la précision de l'OCR n'est pas le logiciel OCR — c'est la qualité du scan. Un excellent moteur OCR travaillant sur un scan médiocre produira de moins bons résultats qu'un moteur médiocre travaillant sur un excellent scan.

Résolution : 300 DPI minimum

DPI (points par pouce) détermine la quantité de détails capturée par le scanner.

300 DPI : La norme pour la plupart des documents. Suffisant pour une reconnaissance fiable des polices standard à des tailles de texte normales (10-12 pt).
600 DPI : Recommandé pour les petits textes (notes de bas de page, petits caractères) ou lorsque vous avez besoin d'une précision maximale.
150 DPI ou moins : Non recommandé. Les caractères sont trop petits pour une reconnaissance fiable. La précision diminue considérablement.
1200 DPI : Excessif pour l'OCR. Aucune amélioration de la précision, et les tailles de fichiers deviennent énormes.

Mode couleur : Le niveau de gris est généralement le meilleur

Niveau de gris : Idéal pour la plupart des documents. Préserve suffisamment de contraste pour une bonne binarisation tout en maintenant des tailles de fichiers gérables.
Noir et blanc : Peut fonctionner pour des documents propres à fort contraste, mais peut détruire les détails dans les zones marginales.
Couleur : Nécessaire uniquement si le document contient des informations codées par couleur que vous devez préserver. À des fins d'OCR, la couleur n'apporte aucun avantage par rapport au niveau de gris.

Alignement et orientation

Gardez les pages droites. Même une inclinaison de 2 à 3 degrés peut réduire la précision de l'OCR de 5 à 10 %. Utilisez les guides papier du scanner pour maintenir les pages alignées.
Numérisez les pages recto verso face vers le bas. Évitez que le saignement de l'autre côté ne crée des ombres de texte qui confondent le moteur OCR.
Utilisez un scanner à plat pour les documents reliés. Les scanners à chargeur automatique peuvent incliner les pages de livres ou de rapports reliés. La numérisation à plat maintient la page plate et correctement alignée.

Entretien du scanner et préparation du document

Nettoyez la vitre avant de numériser des lots — les taches créent des artefacts sur chaque page.
Vérifiez les rayures en numérisant une page vierge — les lignes verticales indiquent des rouleaux sales.
Retirez les agrafes et les trombones pour éviter les bourrages et les rayures.
Aplatissez les pages froissées — les plis profonds créent des ombres que le moteur OCR peut mal lire.
Réparez les déchirures avec du ruban adhésif au dos — le ruban adhésif sur le devant crée des reflets.

Après l'OCR : Que faire ensuite

Lancer l'OCR n'est que la première étape. Voici comment tirer le meilleur parti de vos documents nouvellement consultables.

Vérifier les résultats

Vérifiez toujours la sortie de l'OCR, en particulier pour les documents critiques :

Recherchez des termes clés dont vous savez qu'ils apparaissent dans le document. Si Ctrl+F les trouve systématiquement, l'OCR fonctionne.
Copiez un paragraphe et collez-le dans un éditeur de texte. Lisez attentivement pour détecter les erreurs évidentes — mots brouillés, caractères manquants, substitutions absurdes.
Vérifiez attentivement les chiffres. Les montants financiers, les dates, les numéros de téléphone et les numéros de compte sont des données à haut risque. Un "6" mal lu comme un "8" dans un montant de transaction est un vrai problème. Les moteurs OCR confondent parfois des chiffres similaires (0/O, 1/l, 5/S, 6/8).

Corriger les erreurs et organiser

Si vous trouvez des erreurs dans des documents critiques, Adobe Acrobat Pro vous permet de modifier directement la couche de texte, ou vous pouvez renumériser les pages problématiques à 600 DPI et relancer l'OCR. Pour les sections manuscrites, la transcription manuelle est souvent plus rapide que la correction d'une OCR médiocre.

Une fois consultables, vos PDF s'intègrent dans les flux de travail existants. La recherche sur ordinateur (Recherche Windows, Spotlight sur Mac) les indexe automatiquement. Les systèmes de gestion de documents (SharePoint, Google Drive, Dropbox) permettent une recherche plein texte dans votre bibliothèque. Des noms de fichiers corrects associés à un contenu consultable constituent la combinaison idéale.

Cas d'utilisation réels de l'OCR

Numérisation d'archives papier

Les entreprises, les cabinets d'avocats et les agences gouvernementales ont souvent des décennies de documents papier. La simple numérisation en PDF crée des fichiers image consultables uniquement par nom de fichier. L'ajout de l'OCR transforme une archive passive en une base de données interrogeable. Le flux de travail typique : numériser à 300 DPI en niveaux de gris, exécuter l'OCR, appliquer des conventions de nommage et télécharger dans un système de gestion de documents.

Rendre les documents juridiques consultables

Les professionnels du droit traitent d'énormes volumes de documents lors des procédures de divulgation et de diligence raisonnable. La partie adverse peut produire des milliers de pages de documents numérisés. Sans OCR, l'examen implique de lire manuellement chaque page. Avec l'OCR, les avocats peuvent rechercher des termes clés, des noms, des dates et des montants dans l'ensemble du lot — rendant l'examen réalisable dans des délais réalistes.

Conformité en matière d'accessibilité

Conformément à l'Americans with Disabilities Act (ADA) et à la Section 508, les documents numériques des agences gouvernementales et des organisations financées par le gouvernement fédéral doivent être accessibles. Les lecteurs d'écran ne peuvent pas interpréter les PDF uniquement sous forme d'image — ils ont besoin d'une couche de texte. L'OCR est la première étape vers la conformité. Des travaux supplémentaires (structure des titres, texte alternatif, balises d'ordre de lecture) peuvent suivre, mais sans la couche de texte, l'accessibilité est impossible.

Traitement des assurances et des finances

Les compagnies d'assurance et les banques reçoivent des millions de formulaires de réclamation numérisés, de dossiers médicaux, de chèques et de demandes de prêt. L'OCR permet l'extraction automatisée des données — extraction des numéros de police, des montants de réclamation, des dates de service et des détails de compte à partir des documents numérisés vers les systèmes de traitement.

Archives académiques et de recherche

Les universités, les bibliothèques et les archives numérisent des documents historiques, des journaux et des manuscrits. L'OCR rend consultables des siècles de connaissances. Des projets comme Google Books et Internet Archive ont effectué l'OCR de milliards de pages, permettant la recherche plein texte dans des collections qu'il faudrait des vies pour lire manuellement.

Foire aux questions

Puis-je effectuer l'OCR de plusieurs PDF à la fois (traitement par lots) ?

Oui. PDFSub prend en charge le traitement de documents multipages en une seule opération. Pour les gros travaux par lots — des centaines ou des milliers de fichiers — vous les traiteriez séquentiellement via l'outil. Adobe Acrobat Pro propose également l'OCR par lots via sa fonctionnalité Assistant de tâches, qui peut traiter automatiquement des dossiers entiers de PDF.

L'OCR modifie-t-elle l'apparence de mon PDF ?

Non. Une OCR appropriée ajoute une couche de texte invisible derrière l'image visible de la page. L'apparence visuelle de votre PDF numérisé reste inchangée — mêmes pages, même mise en page, même résolution. La couche de texte n'est "visible" que pour les fonctions de recherche, la sélection de texte, le copier-coller et les lecteurs d'écran.

Que se passe-t-il si j'exécute l'OCR sur un PDF qui contient déjà du texte consultable ?

La plupart des outils OCR détectent les couches de texte existantes et ignorent ces pages ou vous donnent la possibilité de les retraiter. Lancer l'OCR sur un PDF déjà consultable est généralement inoffensif mais inutile — cela n'améliorera pas la couche de texte existante et peut légèrement augmenter la taille du fichier en raison des données redondantes.

Ma taille de fichier augmentera-t-elle après l'OCR ?

Légèrement. Attendez-vous à une augmentation de 5 à 15 % pour un document numérisé typique. La couche de texte elle-même est petite (caractères et données de position), et l'augmentation est négligeable par rapport aux données d'image qui constituent la majeure partie d'un PDF numérisé.

L'OCR fonctionne-t-elle sur les PDF qui mélangent pages numérisées et numériques ?

Oui. Les bons outils OCR traitent chaque page indépendamment. Les pages qui ont déjà une couche de texte sont détectées et peuvent être ignorées. Les pages qui sont uniquement des images sont traitées. Le résultat est un PDF entièrement consultable, quelle que soit la manière dont l'original a été assemblé.

Quelles langues l'OCR prend-elle en charge ?

La prise en charge des langues varie selon l'outil. L'OCR de PDFSub prend en charge plus de 130 langues, y compris les écritures latines (anglais, espagnol, français, allemand), CJK (chinois, japonais, coréen), cyrilliques (russe, ukrainien), arabes (arabe, persan, ourdou), devanagari (hindi, marathi) et bien d'autres.

L'OCR peut-elle lire l'écriture manuscrite ?

Partiellement. L'écriture en blocs soignée atteint une précision de 70 à 80 %. L'écriture cursive est nettement plus difficile (60-70 % ou moins). Pour les données critiques provenant de documents manuscrits, vérifiez toujours les résultats manuellement.

L'OCR est-elle la même chose que l'extraction de texte PDF ?

Non. L'OCR convertit les images de texte en caractères réels — nécessaire lorsqu'il n'y a pas de données textuelles, seulement des pixels. L'extraction de texte PDF lit le texte qui existe déjà dans le flux de contenu d'un PDF numérique — nécessaire lorsqu'un texte est piégé dans un format avec lequel vous ne pouvez pas travailler facilement. Si votre PDF est né numérique, vous avez besoin d'extraction. S'il est numérisé, vous avez d'abord besoin d'OCR.

L'OCR fonctionne-t-elle sur les photos prises avec un appareil photo de téléphone ?

Oui, mais la précision dépend de la qualité de la photo. Pour de meilleurs résultats : tenez le téléphone parallèlement au document, assurez un éclairage uniforme (pas d'ombres), remplissez le cadre, tenez fermement et utilisez le mode de numérisation de documents de votre téléphone si disponible. Les photos de téléphone produisent généralement une précision de 85 à 95 % pour le texte imprimé propre — moins que les scans à plat, mais souvent suffisant pour la consultabilité.

Puis-je modifier le texte après l'OCR ?

La couche de texte OCR est invisible et positionnée sur l'image du scan. Vous pouvez copier du texte et le coller dans n'importe quel éditeur, utiliser Adobe Acrobat Pro pour modifier directement la couche de texte, ou exporter vers Word ou texte brut pour modification. Pour modifier le contenu visible d'un document numérisé, vous devrez le renumériser ou utiliser un éditeur PDF pour ajouter des annotations sur l'image.

Démarrer avec l'OCR

Si vous avez des PDF numérisés qui doivent être consultables, le chemin le plus rapide est simple :

Testez vos PDF — Utilisez le test Ctrl+F pour confirmer qu'ils nécessitent l'OCR.
Essayez l'outil OCR de PDFSub — Téléchargez un PDF numérisé sur pdfsub.com/tools/ocr et voyez les résultats.
Vérifiez la sortie — Vérifiez quelques pages pour confirmer que la précision répond à vos besoins.
Traitez vos documents restants — Une fois que vous êtes convaincu des résultats, traitez votre arrière.

PDFSub offre un essai gratuit de 7 jours qui comprend l'accès à l'outil OCR et à tous les autres outils PDF de la plateforme. Téléchargez un document numérisé et constatez la différence que fait le texte consultable. Annulez à tout moment.

Ce guide explique ce qu'est l'OCR, comment elle fonctionne, trois méthodes pour effectuer l'OCR de vos PDF numérisés et comment obtenir les meilleurs résultats.

How to OCR a scanned PDF - converting image-only pages into searchable, selectable text

Comment savoir si votre PDF a besoin d'OCR

Le test des 5 secondes

Ouvrez votre PDF dans n'importe quel visualiseur (Adobe Reader, Aperçu, Chrome, Edge)
Appuyez sur Ctrl+F (Windows/Linux) ou Cmd+F (Mac)
Tapez un mot que vous voyez sur la page
Si le visualiseur met en surbrillance le mot : votre PDF a déjà du texte consultable. Aucune OCR nécessaire.
Si rien n'est trouvé : votre PDF est uniquement une image. Il a besoin d'OCR.

Le test de sélection

Essayez de cliquer et de faire glisser pour sélectionner du texte sur la page :

Si vous pouvez sélectionner des mots individuels et qu'ils se surlignent en bleu : le PDF a une couche de texte.
Si la page entière se sélectionne comme un bloc (comme la sélection d'une image) : le PDF est un scan sans couche de texte.
Si vous pouvez sélectionner du texte mais pas d'autre texte : le PDF a une OCR partielle ou un contenu mixte — certaines pages sont numériques, d'autres sont numérisées.

Types de PDF courants nécessitant l'OCR

Type de document	Nécessite généralement l'OCR ?	Pourquoi
Documents papier numérisés	Oui	Image pure, pas de données textuelles
Documents faxés enregistrés en PDF	Oui	La sortie fax est une image matricielle
Photos de documents (appareil photo du téléphone)	Oui	La capture de l'appareil photo = image
PDF issus de la fonction "numériser vers e-mail" des copieurs	Oui	La plupart des copieurs produisent des PDF image
PDF exportés depuis Word/Excel	Non	Né dans le numérique, couche de texte incluse
PDF depuis les navigateurs Web (imprimer en PDF)	Non	Le texte est préservé
Formulaires gouvernementaux téléchargés en ligne	Généralement non	La plupart sont nés numériques
Reçus envoyés par e-mail en pièces jointes PDF	Généralement non	Générés par des systèmes de point de vente avec du texte

Qu'est-ce que l'OCR ? Une explication simple

Les progrès de l'OCR

Les moteurs d'OCR modernes atteignent plus de 99 % de précision des caractères sur des documents imprimés propres et bien numérisés.

Comment fonctionne l'OCR : Le processus technique

L'OCR n'est pas un algorithme unique. C'est un pipeline d'étapes, chacune s'appuyant sur la précédente.

Étape 1 : Prétraitement de l'image

Étape 2 : Analyse de la mise en page

Étape 3 : Segmentation des caractères

Étape 4 : Reconnaissance des caractères

Étape 5 : Modélisation linguistique

Étape 6 : Génération de la sortie

Méthode 1 : Outil OCR PDFSub (Recommandé)

How OCR converts a scanned PDF to searchable text - Upload Scan, OCR Analysis, Extract Text, Searchable PDF

L'outil OCR de PDFSub traite les PDF numérisés et ajoute une couche de texte consultable tout en préservant l'apparence visuelle originale de chaque page.

Instructions étape par étape

Accédez à l'outil OCR — Naviguez vers pdfsub.com/tools/ocr
Téléchargez votre PDF numérisé — Faites glisser votre fichier ou cliquez pour parcourir. Il n'est pas nécessaire de diviser les documents volumineux — les PDF multipages sont gérés automatiquement.
L'OCR traite votre document — L'outil analyse chaque page, reconnaît le texte et crée la couche de texte invisible. Le temps de traitement dépend du nombre de pages et de la complexité, mais la plupart des documents se terminent en quelques secondes.
Téléchargez votre PDF consultable — Le fichier de sortie est identique à votre scan original, mais prend désormais en charge la recherche de texte, la sélection de texte et le copier-coller.

Pourquoi PDFSub

Conception axée sur la confidentialité. Les documents téléchargés sont traités puis supprimés. PDFSub ne stocke pas vos fichiers et ne les utilise pas pour l'entraînement.

Essayez gratuitement. PDFSub offre un essai gratuit de 7 jours pour que vous puissiez tester l'OCR sur vos propres documents avant de vous engager.

Méthode 2 : Adobe Acrobat Pro

Adobe Acrobat Pro inclut une fonction OCR intégrée appelée "Reconnaître le texte" dans ses outils d'analyse et d'OCR.

Instructions étape par étape

Ouvrez votre PDF numérisé dans Adobe Acrobat Pro
Allez dans Outils et sélectionnez Scanner et OCR
Cliquez sur Reconnaître le texte et choisissez Dans ce fichier ou Dans plusieurs fichiers
Sous Paramètres, sélectionnez Image consultable (ajoute une couche de texte invisible — recommandé)
Cliquez sur Reconnaître le texte pour démarrer le traitement
Enregistrez le fichier

Points forts et limites

Méthode 3 : Google Drive (Gratuit, mais avec perte)

Google Drive inclut une fonction OCR de base qui extrait le texte des PDF numérisés — mais avec un compromis important.

Instructions étape par étape

Téléchargez votre PDF numérisé sur Google Drive
Faites un clic droit sur le fichier et sélectionnez Ouvrir avec puis Google Docs
Google traite le PDF et crée un Google Doc avec le texte extrait
Le texte est maintenant consultable, sélectionnable et modifiable

Type de document	Précision des caractères	Consultable ?	Extraction de données fiable ?
Moderne imprimé (laser)	95-99 %	Excellent	Oui
Moderne imprimé (jet d'encre)	93-98 %	Excellent	Généralement
Dactylographié ancien	85-95 %	Bon	Avec vérification
Écriture manuscrite propre (bloc)	70-80 %	Partiel	Non - vérifier tout
Écriture manuscrite cursive	60-70 %	Faible	Non
Texte + tableaux mixtes	90-97 %	Bon	Avec revue structurelle
Papier dégradé/endommagé	70-90 %	Variable	Avec vérification intensive

Meilleures pratiques pour la numérisation avant l'OCR

Résolution : 300 DPI minimum

DPI (points par pouce) détermine la quantité de détails capturée par le scanner.

300 DPI : La norme pour la plupart des documents. Suffisant pour une reconnaissance fiable des polices standard à des tailles de texte normales (10-12 pt).
600 DPI : Recommandé pour les petits textes (notes de bas de page, petits caractères) ou lorsque vous avez besoin d'une précision maximale.
150 DPI ou moins : Non recommandé. Les caractères sont trop petits pour une reconnaissance fiable. La précision diminue considérablement.
1200 DPI : Excessif pour l'OCR. Aucune amélioration de la précision, et les tailles de fichiers deviennent énormes.

Mode couleur : Le niveau de gris est généralement le meilleur

Niveau de gris : Idéal pour la plupart des documents. Préserve suffisamment de contraste pour une bonne binarisation tout en maintenant des tailles de fichiers gérables.
Noir et blanc : Peut fonctionner pour des documents propres à fort contraste, mais peut détruire les détails dans les zones marginales.
Couleur : Nécessaire uniquement si le document contient des informations codées par couleur que vous devez préserver. À des fins d'OCR, la couleur n'apporte aucun avantage par rapport au niveau de gris.

Alignement et orientation

Gardez les pages droites. Même une inclinaison de 2 à 3 degrés peut réduire la précision de l'OCR de 5 à 10 %. Utilisez les guides papier du scanner pour maintenir les pages alignées.
Numérisez les pages recto verso face vers le bas. Évitez que le saignement de l'autre côté ne crée des ombres de texte qui confondent le moteur OCR.
Utilisez un scanner à plat pour les documents reliés. Les scanners à chargeur automatique peuvent incliner les pages de livres ou de rapports reliés. La numérisation à plat maintient la page plate et correctement alignée.

Entretien du scanner et préparation du document

Nettoyez la vitre avant de numériser des lots — les taches créent des artefacts sur chaque page.
Vérifiez les rayures en numérisant une page vierge — les lignes verticales indiquent des rouleaux sales.
Retirez les agrafes et les trombones pour éviter les bourrages et les rayures.
Aplatissez les pages froissées — les plis profonds créent des ombres que le moteur OCR peut mal lire.
Réparez les déchirures avec du ruban adhésif au dos — le ruban adhésif sur le devant crée des reflets.

Après l'OCR : Que faire ensuite

Lancer l'OCR n'est que la première étape. Voici comment tirer le meilleur parti de vos documents nouvellement consultables.

Vérifier les résultats

Vérifiez toujours la sortie de l'OCR, en particulier pour les documents critiques :

Recherchez des termes clés dont vous savez qu'ils apparaissent dans le document. Si Ctrl+F les trouve systématiquement, l'OCR fonctionne.
Copiez un paragraphe et collez-le dans un éditeur de texte. Lisez attentivement pour détecter les erreurs évidentes — mots brouillés, caractères manquants, substitutions absurdes.
Vérifiez attentivement les chiffres. Les montants financiers, les dates, les numéros de téléphone et les numéros de compte sont des données à haut risque. Un "6" mal lu comme un "8" dans un montant de transaction est un vrai problème. Les moteurs OCR confondent parfois des chiffres similaires (0/O, 1/l, 5/S, 6/8).

Testez vos PDF — Utilisez le test Ctrl+F pour confirmer qu'ils nécessitent l'OCR.
Essayez l'outil OCR de PDFSub — Téléchargez un PDF numérisé sur pdfsub.com/tools/ocr et voyez les résultats.
Vérifiez la sortie — Vérifiez quelques pages pour confirmer que la précision répond à vos besoins.
Traitez vos documents restants — Une fois que vous êtes convaincu des résultats, traitez votre arrière.