Comment rendre un PDF numérisé interrogeable (OCR)
Les PDF numérisés ne sont que des images de pages — vous ne pouvez pas rechercher, copier ou modifier le texte. L'OCR résout ce problème en ajoutant une couche de texte invisible. Voici comment procéder avec trois méthodes différentes.
Vous avez numérisé une pile de documents en PDF. Ils semblent corrects à l'écran — nets, lisibles, professionnels. Mais essayez de rechercher un mot, de copier un paragraphe ou de sélectionner un numéro de téléphone, et rien ne se passe. Votre curseur fait simplement glisser un rectangle bleu sur la page comme si vous sélectionniez une image. Parce que c'est exactement ce que vous faites.
Les PDF numérisés sont des photographies. Chaque page est une seule image — une grille plate de pixels sans notion de lettres, de mots ou de phrases. Votre ordinateur voit autant de texte dans un PDF numérisé qu'il en voit dans un JPEG de coucher de soleil : aucun.
L'OCR (reconnaissance optique de caractères) résout ce problème. Elle analyse l'image de chaque page, identifie les caractères et ajoute une couche de texte invisible par-dessus la numérisation d'origine. L'apparence visuelle reste identique, mais vous pouvez désormais rechercher, copier, sélectionner du texte et laisser les lecteurs d'écran y accéder.
Ce guide explique ce qu'est l'OCR, comment elle fonctionne, trois méthodes pour effectuer l'OCR de vos PDF numérisés et comment obtenir les meilleurs résultats.
Comment savoir si votre PDF a besoin d'OCR
Avant d'investir du temps dans l'OCR, vérifiez si votre PDF en a réellement besoin. De nombreux PDF sont "nés numériques" — créés à partir de documents Word, de feuilles de calcul Excel ou de pages Web — et contiennent déjà une véritable couche de texte.
Le test des 5 secondes
- Ouvrez votre PDF dans n'importe quel lecteur (Adobe Reader, Aperçu, Chrome, Edge)
- Appuyez sur Ctrl+F (Windows/Linux) ou Cmd+F (Mac)
- Tapez un mot que vous voyez sur la page
- Si le lecteur met le mot en surbrillance : votre PDF contient déjà du texte interrogeable. Aucune OCR nécessaire.
- Si rien n'est trouvé : votre PDF est uniquement une image. Il nécessite une OCR.
Le test de sélection
Essayez de cliquer et de faire glisser pour sélectionner du texte sur la page :
- Si vous pouvez sélectionner des mots individuels et qu'ils se mettent en surbrillance en bleu : le PDF a une couche de texte.
- Si la page entière se sélectionne en un seul bloc (comme la sélection d'une image) : le PDF est une numérisation sans couche de texte.
- Si vous pouvez sélectionner du texte mais pas d'autres textes : le PDF a une OCR partielle ou un contenu mixte — certaines pages sont numériques, d'autres sont numérisées.
Types courants de PDF nécessitant une OCR
| Type de document | Nécessite généralement une OCR ? | Pourquoi |
|---|---|---|
| Documents papier numérisés | Oui | Image pure, pas de données textuelles |
| Documents faxés enregistrés en PDF | Oui | La sortie fax est une image matricielle |
| Photos de documents (appareil photo du téléphone) | Oui | Capture de caméra = image |
| PDF provenant de la fonction "numériser vers e-mail" des copieurs | Oui | La plupart des copieurs produisent des PDF image |
| PDF exportés depuis Word/Excel | Non | Né numérique, couche de texte incluse |
| PDF imprimés depuis des navigateurs Web (impression PDF) | Non | Le texte est préservé |
| Formulaires gouvernementaux téléchargés en ligne | Généralement non | La plupart sont nés numériques |
| Reçus envoyés par e-mail en pièces jointes PDF | Généralement non | Générés par des systèmes de point de vente avec du texte |
Qu'est-ce que l'OCR ? Une explication en langage simple
OCR signifie Reconnaissance Optique de Caractères. C'est la technologie qui lit le texte à partir d'images — analysant les motifs de pixels pour identifier les lettres, les chiffres et les symboles, un peu comme vos yeux lisent les mots sur une page.
Lorsque vous numérisez un document, le scanner crée une photographie. Cette photographie contient des pixels — sombres là où il y avait de l'encre, clairs là où il y avait du papier — mais aucune donnée textuelle réelle. Le scanner ne sait pas qu'un arrangement de pixels épelle "Facture". Il enregistre simplement l'image.
L'OCR prend cette image, analyse les formes, les fait correspondre à des modèles de caractères connus et génère le texte que ces formes représentent. Le résultat est un PDF qui ressemble exactement à la numérisation d'origine mais qui contient une couche de texte invisible. Lorsque vous appuyez sur Ctrl+F et recherchez "Décembre", le lecteur PDF vérifie la couche de texte, trouve la correspondance et met en surbrillance la région de l'image où ce mot apparaît.
Les progrès de l'OCR
L'OCR remonte aux années 1950, lorsque les premiers systèmes ne pouvaient gérer que des polices spécifiques dans des environnements contrôlés. La technologie a évolué par la mise en correspondance de modèles (années 1970-80), l'extraction de caractéristiques (années 1990-2000) et l'apprentissage automatique (années 2010). Les moteurs OCR actuels combinent des réseaux neuronaux profonds pour la reconnaissance des caractères avec des modèles linguistiques qui utilisent le contexte pour résoudre les ambiguïtés — si le système n'est pas sûr qu'un caractère soit "l" ou "1", les mots environnants l'aident à décider.
Les moteurs OCR modernes atteignent plus de 99 % de précision des caractères sur des documents imprimés propres et bien numérisés.
Comment fonctionne l'OCR : le processus technique
L'OCR n'est pas un algorithme unique. C'est un pipeline d'étapes, chacune s'appuyant sur la précédente.
Étape 1 : Prétraitement de l'image
Avant toute reconnaissance de caractères, le moteur OCR nettoie l'image. Cela comprend la binarisation (conversion en noir et blanc pour un contraste maximal), le redressement (correction des rotations de page même légères — une inclinaison de 1 à 2 degrés peut réduire considérablement la précision), la suppression du bruit (élimination des artefacts de scanner et des points) et la suppression des bordures (élimination des bords noirs et des ombres de reliure).
Étape 2 : Analyse de la mise en page
Le moteur identifie la structure de la page — blocs de texte, colonnes, images, en-têtes, pieds de page, tableaux et ordre de lecture. Sans cette étape, un document à deux colonnes pourrait produire un résultat confus qui lit simultanément les deux colonnes.
Étape 3 : Segmentation des caractères
Dans chaque bloc de texte, les caractères individuels sont isolés. Les lignes sont séparées par un espacement vertical, les mots par des espaces horizontaux et les caractères au sein des mots par leurs limites. C'est plus difficile qu'il n'y paraît — les caractères de nombreuses polices se chevauchent ou se touchent, et dans des scripts comme l'arabe et le devanagari, les caractères se connectent de manière complexe.
Étape 4 : Reconnaissance des caractères
Chaque image de caractère segmentée est classifiée à l'aide de réseaux neuronaux profonds entraînés sur des millions d'images de caractères étiquetées. Le réseau produit une liste de candidats classés par confiance, pas une seule réponse. Un "A" propre pourrait avoir une confiance de 99,8 %. Un caractère dégradé pourrait produire une distribution beaucoup plus plate.
Étape 5 : Modélisation linguistique
La reconnaissance brute des caractères est sujette aux erreurs. Le contexte résout les ambiguïtés. "Facture" est-il un mot ? Non — le "F" était en fait un "f", ce qui en fait "Facture". Les modèles linguistiques statistiques prédisent des séquences de caractères probables, et la validation des formats applique des règles aux modèles tels que les dates et les nombres.
Étape 6 : Génération de la sortie
Le texte reconnu est remappé sur les coordonnées d'origine de l'image et écrit dans le PDF sous forme de couche de texte invisible. Chaque mot s'aligne précisément sur sa contrepartie visuelle, permettant la fonctionnalité de recherche et de mise en surbrillance.
Méthode 1 : Outil OCR PDFSub (Recommandé)
L'outil OCR de PDFSub traite les PDF numérisés et ajoute une couche de texte interrogeable tout en préservant l'apparence visuelle originale de chaque page.
Instructions étape par étape
- Accédez à l'outil OCR — Naviguez vers pdfsub.com/tools/ocr
- Téléchargez votre PDF numérisé — Faites glisser votre fichier ou cliquez pour parcourir. Pas besoin de diviser les documents volumineux — les PDF multipages sont gérés automatiquement.
- L'OCR traite votre document — L'outil analyse chaque page, reconnaît le texte et crée la couche de texte invisible. Le temps de traitement dépend du nombre de pages et de la complexité, mais la plupart des documents sont traités en quelques secondes.
- Téléchargez votre PDF interrogeable — Le fichier de sortie ressemble exactement à votre numérisation d'origine, mais prend désormais en charge la recherche de texte, la sélection de texte et le copier-coller.
Pourquoi PDFSub
Support de plus de 130 langues. L'OCR fonctionne avec des documents en anglais, espagnol, français, allemand, chinois, japonais, coréen, arabe, hindi, russe, portugais et plus de 120 autres langues. Les documents multilingues sont gérés automatiquement — vous n'avez pas besoin de spécifier la langue à l'avance.
Apparence d'origine préservée. Le processus OCR ajoute des données textuelles sans modifier le contenu visuel. Vos pages numérisées restent identiques. Les polices, les mises en page, les tampons, les signatures et les annotations manuscrites restent intacts.
Aucun logiciel à installer. Tout s'exécute dans votre navigateur ou sur des serveurs sécurisés. Il n'y a rien à télécharger, aucune configuration système à vérifier et aucun problème de compatibilité.
Conception axée sur la confidentialité. Les documents téléchargés sont traités puis supprimés. PDFSub ne stocke pas vos fichiers et ne les utilise pas pour l'entraînement.
Essayez gratuitement. PDFSub offre un essai gratuit de 7 jours pour que vous puissiez tester l'OCR sur vos propres documents avant de vous engager.
Méthode 2 : Adobe Acrobat Pro
Adobe Acrobat Pro inclut une fonctionnalité OCR intégrée appelée "Reconnaître le texte" dans ses outils Numérisation et OCR.
Instructions étape par étape
- Ouvrez votre PDF numérisé dans Adobe Acrobat Pro
- Allez dans Outils et sélectionnez Numérisation et OCR
- Cliquez sur Reconnaître le texte et choisissez Dans ce fichier ou Dans plusieurs fichiers
- Sous Paramètres, sélectionnez Image consultable (ajoute une couche de texte invisible — recommandé)
- Cliquez sur Reconnaître le texte pour démarrer le traitement
- Enregistrez le fichier
Points forts et limites
Adobe offre une grande précision sur les numérisations anglaises propres, prend en charge le traitement par lots et vous permet de corriger directement les erreurs d'OCR. Cependant, Acrobat Pro coûte 19,99 $/mois avec un plan annuel (239,88 $/an), nécessite une installation sur ordinateur (pas d'OCR basée sur navigateur), ne prend en charge qu'environ 20 langues et peut être lent sur les documents de plus de 50 pages.
Méthode 3 : Google Drive (Gratuit, mais avec perte)
Google Drive inclut une fonction OCR de base qui extrait le texte des PDF numérisés — mais avec un compromis important.
Instructions étape par étape
- Téléchargez votre PDF numérisé sur Google Drive
- Faites un clic droit sur le fichier et sélectionnez Ouvrir avec puis Google Docs
- Google traite le PDF et crée un Google Doc avec le texte extrait
- Le texte est désormais interrogeable, sélectionnable et modifiable
Points forts et limites
L'OCR de Google Drive est entièrement gratuite, offre une bonne précision sur les documents dactylographiés propres et détecte automatiquement les langues. Cependant, il y a un compromis critique : elle détruit la mise en forme. Google n'ajoute pas de couche de texte à votre PDF — elle extrait le texte dans un Google Doc. Les tableaux deviennent du texte brut, les colonnes s'effondrent et la mise en page d'origine est perdue. Vous vous retrouvez avec un Google Doc, pas un PDF interrogeable.
Elle fonctionne également mieux sur les documents de moins de 10 pages. Les documents plus longs peuvent être tronqués.
Idéal pour : Extraire le contenu textuel lorsque vous n'avez pas besoin de la mise en page d'origine. Si vous avez besoin d'un PDF interrogeable qui préserve l'apparence, utilisez la méthode 1 ou 2.
Précision de l'OCR : ce qu'il faut attendre selon le type de document
L'OCR n'est pas de la magie. La précision varie considérablement en fonction de la qualité du document, du type de contenu et des conditions de numérisation. Voici ce que montrent les tests réels.
Documents dactylographiés (Polices modernes) : 95-99 %
Les documents imprimés modernes — factures, contrats, rapports imprimés sur des imprimantes laser — sont le scénario idéal. Les polices standard sont bien représentées dans les données d'entraînement de l'OCR, et les impressions propres sur papier blanc produisent des images à fort contraste. À 99 % de précision sur une page de 250 mots (environ 1 500 caractères), vous pouvez vous attendre à environ 15 erreurs de caractères — la plupart sans conséquence, comme un point mal lu comme une virgule ou un "l" minuscule confondu avec un "1".
Documents dactylographiés plus anciens : 85-95 %
Les machines à écrire mécaniques présentent des défis : alignement incohérent des lettres, densité d'encre variable due à l'usure du ruban et largeur de caractère uniforme causant des confusions de segmentation. Néanmoins, le texte dactylographié est formé individuellement et aligné horizontalement, de sorte que la plupart des moteurs OCR le gèrent suffisamment bien à des fins de recherche.
Texte manuscrit : 60-80 %
L'écriture manuscrite reste le défi le plus difficile pour l'OCR. La variabilité est énorme — pas seulement entre les personnes, mais au sein de l'écriture d'une seule personne sur une page. Une écriture en blocs soignée peut atteindre 80-85 %. L'écriture cursive au crayon sur papier ligné peut descendre en dessous de 60 %. Vérifiez toujours manuellement les données critiques des documents manuscrits.
Contenu mixte (Texte + Tableaux) : 90-97 %
Les documents combinant du texte avec des données tabulaires ajoutent un défi d'analyse de la mise en page. La reconnaissance des caractères dans les cellules est généralement précise, mais les erreurs structurelles — limites de cellules mal identifiées, colonnes mal attribuées, cellules multilignes divisées en lignes — corrompent les relations de données et sont plus importantes que les erreurs de caractères individuels.
Tableau récapitulatif de la précision
| Type de document | Précision des caractères | Interrogeable ? | Extraction de données fiable ? |
|---|---|---|---|
| Moderne imprimé (laser) | 95-99 % | Excellent | Oui |
| Moderne imprimé (jet d'encre) | 93-98 % | Excellent | Généralement |
| Ancien dactylographié | 85-95 % | Bon | Avec vérification |
| Écriture manuscrite propre (bloc) | 70-80 % | Partiel | Non — vérifiez tout |
| Écriture manuscrite cursive | 60-70 % | Faible | Non |
| Texte + tableaux mixtes | 90-97 % | Bon | Avec revue structurelle |
| Papier dégradé/endommagé | 70-90 % | Variable | Avec vérification intensive |
Meilleures pratiques de numérisation avant l'OCR
Le facteur le plus important dans la précision de l'OCR n'est pas le logiciel OCR — c'est la qualité de la numérisation. Un excellent moteur OCR travaillant sur une mauvaise numérisation produira de moins bons résultats qu'un moteur médiocre travaillant sur une excellente numérisation.
Résolution : 300 DPI minimum
DPI (points par pouce) détermine la quantité de détails capturée par le scanner.
- 300 DPI : La norme pour la plupart des documents. Suffisant pour une reconnaissance fiable des polices standard à des tailles de texte normales (10-12pt).
- 600 DPI : Recommandé pour le texte de petite taille (notes de bas de page, petits caractères) ou lorsque vous avez besoin d'une précision maximale.
- 150 DPI ou moins : Non recommandé. Les caractères sont trop petits pour une reconnaissance fiable. La précision diminue considérablement.
- 1200 DPI : Excessif pour l'OCR. Aucune amélioration de la précision et les tailles de fichiers deviennent énormes.
Mode couleur : le niveau de gris est généralement le meilleur
- Niveau de gris : Idéal pour la plupart des documents. Préserve suffisamment de contraste pour une bonne binarisation tout en maintenant des tailles de fichiers gérables.
- Noir et blanc : Peut fonctionner pour des documents propres et à fort contraste, mais peut détruire les détails dans les zones marginales.
- Couleur : Uniquement nécessaire si le document contient des informations codées par couleur que vous devez préserver. À des fins d'OCR, la couleur n'apporte aucun avantage par rapport au niveau de gris.
Alignement et orientation
- Gardez les pages droites. Même une inclinaison de 2 à 3 degrés peut réduire la précision de l'OCR de 5 à 10 %. Utilisez les guides papier du scanner pour maintenir les pages alignées.
- Numérisez les pages recto face vers le bas. Évitez que le verso ne crée des ombres qui confondent le moteur OCR.
- Utilisez un scanner à plat pour les documents reliés. Les scanners à défilement peuvent incliner les pages de livres ou de rapports reliés. La numérisation à plat maintient la page plate et correctement alignée.
Maintenance du scanner et préparation du document
- Nettoyez la vitre avant de numériser des lots — les taches créent des artefacts sur chaque page
- Vérifiez les rayures en numérisant une page vierge — les lignes verticales indiquent des rouleaux sales
- Retirez les agrafes et les trombones pour éviter les bourrages et les rayures
- Aplatissez les pages froissées — les plis profonds créent des ombres que le moteur OCR peut mal lire
- Réparez les déchirures avec du ruban adhésif au verso — le ruban adhésif sur le recto crée des reflets
Après l'OCR : que faire ensuite
Exécuter l'OCR n'est que la première étape. Voici comment tirer le meilleur parti de vos documents désormais interrogeables.
Vérifiez les résultats
Vérifiez toujours la sortie de l'OCR, en particulier pour les documents critiques :
- Recherchez des termes clés dont vous savez qu'ils apparaissent dans le document. Si Ctrl+F les trouve systématiquement, l'OCR fonctionne.
- Copiez un paragraphe et collez-le dans un éditeur de texte. Lisez attentivement pour détecter les erreurs évidentes — mots brouillés, caractères manquants, substitutions absurdes.
- Vérifiez attentivement les chiffres. Les montants financiers, les dates, les numéros de téléphone et les numéros de compte sont des données à haut risque. Un "6" mal lu comme un "8" dans un montant de transaction est un vrai problème. Les moteurs OCR confondent parfois des chiffres similaires (0/O, 1/l, 5/S, 6/8).
Corrigez les erreurs et organisez
Si vous trouvez des erreurs dans des documents critiques, Adobe Acrobat Pro vous permet de modifier directement la couche de texte, ou vous pouvez renumériser les pages problématiques à 600 DPI et réexécuter l'OCR. Pour les sections manuscrites, la transcription manuelle est souvent plus rapide que la correction d'une OCR médiocre.
Une fois interrogeables, vos PDF s'intègrent dans les flux de travail existants. La recherche de bureau (Recherche Windows, Spotlight sur Mac) les indexe automatiquement. Les systèmes de gestion de documents (SharePoint, Google Drive, Dropbox) permettent la recherche plein texte dans votre bibliothèque. Des noms de fichiers corrects associés à un contenu interrogeable constituent la combinaison idéale.
Cas d'utilisation réels de l'OCR
Numérisation d'archives papier
Les entreprises, les cabinets d'avocats et les agences gouvernementales ont souvent des décennies de documents papier. La simple numérisation en PDF crée des fichiers image interrogeables uniquement par nom de fichier. L'ajout de l'OCR transforme une archive passive en une base de données interrogeable. Le flux de travail typique : numériser à 300 DPI en niveaux de gris, exécuter l'OCR, appliquer des conventions de nommage et télécharger dans un système de gestion de documents.
Rendre les documents juridiques interrogeables
Les professionnels du droit traitent d'énormes volumes de documents lors des procédures de divulgation et de diligence raisonnable. La partie adverse peut produire des milliers de pages de documents numérisés. Sans OCR, l'examen implique de lire manuellement chaque page. Avec l'OCR, les avocats peuvent rechercher des termes clés, des noms, des dates et des montants sur l'ensemble du jeu de documents — rendant l'examen réalisable dans des délais raisonnables.
Conformité en matière d'accessibilité
Conformément à l'Americans with Disabilities Act (ADA) et à la Section 508, les documents numériques des agences gouvernementales et des organisations financées par le gouvernement fédéral doivent être accessibles. Les lecteurs d'écran ne peuvent pas interpréter les PDF uniquement sous forme d'image — ils ont besoin d'une couche de texte. L'OCR est la première étape vers la conformité. D'autres travaux (structure des titres, texte alternatif, balises d'ordre de lecture) peuvent suivre, mais sans la couche de texte, l'accessibilité est impossible.
Traitement des assurances et des finances
Les compagnies d'assurance et les banques reçoivent des millions de formulaires de réclamation numérisés, de dossiers médicaux, de chèques et de demandes de prêt. L'OCR permet l'extraction automatisée des données — extraction des numéros de police, des montants de réclamation, des dates de service et des détails de compte à partir de documents numérisés vers les systèmes de traitement.
Archives académiques et de recherche
Les universités, les bibliothèques et les archives numérisent des documents historiques, des journaux et des manuscrits. L'OCR rend des siècles de connaissances interrogeables. Des projets comme Google Books et l'Internet Archive ont effectué l'OCR de milliards de pages, permettant la recherche plein texte dans des collections qui prendraient une vie à lire manuellement.
Foire aux questions
Puis-je effectuer l'OCR sur plusieurs PDF à la fois (traitement par lots) ?
Oui. PDFSub prend en charge le traitement de documents multipages en une seule opération. Pour les gros travaux par lots — des centaines ou des milliers de fichiers — vous les traiteriez séquentiellement via l'outil. Adobe Acrobat Pro propose également l'OCR par lots via sa fonction Assistant de tâches, qui peut traiter automatiquement des dossiers entiers de PDF.
L'OCR modifie-t-elle l'apparence de mon PDF ?
Non. Une OCR appropriée ajoute une couche de texte invisible derrière l'image visible de la page. L'apparence visuelle de votre PDF numérisé reste inchangée — mêmes pages, même mise en page, même résolution. La couche de texte n'est "visible" que pour les fonctions de recherche, la sélection de texte, le copier-coller et les lecteurs d'écran.
Que se passe-t-il si j'exécute l'OCR sur un PDF qui possède déjà du texte interrogeable ?
La plupart des outils OCR détectent les couches de texte existantes et ignorent ces pages ou vous donnent la possibilité de les retraiter. L'exécution de l'OCR sur un PDF déjà interrogeable est généralement inoffensive mais inutile — elle n'améliorera pas la couche de texte existante et peut légèrement augmenter la taille du fichier en raison des données redondantes.
La taille de mon fichier augmentera-t-elle après l'OCR ?
Légèrement. Attendez-vous à une augmentation de 5 à 15 % pour un document numérisé typique. La couche de texte elle-même est petite (caractères et données de position), et l'augmentation est négligeable par rapport aux données d'image qui constituent la majeure partie d'un PDF numérisé.
L'OCR peut-elle gérer des PDF qui sont un mélange de pages numérisées et numériques ?
Oui. Les bons outils OCR traitent chaque page indépendamment. Les pages qui ont déjà une couche de texte sont détectées et peuvent être ignorées. Les pages qui sont uniquement des images sont traitées. Le résultat est un PDF entièrement interrogeable, quelle que soit la manière dont l'original a été assemblé.
Quelles langues l'OCR prend-elle en charge ?
La prise en charge des langues varie selon l'outil. L'OCR de PDFSub prend en charge plus de 130 langues, y compris les écritures latines (anglais, espagnol, français, allemand), CJK (chinois, japonais, coréen), cyrilliques (russe, ukrainien), arabes (arabe, persan, ourdou), devanagari (hindi, marathi) et bien d'autres.
L'OCR peut-elle lire l'écriture manuscrite ?
Partiellement. L'écriture en blocs soignée atteint 70-80 % de précision. L'écriture cursive est nettement plus difficile (60-70 % ou moins). Pour les données critiques provenant de documents manuscrits, vérifiez toujours les résultats manuellement.
L'OCR est-elle la même chose que l'extraction de texte PDF ?
Non. L'OCR convertit les images de texte en caractères réels — nécessaire lorsqu'il n'y a pas de données textuelles, seulement des pixels. L'extraction de texte PDF lit le texte qui existe déjà dans le flux de contenu d'un PDF numérique — nécessaire lorsque le texte est piégé dans un format avec lequel vous ne pouvez pas travailler facilement. Si votre PDF est né numérique, vous avez besoin d'extraction. S'il est numérisé, vous avez besoin d'OCR d'abord.
L'OCR fonctionne-t-elle sur les photos prises avec un appareil photo de téléphone ?
Oui, mais la précision dépend de la qualité de la photo. Pour de meilleurs résultats : tenez le téléphone parallèlement au document, assurez un éclairage uniforme (pas d'ombres), remplissez le cadre, tenez fermement et utilisez le mode de numérisation de documents de votre téléphone si disponible. Les photos de téléphone produisent généralement une précision de 85 à 95 % pour le texte imprimé propre — moins que les numérisations à plat, mais souvent suffisant pour l'interrogation.
Puis-je modifier le texte après l'OCR ?
La couche de texte OCR est invisible et positionnée sur l'image numérisée. Vous pouvez copier le texte et le coller dans n'importe quel éditeur, utiliser Adobe Acrobat Pro pour modifier directement la couche de texte, ou exporter vers Word ou texte brut pour modification. Pour modifier le contenu visible d'un document numérisé, vous devrez le renumériser ou utiliser un éditeur PDF pour ajouter des annotations sur l'image.
Premiers pas avec l'OCR
Si vous avez des PDF numérisés qui doivent être interrogeables, le chemin le plus rapide est simple :
- Testez vos PDF — Utilisez le test Ctrl+F pour confirmer qu'ils nécessitent une OCR
- Essayez l'outil OCR de PDFSub — Téléchargez un PDF numérisé sur pdfsub.com/tools/ocr et voyez les résultats
- Vérifiez la sortie — Vérifiez quelques pages pour confirmer que la précision répond à vos besoins
- Traitez vos documents restants — Une fois que vous êtes convaincu des résultats, travaillez sur votre backlog
PDFSub offre un essai gratuit de 7 jours qui comprend l'accès à l'outil OCR et à tous les autres outils PDF de la plateforme. Téléchargez un document numérisé et constatez la différence que fait le texte interrogeable. Annulez à tout moment.