How to Extract Tables from PDF to Excel: 5 Methods Compared

Vous avez un PDF contenant un tableau dont vous avez besoin dans Excel. Il peut s'agir d'un rapport financier, d'un relevé bancaire, d'une facture ou d'un article de recherche. Les données sont là, bien organisées en lignes et colonnes à l'écran. Mais lorsque vous essayez de les extraire, tout s'effondre.

Cela se produit parce que le PDF n'est pas un format de données. C'est un format d'affichage. Il n'y a pas de concept de "tableau", de "ligne" ou de "colonne" dans la spécification PDF. Ce qui ressemble à un tableau structuré est en fait des dizaines de fragments de texte placés à des coordonnées x,y spécifiques sur une toile. Extraire cette structure pour la réintégrer dans une feuille de calcul est un problème d'ingénierie inverse — et différents outils le gèrent avec des degrés de succès variables.

Ce guide couvre 5 méthodes d'extraction de tableaux à partir de PDF, quand chacune fonctionne le mieux et quoi faire lorsque les choses tournent mal.

Pourquoi l'extraction de tableaux à partir de PDF est difficile

5 Methods for Extracting PDF Tables to Excel - Accuracy Comparison

Le format PDF n'a pas de tableaux

La spécification PDF (ISO 32000-2:2020) définit un flux de contenu — une séquence d'opérateurs qui positionnent des caractères individuels à des coordonnées précises. Une ligne de tableau simple comme "Date | Description | Montant" pourrait être stockée comme suit :

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Fournitures de bureau) Tj 180 0 Td (125.00) Tj ET

Il n'y a pas de balises <table>, <tr> ou <td>. Pas d'identifiants de ligne. Pas de limites de colonne. Les lignes visuelles que vous voyez autour des cellules sont des opérations de dessin distinctes, complètement déconnectées du texte. Un outil d'extraction doit déduire toute la structure à partir des relations spatiales.

Trois types de bordures de tableau

Les tableaux avec bordures (en treillis) ont des lignes visibles autour de chaque cellule. Ce sont les plus faciles à extraire car les lignes définissent explicitement les limites des cellules. Courants dans les états financiers formels, les formulaires gouvernementaux et les rapports standardisés.

Les tableaux sans bordures (en flux) n'ont aucune ligne. La structure est définie entièrement par l'alignement des espaces — les éléments de texte partageant des coordonnées x cohérentes à travers les lignes forment des colonnes implicites. Courants dans les articles de recherche, les factures et les catalogues de produits.

Les tableaux semi-bordés n'ont que des bordures partielles — généralement des règles horizontales entre les sections mais pas de séparateurs verticaux. Extrêmement courants dans les relevés bancaires, les rapports de courtage et les factures de services publics. Ce sont les plus difficiles à extraire car les bordures partielles induisent en erreur les analyseurs en mode treillis tandis que l'absence de bordures réduit la confiance du mode flux.

PDF balisés vs non balisés

Les PDF balisés incluent des métadonnées structurelles qui identifient les titres, les paragraphes et les cellules de tableau. Les PDF non balisés n'en ont aucune — l'outil d'extraction ne reçoit que des coordonnées brutes. La grande majorité des PDF ne sont pas balisés, y compris pratiquement tous les relevés bancaires, factures et rapports financiers.

Méthode 1 : PDFSub Extract Tables (Gratuit + Solution IA)

L'outil Extract Tables de PDFSub utilise une approche à trois niveaux qui maximise la précision tout en minimisant les coûts :

Niveau 1 : Détection basée sur les coordonnées (Navigateur, Gratuit)

L'outil tente d'abord l'extraction entièrement dans votre navigateur :

Analyse le flux de contenu du PDF pour extraire chaque élément de texte avec ses coordonnées x,y
Groupe les éléments de texte en lignes en fonction de la proximité des coordonnées y
Analyse les modèles d'alignement des coordonnées x à travers les lignes pour détecter les limites des colonnes
Nécessite un minimum de 3 lignes, 2 colonnes et une confiance de 70 %+

Si des tableaux de bonne qualité sont trouvés, vous obtenez des données structurées immédiatement — pas de téléversement de serveur, pas de crédits IA consommés, et votre fichier ne quitte jamais votre appareil.

Niveau 2 : Extraction côté serveur (pdfplumber, Gratuit)

Si la détection basée sur les coordonnées ne trouve aucun tableau, l'outil utilise pdfplumber (licence MIT) sur le serveur. Celui-ci détecte à la fois les lignes explicites (bordures dessinées) et les lignes implicites (modèles d'alignement de mots), trouve les intersections, identifie les rectangles et mappe le texte aux cellules.

Niveau 3 : Extraction IA (Utilise des crédits)

Pour les PDF numérisés, les mises en page complexes ou les tableaux que les méthodes basées sur des règles ne peuvent pas analyser, l'outil utilise l'extraction par vision basée sur l'IA. Vous pouvez également activer "Forcer l'extraction IA" pour passer directement à ce niveau lorsque vous savez que le tableau est complexe.

Formats de sortie : Excel (.xlsx), CSV, JSON.

Idéal pour : Extraction rapide sans installation de logiciel. Les PDF numériques sont traités entièrement dans votre navigateur pour une confidentialité maximale.

Méthode 2 : Power Query dans Excel (Windows uniquement)

Disponible dans Excel 2019+ et Microsoft 365 sous Windows : Données → Obtenir les données → À partir d'un fichier → À partir d'un PDF.

Comment ça marche

Cliquez sur Données → Obtenir les données → À partir d'un fichier → À partir d'un PDF
Sélectionnez votre fichier PDF
Power Query affiche un panneau Navigateur listant les tableaux détectés par page
Sélectionnez les tableaux souhaités, cliquez sur Transformer les données pour nettoyer, puis sur Charger

Points forts

Intégré à Excel — pas de coût supplémentaire pour les abonnés Microsoft 365
Le moteur de transformation de Power Query gère bien le post-traitement (remplir vers le bas, mettre sous forme de tableau croisé dynamique, fusionner des colonnes)
Peut actualiser les données si le PDF source est mis à jour
Prend en charge la connexion de plusieurs tableaux du même PDF

Limites

Windows uniquement — non disponible dans Excel pour Mac, Excel Online ou mobile
Difficultés avec les tableaux sans bordures — fonctionne mieux avec des tableaux clairement bordés
Pas d'OCR — ne peut pas extraire à partir de PDF numérisés/images
Les tableaux multi-pages sont problématiques — chaque page est souvent importée comme un tableau séparé, nécessitant un assemblage manuel
Lignes multi-lignes — le texte renvoyé dans les cellules est souvent divisé en plusieurs lignes, nécessitant un nettoyage

Idéal pour : Les utilisateurs Windows avec Microsoft 365 qui ont des tableaux simples et bordés.

Méthode 3 : Adobe Acrobat (Payant)

Fichier → Exporter un PDF → Feuille de calcul → Classeur Microsoft Excel

Tarifs (2026)

Acrobat Standard : 12,99 $/mois (plan annuel)
Acrobat Pro : 19,99 $/mois (plan annuel)
Export PDF (autonome) : plan de conversion uniquement de niveau inférieur

Points forts

OCR intégré pour les documents numérisés
Préserve généralement la mise en forme pour les tableaux bordés simples
Traitement par lots disponible dans Pro

Limites

Cher pour la seule extraction de tableaux — 156–240 $/an
Les tableaux complexes avec cellules fusionnées et étendues sur plusieurs pages produisent toujours des résultats désalignés
Les fichiers peuvent être téléchargés sur le cloud d'Adobe pour le traitement — problématique pour les données financières sensibles
Nécessite une installation sur ordinateur de bureau

Idéal pour : Les utilisateurs qui paient déjà pour Acrobat Pro et ont besoin d'extractions de tableaux occasionnelles avec OCR.

Méthode 4 : Copier-Coller (Manuel)

L'approche la plus intuitive — et celle qui échoue le plus souvent pour les tableaux.

Problèmes courants

Toutes les données dans une seule colonne — le tableau entier est collé sans sauts de colonne
Les nombres deviennent du texte — les symboles de devise, les parenthèses et les séparateurs brisent le format numérique
Le contenu de cellule multi-lignes crée des lignes fantômes — une description qui s'étend sur deux lignes dans la cellule devient deux lignes séparées
En-têtes séparés des données — la ligne d'en-tête est déconnectée
Colonnes désalignées — les données se décalent car l'espacement des caractères ne se traduit pas par des tabulations

Solution partielle

Collez dans Excel, puis utilisez Données → Convertir avec des délimiteurs d'espace ou de largeur fixe. Activez "Traiter les délimiteurs consécutifs comme un seul". Cela fonctionne pour des tableaux très simples et bien espacés, mais échoue pour tout contenu de cellule de plusieurs mots.

Idéal pour : Extraire un seul petit tableau simple en dernier recours.

Méthode 5 : Bibliothèques Python (Pour développeurs)

Trois bibliothèques sous licence MIT gèrent l'extraction de tableaux PDF par programmation :

Tabula-py

Wrapper Python autour de Tabula (Java). Nécessite un environnement Java.

Mode treillis pour les tableaux bordés (trouve les lignes et les intersections)
Mode flux pour les tableaux sans bordures (utilise l'alignement du texte)
Bon pour le traitement par lots dans les scripts
Pas de support OCR

Camelot

Offre également des modes treillis et flux.

Généralement plus performant que Tabula pour les tableaux bordés
Le mode flux a plus de paramètres de configuration pour un réglage fin
Fournit des rapports de précision à chaque extraction
Nécessite une dépendance Ghostscript. Pas de support OCR

pdfplumber

Approche basée sur les coordonnées : extrait chaque caractère avec sa position exacte, puis déduit la structure.

Gère la plus large gamme de types de tableaux
Offre le plus de contrôle mais nécessite plus de configuration
C'est la bibliothèque que PDFSub utilise côté serveur
Pas de support OCR

Idéal pour : Les développeurs automatisant les flux d'extraction de tableaux récurrents, traitant de grands lots de documents similaires.

Problèmes courants et comment les résoudre

Cellules fusionnées

Lorsque les cellules s'étendent sur plusieurs lignes ou colonnes, la plupart des outils placent le contenu dans la cellule supérieure gauche et laissent les autres vides, ou désalignent toutes les colonnes suivantes. Il n'y a pas de solution universelle — le format CSV n'a pas de concept de fusion, donc les informations de fusion sont toujours perdues.

Correction : Extrayez le tableau, puis corrigez manuellement les artefacts de fusion dans Excel. Pour les tableaux récurrents avec le même schéma de fusion, envisagez un script de post-traitement.

Contenu multi-lignes dans les cellules

Les longues descriptions qui s'enroulent dans une cellule deviennent plusieurs lignes dans la sortie, décalant toutes les données suivantes. C'est l'erreur d'extraction la plus courante pour les documents financiers.

Correction : Après l'extraction, recherchez les lignes qui n'ont pas de dates et de montants — ce sont probablement des lignes de continuation qui appartiennent à la ligne supérieure. Dans Excel, fusionnez-les manuellement ou utilisez une formule d'aide.

Tableaux s'étendant sur plusieurs pages

Les outils doivent déterminer où le tableau continue, s'il faut supprimer les en-têtes répétés et comment filtrer les pieds de page. De nombreux outils traitent chaque page indépendamment.

Correction : Si votre outil fournit des résultats par page, combinez les feuilles et supprimez les lignes d'en-tête répétées. Vérifiez que la dernière ligne de la page N se connecte correctement à la première ligne de la page N+1.

Problèmes de format de devise

Les nombres négatifs entre parenthèses ((1 234,56)) sont collés comme du texte, pas comme des nombres. Les symboles de devise et les séparateurs de milliers brisent également le format numérique.

Correction : Après l'extraction, sélectionnez la colonne des montants et utilisez Rechercher & Remplacer pour supprimer les caractères $, (, ). Ensuite, formatez la colonne en tant que Nombre. Pour les négatifs entre parenthèses, remplacez ( par - et supprimez ), puis convertissez au format Nombre.

Ambiguïté des dates

01/02/2026 — est-ce le 2 janvier ou le 1er février ? L'outil d'extraction conserve la chaîne telle quelle, mais Excel peut la réinterpréter en fonction de votre région.

Correction : Vérifiez le PDF source pour des indices de format de date (recherchez des dates avec des jours supérieurs à 12). Définissez le format de date d'Excel pour qu'il corresponde à la source avant l'importation.

Comparaison de la précision

Méthode	Simple Bordé	Sans Bordures	Semi-bordé	PDF numérisés
PDFSub (coordonnées + IA)	90–99 %	75–95 %	70–95 %	85–95 % (IA)
Power Query	85–95 %	40–60 %	50–70 %	Non pris en charge
Adobe Acrobat	90–95 %	70–80 %	70–85 %	80–90 %
Tabula	~68 %	55–70 %	50–65 %	Non pris en charge
Camelot	~73 %	65–75 %	60–70 %	Non pris en charge
Copier-coller	30–50 %	10–30 %	10–30 %	Pas possible

Les plages reflètent la variation selon la complexité du document. Données de référence issues du Benchmark d'extraction PDF Procyons 2025 et des études comparatives de Camelot.

Quelle méthode devriez-vous utiliser ?

Scénario	Meilleure méthode	Pourquoi
Extraction rapide unique	PDFSub	Pas d'installation, basé sur le navigateur, extraction gratuite par coordonnées
Tableau bordé simple, Windows	Power Query	Intégré à Excel, pas de coût supplémentaire
PDF numérisé	PDFSub (IA) ou Adobe Acrobat	Nécessite une capacité OCR
Données financières sensibles	PDFSub	Traitement basé sur le navigateur, fichier jamais téléchargé
Traitement par lots récurrent	Python (pdfplumber)	Scriptable, automatisable
Possédez déjà Acrobat Pro	Adobe Acrobat	Vous payez déjà, les tableaux simples fonctionnent bien
Un seul petit tableau, aucun outil	Copier-coller	Dernier recours, vérifiez tout

Conseils pour de meilleurs résultats

Utilisez des PDF natifs. Téléchargez les documents depuis leur source plutôt que de numériser du papier. Les PDF natifs ont un texte parfait, ce qui rend l'extraction beaucoup plus précise.

Identifiez d'abord le type de tableau. Les tableaux bordés fonctionnent avec presque tous les outils. Les tableaux sans bordures nécessitent un mode flux ou une extraction IA. Connaître le type vous aide à choisir la bonne méthode dès le départ.

Commencez par des méthodes gratuites basées sur des règles. Essayez d'abord l'extraction basée sur les coordonnées. N'escaladez vers l'IA que lorsque les méthodes basées sur des règles donnent de mauvais résultats — cela permet d'économiser du temps et des crédits.

Vérifiez toujours la sortie. Vérifiez le nombre de lignes, l'alignement des colonnes, les valeurs numériques et les totaux. Ne faites jamais aveuglément confiance à la sortie d'extraction.

Attention au formatage des nombres. Après l'extraction, vérifiez que les nombres sont bien des nombres dans Excel (alignés à droite), pas des chaînes de texte (alignées à gauche). Les symboles de devise et les négatifs entre parenthèses sont des coupables courants.

Pour les données sensibles, privilégiez les outils basés sur le navigateur. Les rapports financiers, les relevés bancaires et les documents fiscaux contiennent des informations sensibles. Les outils qui traitent les PDF dans votre navigateur ne téléchargent jamais votre fichier, éliminant ainsi le risque d'exposition des données.

Essayez gratuitement

Prêt à extraire des tableaux de votre PDF ? Téléchargez un fichier maintenant — PDFSub essaie d'abord l'extraction gratuite basée sur les coordonnées, avec une solution IA pour les tableaux complexes. Les PDF numériques sont traités entièrement dans votre navigateur. Commencez un essai gratuit de 7 jours.

How to Extract Tables from PDF to Excel: 5 Methods Compared

Ce guide couvre 5 méthodes d'extraction de tableaux à partir de PDF, quand chacune fonctionne le mieux et quoi faire lorsque les choses tournent mal.

Pourquoi l'extraction de tableaux à partir de PDF est difficile

5 Methods for Extracting PDF Tables to Excel - Accuracy Comparison

Le format PDF n'a pas de tableaux

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Fournitures de bureau) Tj 180 0 Td (125.00) Tj ET

Trois types de bordures de tableau

PDF balisés vs non balisés

Méthode 1 : PDFSub Extract Tables (Gratuit + Solution IA)

L'outil Extract Tables de PDFSub utilise une approche à trois niveaux qui maximise la précision tout en minimisant les coûts :

Niveau 1 : Détection basée sur les coordonnées (Navigateur, Gratuit)

L'outil tente d'abord l'extraction entièrement dans votre navigateur :

Analyse le flux de contenu du PDF pour extraire chaque élément de texte avec ses coordonnées x,y
Groupe les éléments de texte en lignes en fonction de la proximité des coordonnées y
Analyse les modèles d'alignement des coordonnées x à travers les lignes pour détecter les limites des colonnes
Nécessite un minimum de 3 lignes, 2 colonnes et une confiance de 70 %+

Niveau 2 : Extraction côté serveur (pdfplumber, Gratuit)

Niveau 3 : Extraction IA (Utilise des crédits)

Formats de sortie : Excel (.xlsx), CSV, JSON.

Idéal pour : Extraction rapide sans installation de logiciel. Les PDF numériques sont traités entièrement dans votre navigateur pour une confidentialité maximale.

Méthode 2 : Power Query dans Excel (Windows uniquement)

Disponible dans Excel 2019+ et Microsoft 365 sous Windows : Données → Obtenir les données → À partir d'un fichier → À partir d'un PDF.

Comment ça marche

Cliquez sur Données → Obtenir les données → À partir d'un fichier → À partir d'un PDF
Sélectionnez votre fichier PDF
Power Query affiche un panneau Navigateur listant les tableaux détectés par page
Sélectionnez les tableaux souhaités, cliquez sur Transformer les données pour nettoyer, puis sur Charger

Points forts

Intégré à Excel — pas de coût supplémentaire pour les abonnés Microsoft 365
Le moteur de transformation de Power Query gère bien le post-traitement (remplir vers le bas, mettre sous forme de tableau croisé dynamique, fusionner des colonnes)
Peut actualiser les données si le PDF source est mis à jour
Prend en charge la connexion de plusieurs tableaux du même PDF

Limites

Windows uniquement — non disponible dans Excel pour Mac, Excel Online ou mobile
Difficultés avec les tableaux sans bordures — fonctionne mieux avec des tableaux clairement bordés
Pas d'OCR — ne peut pas extraire à partir de PDF numérisés/images
Les tableaux multi-pages sont problématiques — chaque page est souvent importée comme un tableau séparé, nécessitant un assemblage manuel
Lignes multi-lignes — le texte renvoyé dans les cellules est souvent divisé en plusieurs lignes, nécessitant un nettoyage

Idéal pour : Les utilisateurs Windows avec Microsoft 365 qui ont des tableaux simples et bordés.

Méthode 3 : Adobe Acrobat (Payant)

Fichier → Exporter un PDF → Feuille de calcul → Classeur Microsoft Excel

Tarifs (2026)

Acrobat Standard : 12,99 $/mois (plan annuel)
Acrobat Pro : 19,99 $/mois (plan annuel)
Export PDF (autonome) : plan de conversion uniquement de niveau inférieur

Points forts

OCR intégré pour les documents numérisés
Préserve généralement la mise en forme pour les tableaux bordés simples
Traitement par lots disponible dans Pro

Limites

Cher pour la seule extraction de tableaux — 156–240 $/an
Les tableaux complexes avec cellules fusionnées et étendues sur plusieurs pages produisent toujours des résultats désalignés
Les fichiers peuvent être téléchargés sur le cloud d'Adobe pour le traitement — problématique pour les données financières sensibles
Nécessite une installation sur ordinateur de bureau

Idéal pour : Les utilisateurs qui paient déjà pour Acrobat Pro et ont besoin d'extractions de tableaux occasionnelles avec OCR.

Méthode 4 : Copier-Coller (Manuel)

L'approche la plus intuitive — et celle qui échoue le plus souvent pour les tableaux.

Problèmes courants

Toutes les données dans une seule colonne — le tableau entier est collé sans sauts de colonne
Les nombres deviennent du texte — les symboles de devise, les parenthèses et les séparateurs brisent le format numérique
Le contenu de cellule multi-lignes crée des lignes fantômes — une description qui s'étend sur deux lignes dans la cellule devient deux lignes séparées
En-têtes séparés des données — la ligne d'en-tête est déconnectée
Colonnes désalignées — les données se décalent car l'espacement des caractères ne se traduit pas par des tabulations

Solution partielle

Idéal pour : Extraire un seul petit tableau simple en dernier recours.

Méthode 5 : Bibliothèques Python (Pour développeurs)

Trois bibliothèques sous licence MIT gèrent l'extraction de tableaux PDF par programmation :

Tabula-py

Wrapper Python autour de Tabula (Java). Nécessite un environnement Java.

Mode treillis pour les tableaux bordés (trouve les lignes et les intersections)
Mode flux pour les tableaux sans bordures (utilise l'alignement du texte)
Bon pour le traitement par lots dans les scripts
Pas de support OCR

Camelot

Offre également des modes treillis et flux.

Généralement plus performant que Tabula pour les tableaux bordés
Le mode flux a plus de paramètres de configuration pour un réglage fin
Fournit des rapports de précision à chaque extraction
Nécessite une dépendance Ghostscript. Pas de support OCR

pdfplumber

Approche basée sur les coordonnées : extrait chaque caractère avec sa position exacte, puis déduit la structure.

Gère la plus large gamme de types de tableaux
Offre le plus de contrôle mais nécessite plus de configuration
C'est la bibliothèque que PDFSub utilise côté serveur
Pas de support OCR

Idéal pour : Les développeurs automatisant les flux d'extraction de tableaux récurrents, traitant de grands lots de documents similaires.

Problèmes courants et comment les résoudre

Cellules fusionnées

Contenu multi-lignes dans les cellules

Tableaux s'étendant sur plusieurs pages

Les outils doivent déterminer où le tableau continue, s'il faut supprimer les en-têtes répétés et comment filtrer les pieds de page. De nombreux outils traitent chaque page indépendamment.

Problèmes de format de devise

Ambiguïté des dates

01/02/2026 — est-ce le 2 janvier ou le 1er février ? L'outil d'extraction conserve la chaîne telle quelle, mais Excel peut la réinterpréter en fonction de votre région.

Comparaison de la précision

Méthode	Simple Bordé	Sans Bordures	Semi-bordé	PDF numérisés
PDFSub (coordonnées + IA)	90–99 %	75–95 %	70–95 %	85–95 % (IA)
Power Query	85–95 %	40–60 %	50–70 %	Non pris en charge
Adobe Acrobat	90–95 %	70–80 %	70–85 %	80–90 %
Tabula	~68 %	55–70 %	50–65 %	Non pris en charge
Camelot	~73 %	65–75 %	60–70 %	Non pris en charge
Copier-coller	30–50 %	10–30 %	10–30 %	Pas possible

Les plages reflètent la variation selon la complexité du document. Données de référence issues du Benchmark d'extraction PDF Procyons 2025 et des études comparatives de Camelot.

Quelle méthode devriez-vous utiliser ?

Scénario	Meilleure méthode	Pourquoi
Extraction rapide unique	PDFSub	Pas d'installation, basé sur le navigateur, extraction gratuite par coordonnées
Tableau bordé simple, Windows	Power Query	Intégré à Excel, pas de coût supplémentaire
PDF numérisé	PDFSub (IA) ou Adobe Acrobat	Nécessite une capacité OCR
Données financières sensibles	PDFSub	Traitement basé sur le navigateur, fichier jamais téléchargé
Traitement par lots récurrent	Python (pdfplumber)	Scriptable, automatisable
Possédez déjà Acrobat Pro	Adobe Acrobat	Vous payez déjà, les tableaux simples fonctionnent bien
Un seul petit tableau, aucun outil	Copier-coller	Dernier recours, vérifiez tout

Conseils pour de meilleurs résultats

Utilisez des PDF natifs. Téléchargez les documents depuis leur source plutôt que de numériser du papier. Les PDF natifs ont un texte parfait, ce qui rend l'extraction beaucoup plus précise.

Vérifiez toujours la sortie. Vérifiez le nombre de lignes, l'alignement des colonnes, les valeurs numériques et les totaux. Ne faites jamais aveuglément confiance à la sortie d'extraction.