您需要将PDF中的数据导入Excel。可能是财务报告、供应商发票、银行对账单，或是从旧系统中导出的产品数据表。问题在于：PDF旨在让每个屏幕上的显示效果完全一致——而不是为了传输结构化数据。

据估计，每年创建的PDF文件超过2900亿份，年增长率约为12%。Adobe报告称，全球每天有超过4亿份PDF被打开，1亿用户使用Acrobat。PDF已成为共享财务文件、法律合同、政府表格和业务报告的标准格式。然而，根据Parseur/QuestionPro在2025年进行的一项调查，"查看PDF"与"处理其数据"之间的差距，导致美国公司每年在手动数据录入方面平均每位员工损失28,500美元——员工每周花费超过9小时将文档数据转移到电子表格中。

本指南涵盖2026年可用的所有方法，从免费内置工具到AI驱动的提取，并诚实评估哪些有效，哪些无效。

PDF to Excel conversion process showing a PDF document transforming into an Excel spreadsheet

PDF到Excel转换的根本难点

在深入研究各种方法之前，了解问题为何存在很有帮助。PDF和Excel电子表格在架构上是不兼容的——不仅仅是不同，而是设计目标截然相反。

PDF如何实际存储数据

PDF页面并不“包含”一个表格。它包含一个内容流——一系列基于PostScript的二进制操作符，用于在画布上的精确x,y坐标定位单个字符。PDF规范（ISO 32000-2:2020）通过以下操作符定义文本渲染：

BT / ET：开始和结束文本对象
Tf：设置字体和字号
Tm：使用六个数字的矩阵设置绝对位置
Tj / TJ：渲染文本字符串（TJ包括每个字形的字距调整）

对您来说看起来像表格的东西——整齐的行和列以及对齐的数字——实际上是数百个单独的文本定位命令。没有<table>、<tr>或<td>标签。没有行或列标识符。没有单元格边界。转换器必须通过分析字符之间的空间关系来逆向工程表格结构——哪些字符垂直对齐（暗示一列），哪些在同一水平线上（暗示一行），以及哪里有间隙表示单元格边界。

这就是为什么直接转换通常会产生混乱结果的原因：列会合并，因为字符稍微不对齐；数字会变成文本字符串，因为货币符号是单独定位的元素；多行描述会被拆分成虚行。

标记PDF与未标记PDF

PDF规范包含一个可选的“结构树”，用于辅助功能——标记PDF，用于识别屏幕阅读器的标题、段落和表格单元格。如果存在，这些元数据可以大大简化提取。现实情况是：绝大多数PDF都是未标记的。大多数PDF生成器会跳过标记步骤，因为它不是必需的，并且会增加复杂性。银行对账单、发票和财务报告几乎从不被标记。

字体编码与Unicode问题

PDF对每个字符使用两个独立的查找路径：一个用于字形轮廓（外观），一个用于Unicode映射（含义）。当ToUnicode CMap表缺失、不完整或故意损坏时——正如某些PDF生成器和安全工具所发生的那样——即使PDF在屏幕上完美渲染，文本提取也会产生乱码。您在视觉上看到正确的字符，但复制粘贴或程序化提取会产生无意义的内容。

方法1：PDFSub（基于浏览器，适用于所有PDF类型）

PDFSub 可处理各种PDF到Excel的转换——从简单的单页表格到复杂的、包含合并单元格、多行描述和国际数字格式的多页财务文件。

工作原理

上传您的PDF - 拖放任何PDF文件。PDFSub自动检测文档类型和结构。
自动提取 - 自动检测表格并将数据提取为结构化的行和列。对于数字PDF，这完全在您的浏览器中进行——文件永远不会离开您的设备。
预览检查 - 下载前检查提取的数据。在预览中可以看到列标题、数据类型和行对齐情况。
下载 - 导出为Excel（.xlsx）、CSV或其他格式。

为什么有效

浏览器优先的隐私保护。 数字PDF完全在您的浏览器中使用客户端JavaScript进行处理。无需上传文件，无需服务器暴露，无需数据保留。这对于财务文件、税务记录或任何包含敏感信息的文档至关重要。根据GDPR，客户端处理避免了被归类为数据处理者，因为它不收集或传输个人数据。

处理扫描文档。 如果PDF是扫描图像（无可选中文本），PDFSub会回退到服务器端OCR并进行自动清理。这种双层方法确保数字和扫描PDF都能产生可用结果。

精通财务文件处理。 提取引擎能理解财务格式：括号内的负数、作为独立元素的货币符号、借贷列拆分、余额校验和国际数字格式（1.234,56 vs 1,234.56）。

支持130多种语言。 可处理任何语言的PDF——包括CJK（中文、日文、韩文）的复杂字符编码、从右到左的阿拉伯语和希伯来语，以及带重音符号的欧洲语言。

方法2：Microsoft Excel Power Query（仅限Windows）

Excel 2019和Microsoft 365（Windows版）通过Power Query内置了PDF导入功能。这是对于已安装Excel的用户来说最方便的选择。

Power Query PDF import steps showing the Data menu and import dialog

操作方法

打开Excel，转到数据 → 获取数据 → 从文件 → 从PDF
选择您的PDF文件
Power Query会显示一个导航器面板，其中列出了检测到的表格——每个表格单独列出，您也可以查看原始页面文本
选择您需要的表格，然后点击 转换数据 来清理列标题、数据类型和格式，然后再加载——或者点击加载直接将其导入您的电子表格

Power Query的优点

简单、结构良好的表格，具有清晰的边框或一致的间距，转换可靠
多页表格如果布局一致，通常能被正确检测和合并
重复导入可以设置为可刷新连接——如果您定期收到相同格式的报告，这很有用
无额外成本，仅限于您现有的Microsoft 365或Excel 2019许可证

Power Query的缺点

Mac不可用。 Excel for Mac完全没有PDF连接器。微软尚未宣布添加此功能的计划。Mac解决方法：在Microsoft Word中打开PDF（它会将PDF转换为可编辑文本），然后将表格复制到Excel中。
无OCR功能。 如果PDF是扫描图像且没有嵌入文本层，Power Query将一无所获——它需要可选中文本。
复杂布局会出错。 合并单元格、多级标题、嵌套表格和不规则的列结构会产生混乱的结果。带有合并描述单元格的“总计”行可能导致后续所有行错位。
页眉和页脚重复。 多页表格的页眉行在每页重复，会导致页眉文本与数据行混杂。您需要手动过滤掉这些。
货币和数字格式。 当存在货币符号、括号内的负数或非美国千位分隔符时，Power Query可能会将数字导入为文本字符串。导入后需要手动转换类型。

Mac用户的Power Query（解决方法）

截至2026年1月，Microsoft已将Power Query引入Excel网页版，这可能扩大了PDF导入的可用性。然而，PDF连接器可能仍然仅限于Windows。最可靠的Mac解决方法仍然是：

在Microsoft Word中打开PDF（文件 → 打开 → 选择PDF）
Word将PDF转换为可编辑文档（效果不完美）
从Word中复制表格并粘贴到Excel中
使用“分列”和数据类型转换进行清理

方法3：Adobe Acrobat Pro

Adobe Acrobat Pro可以将PDF导出为Excel格式。作为PDF格式的创建者，Adobe的工具对PDF内部结构有深入的了解——但这并不总是能转化为干净的Excel输出。

定价

Acrobat Pro：每月19.99美元（年付）或每月29.99美元（月付）。总计：每年239.88–359.88美元。
Acrobat Export PDF（仅转换）：每月1.99美元（每年23.88美元）。将PDF转换为Word、Excel或RTF。
免费在线工具：可在adobe.com上找到，但每天转换次数有限。需要创建账户。
文件限制：云服务的文件大小限制为100 MB，页数限制为600页。

操作方法

在Acrobat Pro中打开您的PDF
转到文件 → 导出到 → 电子表格 → Microsoft Excel工作簿
选择保存位置
对于扫描的PDF，Acrobat会在导出前自动应用OCR

Adobe的优点

扫描文档的自动OCR——检测并处理基于图像的PDF
多语言OCR支持（英语、德语、西班牙语、法语、葡萄牙语等）
表单字段识别——结构化的PDF表单会导出字段名称和值

Adobe的缺点

合并的单元格会产生过多的列。 用户普遍反映，列和制表符会在Excel输出中产生许多空白列——这是Adobe支持论坛中一个广为人知的问题。
多行文本会拆分成多行。 一个包含换行描述的单元格会变成两到三行，破坏整个表格的对齐。
偶尔使用成本高昂。 每年240–360美元，如果您只需要偶尔转换PDF，这会显得过度。独立的Export PDF每年24美元更合理，但缺少完整的Acrobat工具集。
服务器端处理。 文件会上传到Adobe的云端进行转换，这对于敏感的财务文件可能是一个顾虑。

方法4：Google Sheets（免费，但有限制）

Google Sheets 没有原生的PDF导入功能。菜单中没有任何“导入PDF”的选项。但是，有一些解决方法。

Google Docs方法（免费）

将PDF上传到Google Drive
右键单击文件 → 打开方式 → Google Docs
Google会将PDF转换为可编辑文档
从Google文档中复制表格并粘贴到Google Sheets中
清理格式、列对齐和数据类型

何时有效： 简单的PDF，包含基本表格和少量格式。

何时失败： 复杂的表格、多列布局、扫描文档。转换经常会弄乱表格结构——单元格合并，列移位，行拆分。

替代方案：先转换，再上传

更可靠的方法是使用其他工具（PDFSub、Adobe等）将PDF转换为Excel或CSV，然后将生成的文件上传到Google Sheets。这种两步过程可以避免Google不一致的PDF解析。

方法5：在线转换器（快速但有隐私风险）

一些免费的在线工具可以在无需安装软件的情况下将PDF转换为Excel。

隐私问题

使用任何在线转换器时，您的文件都会被上传到其服务器进行处理。服务提供商在处理过程中可以完全访问文档——文本内容、元数据、嵌入的图像，一切内容。即使提供商声称在处理后删除文件，系统快照、日志或第三方集成也可能保留部分数据。

对于银行对账单、税务文件、发票、医疗记录或任何包含财务数据、个人身份信息或机密业务数据的文档，服务器端处理会带来可衡量的风险。根据GDPR，一旦服务在服务器上存储您的文档，它就成为一个负有合规义务的数据处理者。截至2025年，已记录了超过2,245起GDPR罚款，总计约56.5亿欧元。

何时在线转换器适用： 非敏感文档，便利性大于隐私。快速一次性转换公共数据。您愿意将其发送给陌生人的文档。

何时应避免： 财务报表、税务申报单、医疗记录、法律文件、任何包含社会安全号码或账号的内容、专有业务数据。

方法6：Python库（面向开发者）

如果您是开发者或数据分析师，需要以编程方式处理PDF，有几个开源Python库可以处理PDF表格提取。

库比较

库	许可证	OCR	表格检测	最适合
pdfplumber	MIT	否	手动+可配置	复杂表格，精细控制
Tabula-py	MIT	否	自动检测	快速提取带边框的表格
Camelot	MIT	否	Lattice + Stream模式	带边框的表格（Lattice模式表现优异）
PyMuPDF	AGPL	否	基本	快速文本提取（SaaS存在许可问题）

pdfplumber

基于pdfminer.six构建。提供对页面上每个字符、线条、矩形和曲线的精确坐标访问。表格提取使用可配置的策略来检测单元格边界。提供可视化调试——您可以在页面图像上绘制检测到的表格。对于简单情况需要比Tabula更多的配置，但比其他任何开源库都能更好地处理复杂表格。

Tabula-py

Tabula-java的Python包装器（需要安装JVM）。擅长自动检测表格边界。直接输出到pandas DataFrame。JVM依赖增加了部署难度，并且它难以处理复杂的多级标题。

Camelot

两种模式：Lattice模式使用图像处理（OpenCV形态学变换）来检测规则线并从线交叉点查找单元格边界——对于带边框的表格非常准确。Stream模式根据空格的接近度对字符进行分组以推断列。为每个表格提供准确性/质量指标。Lattice模式在ICDAR基准测试中达到超过0.85的F1分数，但在处理细线或模糊线的表格时会失败。

何时使用Python

批量处理数百或数千个相似文档
为定期报告构建自动化流程
当您需要完全控制提取逻辑和后处理时
当文档格式已知且一致时
研究和数据新闻项目

何时不要使用Python

一次性转换（设置时间超过节省的时间）
非技术用户
扫描的PDF（这些库不包含OCR——您需要先进行单独的OCR步骤）
当交付速度比定制更重要时

常见的转换问题及解决方法

Common PDF to Excel conversion issues showing misaligned columns and merged data

每种转换方法在某些文档上都会产生不完美的结果。以下是最常见的问题及实际解决方法。

数字被导入为文本

问题： Excel将提取的数字视为文本字符串，这会破坏SUM、AVERAGE和所有计算。发生这种情况是因为PDF不区分数字和文本——它们都是页面上的字符。货币符号、括号内的负数、千位分隔符或非标准小数点都会导致整个单元格被视为文本。

如何检测： 查看单元格左上角是否有绿色三角形，或者尝试对一列求和——如果结果为0，则值为文本。

解决方法：

选择列 → 数据 → 分列 → 点击完成（这会强制Excel重新解析数据）
乘以1：在辅助列中使用=A1*1强制转换为数字
使用NUMBERVALUE：=NUMBERVALUE(A1, ".", ",")可处理欧洲格式
查找并替换以删除货币符号：将“$”替换为空，将“（”替换为“-”，将“)”替换为空

括号内的负数

问题： 会计惯例显示负数时使用(200.00)而不是-200.00。每个PDF转换器都会输出字面字符串“(200.00)”，Excel将其视为文本。

解决方法： 分两步进行查找和替换：将“（”替换为“-”，将“)”替换为空。然后将列转换为数字格式。或者使用：=IF(LEFT(A1,1)="(",-VALUE(SUBSTITUTE(SUBSTITUTE(A1,"(",""),")","")) ,VALUE(A1))

列合并在一起

问题： 来自多个列的数据最终出现在一个单元格中——“01/15/2026 Direct Deposit $3,500.00”全部在A列。

解决方法： 数据 → 分列，使用分隔符（空格、逗号、制表符或固定宽度）。对于固定宽度，Power Query的列拆分更可靠，因为您可以直观地调整断点。

多行描述拆分成额外行

问题： 一条包含两行描述的交易变成Excel中的两行，第二行具有空的日期、金额和余额字段。这会破坏整个电子表格的行对齐。

解决方法： 这是最难手动修复的问题。查找日期列为空的行——这些很可能是续行。使用辅助公式将其与上一行合并，然后删除空行。特别是对于银行对账单，像PDFSub的银行对账单转换器这样的专用转换器通过检测续行模式自动处理多行描述。

页眉和页脚混入数据

问题： 多页PDF在每页重复页眉行、页码、日期和文档标题。通用转换器会将这些提取为数据行，与实际数据混杂。

解决方法： 转换后，按日期列排序或过滤。页眉行和页脚通常不包含有效日期，会排在顶部或底部。手动删除它们。对于格式相同的重复报告，可以录制宏来自动化清理。

日期歧义（MM/DD vs DD/MM）

问题： 日期03/04/2026可能是3月4日（美国格式）或4月3日（欧洲格式）。当文档中的所有日期日值小于或等于12时，无法通过算法确定正确格式。转换器通常默认为MM/DD/YYYY，但这会默默地为非美国文档生成错误的日期。

解决方法： 检查源文档的区域设置。如果它来自欧洲、亚洲或拉丁美洲，格式几乎肯定是DD/MM/YYYY。在Excel中，选择日期列，右键单击→设置单元格格式→数字→日期，然后选择正确的区域设置。如果日期已被误解，您可能需要使用=DATE(YEAR(A1), DAY(A1), MONTH(A1))来交换日和月。

缺失数据

问题： 有些内容根本没有出现在转换结果中——通常是水印、图像中的数据，或使用缺少Unicode映射的字体的文本。

解决方法： 打开原始PDF并尝试选择缺失的文本。如果您无法选择它，那么它是一个图像——您需要OCR功能。如果您可以选择它但复制出来是乱码，那么PDF存在字体编码问题。尝试使用不同的转换器——每个转换器处理字体映射的方式都不同。PDFSub同时处理这两种情况：浏览器端提取嵌入文本，服务器端OCR处理扫描内容。

针对不同文档类型的选择方法

不同的PDF需要不同的方法。这是一个决策矩阵：

文档类型	最佳方法	原因
银行对账单	PDFSub或专用转换器	多行描述、余额校验、借贷列需要财务感知提取
发票	PDFSub或Adobe Acrobat	不规则布局、含税计算的行项目、货币格式
财务报告（年报、季报）	Power Query或pdfplumber	密集的多列表格，包含嵌套行项目；Power Query能很好地处理重复结构
简单数据表	Power Query（免费）	来自业务报告的清晰带边框表格转换可靠
扫描纸质文档	PDFSub或Adobe Acrobat (OCR)	必须具备OCR功能——Power Query和Python库完全无法处理图像
政府表格	Adobe Acrobat或PDFSub	固定位置字段，预印结构和填写数据的混合
定期批量报告	Python (Tabula/Camelot)	针对格式相同的文档进行定期处理的可编程流程
国际文档	PDFSub	支持130多种语言，非美国数字/日期格式，CJK字符编码

OCR与原生PDF：为何重要

转换准确性最重要的因素是您的PDF包含嵌入式文本还是扫描图像。

原生（数字）PDF

由软件数字生成——您的银行在线门户、会计软件导出、Word转PDF转换。在查看PDF时，您可以选择和复制文本。

准确性：字符提取准确性几乎为100%（无识别错误）。失败源于字体编码问题或布局误解，而非字符识别。
速度：快速——无需图像处理
隐私：可以完全在浏览器中处理（无需服务器上传）

扫描PDF

纸质文档的图像，由扫描仪、手机摄像头或传真转PDF生成。您无法选择文本——它是一张图片。

准确性：因引擎和扫描质量而异

OCR引擎	打印文本准确性	成本
ABBYY FineReader	99.3–99.8%	从每月16美元起
Google Cloud Vision	~98%	每月1000页免费；之后每1000页1.50美元
AWS Textract	95–99%	每1000页约1.50美元（文本）；每1000页15美元（表格）
Tesseract（开源）	<95%	免费

一项对扫描财务报告的研究发现，Tesseract（最常见的开源OCR）产生的字符错误率为46%——这意味着近一半的字符是错误的。商业替代品效果显著更好，但需要付费。

底线： 尽可能始终使用原生数字PDF。从银行网站下载对账单而不是扫描纸质文件。如果必须扫描，请使用尽可能高的分辨率（300+ DPI），并确保页面平整且光照均匀。

AI驱动的PDF提取（2025–2026）

大型语言模型正在改变PDF提取的格局。AI模型可以上下文地“理解”文档结构，而不是依赖基于规则的解析。

AI能做什么，而规则不能

处理各种布局，无需预定义模板——AI从视觉上下文中推断表格结构
解释特定领域术语——理解在会计中“(200.00)”表示负200美元，或“Cr”表示贷方
处理多语言文档，无需特定语言规则
合并多行描述，通过理解续行属于前一笔交易

当前局限性

幻觉风险——AI可能生成看起来合理但原始文档中不存在的数据。务必与源文件核对输出。
令牌限制——非常大的PDF（数百页）可能超出模型的上下文窗口，需要分页处理
成本——AI提取的每页成本远高于基于规则的提取
延迟——处理时间比直接文本提取长

混合方法

最有效的现代工具使用混合策略：对干净的数字PDF进行快速的基于规则的提取（处理80%+的文档），并在需要时为复杂布局、扫描文档和边缘情况提供AI回退。这为您提供了确定性解析的速度和准确性，以及AI的灵活性。

获得更好结果的技巧（无论使用何种方法）

转换前

尽可能使用原生PDF。 从源系统下载对账单和报告，而不是扫描纸质文件。如果您的PDF查看器中可以高亮显示单个单词，那么该PDF就是原生的。

检查密码保护。 某些银行和机构会对PDF进行密码保护。密码通常是您账号的最后4位数字、您的出生日期或您的社会安全号码。转换前请移除密码保护——大多数方法在加密PDF上会静默失败。

检查页面顺序。 多页文档有时页面顺序会混乱，尤其是扫描的PDF。转换器会按顺序提取页面，因此顺序错误的页面会导致数据顺序错误。

转换后

务必验证输出。 没有哪个转换器对所有文档都100%准确。检查：

行数与原始文件匹配（计算PDF中的交易笔数与Excel中的行数）
期初和期末余额匹配（针对财务文件）
对3-5个单独值与源文件进行抽查
列标题是否正确识别
日期格式是否正确

这只需要60秒，就能发现可能耗费数小时或导致财务报告不正确的错误。

保存原始文件和转换后的文件。 将原始PDF与Excel导出文件一起保存。如果任何值受到质疑，您可以与源文件进行核对。对于财务文件，许多法规（税法、审计要求）要求保留原始记录。

常见问题解答

我可以转换受密码保护的PDF到Excel吗？

您需要先移除密码保护。如果您知道密码，请在Adobe Reader或任何PDF查看器中打开PDF，然后打印为新的无保护PDF，再进行转换。大多数银行对账单的密码是您账号的最后4位数字。如果您不知道密码，请联系文件的创建者。

为什么转换后我的数字在Excel中显示为文本？

PDF不区分数字和文本——它们都是页面上的字符。当Excel导入数据时，货币符号（$、EUR）、括号内的负数（如(200)）、千位分隔符或非标准小数点会导致Excel默认使用文本格式。解决方法是选择列 → 数据 → 分列 → 完成，或将单元格乘以1以强制转换为数字。

有没有办法自动转换PDF到Excel？

是的。Power Query连接可以自动刷新。Python库（Tabula-py、pdfplumber、Camelot）可以为定期文档实现完全自动化的流程。PDFSub支持批量上传以处理多个文件。对于企业级自动化，Adobe、AWS Textract和Google Document AI的API可以以编程方式处理PDF。

哪种方法结果最准确？

这完全取决于您的文档。对于包含简单带边框表格的干净原生PDF，Power Query通常效果很好且免费。对于财务文件（银行对账单、发票、报告），像PDFSub这样理解财务格式的专用工具能产生显著更好的结果。对于扫描文档，您需要OCR功能——Power Query和Python库完全无法处理图像。

我可以一次转换多个PDF吗？

一些在线工具支持批量转换。PDFSub允许同时上传多个文件进行顺序处理。Power Query可以通过一些设置从多个文件中导入。对于常规的批量处理，Python脚本提供了处理大量文件的最大灵活性。

Excel的免费版本支持PDF导入吗？

Power Query的PDF导入需要Excel 2019或Microsoft 365（仅限Windows）。免费的Excel网页版和Excel for Mac不包含PDF连接器。如果您需要免费选项且没有Excel 2019，可以使用PDFSub的基于浏览器的转换器或在线工具。

我可以将PDF表格转换为Google Sheets吗？

Google Sheets没有原生的PDF导入功能。解决方法是先使用其他工具将PDF转换为Excel或CSV，然后将文件上传到Google Sheets。或者，将PDF上传到Google Drive并用Google Docs打开——但此方法经常会弄乱表格结构，对于多列数据不可靠。

如何处理包含多种语言表格的PDF？

大多数转换器假定为英语格式（MM/DD/YYYY日期，逗号千位分隔符）。对于其他语言的文档，您需要一个支持国际格式的转换器。PDFSub支持130多种语言，并能自动检测日期格式（DD/MM/YYYY、YYYY-MM-DD）、数字格式（1.234,56 vs 1,234.56）和字符编码（UTF-8、GBK、Shift_JIS、ISO 8859）。

总结

将PDF转换为Excel并不总是那么简单，但为您的文档类型选择正确的方法会产生显著差异：

方法	成本	OCR	最适合
PDFSub	7天免费试用	是	财务文件、国际PDF、隐私敏感数据
Power Query	免费（需Excel 2019/365）	否	简单表格、Windows用户
Adobe Acrobat	每月20–30美元	是	原生PDF、表单导出
Google Docs	免费	否	仅限非常基础的表格
在线转换器	免费（有限）	Varies	非敏感、偶尔使用
Python库	免费（开源）	否	开发者、批量处理

核心原则是：根据您的文档类型和敏感级别选择方法。简单的数字PDF表格可以用免费工具很好地转换。财务文件、扫描PDF和国际文档则受益于专用提取。对于包含敏感数据的任何内容，优先选择在浏览器中处理文件而不是上传到第三方服务器的工具。

本指南涵盖2026年可用的所有方法，从免费内置工具到AI驱动的提取，并诚实评估哪些有效，哪些无效。

PDF to Excel conversion process showing a PDF document transforming into an Excel spreadsheet

PDF到Excel转换的根本难点

在深入研究各种方法之前，了解问题为何存在很有帮助。PDF和Excel电子表格在架构上是不兼容的——不仅仅是不同，而是设计目标截然相反。

PDF如何实际存储数据

BT / ET：开始和结束文本对象
Tf：设置字体和字号
Tm：使用六个数字的矩阵设置绝对位置
Tj / TJ：渲染文本字符串（TJ包括每个字形的字距调整）

上传您的PDF - 拖放任何PDF文件。PDFSub自动检测文档类型和结构。
自动提取 - 自动检测表格并将数据提取为结构化的行和列。对于数字PDF，这完全在您的浏览器中进行——文件永远不会离开您的设备。
预览检查 - 下载前检查提取的数据。在预览中可以看到列标题、数据类型和行对齐情况。
下载 - 导出为Excel（.xlsx）、CSV或其他格式。

打开Excel，转到数据 → 获取数据 → 从文件 → 从PDF
选择您的PDF文件
Power Query会显示一个导航器面板，其中列出了检测到的表格——每个表格单独列出，您也可以查看原始页面文本
选择您需要的表格，然后点击 转换数据 来清理列标题、数据类型和格式，然后再加载——或者点击加载直接将其导入您的电子表格

Power Query的优点

简单、结构良好的表格，具有清晰的边框或一致的间距，转换可靠
多页表格如果布局一致，通常能被正确检测和合并
重复导入可以设置为可刷新连接——如果您定期收到相同格式的报告，这很有用
无额外成本，仅限于您现有的Microsoft 365或Excel 2019许可证

Power Query的缺点

Mac不可用。 Excel for Mac完全没有PDF连接器。微软尚未宣布添加此功能的计划。Mac解决方法：在Microsoft Word中打开PDF（它会将PDF转换为可编辑文本），然后将表格复制到Excel中。
无OCR功能。 如果PDF是扫描图像且没有嵌入文本层，Power Query将一无所获——它需要可选中文本。
复杂布局会出错。 合并单元格、多级标题、嵌套表格和不规则的列结构会产生混乱的结果。带有合并描述单元格的“总计”行可能导致后续所有行错位。
页眉和页脚重复。 多页表格的页眉行在每页重复，会导致页眉文本与数据行混杂。您需要手动过滤掉这些。
货币和数字格式。 当存在货币符号、括号内的负数或非美国千位分隔符时，Power Query可能会将数字导入为文本字符串。导入后需要手动转换类型。

Mac用户的Power Query（解决方法）

在Microsoft Word中打开PDF（文件 → 打开 → 选择PDF）
Word将PDF转换为可编辑文档（效果不完美）
从Word中复制表格并粘贴到Excel中
使用“分列”和数据类型转换进行清理

方法3：Adobe Acrobat Pro

Adobe Acrobat Pro可以将PDF导出为Excel格式。作为PDF格式的创建者，Adobe的工具对PDF内部结构有深入的了解——但这并不总是能转化为干净的Excel输出。

定价

Acrobat Pro：每月19.99美元（年付）或每月29.99美元（月付）。总计：每年239.88–359.88美元。
Acrobat Export PDF（仅转换）：每月1.99美元（每年23.88美元）。将PDF转换为Word、Excel或RTF。
免费在线工具：可在adobe.com上找到，但每天转换次数有限。需要创建账户。
文件限制：云服务的文件大小限制为100 MB，页数限制为600页。

操作方法

在Acrobat Pro中打开您的PDF
转到文件 → 导出到 → 电子表格 → Microsoft Excel工作簿
选择保存位置
对于扫描的PDF，Acrobat会在导出前自动应用OCR

Adobe的优点

扫描文档的自动OCR——检测并处理基于图像的PDF
多语言OCR支持（英语、德语、西班牙语、法语、葡萄牙语等）
表单字段识别——结构化的PDF表单会导出字段名称和值

Adobe的缺点

合并的单元格会产生过多的列。 用户普遍反映，列和制表符会在Excel输出中产生许多空白列——这是Adobe支持论坛中一个广为人知的问题。
多行文本会拆分成多行。 一个包含换行描述的单元格会变成两到三行，破坏整个表格的对齐。
偶尔使用成本高昂。 每年240–360美元，如果您只需要偶尔转换PDF，这会显得过度。独立的Export PDF每年24美元更合理，但缺少完整的Acrobat工具集。
服务器端处理。 文件会上传到Adobe的云端进行转换，这对于敏感的财务文件可能是一个顾虑。

方法4：Google Sheets（免费，但有限制）

Google Sheets 没有原生的PDF导入功能。菜单中没有任何“导入PDF”的选项。但是，有一些解决方法。

Google Docs方法（免费）

将PDF上传到Google Drive
右键单击文件 → 打开方式 → Google Docs
Google会将PDF转换为可编辑文档
从Google文档中复制表格并粘贴到Google Sheets中
清理格式、列对齐和数据类型

何时有效： 简单的PDF，包含基本表格和少量格式。

何时失败： 复杂的表格、多列布局、扫描文档。转换经常会弄乱表格结构——单元格合并，列移位，行拆分。

库	许可证	OCR	表格检测	最适合
pdfplumber	MIT	否	手动+可配置	复杂表格，精细控制
Tabula-py	MIT	否	自动检测	快速提取带边框的表格
Camelot	MIT	否	Lattice + Stream模式	带边框的表格（Lattice模式表现优异）
PyMuPDF	AGPL	否	基本	快速文本提取（SaaS存在许可问题）

批量处理数百或数千个相似文档
为定期报告构建自动化流程
当您需要完全控制提取逻辑和后处理时
当文档格式已知且一致时
研究和数据新闻项目

何时不要使用Python

一次性转换（设置时间超过节省的时间）
非技术用户
扫描的PDF（这些库不包含OCR——您需要先进行单独的OCR步骤）
当交付速度比定制更重要时

常见的转换问题及解决方法

Common PDF to Excel conversion issues showing misaligned columns and merged data

每种转换方法在某些文档上都会产生不完美的结果。以下是最常见的问题及实际解决方法。

数字被导入为文本

如何检测： 查看单元格左上角是否有绿色三角形，或者尝试对一列求和——如果结果为0，则值为文本。

解决方法：

选择列 → 数据 → 分列 → 点击完成（这会强制Excel重新解析数据）
乘以1：在辅助列中使用=A1*1强制转换为数字
使用NUMBERVALUE：=NUMBERVALUE(A1, ".", ",")可处理欧洲格式
查找并替换以删除货币符号：将“$”替换为空，将“（”替换为“-”，将“)”替换为空

文档类型	最佳方法	原因
银行对账单	PDFSub或专用转换器	多行描述、余额校验、借贷列需要财务感知提取
发票	PDFSub或Adobe Acrobat	不规则布局、含税计算的行项目、货币格式
财务报告（年报、季报）	Power Query或pdfplumber	密集的多列表格，包含嵌套行项目；Power Query能很好地处理重复结构
简单数据表	Power Query（免费）	来自业务报告的清晰带边框表格转换可靠
扫描纸质文档	PDFSub或Adobe Acrobat (OCR)	必须具备OCR功能——Power Query和Python库完全无法处理图像
政府表格	Adobe Acrobat或PDFSub	固定位置字段，预印结构和填写数据的混合
定期批量报告	Python (Tabula/Camelot)	针对格式相同的文档进行定期处理的可编程流程
国际文档	PDFSub	支持130多种语言，非美国数字/日期格式，CJK字符编码

OCR与原生PDF：为何重要

转换准确性最重要的因素是您的PDF包含嵌入式文本还是扫描图像。

原生（数字）PDF

由软件数字生成——您的银行在线门户、会计软件导出、Word转PDF转换。在查看PDF时，您可以选择和复制文本。

准确性：字符提取准确性几乎为100%（无识别错误）。失败源于字体编码问题或布局误解，而非字符识别。
速度：快速——无需图像处理
隐私：可以完全在浏览器中处理（无需服务器上传）

扫描PDF

纸质文档的图像，由扫描仪、手机摄像头或传真转PDF生成。您无法选择文本——它是一张图片。

准确性：因引擎和扫描质量而异

OCR引擎	打印文本准确性	成本
ABBYY FineReader	99.3–99.8%	从每月16美元起
Google Cloud Vision	~98%	每月1000页免费；之后每1000页1.50美元
AWS Textract	95–99%	每1000页约1.50美元（文本）；每1000页15美元（表格）
Tesseract（开源）	<95%	免费

AI驱动的PDF提取（2025–2026）

大型语言模型正在改变PDF提取的格局。AI模型可以上下文地“理解”文档结构，而不是依赖基于规则的解析。

AI能做什么，而规则不能

处理各种布局，无需预定义模板——AI从视觉上下文中推断表格结构
解释特定领域术语——理解在会计中“(200.00)”表示负200美元，或“Cr”表示贷方
处理多语言文档，无需特定语言规则
合并多行描述，通过理解续行属于前一笔交易

当前局限性

幻觉风险——AI可能生成看起来合理但原始文档中不存在的数据。务必与源文件核对输出。
令牌限制——非常大的PDF（数百页）可能超出模型的上下文窗口，需要分页处理
成本——AI提取的每页成本远高于基于规则的提取
延迟——处理时间比直接文本提取长

行数与原始文件匹配（计算PDF中的交易笔数与Excel中的行数）
期初和期末余额匹配（针对财务文件）
对3-5个单独值与源文件进行抽查
列标题是否正确识别
日期格式是否正确

这只需要60秒，就能发现可能耗费数小时或导致财务报告不正确的错误。

方法	成本	OCR	最适合
PDFSub	7天免费试用	是	财务文件、国际PDF、隐私敏感数据
Power Query	免费（需Excel 2019/365）	否	简单表格、Windows用户
Adobe Acrobat	每月20–30美元	是	原生PDF、表单导出
Google Docs	免费	否	仅限非常基础的表格
在线转换器	免费（有限）	Varies	非敏感、偶尔使用
Python库	免费（开源）	否	开发者、批量处理

工具	免费套餐	文件限制	OCR
Smallpdf	每天2次任务	5 GB	是（付费）
iLovePDF	有限	100 MB	是（付费）
PDF2Go	有限	Varies	Basic
Zamzar	每天2个文件	50 MB	否

工具	免费套餐	文件限制	OCR
Smallpdf	每天2次任务	5 GB	是（付费）
iLovePDF	有限	100 MB	是（付费）
PDF2Go	有限	Varies	Basic
Zamzar	每天2个文件	50 MB	否