如何翻译 PDF 文档(保留排版布局)
您需要将 PDF 翻译成另一种语言,但直接复制粘贴到 Google 翻译会破坏格式。这里有三种行之有效的方法,从保留布局的 AI 驱动工具到有权衡的免费替代方案。
您有一份看不懂的 PDF 文档。它可能是来自德国供应商的合同、日本合作伙伴的银行对账单、葡萄牙语的研究论文,或者是阿拉伯语的政府表格。您需要理解其中的内容——理想情况下,不需要为了一份仅供审阅的文档而花费 200 美元聘请专业翻译人员。
于是您尝试了最显而易见的方法:选择所有文本,复制,然后粘贴到 Google 翻译中。
结果却是一团糟。栏目合并了,表格数据错乱了,页眉和页脚混入了正文。原本在 PDF 中整齐排列的数字,现在却在翻译后的文字墙中随机漂浮。让文档具有可读性的格式——即告诉您哪个数字属于哪个行项目的结构——消失了。
这不是 Google 翻译的问题,而是 PDF 本身的问题。解决这个问题需要了解为什么 PDF 和翻译工具无法自然协作。
为什么标准翻译工具处理 PDF 会失败
PDF 格式并非为文本提取而设计
PDF 存储文本的方式与 Word 文档或 HTML 页面不同。它没有段落、没有句子,也没有“这段文字属于这一栏”的概念。相反,PDF 存储的是定位在画布精确 x,y 坐标上的单个字符。您眼中整齐的表格,实际上是数百个独立的文本放置命令,它们之间没有结构关系。
当您从 PDF 复制文本时,您的 PDF 查看器会尝试通过排序这些坐标来重建阅读顺序。有时它能做对,但通常会出错,尤其是在以下情况:
- 多栏布局 —— 左栏的文本会与右栏的文本交织在一起
- 表格 —— 行数据被连接成单行,完全丢失了列结构
- 页眉和页脚 —— 运行页眉、页码和页脚会混入主要内容中
- 脚注和侧边栏 —— 定位元素会被插入到提取文本中不可预测的位置
- 从右至左文本 —— 阿拉伯语、希伯来语和波斯语文本提取出的字符顺序可能是反的
翻译工具不理解 PDF 结构
即使您从 PDF 中提取了干净的文本,将其粘贴到标准翻译工具中也会产生第二个问题:您丢失了该文本在文档中所属位置的所有上下文。
一份合同可能在页眉有文字(“机密”),在表格中有文字(付款条件),在脚注中有文字(法律免责声明),在页边距有文字(文档参考编号)。当这些内容全部被压平为单一文本流并一起翻译时,翻译输出将是一大块外文文本,没有任何迹象表明哪里是标题、哪里是表格单元格或哪里是脚注。
手动重建原始布局——将每个翻译好的部分复制回正确的位置——是非常乏味的,通常花费的时间比翻译本身还要长。
特殊字符和编码问题
PDF 使用特定于字体的字符编码。有些存储的是可以干净提取的实际 Unicode 字符;另一些则使用自定义编码,您看到的字形与预期的字符代码不匹配,从而产生乱码、缺失变音符号或无法阅读的字符串,尽管 PDF 在屏幕上渲染完美。这在旧版 PDF、嵌入式自定义字体、复杂脚本(泰语、印地语、阿拉伯语)以及 OCR 不完美的扫描文档中尤为常见。
方法 1:PDFSub PDF 翻译器(推荐)
PDFSub 的 PDF 翻译器 专为解决此问题而设计。它不是提取文本、单独翻译再尝试重新组装文档,而是在一个步骤中处理整个流程——理解文档结构并在保留布局的同时翻译内容。
工作原理
第 1 步:上传您的 PDF。 将任何 PDF 文件拖放到翻译器中。付费计划没有文件大小限制,该工具可以处理电子生成的 PDF 和扫描文档。
第 2 步:选择目标语言。 从 130 多种支持的语言中进行选择。完整列表包括世界上每种主要语言和数十种地区语言——从南非语到祖鲁语,并全面支持中文、日语、韩语、阿拉伯语、希伯来语、印地语、泰语等复杂脚本。
第 3 步:翻译。 AI 分析文档结构,识别文本区域、表格、页眉、页脚和格式元素,然后根据上下文翻译内容。这不是逐字替换——AI 理解句子结构、惯用表达和特定领域的术语。
第 4 步:下载。 获取保留了原始布局的翻译后 PDF。表格依然是表格,页眉依然是页眉,多栏布局保持其结构。
为什么它比复制粘贴翻译更好
布局保留。 翻译器理解 PDF 的空间结构——哪些文本块是标题,哪些是表格单元格,哪些是脚注。翻译输出维持这些关系,因此您可以像阅读原件一样浏览翻译后的文档。
上下文 AI 翻译。 现代 AI 翻译模型不仅仅翻译单词,它们还翻译含义。英文发票中的“net 30”在翻译版本中不会变成与“网”相关的词汇。财务术语、法律语言和技术词汇都会根据适当的领域上下文进行翻译。
全文档覆盖。 页眉、页脚、水印、表格单元格、表单标签、侧边栏文本——所有内容都会被翻译。标准的复制粘贴方法会漏掉这些位置的文本,因为它们不在主内容流之内。
130+ 种语言。 PDFSub 支持超过 130 种语言,包括:
- 欧洲语言: 英语、西班牙语、法语、德语、意大利语、葡萄牙语、荷兰语、波兰语、瑞典语、挪威语、丹麦语、芬兰语、希腊语、捷克语、罗马尼亚语、匈牙利语等
- 亚洲语言: 中文(简体和繁体)、日语、韩语、泰语、越南语、印度尼西亚语、马来语、菲律宾语、印地语、孟加拉语、泰米尔语、乌尔都语
- 中东语言: 阿拉伯语、希伯来语、波斯语、土耳其语
- 非洲语言: 斯瓦希里语、阿姆哈拉语、约鲁巴语、祖鲁语、南非语
- 从右至左脚本: 对阿拉伯语、希伯来语、波斯语和乌尔都语提供完整的 RTL 支持——翻译后的文档保持正确的文本方向
处理扫描版 PDF。 如果您的 PDF 是扫描图像而非电子生成的文档,PDFSub 会使用 AI 视觉直接从图像中读取文本、进行翻译并生成干净的翻译输出。无需单独的 OCR 步骤。
价格
PDFSub 提供 7 天免费试用,因此您可以在订阅前使用实际文档测试翻译器。翻译使用 AI 积分,这些积分包含在所有订阅计划中。这意味着您在获得翻译功能的同时,还可以访问 PDFSub 包含 77 多种 PDF 工具的完整套件,而不是按页单独收取翻译费。
方法 2:Google 翻译文档上传
Google 翻译具有内置的文档翻译功能,可以直接处理 PDF。它是免费的、快速的,并且支持 100 多种语言。
如何使用
- 访问 translate.google.com
- 点击“文档”选项卡
- 上传您的 PDF(最大 10MB)
- 选择源语言和目标语言
- 点击“翻译”
- 下载翻译后的文档
优点
- 免费。 无需账户,无需信用卡,对文档数量没有限制(在合理的每日使用范围内)
- 快速。 大多数文档在几秒钟内即可完成翻译
- 语言覆盖面广。 支持 100 多种语言,质量参差不齐
- 适用于简单文档。 单栏、纯文本较多且格式极简的 PDF 翻译效果尚可
局限性
- 格式丢失。 这是最大的限制。表格、多栏布局、页眉、页脚和大多数结构元素在翻译输出中会被剥离或打乱。您得到的通常是格式极简的纯文本翻译。
- 10MB 文件大小限制。 大型 PDF——尤其是带有图像、扫描页面或嵌入字体的 PDF——经常会超过此限制。
- 不支持扫描版 PDF。 如果您的 PDF 是没有文本层的扫描图像,Google 翻译无法提取任何文本进行翻译。您将得到空白或接近空白的结果。
- 质量因语言对而异。 Google 翻译对于英语-西班牙语或英语-法语等常见语言对表现出色。对于不太常见的语言对(如芬兰语-韩语、泰语-葡萄牙语)以及具有专业词汇的文档,质量会明显下降。
- 缺乏领域上下文。 Google 翻译不知道您的文档是法律合同、医疗报告还是财务报表。无论上下文如何,同一个歧义词都会得到相同的翻译——这在专业文档中可能会产生错误或误导性的结果。
- 隐私顾虑。 您的文档会被上传到 Google 的服务器进行处理。对于敏感文档——合同、财务报表、医疗记录——这可能违反保密要求或数据保护条例。
适用场景
在以下情况下,Google 翻译文档上传是一个不错的选择:
- 您需要快速、粗略地了解一份简单文档的内容
- 文档主要是文本,格式极简
- 您不需要保留原始布局
- 内容不敏感或不机密
- 语言对得到良好支持(主要的欧洲语言、中文、日语、韩语)
方法 3:复制文本、翻译、手动重新排版
手动方法:从 PDF 中提取文本,逐段翻译,然后在文字处理器中重建文档。
如何操作
- 在查看器(Adobe Acrobat、预览、Chrome)中打开 PDF
- 一次选择并复制一个文本段落
- 将每个段落粘贴到翻译工具(Google 翻译、DeepL、ChatGPT)中
- 翻译并复制输出结果
- 将翻译后的文本粘贴到 Word 文档或文本编辑器中
- 手动重建原始格式——标题、表格、分栏、字体
适用情况
- 非常短的文档。 单页信函或简短备忘录——文本少于一页且没有表格的内容。
- 部分翻译。 您只需要翻译特定的一个章节,而不是整个文档。
- 最大程度的控制。 您希望逐句审核并调整每一句翻译。
为什么这通常行不通
- 耗时。 一份带有表格的 10 页文档需要 2-4 小时来手动提取、翻译和重新排版。一份 50 页的技术手册可能需要数天时间。
- 准确性。 逐段复制文本会引入错误——遗漏文本、重复段落、章节顺序错误。
- 表格破坏。 从 PDF 复制的表格几乎永远无法干净地粘贴。您的大部分时间将花在 Word 或 Excel 中重建表格结构上。
- 不一致性。 独立翻译各个部分意味着同一个术语在文档的不同部分可能会有不同的翻译。处理完整文档的翻译工具可以保持术语的一致性。
- 编码问题。 从具有自定义字体编码的 PDF 中复制的文本可能会粘贴为乱码,在翻译前需要额外的清理工作。
这种方法相当于手动重新输入扫描文档。从技术上讲它是可行的,但几乎永远不是利用时间的最佳方式。
翻译质量:2026 年的预期
机器翻译在过去五年中有了显著提高。从统计机器翻译 (SMT) 到神经机器翻译 (NMT),再到基于大语言模型 (LLM) 的翻译,机器与人工输出之间的差距已显著缩小。
现代 AI 翻译与传统机器翻译的区别
统计机器翻译 (2016 年以前): 使用统计模式逐句翻译。对于复杂的句子,经常产生别扭或难以理解的输出。
神经机器翻译 (2016–2022): 在数百万个句子对上训练的编码器-解码器神经网络。流畅度大幅提升。Google 翻译、DeepL 和微软翻译在此期间都转向了 NMT。
基于 LLM 的翻译 (2023 至今): 大语言模型结合完整的文档上下文进行翻译,理解整体主题、语气和术语。它们处理歧义、惯用表达和领域特定词汇的能力显著优于 NMT。
AI 翻译擅长的领域
- 一般商业信函。 电子邮件、备忘录、提案、演示文稿——主要语言对的质量接近专业水平。
- 技术文档。 产品手册、规格书、用户指南——一致的词汇量非常适合 AI 模型。
- 新闻、新闻业和电子商务内容。 标准语言内容翻译非常干净。
仍需人工审核的领域
- 法律文档。 一个翻译错误的条款可能会改变法律义务。AI 对理解很有帮助,但认证翻译应由合格的法律翻译人员完成。
- 医疗文档。 剂量、诊断或禁忌症的误译具有现实的安全影响。
- 需要监管合规的财务文档。 官方申报通常需要经过认证的人工翻译。
- 营销和创意内容。 标语和品牌信息需要本地化,而不仅仅是翻译。
- 稀有语言对。 不太常见的组合(例如冰岛语到越南语)训练数据较少,质量较低。
实际准确率预期
对于主要语言对(英语与西班牙语、法语、德语、中文、日语、韩语、葡萄牙语、意大利语、荷兰语互译),现代 AI 翻译生成的输出:
- 通用内容准确率 90–95% —— 意味着 90–95% 的句子翻译正确且表达自然
- 技术内容准确率 85–90% —— 专业术语偶尔会出错,但整体意思清晰
- 法律/财务内容准确率 80–85% —— 关键术语通常正确,但细微差别可能会丢失
这些对于理解、审阅和内部沟通非常有用。对于出版、法律或监管用途,建议进行专业审核。
PDFSub 语言支持:130+ 种语言
PDFSub 的翻译引擎支持超过 130 种语言,涵盖了每种主要的书写系统和文本方向:
- 从右至左 (RTL): 阿拉伯语、希伯来语、波斯语和乌尔都语,具有正确的文本方向处理和混合方向内容支持
- 中日韩 (CJK): 中文(简体和繁体)、日语和韩语——原生处理分词、多种书写系统和复杂字符集
- 印度语系: 印地语、孟加拉语、泰米尔语、泰卢固语、卡纳达语、马拉雅拉姆语、古吉拉特语、马拉地语、旁遮普语等,具有复杂的连写字符和元音符号
- 东南亚语言: 泰语(词间无空格)、越南语(丰富的变音符号)、印度尼西亚语、马来语、菲律宾语、缅甸语、高棉语和老挝语
- 欧洲语言: 每种主要和次要的欧洲语言——从西班牙语和德语到加泰罗尼亚语、巴斯克语、威尔士语、冰岛语和阿尔巴尼亚语
常见的 PDF 翻译场景
国际合同与协议
一家美国公司收到来自台湾制造商的供应协议。这份 30 页的合同完全是繁体中文。法律团队需要在聘请认证翻译人员进行最终版本翻译之前了解条款内容。
最佳方法: 使用 PDFSub 翻译整个文档,以获得保留布局的可读英文版本。将其用于内部审阅、团队讨论,并识别需要认证翻译人员密切关注的章节。这通过在昂贵的人工翻译开始前为法律团队提供上下文,节省了时间和金钱。
外国银行对账单和财务文档
一名会计师管理具有国际业务的客户。每月会收到来自中国工商银行 (ICBC)、汇丰银行 (HSBC) 和招商银行 (CMB) 的银行对账单。会计师需要核对这些账单并对交易进行分类。
最佳方法: 翻译账单以理解交易描述和账户详情。更好的是,使用 PDFSub 的 银行对账单转换器 直接将交易数据提取到 Excel 或 CSV 中——它原生支持 130 多种语言的账单。
学术论文与研究
一名研究生发现了一篇重要的葡萄牙语研究论文。这篇 25 页的论文包括方法论、数据表和参考文献。
最佳方法: 翻译整篇论文以获得保留表格的可读版本。对于论文中的直接引用,请由领域专家翻译特定段落。
政府表格与官方文件
一名移民需要在预约移民律师之前理解一份陌生语言的政府表格。
最佳方法: 翻译表格以了解需要提供哪些信息以及正在做出哪些声明。实际表格应在专业协助下以要求的语言填写。
产品手册与规格书
一个工程团队收到了来自韩国制造商的技术规格书——40 页的公差表、材料规格和测试程序,全部是韩文。
最佳方法: 翻译整个文档作为工作参考。保留的布局使表格保持可读,并使规格说明处于上下文中。
获得最佳翻译效果的技巧
从清晰、高质量的 PDF 开始
翻译质量始于文档质量。一个带有嵌入字体的清晰、电子生成的 PDF 比复印件的模糊扫描件能产生好得多的翻译效果。
- 电子生成的 PDF(从 Word、Excel 或类似软件生成)能完美提取文本,并以最高准确度进行翻译。
- 高分辨率扫描件(300 DPI 或更高,对齐端正,原件整洁)配合 AI 视觉提取效果良好。
- 低分辨率或歪斜的扫描件 可能会产生 OCR 错误,这些错误在翻译过程中会复合。如果可能,请获取原文档更清晰的副本。
手动审核关键部分
即使有出色的 AI 翻译,关键部分也值得人工审核:
- 数字和日期。 核实金额、日期和数字引用是否翻译正确。日期格式差异(MM/DD/YYYY 与 DD.MM.YYYY)可能会引起混淆。
- 名称和专有名词。 人名、公司名和地名应保持原样或遵循既定的音译惯例。
- 法律和财务术语。 核实关键合同条款、财务类别和法律概念是否翻译准确。
- 否定词和条件句。 带有“不”、“除非”、“除……外”或“尽管”的句子是最容易产生改变原意的翻译错误的地方。
了解翻译与认证之间的区别
AI 翻译的文档对于理解、审阅、决策和内部沟通非常有用。它们通常 不 被接受为:
- 法庭程序的认证翻译
- 移民文件的官方翻译
- 需要宣誓翻译的监管申报
- 政府机构的公证翻译
为了这些目的,您需要一名认证的人工翻译人员。AI 翻译版本仍然可以节省资金,因为它为认证翻译人员提供了一个可以完善的草稿,而不是从头开始。
使用正确的语言变体
在翻译成具有地区变体的语言时,请指定正确的变体:
- 葡萄牙语: 巴西葡萄牙语与欧洲葡萄牙语在词汇和语法上有显著差异
- 中文: 简体中文(中国大陆、新加坡)与繁体中文(台湾、香港)
- 西班牙语: 虽然在很大程度上可以互通,但拉丁美洲和欧洲西班牙语在词汇和礼貌惯例上有所不同
- 法语: 加拿大法语与欧洲法语在某些术语上有所不同,尤其是技术和商业语言
常见问题解答
AI 翻译和认证翻译有什么区别?
AI 翻译使用机器学习模型自动翻译文本。它快速、实惠,足以用于理解内容、做出业务决策和内部沟通。认证翻译由合格的人工翻译人员完成,他们对翻译的准确性负责——通常附有签字证书。法院、政府机构和监管机构通常要求官方程序使用认证翻译。
我可以只翻译 PDF 的一部分吗?
使用 PDFSub,翻译器会处理整个文档。如果您只需要翻译特定页面,可以先使用 PDFSub 的 拆分 PDF 工具 提取这些页面,然后翻译较小的文档。如果您处理的长文档中只有几页是外语,这也可以节省 AI 积分。
AI PDF 翻译的准确度如何?
对于主要语言对(英语与西班牙语、法语、德语、中文、日语、韩语互译),通用内容的准确度通常为 90–95%。技术、法律和财务内容的准确度在 80–90% 之间,具体取决于词汇的专业程度。自 2023 年以来,质量有了显著提高,并且随着 AI 模型在更多样化和专业化的文本上进行训练,质量还在持续提升。
我可以翻译扫描版 PDF 吗?
可以。PDFSub 通过使用 AI 视觉直接从页面图像中读取文本来处理扫描版 PDF。您不需要先运行单独的 OCR 步骤。AI 读取扫描内容,进行翻译,并生成干净的翻译输出。质量取决于扫描分辨率——300 DPI 或更高效果最佳。
包含混合语言的 PDF 怎么办?
PDFSub 可以处理包含多种语言文本的文档。例如,一份合同可能有英文页眉和中文正文,或者一份技术手册可能有德文文本和英文产品名称。AI 会识别并翻译外语内容,同时保留已经是目标语言的文本。
我的文档在翻译过程中安全吗?
PDFSub 使用加密的服务器端 AI 处理文档进行翻译。您的文档在处理后会被删除——它不会被存储、共享或用于模型训练。对于有严格数据处理要求的组织,这比可能保留上传文档的消费级翻译服务更具私密性。
翻译需要多长时间?
大多数文档在 10–60 秒内完成翻译,具体取决于长度和复杂性。短文档(1–5 页)通常在 15 秒内完成。较长的文档(20 页以上)可能需要长达一分钟。
PDFSub 提供免费试用吗?
是的。PDFSub 提供 7 天免费试用,其中包括访问 PDF 翻译器和所有 77 多种工具。您可以在订阅前使用实际文档测试翻译,以验证质量是否满足您的需求。
总结
翻译 PDF 过去意味着要么支付专业翻译人员数百美元,要么花费数小时将文本复制粘贴到 Google 翻译并手动重建布局。
AI 驱动的 PDF 翻译改变了这一现状。像 PDFSub PDF 翻译器这样的工具可以在几秒钟内为您提供保留布局的可读翻译——而成本仅为手动翻译的一小部分。这项技术并非对每个用例都完美(认证法律翻译仍需要人类专家),但对于理解合同、核对外国银行对账单、审阅研究或阅读产品规格,它已经足够好,可以作为行动依据。
如果您经常处理看不懂的语言文档,请尝试 PDFSub 的 PDF 翻译器处理您的实际文件。7 天免费试用让您有足够的时间针对对您的工作流程至关重要的文档进行测试。