如何翻译 PDF 文档(保留布局)
您需要将 PDF 转换为其他语言,但复制粘贴到谷歌翻译会破坏格式。这里有三种真正有效的方法,从保留布局的人工智能工具到有取舍的免费替代方案。
您有一份您看不懂语言的 PDF。也许是德国供应商的合同、日本合作伙伴的银行对账单、葡萄牙语的研究论文,或是阿拉伯语的政府表格。您需要了解其内容——最好是无需花费 200 美元聘请专业翻译来处理一份您只需要审阅的文件。
于是您尝试了显而易见的方法:选择所有文本,复制,然后粘贴到谷歌翻译。
结果一团糟。列合并了。表格数据被打乱了。页眉页脚混入了正文。原始 PDF 中排列整齐的数字现在随机散落在文本墙中。使文档可读的格式——告诉您哪个数字属于哪一项的结构——消失了。
这不是谷歌翻译的问题。这是 PDF 的问题。解决这个问题需要理解为什么 PDF 和翻译工具不能自然地协同工作。

标准翻译工具为何无法处理 PDF
PDF 格式并非为文本提取而生
PDF 存储文本的方式与 Word 文档或 HTML 页面不同。它没有段落、句子或“此文本应在此列中”的概念。相反,PDF 在画布上以精确的 x,y 坐标存储单个字符。对您而言看起来格式整齐的表格,实际上是数百个独立的文本放置命令,它们之间没有任何结构关系。
当您从 PDF 复制文本时,您的 PDF 查看器会尝试通过对这些坐标进行排序来重建阅读顺序。有时它能正确处理。但常常不能——尤其是在以下情况:
- 多栏布局 - 左栏的文本会与右栏的文本交织在一起
- 表格 - 行数据被连接成单行,完全丢失了列结构
- 页眉和页脚 - 流动页眉、页码和页脚会混入主要内容
- 脚注和侧边栏 - 定位元素会插入到提取文本的不可预测的点
- 从右到左的文本 - 阿拉伯语、希伯来语和波斯语文本可能会以反向字符顺序提取
翻译工具不理解 PDF 结构
即使您能从 PDF 中提取干净的文本,将其粘贴到标准翻译工具中也会产生第二个问题:您将丢失关于该文本在文档中位置的所有上下文信息。
一份合同可能包含页眉文本(“保密”)、表格文本(付款条款)、脚注文本(法律免责声明)以及边距文本(文档参考编号)。当所有这些文本被压平为单个文本流并一起翻译时,翻译输出将是一块连续的外国语言文本,没有任何关于什么是标题、什么是表格单元格或什么是脚注的指示。
手动重建原始布局——将每个翻译后的部分复制回正确的位置——非常繁琐,以至于通常比翻译本身花费的时间还要长。
特殊字符和编码问题
PDF 使用特定于字体的字符编码。有些存储的 Unicode 字符可以干净地提取。另一些则使用自定义编码,您看到的字形与预期的字符代码不匹配——即使 PDF 在屏幕上完美渲染,也会产生乱码、丢失变音符号或无法读取的字符串。这在旧 PDF、嵌入的自定义字体、复杂脚本(泰语、印地语、阿拉伯语)以及 OCR 不完美的扫描文档中尤为常见。

方法一:PDFSub PDF 翻译器(推荐)
PDFSub 的 PDF 翻译器正是为解决此问题而设计的。它不是提取文本、单独翻译然后尝试重新组装文档,而是通过一个步骤处理整个流程——理解文档结构并翻译内容,同时保留布局。
工作原理
步骤 1:上传您的 PDF。 将任何 PDF 文件拖放到翻译器中。付费计划没有文件大小限制,该工具同时处理数字创建的 PDF 和扫描文档。
步骤 2:选择目标语言。 从 130 多种支持的语言中选择。完整列表包括所有主要的全球语言和数十种地区性语言——从南非荷兰语到祖鲁语,并全面支持中文、日文、韩文、阿拉伯文、希伯来文、印地文、泰文等复杂脚本。
步骤 3:翻译。 AI 分析文档结构,识别文本区域、表格、页眉、页脚和格式元素,然后有上下文地翻译内容。这不是逐字替换——AI 理解句子结构、习语和领域特定术语。
步骤 4:下载。 获取翻译后的 PDF,并保留原始布局。表格保持为表格。页眉保持为页眉。多栏布局保持其结构。
为何比复制粘贴翻译效果更好
布局保留。 翻译器理解 PDF 的空间结构——哪些文本块是标题,哪些是表格单元格,哪些是脚注。翻译后的输出保持这些关系,因此您可以像浏览原始文档一样浏览翻译后的文档。
上下文 AI 翻译。 现代 AI 翻译模型不仅仅翻译单词——它们翻译意义。英文发票中的“net 30”短语在翻译版本中不会变成捕鱼的参考。金融术语、法律语言和技术词汇会根据适当的领域上下文进行翻译。
完整文档覆盖。 页眉、页脚、水印、表格单元格、表单标签、侧边栏文本——所有内容都会被翻译。标准的复制粘贴方法会遗漏这些位置的文本,因为它们位于主要内容流之外。
130 多种语言。 PDFSub 支持 130 多种语言,包括:
- 欧洲语言: 英语、西班牙语、法语、德语、意大利语、葡萄牙语、荷兰语、波兰语、瑞典语、挪威语、丹麦语、芬兰语、希腊语、捷克语、罗马尼亚语、匈牙利语等。
- 亚洲语言: 中文(简体和繁体)、日文、韩文、泰文、越南文、印尼文、马来文、菲律宾文、印地文、孟加拉文、泰米尔文、乌尔都文。
- 中东语言: 阿拉伯语、希伯来语、波斯语、土耳其语。
- 非洲语言: 斯瓦希里语、阿姆哈拉语、约鲁巴语、祖鲁语、南非荷兰语。
- 从右到左的脚本: 完全支持阿拉伯语、希伯来语、波斯语和乌尔都语的 RTL 支持——翻译后的文档保持正确的文本方向。
处理扫描的 PDF。 如果您的 PDF 是扫描图像而不是数字创建的文档,PDFSub 会使用 AI 视觉直接从图像中读取文本,进行翻译,并生成干净的翻译输出。无需单独的 OCR 步骤。
定价
PDFSub 提供 7 天免费试用 ,您可以在订阅前使用您的实际文档测试翻译器。翻译使用 AI 积分,包含在所有订阅计划中。这意味着您不仅能获得翻译功能,还能使用 PDFSub 的全部 84+ 项 PDF 工具——而不是按页收费。
方法二:谷歌翻译文档上传
谷歌翻译有一个内置的文档翻译功能,可以直接处理 PDF。它是免费的、快速的,并支持 100 多种语言。
如何使用
- 前往 translate.google.com
- 点击“文档”标签
- 上传您的 PDF(最大 10MB)
- 选择源语言和目标语言
- 点击“翻译”
- 下载翻译后的文档
有效之处
- 免费。 无需帐户,无需信用卡,文档数量没有限制(在合理的每日使用范围内)。
- 快速。 大多数文档在几秒钟内即可翻译。
- 良好的语言覆盖。 支持 100 多种语言,质量参差不齐。
- 适用于简单文档。 单栏、文本量大的 PDF,格式化很少的文档,翻译效果尚可。
无效之处
- 格式丢失。 这是最大的限制。表格、多栏布局、页眉、页脚以及大多数结构元素在翻译输出中被剥离或打乱。您收到的通常是几乎没有格式的纯文本翻译。
- 10MB 文件大小限制。 大型 PDF——尤其是包含图像、扫描页面或嵌入字体的 PDF——通常会超出此限制。
- 不支持扫描的 PDF。 如果您的 PDF 是没有文本层的扫描图像,谷歌翻译无法提取任何文本进行翻译。您将获得空白或近乎空白的结果。
- 质量因语言对而异。 谷歌翻译在常见的语言对(如英语-西班牙语或英语-法语)方面表现出色。对于不太常见的语言对(例如芬兰语-韩语、泰语-葡萄牙语)以及包含专业词汇的文档,质量会明显下降。
- 无领域上下文。 谷歌翻译不知道您的文档是法律合同、医疗报告还是财务报表。同一个模糊的术语无论上下文如何都会获得相同的翻译——这在专业文档中可能导致不正确或误导性的结果。
- 隐私顾虑。 您的文档会被上传到谷歌服务器进行处理。对于敏感文档——合同、财务报表、医疗记录——这可能违反保密要求或数据保护法规。
何时使用
当以下情况时,谷歌翻译文档上传是一个不错的选择:
- 您需要快速、大致了解一个简单的文档。
- 文档主要是文本,格式化很少。
- 您不需要保留原始布局。
- 内容不敏感或不保密。
- 语言对支持良好(主要的欧洲语言、中文、日文、韩文)。
方法三:复制文本、翻译、手动重新格式化
手动方法:从 PDF 中提取文本,分段翻译,然后在文字处理器中重建文档。
如何操作
- 在查看器(Adobe Acrobat、Preview、Chrome)中打开 PDF。
- 一次选择并复制文本片段。
- 将每个片段粘贴到翻译工具(谷歌翻译、DeepL、ChatGPT)中。
- 翻译并复制输出。
- 将翻译后的文本粘贴到 Word 文档或文本编辑器中。
- 手动重新创建原始格式——标题、表格、栏、字体。
何时适用
- 非常短的文档。 单页信函或简短备忘录——文本量不到一页且没有表格。
- 部分翻译。 您只需要翻译特定部分,而不是整个文档。
- 最大程度的控制。 您想单独审查和调整每个翻译的句子。
为何通常无效
- 时间。 一份包含表格的 10 页文档需要 2-4 小时才能手动提取、翻译和重新格式化。一份 50 页的技术手册可能需要数天。
- 准确性。 按片段复制文本会引入错误——遗漏文本、重复段落、顺序错误的片段。
- 表格破坏。 从 PDF 复制的表格几乎从未能干净地粘贴。您将花费大部分时间在 Word 或 Excel 中重建表格结构。
- 不一致性。 分段独立翻译意味着同一个术语在文档的不同部分可能被翻译得不同。处理整个文档的翻译工具会保持术语的一致性。
- 编码问题。 从具有自定义字体编码的 PDF 复制的文本可能粘贴为乱码,需要在翻译前进行额外的清理。
这种方法相当于手动重打扫描文档。技术上可行,但几乎从未是最佳选择。
翻译质量:2026 年的预期
在过去五年中,机器翻译取得了显著进步。从统计机器翻译 (SMT) 到神经机器翻译 (NMT) 再到基于大型语言模型 (LLM) 的翻译的转变,大大缩小了机器输出与人工输出之间的差距。
现代 AI 翻译与传统机器翻译有何不同
统计 MT (2016 年前): 使用统计模式逐句翻译。对于复杂句子,经常产生尴尬或无法理解的输出。
神经 MT (2016-2022): 在数百万个句子对上训练的编码器-解码器神经网络。流畅性有重大改进。谷歌翻译、DeepL 和微软翻译在此期间都转向了 NMT。
基于 LLM 的翻译 (2023 年至今): 大型语言模型能够理解完整的文档上下文进行翻译,理解整体主题、语气和术语。它们在处理歧义、习语和领域特定词汇方面比 NMT 好得多。
AI 翻译的优势所在
- 一般商务信函。 电子邮件、备忘录、提案、演示文稿——对于主要的语言对,质量接近专业水平。
- 技术文档。 产品手册、规格、用户指南——一致的词汇与 AI 模型配合良好。
- 新闻、新闻业和电子商务内容。 标准语言内容翻译清晰。
何时仍需要人工审阅
- 法律文件。 单个翻译错误的条款可能会改变法律义务。AI 有助于理解,但认证翻译应由合格的法律翻译人员完成。
- 医疗文件。 剂量、诊断或禁忌症的误译具有实际的安全隐患。
- 需要监管合规的财务文件。 官方文件通常需要认证翻译。
- 营销和创意内容。 口号和品牌信息需要本地化,而不仅仅是翻译。
- 罕见的语言对。 不太常见的组合(例如,冰岛语到越南语)的训练数据较少,质量较低。
实际准确性预期
对于主要的语言对(英语与西班牙语、法语、德语、中文、日文、韩文、葡萄牙语、意大利语、荷兰语之间),现代 AI 翻译在以下方面的输出:
- 一般内容准确率 90-95% ——意味着 90-95% 的句子翻译正确且表达自然。
- 技术内容准确率 85-90% ——专业术语偶尔会出错,但整体含义清晰。
- 法律/财务内容准确率 80-85% ——关键术语通常正确,但细微差别可能会丢失。
这些对于理解、审阅和内部沟通很有用。对于出版、法律或监管目的,建议进行专业审阅。
PDFSub 语言支持:130 多种语言
PDFSub 的翻译引擎支持 130 多种语言,涵盖所有主要的书写系统和文本方向:
- 从右到左 (RTL): 阿拉伯语、希伯来语、波斯语和乌尔都语,具有正确的文本方向处理和混合方向内容支持。
- CJK: 中文(简体和繁体)、日文和韩文——原生处理单词边界、多种书写系统和复杂字符集。
- 印度语系: 印地语、孟加拉语、泰米尔语、泰卢固语、卡纳达语、马拉雅拉姆语、古吉拉特语、马拉地语、旁遮普语等,具有复杂的连字和元音符号。
- 东南亚语言: 泰语(单词之间无空格)、越南语(大量变音符号)、印尼语、马来语、菲律宾语、缅甸语、高棉语和老挝语。
- 欧洲语言: 所有主要的和次要的欧洲语言——从西班牙语和德语到加泰罗尼亚语、巴斯克语、威尔士语、冰岛语和阿尔巴尼亚语。
常见的 PDF 翻译场景
国际合同与协议
一家美国公司收到一份来自台湾制造商的供应协议。这份 30 页的合同完全是繁体中文。在聘请认证翻译进行最终版本之前,法务团队需要理解其条款。
最佳方法: 使用 PDFSub 翻译整个文档,以获得布局完整的可读英文版本。用于内部审阅、团队讨论,并识别需要认证翻译人员密切关注的部分。这可以为法务团队在昂贵的人工翻译开始前提供背景信息,从而节省时间和金钱。
外国银行对账单和财务文件
一位会计师管理着有国际业务的客户。每月都会收到来自德意志银行(德语)、法国巴黎银行(法语)和瑞穗银行(日语)的银行对账单。会计师需要核对这些对账单并对交易进行分类。
最佳方法: 翻译对账单以理解交易描述和账户详情。更好的是,使用 PDFSub 的 银行对账单转换器 将交易数据直接提取到 Excel 或 CSV 中——它原生支持 130 多种语言的对账单。
学术论文和研究
一位研究生发现了一篇重要的葡萄牙语研究论文。这份 30 页的论文包括方法论、数据表格和参考文献。
最佳方法: 翻译整篇论文以获得可读版本,表格保持完整。对于论文中的直接引用,请由主题专家翻译特定段落。
政府表格和官方文件
一位移民在与移民律师预约之前,需要理解一份他不懂语言的政府表格。
最佳方法: 翻译表格以了解要求提供哪些信息以及正在做出哪些声明。实际表格应在专业协助下以所需语言填写。
产品手册和规格
一个工程团队收到一份来自韩国制造商的技术规格——40 页的公差表、材料规格和测试程序,全部为韩语。
最佳方法: 翻译整个文档以供工作参考。保留的布局使表格可读且规格内容保持一致。
获得最佳翻译结果的技巧
从干净、高质量的 PDF 开始
翻译质量始于文档质量。一个干净、数字创建的、带有嵌入字体的 PDF 比复印件的褪色扫描件能产生更出色的翻译效果。
- 数字创建的 PDF(由 Word、Excel 或类似软件生成)可以完美提取文本并以最高精度进行翻译。
- 高分辨率扫描件(300 DPI 或更高,对齐良好,原始文件干净)与 AI 视觉提取效果良好。
- 低分辨率或倾斜的扫描件 可能会产生 OCR 错误,在翻译过程中加剧。如果可能,请获取更清晰的原始文档副本。
手动审阅关键部分
即使有出色的 AI 翻译,关键部分也应进行人工审阅:
- 数字和日期。 验证货币金额、日期和数字引用是否翻译正确。日期格式差异(MM/DD/YYYY vs. DD.MM.YYYY)可能会引起混淆。
- 姓名和专有名词。 个人姓名、公司名称和地名应保留其原始形式或遵循既定的音译惯例。
- 法律和金融术语。 验证关键合同条款、财务类别和法律概念是否翻译准确。
- 否定和条件。 包含“不”、“除非”、“除了”或“尽管如此”的句子是最常见的翻译错误来源,会改变含义。
理解翻译和认证的区别
AI 翻译的文档对于理解、审阅、决策和内部沟通很有用。它们通常不可接受作为:
- 法庭程序的认证翻译
- 移民文件的官方翻译
- 需要宣誓翻译的监管文件
- 政府机构的公证翻译
出于这些目的,您需要一位认证的人工翻译——通常是 ATA(美国翻译协会)认证或在目标国家持有同等资质的人员。AI 翻译版本可以通过提供一份草稿供认证翻译人员修改,而不是从头开始,从而节省成本。
使用正确的语言变体
翻译到具有区域变体的语言时,请指定正确的变体:
- 葡萄牙语: 巴西葡萄牙语和欧洲葡萄牙语在词汇和语法上存在显著差异。
- 中文: 简体中文(中国大陆、新加坡) vs. 繁体中文(台湾、香港)。
- 西班牙语: 虽然基本可以互通,但拉丁美洲和欧洲西班牙语在词汇和正式程度方面有所不同。
- 法语: 加拿大法语和欧洲法语在某些术语上有所不同,尤其是在技术和商务语言方面。
常见问题解答
AI 翻译和认证翻译有什么区别?
AI 翻译使用机器学习模型自动翻译文本。它快速、经济实惠,足以用于理解内容、做出业务决策和内部沟通。认证翻译由合格的人工翻译完成,他们会对其准确性进行证明——通常附有签名证书。法院、政府机构和监管机构通常要求为官方程序提供认证翻译。
我可以只翻译 PDF 的一部分吗?
使用 PDFSub,翻译器会处理整个文档。如果您只需要翻译特定页面,可以使用 PDFSub 的 拆分 PDF 工具 先提取这些页面,然后翻译较小的文档。如果您处理的长文档中只有几页是外语,这也可以节省 AI 积分。
AI PDF 翻译的准确性如何?
对于主要的语言对(英语与西班牙语、法语、德语、中文、日文、韩文之间),一般内容的准确性通常为 90-95%。技术、法律和财务内容的准确性在 80-90% 之间,具体取决于词汇的专业性。自 2023 年以来,质量已显著提高,并且随着 AI 模型在更多样化和专业的文本上进行训练,质量将持续提高。
我可以翻译扫描的 PDF 吗?
是的。PDFSub 通过使用 AI 视觉直接从页面图像读取文本来处理扫描的 PDF。您无需先运行单独的 OCR 步骤。AI 读取扫描内容,进行翻译,并生成干净的翻译输出。质量取决于扫描分辨率——300 DPI 或更高效果最佳。
包含多种语言的 PDF 该怎么办?
PDFSub 可以处理包含多种语言文本的文档。例如,合同可能有英文标题和中文正文,或者技术手册可能包含德语文本和英文产品名称。AI 会识别并翻译外语内容,同时保留已是目标语言的文本。
我的文档在翻译过程中是安全的吗?
PDFSub 使用加密的服务器端 AI 进行翻译处理文档。您的文档会被处理然后删除——不会存储、共享或用于模型训练。对于有严格数据处理要求的组织来说,这比可能会保留上传文档的消费者翻译服务更具隐私性。
翻译需要多长时间?
大多数文档的翻译时间为 10-60 秒,具体取决于长度和复杂性。短文档(1-5 页)通常在 15 秒内完成。较长文档(20 页以上)可能需要长达一分钟。
PDFSub 提供免费试用吗?
是的。PDFSub 提供 7 天免费试用 ,包括访问 PDF 翻译器和所有 84+ 项工具。您可以在订阅前使用实际文档测试翻译,以验证质量是否满足您的需求。
底线
翻译 PDF 曾经意味着要在支付专业翻译数百美元或花费数小时将文本复制粘贴到谷歌翻译并手动重建布局之间做出选择。
现在,AI 驱动的 PDF 翻译改变了这一格局。像 PDFSub 的 PDF 翻译器这样的工具可以在几秒钟内为您提供可读的、保留布局的翻译——成本仅为手动翻译的一小部分。该技术并非适用于所有用例(认证法律翻译仍需要人类专家),但对于理解合同、核对外国银行对账单、审阅研究或阅读产品规格而言,它已经足够做出行动了。
如果您经常处理您不懂语言的文档,请使用您的实际文件 试用 PDFSub 的 PDF 翻译器。7 天免费试用期足以让您针对对您的工作流程至关重要的文档进行测试。