如何翻譯 PDF 文件(保留排版佈局)
您需要將 PDF 翻譯成另一種語言,但直接複製貼上到 Google 翻譯會破壞格式。這裡有三種真正有效的方法,從能保留排版的 AI 驅動工具到有權衡取捨的免費替代方案。
您有一份看不懂的語言寫成的 PDF。可能是來自德國供應商的合約、日本合作夥伴的銀行對帳單、葡萄牙語的研究論文,或是阿拉伯語的政府表單。您需要理解其中的內容——理想情況下,不需要為了僅供審閱的文件花費 200 美元聘請專業翻譯人員。
於是您嘗試了最顯而易見的方法:選取所有文字、複製,然後貼上到 Google 翻譯。
結果卻是一團糟。欄位合併了、表格數據被打亂、頁首和頁尾混入了正文。原本在 PDF 中整齊排列的數字,現在散落在翻譯後的一大堆文字中。讓文件易於閱讀的格式——告訴您哪個數字屬於哪個項目的結構——全部消失了。
這不是 Google 翻譯的問題,而是 PDF 的問題。要解決這個問題,需要了解為什麼 PDF 和翻譯工具天生就難以配合。
為什麼標準翻譯工具無法處理 PDF
PDF 格式並非為文字提取而設計
PDF 儲存文字的方式與 Word 文件或 HTML 頁面不同。它沒有段落、沒有句子,也沒有「這段文字屬於這一欄」的概念。相反,PDF 儲存的是定位在畫布上精確 x,y 座標的單個字元。您眼中整齊的表格,實際上是數百個獨立的文字放置指令,彼此之間沒有結構關係。
當您從 PDF 複製文字時,您的 PDF 檢視器會嘗試透過排序這些座標來重建閱讀順序。有時它能做對,但通常會出錯,特別是在以下情況:
- 多欄排版 — 左欄的文字會與右欄的文字交錯在一起
- 表格 — 列數據被串聯成單行,完全失去了欄位結構
- 頁首和頁尾 — 頁首、頁碼和頁尾會混入主要內容中
- 腳註和側欄 — 定位元素會被插入到提取文字中不可預測的位置
- 從右至左文字 — 阿拉伯語、希伯來語和波斯語文字提取後字元順序可能會反轉
翻譯工具不理解 PDF 結構
即使您從 PDF 中提取了乾淨的文字,將其貼上到標準翻譯工具也會產生第二個問題:您失去了該文字在文件中所屬位置的所有上下文。
一份合約可能在頁首有文字(「機密」)、在表格中有文字(付款條件)、在腳註中有文字(法律免責聲明),以及在邊欄有文字(文件參考編號)。當這些全部被壓平成單一文字流並一起翻譯時,翻譯出的結果是一塊連續的外語文字,完全沒有標示哪部分是標題、哪部分是表格單元格,或哪部分是腳註。
手動重建原始排版——將每個翻譯好的部分複製回正確的位置——是非常乏味的,通常花費的時間比翻譯本身還要長。
特殊字元與編碼問題
PDF 使用特定字型的字元編碼。有些儲存的是可以乾淨提取的實際 Unicode 字元;有些則使用自定義編碼,您看到的字形與預期的字元代碼不匹配,導致即使 PDF 在螢幕上顯示完美,提取出的文字卻是亂碼、缺少變音符號或無法閱讀。這在舊版 PDF、嵌入式自定義字型、複雜腳本(泰文、印地文、阿拉伯文)以及 OCR 不完美的掃描文件中尤為常見。
方法 1:PDFSub PDF 翻譯器(推薦)
PDFSub 的 PDF 翻譯器 專為解決此問題而設計。它不是提取文字後分開翻譯再嘗試重新組裝,而是在一個步驟中處理整個流程——理解文件結構並在保留排版的同時翻譯內容。
運作原理
第 1 步:上傳您的 PDF。 將任何 PDF 檔案拖放到翻譯器中。付費方案沒有檔案大小限制,且該工具可處理數位生成的 PDF 和掃描文件。
第 2 步:選擇目標語言。 從 130 多種支援的語言中選擇。完整清單包含世界主要語言及數十種地區語言——從南非荷蘭語到祖魯語,並全面支援繁體中文、簡體中文、日文、韓文、阿拉伯文、希伯來文、印地文、泰文等複雜腳本。
第 3 步:翻譯。 AI 會分析文件結構,識別文字區域、表格、頁首、頁尾和格式元素,然後根據上下文翻譯內容。這不是逐字替換——AI 理解句構、慣用語和專業術語。
第 4 步:下載。 獲取保留了原始排版的翻譯後 PDF。表格依然是表格,頁首依然是頁首,多欄排版也維持其結構。
為什麼它比複製貼上翻譯更好?
排版保留。 翻譯器理解 PDF 的空間結構——哪些文字塊是標題、哪些是表格單元格、哪些是腳註。翻譯後的輸出維持這些關係,因此您可以像閱讀原件一樣閱讀翻譯後的文件。
上下文 AI 翻譯。 現代 AI 翻譯模型不只是翻譯單字,而是翻譯意義。英文發票中的「net 30」在翻譯版本中不會變成與網子相關的詞。財務條款、法律語言和技術詞彙都會根據適當的領域背景進行翻譯。
全文件覆蓋。 頁首、頁尾、浮水印、表格單元格、表單標籤、側欄文字——所有內容都會被翻譯。標準的複製貼上方法會遺漏這些位置的文字,因為它們不在主要內容流中。
130+ 種語言。 PDFSub 支援超過 130 種語言,包括:
- 歐洲語言: 英語、西班牙語、法語、德語、義大利語、葡萄牙語、荷蘭語、波蘭語、瑞典語、挪威語、丹麥語、芬蘭語、希臘語、捷克語、羅馬尼亞語、匈牙利語等
- 亞洲語言: 中文(繁體與簡體)、日語、韓語、泰語、越南語、印尼語、馬來語、菲律賓語、印地語、孟加拉語、坦米爾語、烏爾都語
- 中東語言: 阿拉伯語、希伯來語、波斯語、土耳其語
- 非洲語言: 斯瓦希里語、阿姆哈拉語、約魯巴語、祖魯語、南非荷蘭語
- 從右至左腳本: 全面支援阿拉伯語、希伯來語、波斯語和烏爾都語的 RTL 格式——翻譯後的文件維持正確的文字方向
處理掃描版 PDF。 如果您的 PDF 是掃描影像而非數位生成的文件,PDFSub 會使用 AI 視覺直接從影像中讀取文字、進行翻譯並產生乾淨的翻譯輸出,無需額外的 OCR 步驟。
價格
PDFSub 提供 7 天免費試用,讓您在訂閱前先用實際文件測試翻譯器。翻譯功能使用 AI 額度,這些額度包含在所有訂閱方案中。這意味著您在獲得翻譯功能的同時,還能使用 PDFSub 全套 77 種以上的 PDF 工具,而不是按頁收費。
方法 2:Google 翻譯文件上傳
Google 翻譯具有內建的文件翻譯功能,可以直接處理 PDF。它是免費的、快速的,且支援 100 多種語言。
如何使用
- 前往 translate.google.com
- 點擊「文件」分頁
- 上傳您的 PDF(最大 10MB)
- 選擇來源語言和目標語言
- 點擊「翻譯」
- 下載翻譯後的文件
優點
- 免費。 無需帳號、無需信用卡,對文件數量沒有限制(在合理的每日使用範圍內)
- 快速。 大多數文件在幾秒鐘內即可完成翻譯
- 語言覆蓋面廣。 支援 100 多種語言,品質各異
- 適合簡單文件。 單欄、文字密集且格式極少的 PDF 翻譯效果尚可
缺點
- 格式遺失。 這是最大的限制。表格、多欄排版、頁首、頁尾和大多數結構元素在翻譯輸出中會被剝離或打亂。您得到的通常是格式極簡的純文字翻譯。
- 10MB 檔案大小限制。 大型 PDF——尤其是包含影像、掃描頁面或嵌入字型的檔案——經常會超過此限制。
- 不支援掃描版 PDF。 如果您的 PDF 是沒有文字層的掃描影像,Google 翻譯無法提取任何文字進行翻譯,您會得到空白或接近空白的結果。
- 品質因語言對而異。 Google 翻譯對於常見語言對(如英翻西或英翻法)表現優異。對於較不常見的語言對(如芬蘭語翻韓語、泰語翻葡萄牙語)以及具有專業詞彙的文件,品質會明顯下降。
- 缺乏領域背景。 Google 翻譯不知道您的文件是法律合約、醫療報告還是財務報表。同一個歧義詞無論上下文如何都會得到相同的翻譯,這在專業文件中可能會產生錯誤或誤導性的結果。
- 隱私疑慮。 您的文件會上傳到 Google 的伺服器進行處理。對於敏感文件——合約、財務報表、醫療記錄——這可能違反保密要求或數據保護法規。
適用時機
Google 翻譯文件上傳在以下情況是個不錯的選擇:
- 您只需要快速、粗略地了解一份簡單文件的內容
- 文件主要是文字,格式極少
- 您不需要保留原始排版
- 內容不具敏感性或機密性
- 語言對支援良好(主要歐洲語言、中文、日文、韓文)
方法 3:複製文字、翻譯、手動重新排版
手動方法:從 PDF 中提取文字,逐段翻譯,然後在文書處理軟體中重建文件。
操作步驟
- 在檢視器(Adobe Acrobat、Preview、Chrome)中開啟 PDF
- 每次選取並複製一段文字
- 將每個部分貼入翻譯工具(Google 翻譯、DeepL、ChatGPT)
- 翻譯並複製輸出內容
- 將翻譯後的文字貼入 Word 文件或文字編輯器
- 手動重建原始格式——標題、表格、欄位、字型
適用時機
- 極短的文件。 單頁信函或簡短備忘錄——文字少於一頁且沒有表格的內容。
- 部分翻譯。 您只需要翻譯特定章節,而不是整份文件。
- 最大控制權。 您希望逐句審閱並調整翻譯後的句子。
為什麼這通常行不通
- 時間成本。 一份帶有表格的 10 頁文件需要 2-4 小時來手動提取、翻譯和重新排版。一份 50 頁的技術手冊可能需要數天時間。
- 準確性。 逐段複製文字會引入錯誤——遺漏文字、重複段落、順序錯誤。
- 表格破壞。 從 PDF 複製的表格幾乎永遠無法乾淨地貼上。您的大部分時間將花在 Word 或 Excel 中重建表格結構。
- 不一致性。 獨立翻譯各個部分意味著同一個術語在文件的不同部分可能被翻譯成不同的詞。處理全文件的翻譯工具則能維持術語的一致性。
- 編碼問題。 從具有自定義字型編碼的 PDF 複製的文字可能會貼成亂碼,在翻譯前需要額外的清理工作。
這種方法相當於手動重新打出一份掃描文件。技術上可行,但幾乎永遠不是利用時間的最佳方式。
翻譯品質:2026 年的預期目標
機器翻譯在過去五年中有了顯著進步。從統計機器翻譯 (SMT) 到神經機器翻譯 (NMT),再到基於大型語言模型 (LLM) 的翻譯,縮小了機器與人工輸出之間的差距。
現代 AI 翻譯與傳統機器翻譯的區別
統計機器翻譯 (2016 年以前): 使用統計模式逐句翻譯。對於複雜句子,經常產生彆扭或難以理解的輸出。
神經機器翻譯 (2016–2022): 使用在數百萬個句子對上訓練的神經網絡。流暢度大幅提升。Google 翻譯、DeepL 和 Microsoft Translator 都在此期間轉向了 NMT。
基於 LLM 的翻譯 (2023 至今): 大型語言模型結合全文件上下文進行翻譯,理解整體主題、語氣和術語。它們處理歧義、慣用語和領域特定詞彙的能力顯著優於 NMT。
AI 翻譯擅長的領域
- 一般商務往來。 電子郵件、備忘錄、提案、簡報——主要語言對的品質接近專業水準。
- 技術文件。 產品手冊、規格書、用戶指南——一致的詞彙非常適合 AI 模型。
- 新聞、報導和電子商務內容。 標準語言內容翻譯效果極佳。
仍需人工審閱的領域
- 法律文件。 一個翻譯錯誤的條款就可能改變法律義務。AI 對於理解很有幫助,但正式翻譯應由合格的法律翻譯人員完成。
- 醫療文件。 劑量、診斷或禁忌症的誤譯具有真實的安全影響。
- 需要監管合規的財務文件。 官方申報通常需要認證的人工翻譯。
- 行銷與創意內容。 標語和品牌訊息需要的是「在地化」,而不僅僅是翻譯。
- 罕見語言對。 較不常見的組合(例如冰島語翻越南語)訓練數據較少,品質較低。
實際準確度預期
對於主要語言對(英語與西班牙語、法語、德語、中文、日語、韓語、葡萄牙語、義大利語、荷蘭語互譯),現代 AI 翻譯產生的輸出:
- 一般內容準確度達 90–95% — 意味著 90–95% 的句子翻譯正確且用語自然
- 技術內容準確度達 85–90% — 專業術語偶爾會出錯,但整體意義清晰
- 法律/財務內容準確度達 80–85% — 關鍵術語通常正確,但細微差別可能會遺失
這些對於理解、審閱和內部溝通非常有用。對於出版、法律或監管用途,建議進行專業審閱。
PDFSub 語言支援:130+ 種語言
PDFSub 的翻譯引擎支援超過 130 種語言,涵蓋所有主要的書寫系統和文字方向:
- 從右至左 (RTL): 阿拉伯語、希伯來語、波斯語和烏爾都語,具有正確的文字方向處理和混合方向內容支援
- CJK: 中文(繁體與簡體)、日語和韓語——原生處理分詞、多種書寫系統和複雜字元集
- 印地語系: 印地語、孟加拉語、坦米爾語、泰盧固語、坎那達語、馬拉雅拉姆語、古吉拉特語、馬拉地語、旁遮普語等,支援複雜的連體字和元音符號
- 東南亞語言: 泰語(單字間無空格)、越南語(大量變音符號)、印尼語、馬來語、菲律賓語、緬甸語、高棉語和寮語
- 歐洲語言: 每一種主要和次要的歐洲語言——從西班牙語和德語到加泰隆尼亞語、巴斯克語、威爾斯語、冰島語和阿爾巴尼亞語
常見 PDF 翻譯場景
國際合約與協議
一家美國公司收到來自台灣製造商的供應協議。這份 30 頁的合約完全是繁體中文。法律團隊在聘請認證翻譯人員進行最終版本翻譯前,需要先了解條款內容。
最佳做法: 使用 PDFSub 翻譯整份文件,獲得一份排版完整的英文版本。用於內部審閱、團隊討論,並識別需要認證翻譯人員密切關注的章節。這能在昂貴的人工翻譯開始前為法律團隊提供背景資訊,從而節省時間和金錢。
國外銀行對帳單與財務文件
一位會計師管理具有國際業務的客戶。每月會收到來自德意志銀行 (Deutsche Bank)、法國巴黎銀行 (BNP Paribas) 和瑞穗銀行 (Mizuho Bank) 的銀行對帳單。會計師需要核對這些對帳單並對交易進行分類。
最佳做法: 翻譯對帳單以理解交易描述和帳戶詳情。更好的做法是使用 PDFSub 的 銀行對帳單轉換器 直接將交易數據提取到 Excel 或 CSV 中——它原生支援 130 多種語言的對帳單。
學術論文與研究
一名研究生發現了一篇關鍵的葡萄牙語研究論文。這篇 25 頁的論文包含方法論、數據表和參考文獻。
最佳做法: 翻譯整篇論文以獲得排版完整的可讀版本。對於論文中的直接引用,請讓學科專家翻譯特定段落。
政府表單與官方文件
一位移民在預約移民律師之前,需要理解一份陌生語言的政府表單。
最佳做法: 翻譯表單以了解需要提供哪些資訊以及正在做出哪些聲明。實際表單應在專業協助下以要求的語言填寫。
產品手冊與規格書
一個工程團隊收到來自韓國製造商的技術規格——40 頁的公差表、材料規格和測試程序,全部是韓文。
最佳做法: 翻譯整份文件作為工作參考。保留的排版使表格易於閱讀,並讓規格內容保持在正確的上下文中。
獲得最佳翻譯結果的技巧
從乾淨、高品質的 PDF 開始
翻譯品質始於文件品質。一份帶有嵌入字型的乾淨、數位生成的 PDF,其翻譯效果遠好於影印件的模糊掃描檔。
- 數位生成的 PDF(從 Word、Excel 或類似軟體產生)能完美提取文字,翻譯準確度最高。
- 高解析度掃描檔(300 DPI 或更高、對齊端正、原件乾淨)在使用 AI 視覺提取時表現良好。
- 低解析度或歪斜的掃描檔 可能會產生 OCR 錯誤,並在翻譯過程中累積。如果可能,請獲取原件更清晰的副本。
手動審閱關鍵章節
即使有優秀的 AI 翻譯,關鍵章節仍值得人工審閱:
- 數字與日期。 核實金額、日期和數字參考是否翻譯正確。日期格式差異(MM/DD/YYYY 與 DD.MM.YYYY)可能會引起混淆。
- 名稱與專有名詞。 人名、公司名和地名應保持原樣或遵循既定的譯名慣例。
- 法律與財務術語。 核實關鍵合約條款、財務類別和法律概念是否翻譯準確。
- 否定詞與條件句。 包含「不」、「除非」、「除...外」或「儘管」的句子是最容易產生改變原意之翻譯錯誤的來源。
理解翻譯與認證的區別
AI 翻譯的文件適用於理解、審閱、決策和內部溝通。它們通常不被接受為:
- 法庭程序的認證翻譯
- 移民文件的官方翻譯
- 需要宣誓翻譯的監管申報
- 政府機構的公證翻譯
為了這些目的,您需要一位認證的人工翻譯人員。AI 翻譯版本仍能透過提供草稿供翻譯人員修改(而非從零開始)來節省費用。
使用正確的語言變體
在翻譯成具有地區變體的語言時,請指定正確的一種:
- 葡萄牙語: 巴西葡萄牙語與歐洲葡萄牙語在詞彙和語法上有顯著差異
- 中文: 簡體中文(中國大陸、新加坡)與繁體中文(台灣、香港)
- 西班牙語: 雖然大部分互通,但拉丁美洲和歐洲西班牙語在詞彙和禮貌慣例上有所不同
- 法語: 加拿大法語與歐洲法語在某些術語上有所不同,尤其是技術和商業語言
常見問題解答
AI 翻譯和認證翻譯有什麼區別?
AI 翻譯使用機器學習模型自動翻譯文字。它快速、實惠,足以用於理解內容、做出商業決策和內部溝通。認證翻譯由合格的人工翻譯人員完成,他們會證明翻譯的準確性——通常附有簽署的證書。法院、政府機構和監管機構通常要求官方程序使用認證翻譯。
我可以只翻譯 PDF 的一部分嗎?
使用 PDFSub,翻譯器會處理整份文件。如果您只需要翻譯特定頁面,可以先使用 PDFSub 的 分割 PDF 工具 提取這些頁面,然後翻譯較小的文件。如果您處理的是一份長文件,但只有幾頁是外語,這也能節省 AI 額度。
AI PDF 翻譯的準確度如何?
對於主要語言對(英語與西班牙語、法語、德語、中文、日語、韓語互譯),一般內容的準確度通常為 90–95%。技術、法律和財務內容的準確度在 80–90% 之間,具體取決於詞彙的專業程度。自 2023 年以來,品質已顯著提升,且隨著 AI 模型在更多樣化和專業的文本上進行訓練,品質還在持續進步。
我可以翻譯掃描版 PDF 嗎?
可以。PDFSub 透過 AI 視覺直接從頁面影像中讀取文字來處理掃描版 PDF。您不需要先執行單獨的 OCR 步驟。AI 會讀取掃描內容、進行翻譯並產生乾淨的翻譯輸出。品質取決於掃描解析度——300 DPI 或更高效果最佳。
混合語言的 PDF 怎麼辦?
PDFSub 可以處理包含多種語言文字的文件。例如,一份合約可能有英文頁首和中文正文,或者一份技術手冊可能有德文文字和英文產品名稱。AI 會識別並翻譯外語內容,同時保留已經是目標語言的文字。
我的文件在翻譯過程中安全嗎?
PDFSub 使用加密的伺服器端 AI 處理文件進行翻譯。您的文件在處理後會被刪除——不會被儲存、共享或用於模型訓練。對於有嚴格數據處理要求的組織,這比可能保留上傳文件的消費級翻譯服務更具私密性。
翻譯需要多長時間?
大多數文件在 10–60 秒內完成翻譯,具體取決於長度和複雜度。短文件(1–5 頁)通常在 15 秒內完成。較長的文件(20 頁以上)可能需要長達一分鐘。
PDFSub 提供免費試用嗎?
是的。PDFSub 提供 7 天免費試用,包含 PDF 翻譯器和所有 77 種以上工具的使用權限。您可以在訂閱前使用實際文件測試翻譯,以驗證品質是否符合您的需求。
總結
翻譯 PDF 過去意味著要在花費數百美元聘請專業翻譯人員,或是花費數小時將文字複製貼上到 Google 翻譯並手動重建排版之間做出選擇。
AI 驅動的 PDF 翻譯改變了這一現狀。像 PDFSub PDF 翻譯器這樣的工具能在幾秒鐘內為您提供保留排版的可讀翻譯——費用僅為人工翻譯的一小部分。雖然這項技術並非適用於所有場景(認證法律翻譯仍需人工專家),但對於理解合約、核對國外銀行對帳單、審閱研究或閱讀產品規格,它已經足夠好,足以作為行動依據。
如果您經常處理看不懂的語言的文件,請嘗試 PDFSub 的 PDF 翻譯器。7 天免費試用讓您有足夠的時間針對工作流程中重要的文件進行測試。