Cách chuyển đổi PDF sang Excel: 6 phương pháp hiệu quả (2026)
Mỗi năm có hơn 290 tỷ tệp PDF được tạo ra, nhưng định dạng này không có khái niệm về hàng, cột hay ô. Đây là cách đưa dữ liệu của bạn vào Excel - từ các công cụ miễn phí có sẵn đến trích xuất bằng AI.
Bạn có dữ liệu bị kẹt trong tệp PDF và cần đưa nó vào Excel. Có thể đó là báo cáo tài chính, hóa đơn từ nhà cung cấp, sao kê ngân hàng, hoặc bảng dữ liệu sản phẩm được xuất từ hệ thống cũ. Vấn đề là gì? PDF được thiết kế để hiển thị giống hệt nhau trên mọi màn hình - không phải để truyền dữ liệu có cấu trúc.
Ước tính hơn 290 tỷ tệp PDF được tạo ra mỗi năm, tăng trưởng khoảng 12% hàng năm. Adobe báo cáo có hơn 400 tỷ tệp PDF được mở và hơn 100 triệu người dùng Acrobat hàng ngày trên toàn thế giới. PDF đã trở thành định dạng mặc định để chia sẻ tài liệu tài chính, hợp đồng pháp lý, biểu mẫu chính phủ và báo cáo kinh doanh. Tuy nhiên, khoảng cách giữa "xem PDF" và "làm việc với dữ liệu của nó" khiến các công ty Hoa Kỳ tốn trung bình 28.500 đô la mỗi nhân viên mỗi năm cho việc nhập liệu thủ công theo một cuộc khảo sát của Parseur/QuestionPro năm 2025 - với người lao động dành hơn 9 giờ mỗi tuần để chuyển dữ liệu từ tài liệu sang bảng tính.
Hướng dẫn này bao gồm mọi phương pháp có sẵn vào năm 2026, từ các công cụ miễn phí có sẵn đến trích xuất bằng AI, với đánh giá trung thực về những gì hiệu quả và những gì không.

Tại sao chuyển đổi PDF sang Excel lại khó về cơ bản
Trước khi đi sâu vào các phương pháp, điều hữu ích là hiểu tại sao vấn đề này lại tồn tại. PDF và bảng tính Excel không tương thích về kiến trúc - không chỉ khác nhau, mà còn được thiết kế với các mục tiêu đối lập.
PDF thực sự lưu trữ dữ liệu như thế nào
Một trang PDF không "chứa" một bảng. Nó chứa một chuỗi nội dung - một chuỗi các lệnh nhị phân dựa trên PostScript đặt các ký tự riêng lẻ tại các tọa độ x, y chính xác trên một khung vẽ. Đặc tả PDF (ISO 32000-2:2020) định nghĩa việc hiển thị văn bản thông qua các lệnh như:
- BT / ET: Bắt đầu và kết thúc một đối tượng văn bản
- Tf: Đặt phông chữ và kích thước phông chữ
- Tm: Đặt vị trí tuyệt đối bằng ma trận sáu số
- Tj / TJ: Hiển thị một chuỗi văn bản (TJ bao gồm các điều chỉnh khoảng cách ký tự)
Những gì bạn thấy như một bảng - các hàng và cột gọn gàng với các số được căn chỉnh - thực chất là hàng trăm lệnh định vị văn bản riêng lẻ. Không có thẻ <table>, <tr>, hay <td>. Không có định danh hàng hoặc cột. Không có ranh giới ô. Trình chuyển đổi phải đảo ngược kỹ thuật cấu trúc bảng bằng cách phân tích mối quan hệ không gian giữa các ký tự - ký tự nào được căn chỉnh theo chiều dọc (cho thấy một cột), ký tự nào nằm trên cùng một dòng ngang (cho thấy một hàng), và khoảng trống ở đâu cho thấy ranh giới ô.
Đây là lý do tại sao chuyển đổi trực tiếp thường cho kết quả lộn xộn: các cột bị hợp nhất vì các ký tự bị lệch nhẹ, số trở thành chuỗi văn bản vì các ký hiệu tiền tệ là các phần tử được định vị riêng, và mô tả nhiều dòng bị chia thành các hàng ảo.
PDF được gắn thẻ (Tagged) so với không được gắn thẻ
Đặc tả PDF bao gồm "cây cấu trúc" tùy chọn cho khả năng truy cập - các PDF được gắn thẻ xác định tiêu đề, đoạn văn và ô bảng cho trình đọc màn hình. Nếu có, siêu dữ liệu này làm cho việc trích xuất dễ dàng hơn đáng kể. Thực tế: phần lớn các tệp PDF không được gắn thẻ. Hầu hết các trình tạo PDF bỏ qua bước gắn thẻ vì nó là tùy chọn và làm tăng độ phức tạp. Sao kê ngân hàng, hóa đơn và báo cáo tài chính hầu như không bao giờ được gắn thẻ.
Mã hóa phông chữ và vấn đề Unicode
PDF sử dụng hai đường dẫn tra cứu riêng biệt cho mỗi ký tự: một cho đường viền ký tự (hình dạng của nó) và một cho ánh xạ Unicode (ý nghĩa của nó). Khi bảng ToUnicode CMap bị thiếu, không đầy đủ, hoặc bị xáo trộn cố ý - như xảy ra với một số trình tạo PDF và công cụ bảo mật - việc trích xuất văn bản sẽ tạo ra kết quả bị lỗi ngay cả khi PDF hiển thị hoàn hảo trên màn hình. Bạn thấy các ký tự đúng về mặt hình ảnh, nhưng sao chép-dán hoặc trích xuất bằng chương trình lại cho ra kết quả vô nghĩa.
Phương pháp 1: PDFSub (Dựa trên trình duyệt, hoạt động với mọi loại PDF)
PDFSub xử lý đầy đủ các loại chuyển đổi PDF sang Excel - từ các bảng đơn giản một trang đến các tài liệu tài chính phức tạp nhiều trang với các ô được hợp nhất, mô tả nhiều dòng và định dạng số quốc tế.
Cách hoạt động
- Tải lên tệp PDF của bạn - Kéo và thả bất kỳ tệp PDF nào. PDFSub tự động phát hiện loại tài liệu và cấu trúc.
- Trích xuất tự động - Các bảng được phát hiện và dữ liệu được trích xuất thành các hàng và cột có cấu trúc. Đối với PDF kỹ thuật số, quá trình này diễn ra hoàn toàn trong trình duyệt của bạn - tệp không bao giờ rời khỏi thiết bị của bạn.
- Xem trước - Kiểm tra dữ liệu đã trích xuất trước khi tải xuống. Tiêu đề cột, loại dữ liệu và căn chỉnh hàng hiển thị trong bản xem trước.
- Tải xuống - Xuất dưới dạng Excel (.xlsx), CSV hoặc các định dạng khác.
Tại sao nó hiệu quả
Quyền riêng tư ưu tiên trình duyệt. Các tệp PDF kỹ thuật số được xử lý hoàn toàn trong trình duyệt của bạn bằng JavaScript phía máy khách. Không tải tệp lên, không lộ máy chủ, không lưu giữ dữ liệu. Điều này quan trọng đối với các tài liệu tài chính, hồ sơ thuế và bất kỳ thứ gì chứa thông tin nhạy cảm. Theo GDPR, việc xử lý phía máy khách tránh được việc phân loại là bộ xử lý dữ liệu hoàn toàn vì không có dữ liệu cá nhân nào được thu thập hoặc truyền đi.
Xử lý tài liệu đã quét. Nếu PDF là hình ảnh đã quét (không có văn bản có thể chọn), PDFSub sẽ sử dụng OCR phía máy chủ với tính năng dọn dẹp tự động. Cách tiếp cận hai cấp độ có nghĩa là cả PDF kỹ thuật số và đã quét đều cho kết quả hữu ích.
Chuyên môn về tài liệu tài chính. Công cụ trích xuất hiểu định dạng tài chính: số âm trong dấu ngoặc đơn, ký hiệu tiền tệ dưới dạng các phần tử riêng biệt, phân chia cột ghi nợ/ghi có, xác thực số dư lũy kế và định dạng số quốc tế (1.234,56 so với 1,234.56).
Hơn 130 ngôn ngữ. Hoạt động với PDF bằng bất kỳ ngôn ngữ nào - bao gồm CJK (Tiếng Trung, Tiếng Nhật, Tiếng Hàn) với mã hóa ký tự phức tạp, Tiếng Ả Rập và Tiếng Do Thái từ phải sang trái, và các ngôn ngữ Châu Âu có dấu phụ.
Phương pháp 2: Microsoft Excel Power Query (Chỉ dành cho Windows)
Excel 2019 và Microsoft 365 (Windows) bao gồm tính năng nhập PDF tích hợp thông qua Power Query. Đây là tùy chọn dễ tiếp cận nhất cho những người đã cài đặt Excel.

Cách thực hiện
- Mở Excel và đi tới Dữ liệu → Lấy Dữ liệu → Từ Tệp → Từ PDF
- Chọn tệp PDF của bạn
- Power Query hiển thị bảng điều hướng cho thấy các bảng đã phát hiện - mỗi bảng được liệt kê riêng biệt, và bạn cũng có thể xem văn bản thô của trang
- Chọn bảng bạn cần và nhấp vào Chuyển đổi Dữ liệu để dọn dẹp tiêu đề cột, loại dữ liệu và định dạng trước khi tải - hoặc nhấp vào Tải để đưa trực tiếp vào bảng tính của bạn
Power Query làm tốt điều gì
- Các bảng đơn giản, có cấu trúc tốt với đường viền rõ ràng hoặc khoảng cách nhất quán được chuyển đổi đáng tin cậy
- Các bảng nhiều trang thường được phát hiện và hợp nhất chính xác nếu bố cục nhất quán
- Các lần nhập lặp lại có thể được thiết lập dưới dạng kết nối có thể làm mới - hữu ích nếu bạn nhận được cùng một định dạng báo cáo thường xuyên
- Không tốn chi phí ngoài giấy phép Microsoft 365 hoặc Excel 2019 hiện có của bạn
Power Query gặp khó khăn với điều gì
- Không có trên Mac. Trình kết nối PDF hoàn toàn không có trong Excel cho Mac. Microsoft chưa công bố kế hoạch bổ sung. Giải pháp cho Mac: mở PDF trong Microsoft Word (sẽ chuyển đổi nó thành văn bản có thể chỉnh sửa), sau đó sao chép các bảng vào Excel.
- Không có khả năng OCR. Nếu PDF là hình ảnh đã quét không có lớp văn bản nhúng, Power Query sẽ không thấy gì - nó yêu cầu văn bản có thể chọn.
- Bố cục phức tạp bị lỗi. Các ô được hợp nhất, tiêu đề nhiều cấp, bảng lồng nhau và cấu trúc cột không đều cho kết quả lộn xộn. Một hàng "Tổng" với ô mô tả được hợp nhất có thể khiến tất cả các hàng tiếp theo bị lệch.
- Tiêu đề và chân trang lặp lại. Các bảng nhiều trang có hàng tiêu đề lặp lại trên mỗi trang sẽ dẫn đến văn bản tiêu đề xen kẽ với các hàng dữ liệu. Bạn cần lọc chúng ra thủ công.
- Định dạng tiền tệ và số. Power Query có thể nhập số dưới dạng chuỗi văn bản khi có ký hiệu tiền tệ, số âm trong dấu ngoặc đơn hoặc dấu phân cách hàng nghìn không phải của Hoa Kỳ. Yêu cầu chuyển đổi loại thủ công sau khi nhập.
Power Query cho người dùng Mac (Giải pháp thay thế)
Tính đến tháng 1 năm 2026, Microsoft đã đưa Power Query vào Excel cho web, có khả năng mở rộng phạm vi truy cập nhập PDF. Tuy nhiên, trình kết nối PDF cụ thể có thể vẫn chỉ dành cho Windows. Giải pháp thay thế đáng tin cậy nhất cho Mac vẫn là:
- Mở tệp PDF trong Microsoft Word (Tệp → Mở → chọn tệp PDF)
- Word chuyển đổi tệp PDF thành tài liệu có thể chỉnh sửa (không hoàn hảo)
- Sao chép bảng từ Word và dán vào Excel
- Sử dụng Văn bản thành Cột và chuyển đổi kiểu dữ liệu để dọn dẹp
Phương pháp 3: Adobe Acrobat Pro
Adobe Acrobat Pro có thể xuất PDF sang định dạng Excel. Là người tạo ra định dạng PDF, công cụ của Adobe có sự hiểu biết sâu sắc về nội bộ PDF - nhưng điều đó không phải lúc nào cũng chuyển thành kết quả Excel sạch sẽ.
Giá cả
- Acrobat Pro: 19,99 đô la/tháng (cam kết hàng năm) hoặc 29,99 đô la/tháng (hàng tháng). Tổng cộng: 239,88–359,88 đô la/năm.
- Acrobat Export PDF (chỉ chuyển đổi): 1,99 đô la/tháng (23,88 đô la/năm). Chuyển đổi PDF sang Word, Excel hoặc RTF.
- Công cụ trực tuyến miễn phí: Có sẵn tại adobe.com với số lần chuyển đổi giới hạn mỗi ngày. Yêu cầu tạo tài khoản.
- Giới hạn tệp: Kích thước tệp 100 MB, tối đa 600 trang cho dịch vụ đám mây.
Cách thực hiện
- Mở tệp PDF của bạn trong Acrobat Pro
- Đi tới Tệp → Xuất sang → Bảng tính → Microsoft Excel Workbook
- Chọn vị trí lưu của bạn
- Đối với các PDF đã quét, Acrobat tự động áp dụng OCR trước khi xuất
Adobe làm tốt điều gì
- OCR tự động cho tài liệu đã quét - phát hiện và xử lý PDF dựa trên hình ảnh
- Hỗ trợ nhiều ngôn ngữ cho OCR (Tiếng Anh, Tiếng Đức, Tiếng Tây Ban Nha, Tiếng Pháp, Tiếng Bồ Đào Nha và các ngôn ngữ khác)
- Nhận dạng trường biểu mẫu - các biểu mẫu PDF có cấu trúc được xuất với tên trường và giá trị
Adobe gặp khó khăn với điều gì
- Các ô được hợp nhất tạo ra quá nhiều cột. Người dùng thường báo cáo rằng các cột và tab tạo ra nhiều cột trống trong kết quả Excel - một vấn đề đã được ghi nhận rõ ràng trên các diễn đàn hỗ trợ của Adobe.
- Văn bản nhiều dòng bị chia thành nhiều hàng. Một ô chứa mô tả bị ngắt dòng duy nhất trở thành hai hoặc ba hàng riêng biệt, làm hỏng căn chỉnh cho toàn bộ bảng.
- Đắt đỏ cho việc sử dụng không thường xuyên. Với giá 240–360 đô la/năm, nó là quá mức cần thiết nếu bạn chỉ cần chuyển đổi PDF không thường xuyên. Export PDF độc lập với giá 24 đô la/năm hợp lý hơn nhưng thiếu bộ công cụ Acrobat đầy đủ.
- Xử lý phía máy chủ. Các tệp được tải lên đám mây của Adobe để chuyển đổi, điều này có thể gây lo ngại cho các tài liệu tài chính nhạy cảm.
Phương pháp 4: Google Sheets (Miễn phí, nhưng hạn chế)
Google Sheets không có tính năng nhập PDF gốc. Không có tùy chọn "Nhập PDF" nào trong menu. Tuy nhiên, có các giải pháp thay thế.
Phương pháp Google Docs (Miễn phí)
- Tải tệp PDF lên Google Drive
- Nhấp chuột phải vào tệp → Mở bằng → Google Docs
- Google chuyển đổi tệp PDF thành tài liệu có thể chỉnh sửa
- Sao chép các bảng từ Google Doc và dán vào Google Sheets
- Dọn dẹp định dạng, căn chỉnh cột và kiểu dữ liệu
Khi nào phương pháp này hoạt động: Các tệp PDF đơn giản với các bảng cơ bản và định dạng tối thiểu.
Khi nào phương pháp này thất bại: Các bảng phức tạp, bố cục nhiều cột, tài liệu đã quét. Việc chuyển đổi thường làm hỏng cấu trúc bảng - các ô hợp nhất, các cột bị dịch chuyển và các hàng bị chia tách.
Giải pháp thay thế: Chuyển đổi trước, sau đó tải lên
Cách tiếp cận đáng tin cậy hơn là chuyển đổi PDF sang Excel hoặc CSV bằng một công cụ khác (PDFSub, Adobe, v.v.), sau đó tải tệp kết quả lên Google Sheets. Quy trình hai bước này tránh được việc phân tích cú pháp PDF không nhất quán của Google.
Phương pháp 5: Trình chuyển đổi trực tuyến (Nhanh chóng nhưng đánh đổi quyền riêng tư)
Một số công cụ trực tuyến miễn phí chuyển đổi PDF sang Excel mà không cần cài đặt phần mềm.
Các tùy chọn phổ biến
| Công cụ | Gói miễn phí | Giới hạn tệp | OCR |
|---|---|---|---|
| Smallpdf | 2 tác vụ/ngày | 5 GB | Có (trả phí) |
| iLovePDF | Giới hạn | 100 MB | Có (trả phí) |
| PDF2Go | Giới hạn | Thay đổi | Cơ bản |
| Zamzar | 2 tệp/ngày | 50 MB | Không |
Vấn đề về quyền riêng tư
Khi sử dụng bất kỳ trình chuyển đổi trực tuyến nào, tệp của bạn sẽ được tải lên máy chủ của họ để xử lý. Nhà cung cấp dịch vụ có toàn quyền truy cập vào tài liệu trong quá trình xử lý - nội dung văn bản, siêu dữ liệu, hình ảnh nhúng, mọi thứ. Ngay cả khi nhà cung cấp tuyên bố xóa tệp sau khi xử lý, các bản chụp nhanh cấp hệ thống, nhật ký hoặc tích hợp của bên thứ ba có thể giữ lại các phần nhỏ.
Đối với sao kê ngân hàng, tài liệu thuế, hóa đơn, hồ sơ y tế, hoặc bất kỳ tài liệu nào chứa dữ liệu tài chính, thông tin nhận dạng cá nhân, hoặc dữ liệu kinh doanh bí mật, việc xử lý phía máy chủ tạo ra rủi ro có thể đo lường được. Theo GDPR, ngay khi một dịch vụ lưu trữ tài liệu của bạn trên máy chủ của họ, họ trở thành bộ xử lý dữ liệu với các nghĩa vụ tuân thủ. Tính đến năm 2025, hơn 2.245 khoản phạt GDPR đã được ghi nhận với tổng số tiền khoảng 5,65 tỷ EUR.
Khi nào trình chuyển đổi trực tuyến có ý nghĩa: Các tài liệu không nhạy cảm, nơi sự tiện lợi vượt trội hơn quyền riêng tư. Chuyển đổi nhanh chóng một lần các dữ liệu công khai. Các tài liệu mà bạn sẵn sàng gửi qua email cho người lạ.
Khi nào nên tránh chúng: Sao kê tài chính, tờ khai thuế, hồ sơ y tế, tài liệu pháp lý, bất kỳ thứ gì có số SSN hoặc số tài khoản, dữ liệu kinh doanh độc quyền.
Phương pháp 6: Thư viện Python (Dành cho nhà phát triển)
Nếu bạn là nhà phát triển hoặc nhà phân tích dữ liệu xử lý PDF theo chương trình, một số thư viện Python mã nguồn mở xử lý việc trích xuất bảng PDF.
So sánh thư viện
| Thư viện | Giấy phép | OCR | Phát hiện bảng | Tốt nhất cho |
|---|---|---|---|---|
| pdfplumber | MIT | Không | Thủ công + có thể cấu hình | Bảng phức tạp, kiểm soát chi tiết |
| Tabula-py | MIT | Không | Tự động phát hiện | Trích xuất nhanh các bảng có đường viền |
| Camelot | MIT | Không | Chế độ Lattice + Stream | Bảng có đường viền (chế độ Lattice xuất sắc) |
| PyMuPDF | AGPL | Không | Cơ bản | Trích xuất văn bản nhanh (vấn đề cấp phép cho SaaS) |
pdfplumber
Được xây dựng trên pdfminer.six. Cung cấp quyền truy cập vào mọi ký tự, dòng, hình chữ nhật và đường cong trên một trang với tọa độ chính xác. Trích xuất bảng sử dụng các chiến lược có thể cấu hình để phát hiện ranh giới ô. Cung cấp gỡ lỗi trực quan - bạn có thể vẽ các bảng đã phát hiện trên hình ảnh trang. Yêu cầu cấu hình nhiều hơn Tabula cho các trường hợp đơn giản nhưng xử lý các bảng phức tạp tốt hơn bất kỳ thư viện mã nguồn mở nào khác.
Tabula-py
Lớp bao bọc Python cho Tabula-java (yêu cầu cài đặt JVM). Tốt trong việc tự động phát hiện ranh giới bảng. Xuất trực tiếp sang DataFrame của pandas. Sự phụ thuộc vào JVM làm cho việc triển khai khó khăn hơn và nó gặp khó khăn với các tiêu đề nhiều cấp phức tạp.
Camelot
Hai chế độ: Chế độ Lattice sử dụng xử lý hình ảnh (biến đổi hình thái OpenCV) để phát hiện các đường kẻ và tìm ranh giới ô từ các giao điểm đường kẻ - có độ chính xác cao cho các bảng có đường viền. Chế độ Stream nhóm các ký tự theo khoảng trắng để suy ra các cột. Cung cấp các chỉ số độ chính xác/chất lượng cho mỗi bảng. Chế độ Lattice đạt điểm F1 vượt quá 0,85 trên các điểm chuẩn ICDAR nhưng thất bại trên các bảng có đường kẻ mỏng hoặc mờ.
Khi nào nên sử dụng Python
- Xử lý hàng loạt hàng trăm hoặc hàng nghìn tài liệu tương tự
- Xây dựng các quy trình tự động cho các báo cáo định kỳ
- Khi bạn cần kiểm soát hoàn toàn logic trích xuất và xử lý hậu kỳ
- Khi định dạng tài liệu đã biết và nhất quán
- Các dự án nghiên cứu và báo chí dữ liệu
Khi nào không nên sử dụng Python
- Chuyển đổi một lần (thời gian thiết lập vượt quá thời gian tiết kiệm được)
- Người dùng không chuyên về kỹ thuật
- PDF đã quét (các thư viện này không bao gồm OCR - bạn cần thực hiện bước OCR riêng trước)
- Khi tốc độ cung cấp quan trọng hơn tùy chỉnh
Các vấn đề chuyển đổi phổ biến và cách khắc phục

Mọi phương pháp chuyển đổi đều tạo ra kết quả không hoàn hảo trên một số tài liệu. Dưới đây là những lỗi phổ biến nhất và các cách khắc phục thực tế.
Số nhập dưới dạng văn bản
Vấn đề: Excel coi các số được trích xuất là chuỗi văn bản, điều này làm hỏng các phép tính SUM, AVERAGE và tất cả các phép tính khác. Điều này xảy ra vì PDF không phân biệt giữa số và văn bản - tất cả đều là các ký tự được định vị trên một trang. Ký hiệu tiền tệ, dấu âm trong ngoặc đơn, hoặc dấu phân cách hàng nghìn làm cho toàn bộ ô trở thành một chuỗi văn bản.
Cách phát hiện: Tìm một tam giác màu xanh lá cây ở góc trên cùng bên trái của ô, hoặc thử SUM trên một cột - nếu nó trả về 0, thì các giá trị đó là văn bản.
Cách khắc phục:
- Chọn cột → Dữ liệu → Văn bản thành Cột → nhấp vào Kết thúc (điều này buộc Excel phân tích lại dữ liệu)
- Nhân với 1: trong một cột phụ, sử dụng
=A1*1để buộc chuyển đổi số - Sử dụng NUMBERVALUE:
=NUMBERVALUE(A1, ".", ",")xử lý định dạng Châu Âu - Tìm và Thay thế để xóa ký hiệu tiền tệ: thay thế "$" bằng trống, thay thế "(" bằng "-", thay thế ")" bằng trống
Số âm trong dấu ngoặc đơn
Vấn đề: Quy ước kế toán hiển thị số âm dưới dạng (200,00) thay vì -200,00. Mọi trình chuyển đổi PDF đều xuất ra chuỗi ký tự "(200.00)" mà Excel coi là văn bản.
Cách khắc phục: Tìm và Thay thế trong hai bước: thay thế "(" bằng "-" và thay thế ")" bằng trống. Sau đó chuyển đổi cột thành định dạng số. Hoặc sử dụng: =IF(LEFT(A1,1)="(",-VALUE(SUBSTITUTE(SUBSTITUTE(A1,"(",""),")","")) ,VALUE(A1))
Các cột bị hợp nhất với nhau
Vấn đề: Dữ liệu từ nhiều cột nằm trong một ô duy nhất - "01/15/2026 Chuyển khoản 3.500,00 đô la" tất cả trong cột A.
Cách khắc phục: Dữ liệu → Văn bản thành Cột với dấu phân cách (khoảng trắng, dấu phẩy, tab hoặc độ rộng cố định). Đối với độ rộng cố định, việc chia cột của Power Query đáng tin cậy hơn vì bạn có thể điều chỉnh các điểm ngắt một cách trực quan.
Mô tả nhiều dòng bị chia thành các hàng bổ sung
Vấn đề: Một giao dịch duy nhất có mô tả hai dòng trở thành hai hàng trong Excel, với dòng thứ hai có các trường ngày, số tiền và số dư trống. Điều này làm hỏng căn chỉnh hàng cho toàn bộ bảng tính.
Cách khắc phục: Đây là vấn đề khó khắc phục thủ công nhất. Tìm các hàng mà cột ngày trống - đây có thể là các dòng tiếp nối. Nối chúng với hàng phía trên bằng công thức phụ trợ, sau đó xóa các hàng trống. Đối với sao kê ngân hàng cụ thể, một trình chuyển đổi chuyên dụng như trình chuyển đổi sao kê ngân hàng của PDFSub tự động xử lý mô tả nhiều dòng bằng cách phát hiện các mẫu tiếp nối.
Tiêu đề và chân trang bị trộn lẫn vào dữ liệu
Vấn đề: Các tệp PDF nhiều trang lặp lại các hàng tiêu đề, số trang, ngày tháng và tiêu đề tài liệu trên mỗi trang. Các trình chuyển đổi chung chung trích xuất chúng dưới dạng các hàng dữ liệu, xen kẽ với dữ liệu thực tế.
Cách khắc phục: Sau khi chuyển đổi, sắp xếp hoặc lọc theo cột ngày. Các hàng tiêu đề và chân trang thường không chứa ngày hợp lệ và sẽ được sắp xếp lên trên cùng hoặc xuống dưới cùng. Xóa chúng thủ công. Đối với các báo cáo định kỳ có cùng định dạng, hãy ghi lại macro để tự động hóa việc dọn dẹp.
Ngày không rõ ràng (MM/DD so với DD/MM)
Vấn đề: Ngày 03/04/2026 có thể là ngày 4 tháng 3 (định dạng Hoa Kỳ) hoặc ngày 3 tháng 4 (định dạng Châu Âu). Khi tất cả các ngày trong một tài liệu có giá trị ngày nhỏ hơn hoặc bằng 12, không có cách nào để xác định định dạng chính xác bằng thuật toán. Các trình chuyển đổi thường mặc định là MM/DD/YYYY nhưng điều này âm thầm tạo ra ngày sai cho các tài liệu không phải của Hoa Kỳ.
Cách khắc phục: Kiểm tra khu vực của tài liệu gốc. Nếu nó từ nguồn Châu Âu, Châu Á hoặc Mỹ Latinh, định dạng gần như chắc chắn là DD/MM/YYYY. Trong Excel, chọn cột ngày, nhấp chuột phải → Định dạng Ô → Số → Ngày, và chọn khu vực chính xác. Nếu ngày đã bị hiểu sai, bạn có thể cần hoán đổi ngày và tháng bằng cách sử dụng =DATE(YEAR(A1), DAY(A1), MONTH(A1)).
Thiếu dữ liệu
Vấn đề: Một số nội dung hoàn toàn không xuất hiện trong quá trình chuyển đổi - thường là hình mờ, dữ liệu trong hình ảnh, hoặc văn bản sử dụng phông chữ có ánh xạ Unicode bị thiếu.
Cách khắc phục: Mở tệp PDF gốc và thử chọn văn bản bị thiếu. Nếu bạn không thể chọn nó, đó là một hình ảnh - bạn cần khả năng OCR. Nếu bạn có thể chọn nó nhưng nó sao chép ra các ký tự bị lỗi, PDF có vấn đề về mã hóa phông chữ. Hãy thử một trình chuyển đổi khác - mỗi trình xử lý ánh xạ phông chữ khác nhau. PDFSub xử lý cả hai trường hợp: trích xuất phía máy khách cho văn bản nhúng và OCR phía máy chủ cho nội dung đã quét.
Phương pháp nào nên sử dụng cho loại tài liệu của bạn
Các tệp PDF khác nhau cần các phương pháp khác nhau. Dưới đây là ma trận quyết định:
| Loại tài liệu | Phương pháp tốt nhất | Tại sao |
|---|---|---|
| Sao kê ngân hàng | PDFSub hoặc trình chuyển đổi chuyên dụng | Mô tả nhiều dòng, xác thực số dư lũy kế, cột ghi nợ/ghi có cần trích xuất hiểu biết về tài chính |
| Hóa đơn | PDFSub hoặc Adobe Acrobat | Bố cục không đều, các dòng mặt hàng có tính toán thuế, định dạng tiền tệ |
| Báo cáo tài chính (10-K, hàng quý) | Power Query hoặc pdfplumber | Bảng nhiều cột dày đặc với các dòng mặt hàng lồng nhau; Power Query xử lý cấu trúc lặp lại tốt |
| Bảng dữ liệu đơn giản | Power Query (miễn phí) | Các bảng có đường viền sạch sẽ từ báo cáo kinh doanh chuyển đổi đáng tin cậy |
| Tài liệu giấy đã quét | PDFSub hoặc Adobe Acrobat (OCR) | Phải có khả năng OCR - Power Query và các thư viện Python không thể xử lý hình ảnh |
| Biểu mẫu chính phủ | Adobe Acrobat hoặc PDFSub | Các trường có vị trí cố định, kết hợp cấu trúc in sẵn và dữ liệu đã điền |
| Báo cáo hàng loạt định kỳ | Python (Tabula/Camelot) | Quy trình tự động hóa cho các tài liệu có định dạng giống hệt nhau được xử lý thường xuyên |
| Tài liệu quốc tế | PDFSub | Xử lý hơn 130 ngôn ngữ, định dạng số/ngày không phải của Hoa Kỳ, mã hóa ký tự CJK |
OCR so với PDF gốc: Tại sao lại quan trọng
Yếu tố quan trọng nhất quyết định độ chính xác của việc chuyển đổi là tệp PDF của bạn chứa văn bản nhúng hay là một hình ảnh đã quét.
PDF gốc (Kỹ thuật số)
Được tạo ra bằng phần mềm kỹ thuật số - cổng trực tuyến của ngân hàng bạn, xuất từ phần mềm kế toán, chuyển đổi từ Word sang PDF. Bạn có thể chọn và sao chép văn bản khi xem PDF.
- Độ chính xác: Hiệu quả 100% cho việc trích xuất ký tự (không có lỗi nhận dạng). Lỗi xảy ra do các vấn đề mã hóa phông chữ hoặc hiểu sai bố cục, không phải do nhận dạng ký tự.
- Tốc độ: Nhanh - không cần xử lý hình ảnh
- Quyền riêng tư: Có thể được xử lý hoàn toàn trong trình duyệt (không cần tải lên máy chủ)
PDF đã quét
Hình ảnh của các tài liệu giấy được tạo bởi máy quét, máy ảnh điện thoại hoặc fax sang PDF. Bạn không thể chọn văn bản - đó là một bức ảnh.
- Độ chính xác: Thay đổi đáng kể tùy thuộc vào công cụ và chất lượng quét
| Công cụ OCR | Độ chính xác văn bản đánh máy | Chi phí |
|---|---|---|
| ABBYY FineReader | 99,3–99,8% | Từ 16 đô la/tháng |
| Google Cloud Vision | ~98% | Miễn phí cho 1.000 trang/tháng; 1,50 đô la/1.000 trang sau đó |
| AWS Textract | 95–99% | Khoảng 1,50 đô la/1.000 trang (văn bản); 15 đô la/1.000 trang (bảng) |
| Tesseract (mã nguồn mở) | <95% | Miễn phí |
Một nghiên cứu về các báo cáo tài chính đã quét cho thấy Tesseract (OCR mã nguồn mở phổ biến nhất) tạo ra tỷ lệ lỗi ký tự là 46% - nghĩa là gần một nửa số ký tự bị sai. Các giải pháp thay thế thương mại tốt hơn đáng kể nhưng tốn kém.
Điểm mấu chốt: Luôn sử dụng PDF kỹ thuật số gốc khi có thể. Tải xuống sao kê từ trang web của ngân hàng thay vì quét giấy. Nếu bạn phải quét, hãy sử dụng độ phân giải cao nhất có thể (300+ DPI) và đảm bảo trang phẳng và được chiếu sáng đều.
Trích xuất PDF bằng AI (2025–2026)
Các Mô hình Ngôn ngữ Lớn đang thay đổi bối cảnh trích xuất PDF. Thay vì phân tích dựa trên quy tắc, các mô hình AI có thể "hiểu" cấu trúc tài liệu theo ngữ cảnh.
AI có thể làm gì mà các quy tắc không làm được
- Xử lý các bố cục khác nhau mà không cần mẫu định trước - AI suy luận cấu trúc bảng từ ngữ cảnh trực quan
- Diễn giải thuật ngữ chuyên ngành - hiểu rằng "(200,00)" có nghĩa là âm 200 đô la trong kế toán, hoặc "Cr" có nghĩa là ghi có
- Xử lý tài liệu đa ngôn ngữ mà không cần quy tắc dành riêng cho ngôn ngữ
- Hợp nhất các mô tả nhiều dòng bằng cách hiểu rằng một dòng tiếp nối thuộc về giao dịch trước đó
Hạn chế hiện tại
- Rủi ro ảo giác - AI có thể tạo ra dữ liệu trông có vẻ hợp lý nhưng không có trong tài liệu gốc. Luôn xác minh kết quả với nguồn.
- Giới hạn token - các tệp PDF rất lớn (hàng trăm trang) có thể vượt quá cửa sổ ngữ cảnh của mô hình, yêu cầu phân trang
- Chi phí - trích xuất bằng AI tốn kém hơn đáng kể trên mỗi trang so với trích xuất dựa trên quy tắc
- Độ trễ - xử lý mất nhiều thời gian hơn so với trích xuất văn bản trực tiếp
Cách tiếp cận kết hợp
Các công cụ hiện đại hiệu quả nhất sử dụng chiến lược kết hợp: trích xuất dựa trên quy tắc nhanh chóng cho các tệp PDF sạch (xử lý 80%+ tài liệu), với AI dự phòng cho các bố cục phức tạp, tài liệu đã quét và các trường hợp ngoại lệ. Điều này mang lại cho bạn tốc độ và độ chính xác của phân tích xác định với sự linh hoạt của AI khi cần thiết.
Mẹo để có kết quả tốt hơn (Bất kể phương pháp nào)
Trước khi chuyển đổi
Sử dụng PDF gốc khi có thể. Tải xuống sao kê và báo cáo từ hệ thống nguồn thay vì quét giấy. Bạn có thể biết một tệp PDF là gốc nếu bạn có thể tô sáng từng từ trong trình xem PDF của mình.
Kiểm tra bảo vệ bằng mật khẩu. Một số ngân hàng và tổ chức bảo vệ PDF bằng mật khẩu. Mật khẩu thường là 4 chữ số cuối của số tài khoản của bạn, ngày sinh của bạn, hoặc SSN của bạn. Xóa bảo vệ trước khi chuyển đổi - hầu hết các phương pháp đều thất bại một cách im lặng đối với các tệp PDF được mã hóa.
Kiểm tra thứ tự trang. Các tài liệu nhiều trang đôi khi có các trang bị sai thứ tự, đặc biệt là các tệp PDF đã quét. Trình chuyển đổi sẽ trích xuất các trang theo trình tự, vì vậy các trang sai thứ tự sẽ tạo ra dữ liệu sai thứ tự.
Sau khi chuyển đổi
Luôn xác minh kết quả. Không có trình chuyển đổi nào chính xác 100% trên mọi tài liệu. Kiểm tra xem:
- Số lượng hàng khớp với bản gốc (đếm các giao dịch trong PDF so với số hàng trong Excel)
- Số dư đầu kỳ và cuối kỳ khớp nhau (đối với tài liệu tài chính)
- Kiểm tra ngẫu nhiên 3–5 giá trị riêng lẻ so với nguồn
- Tiêu đề cột được xác định chính xác
- Ngày ở định dạng mong muốn
Việc này mất 60 giây và phát hiện ra các lỗi có thể tốn hàng giờ hoặc tạo ra các báo cáo tài chính không chính xác.
Lưu cả tệp gốc và tệp đã chuyển đổi. Giữ tệp PDF gốc bên cạnh tệp Excel đã xuất của bạn. Nếu bất kỳ giá trị nào bị nghi ngờ, bạn có thể xác minh với nguồn. Đối với các tài liệu tài chính, nhiều quy định (luật thuế, yêu cầu kiểm toán) yêu cầu lưu giữ hồ sơ gốc.
Câu hỏi thường gặp
Tôi có thể chuyển đổi PDF được bảo vệ bằng mật khẩu sang Excel không?
Bạn cần xóa bảo vệ bằng mật khẩu trước. Nếu bạn biết mật khẩu, hãy mở PDF trong Adobe Reader hoặc bất kỳ trình xem PDF nào, in ra một tệp PDF mới không có bảo vệ, sau đó chuyển đổi. Hầu hết mật khẩu sao kê ngân hàng là 4 chữ số cuối của số tài khoản của bạn. Nếu bạn không biết mật khẩu, hãy liên hệ với người đã tạo tài liệu.
Tại sao số của tôi hiển thị dưới dạng văn bản trong Excel sau khi chuyển đổi?
PDF không phân biệt giữa số và văn bản - tất cả đều là các ký tự được định vị trên một trang. Khi Excel nhập dữ liệu, các ký hiệu tiền tệ ($, EUR), số âm trong dấu ngoặc đơn như (200), dấu phân cách hàng nghìn, hoặc dấu thập phân không chuẩn khiến Excel mặc định định dạng văn bản. Khắc phục bằng cách chọn cột → Dữ liệu → Văn bản thành Cột → Kết thúc, hoặc nhân các ô với 1 để buộc chuyển đổi số.
Có cách nào để tự động hóa việc chuyển đổi PDF sang Excel không?
Có. Các kết nối Power Query có thể làm mới tự động. Các thư viện Python (Tabula-py, pdfplumber, Camelot) cho phép các quy trình hoàn toàn tự động cho các tài liệu định kỳ. PDFSub hỗ trợ tải lên hàng loạt để xử lý nhiều tệp. Đối với tự động hóa quy mô doanh nghiệp, API từ Adobe, AWS Textract và Google Document AI xử lý PDF theo chương trình.
Phương pháp nào cho kết quả chính xác nhất?
Nó hoàn toàn phụ thuộc vào tài liệu của bạn. Đối với các tệp PDF kỹ thuật số sạch sẽ với các bảng có đường viền đơn giản, Power Query thường hoạt động tốt và miễn phí. Đối với các tài liệu tài chính (sao kê ngân hàng, hóa đơn, báo cáo), các công cụ chuyên dụng như PDFSub hiểu định dạng tài chính cho kết quả tốt hơn đáng kể. Đối với các tài liệu đã quét, bạn cần khả năng OCR - Power Query và các thư viện Python hoàn toàn không thể xử lý hình ảnh.
Tôi có thể chuyển đổi nhiều tệp PDF cùng lúc không?
Một số công cụ trực tuyến hỗ trợ chuyển đổi hàng loạt. PDFSub cho phép tải lên nhiều tệp được xử lý tuần tự. Power Query có thể nhập từ nhiều tệp với một số thiết lập. Đối với xử lý hàng loạt thường xuyên, các tập lệnh Python cung cấp sự linh hoạt nhất cho khối lượng lớn.
Phiên bản Excel miễn phí có hỗ trợ nhập PDF không?
Nhập PDF bằng Power Query yêu cầu Excel 2019 hoặc Microsoft 365 (chỉ dành cho Windows). Phiên bản web miễn phí của Excel và Excel cho Mac không bao gồm trình kết nối PDF. Nếu bạn cần một tùy chọn miễn phí mà không có Excel 2019, hãy sử dụng trình chuyển đổi dựa trên trình duyệt của PDFSub hoặc một công cụ trực tuyến.
Tôi có thể chuyển đổi bảng PDF sang Google Sheets không?
Google Sheets không có tính năng nhập PDF gốc. Giải pháp thay thế là chuyển đổi PDF sang Excel hoặc CSV trước bằng một công cụ khác, sau đó tải tệp lên Google Sheets. Ngoài ra, tải tệp PDF lên Google Drive và mở bằng Google Docs - nhưng phương pháp này thường làm hỏng cấu trúc bảng và không đáng tin cậy đối với dữ liệu nhiều cột.
Làm thế nào để xử lý các tệp PDF có bảng bằng nhiều ngôn ngữ?
Hầu hết các trình chuyển đổi giả định định dạng tiếng Anh (ngày MM/DD/YYYY, dấu phẩy phân cách hàng nghìn). Đối với tài liệu bằng các ngôn ngữ khác, bạn cần một trình chuyển đổi hỗ trợ các định dạng quốc tế. PDFSub xử lý hơn 130 ngôn ngữ với khả năng tự động phát hiện định dạng ngày (DD/MM/YYYY, YYYY-MM-DD), định dạng số (1.234,56 so với 1,234.56) và mã hóa ký tự (UTF-8, GBK, Shift_JIS, ISO 8859).
Tóm tắt
Chuyển đổi PDF sang Excel không phải lúc nào cũng đơn giản, nhưng phương pháp phù hợp với loại tài liệu của bạn tạo ra sự khác biệt đáng kể:
| Phương pháp | Chi phí | OCR | Tốt nhất cho |
|---|---|---|---|
| PDFSub | Dùng thử miễn phí 7 ngày | Có | Tài liệu tài chính, PDF quốc tế, dữ liệu nhạy cảm về quyền riêng tư |
| Power Query | Miễn phí (với Excel 2019/365) | Không | Bảng đơn giản, người dùng Windows |
| Adobe Acrobat | 20–30 đô la/tháng | Có | PDF gốc, xuất biểu mẫu |
| Google Docs | Miễn phí | Không | Chỉ các bảng rất cơ bản |
| Trình chuyển đổi trực tuyến | Miễn phí (giới hạn) | Thay đổi | Không nhạy cảm, sử dụng không thường xuyên |
| Thư viện Python | Miễn phí (mã nguồn mở) | Không | Nhà phát triển, xử lý hàng loạt |
Nguyên tắc chính: Chọn phương pháp phù hợp với loại tài liệu và mức độ nhạy cảm của bạn. Các bảng đơn giản từ PDF kỹ thuật số có thể chuyển đổi tốt với các công cụ miễn phí. Tài liệu tài chính, PDF đã quét và tài liệu quốc tế hưởng lợi từ việc trích xuất chuyên dụng. Và đối với bất kỳ thứ gì chứa dữ liệu nhạy cảm, hãy ưu tiên các công cụ xử lý tệp trong trình duyệt của bạn thay vì tải lên máy chủ của bên thứ ba.