PDF-аас Excel руу хүснэгт хэрхэн гаргах: 5 аргыг харьцуулсан нь
PDF нь хүснэгтүүдийг x,y координатууд дээр тархсан текст хэсгүүд болгон хадгалдаг — мөр, багана, нүд байхгүй. Үнэгүй вэб хөтөчөөс эхлээд Python скрипт хүртэл энэ өгөгдлийг яаж spreadsheet руу оруулах талаар энд тайлбарласан.
Та Excel-д оруулах шаардлагатай хүснэгттэй PDF файлтай байна. Энэ нь санхүүгийн тайлан, банкны хуулга, нэхэмжлэх эсвэл судалгааны өгүүлэл байж болно. Өгөгдөл нь дэлгэцэн дээр мөр, баганаар цэгцтэй байрласан байдаг. Гэхдээ үүнийг гаргаж авах гэж оролдоход бүх зүйл алдагдана.
Үүний шалтгаан нь PDF нь өгөгдөл хадгалах формат биш, харин харуулах формат юм. PDF техникийн тодорхойлолтод "хүснэгт", "мөр", "багана" гэсэн ойлголт байдаггүй. Структурлагдсан харагдаж буй хүснэгт нь бодит байдал дээр тодорхой x,y координатууд дээр байрлуулсан хэдэн арван текст хэсгүүд юм. Энэ бүтцийг буцааж spreadsheet руу гаргах нь урвуу инженерчлэлийн асуудал бөгөөд янз бүрийн хэрэгслүүд үүнийг янз бүрийн түвшинд амжилттай гүйцэтгэдэг.
Энэхүү гарын авлага нь PDF-аас хүснэгт гаргах 5 аргыг, тус аргыг хэзээ хамгийн сайн ашиглах, мөн асуудал үүсэхэд юу хийх талаар тайлбарласан.
Яагаад PDF-аас хүснэгт гаргах нь хэцүү байдаг вэ?
PDF форматад хүснэгт байдаггүй
PDF техникийн тодорхойлолт (ISO 32000-2:2020) нь агуулгын урсгал буюу хувь тус бүрийн тэмдэгтүүдийг тодорхой координатууд дээр байрлуулах операторуудын дарааллыг тодорхойлдог. "Огноо | Тодорхойлолт | Дүн" гэх мэт энгийн хүснэгтийн мөр нь дараах байдлаар хадгалагдаж болно:
BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Office Supplies) Tj 180 0 Td (125.00) Tj ET
<table>, <tr>, эсвэл <td> гэх мэт тагууд байхгүй. Мөрний дугаарлалт байхгүй. Баганы хил хязгаар байхгүй. Нүдний эргэн тойрон дахь харагдах шугамууд нь текстээс бүрэн салангид зураг зурах үйлдлүүд юм. Гаргах хэрэгсэл нь орон зайн харилцаанаас бүх бүтцийг таамаглах ёстой.
Гурав төрлийн хүснэгтийн хил хязгаар
Хүрээтэй (тор) хүснэгтүүд нь нүд бүрийн эргэн тойрон харагдахуйц шугамтай байдаг. Эдгээр нь хамгийн хялбар бөгөөд учир нь шугамууд нь нүдний хил хязгаарыг тодорхой зааж өгдөг. Ихэвчлэн албан ёсны санхүүгийн тайлан, засгийн газрын маягт, стандартчилсан тайлангуудад байдаг.
Хүрээгүй (урсгал) хүснэгтүүд нь ямар ч шугамгүй байдаг. Бүтэц нь зөвхөн хоосон зайны зохицуулалтаар тодорхойлогддог — мөр хооронд тогтмол x-координатыг хуваалцдаг текст элементүүд нь ойлгогдох багануудыг үүсгэдэг. Ихэвчлэн судалгааны өгүүлэл, нэхэмжлэх, бүтээгдэхүүний каталогт байдаг.
Хагас хүрээтэй хүснэгтүүд нь зөвхөн хэсэгчилсэн хил хязгаартай байдаг — ихэвчлэн хэсэг хоорондын хэвтээ шугамтай боловч босоо хуваалт байхгүй. Банкны хуулга, брокерийн тайлан, ашиглалтын төлбөрийн баримт бичигт маш түгээмэл байдаг. Эдгээр нь хамгийн хэцүү бөгөөд учир нь хэсэгчилсэн хил хязгаар нь торны горимд ажилладаг парсеруудыг төөрөгдүүлдэг бол хил хязгаар байхгүй нь урсгал горимд итгэлийг бууруулдаг.
Тэмдэглэгдсэн ба тэмдэглэгдээгүй PDF файлууд
Тэмдэглэгдсэн PDF файлууд нь толгой, хэсэг, хүснэгтийн нүднүүдийг тодорхойлдог бүтцийн мета өгөгдлийг агуулдаг. Тэмдэглэгдээгүй PDF файлуудад үүний аль нь ч байхгүй — гаргах хэрэгсэл нь зөвхөн түүхий координатуудыг авдаг. Ихэнх PDF файлууд нь тэмдэглэгдээгүй байдаг, үүнд бараг бүх банкны хуулга, нэхэмжлэх, санхүүгийн тайлангууд ордог.
1-р арга: PDFSub хүснэгт гаргах (Үнэгүй + AI нөөцлөх)
PDFSub-ийн Хүснэгт гаргах хэрэгсэл нь зардлыг багасгахын зэрэгцээ нарийвчлалыг дээд хэмжээнд байлгахын тулд гурван шатлалт аргыг ашигладаг:
1-р шат: Координат- суурьт илрүүлэлт (Хөтөч, Үнэгүй)
Эхлээд хэрэгсэл нь таны хөтөч дээр бүхэлд нь гаргахыг оролддог:
- PDF агуулгын урсгалыг парслаж, x,y координатуудтай бүх текст элементийг гаргаж авна
- y-координатын ойролцоогоор мөрүүдэд текст элементүүдийг бүлэглэнэ
- Мөр хоорондын x-координатын зохицуулалтын хэв маягийг анализ хийж баганы хил хязгаарыг илрүүлнэ
- Хамгийн багадаа 3 мөр, 2 багана, 70%+ итгэлцэл шаардлагатай
Хэрэв сайн хүснэгтүүд олдвол та шууд бүтцийн өгөгдлийг авна — серверт байршуулах шаардлагагүй, AI кредит зарцуулахгүй, таны файл таны төхөөрөмжийг хэзээ ч орхихгүй.
2-р шат: Сервер талын гаргалт (pdfplumber, Үнэгүй)
Хэрэв координатын илрүүлэлт ямар ч хүснэгт олдохгүй бол хэрэгсэл нь сервер дээр pdfplumber (MIT лиценз) ашиглана. Энэ нь шууд шугамууд (зурагдсан хил хязгаар) болон ойлгогдох шугамууд (үг зохицуулалтын хэв маяг) хоёуланг нь илрүүлж, огтлолцлыг олж, тэгш өнцөгтийг тодорхойлж, текстээ нүднүүдэд хуваарилна.
3-р шат: AI гаргалт (Кредит ашигладаг)
Скан хийсэн PDF, төвөгтэй загварууд эсвэл дүрмийн-суурьт аргууд парслаж чадахгүй хүснэгтүүдийн хувьд хэрэгсэл нь AI-д суурилсан харааны гаргалтанд шилжинэ. Хүснэгт нь төвөгтэй болохыг та мэддэг бол энэ шатанд шууд шилжихийн тулд "AI гаргалтыг албадах" сонголтыг сонгож болно.
Гаргах формат: Excel (.xlsx), CSV, JSON.
Хамгийн сайн нь: Програм суулгахгүйгээр хурдан гаргах. Дижитал PDF файлууд нь хамгийн их нууцлалыг хангахын тулд таны хөтөч дээр бүхэлд нь боловсруулагддаг.
2-р арга: Excel дахь Power Query (Зөвхөн Windows)
Excel 2019+ болон Microsoft 365 (Windows) дээр боломжтой: Өгөгдөл → Өгөгдөл авах → Файлаас → PDF-аас.
Хэрхэн ажилладаг
- Өгөгдөл → Өгөгдөл авах → Файлаас → PDF-аас товчийг дарна уу
- Таны PDF файлыг сонгоно уу
- Power Query нь хуудас тус бүрт илэрсэн хүснэгтүүдийг жагсаасан Навигатор самбарыг харуулна
- Та хүссэн хүснэгтүүдээ сонгоод, цэвэрлэхийн тулд Өгөгдлийг өөрчлөх дарж, дараа нь Ачаалах дарна уу
Давуу талууд
- Excel-д суурилсан — Microsoft 365 захиалагчдад нэмэлт төлбөргүй
- Power Query-ийн өөрчлөлтийн хөдөлгүүр нь дараах боловсруулалтыг сайн гүйцэтгэдэг (доор бөглөх, эргүүлэх, багануудыг нэгтгэх)
- Эх сурвалж PDF шинэчлэгдсэн тохиолдолд өгөгдлийг шинэчлэх боломжтой
- Нэг PDF файлаас хэд хэдэн хүснэгтийг холбох боломжтой
Хязгаарлалтууд
- Зөвхөн Windows — Excel for Mac, Excel Online, эсвэл гар утас дээр байхгүй
- Хүрээгүй хүснэгтүүдтэй эвлэрдэггүй — тодорхой хүрээтэй хүснэгтүүдтэй хамгийн сайн ажилладаг
- OCR байхгүй — скан хийсэн/зурагтай PDF файлуудаас гаргаж чадахгүй
- Олон хуудаст хүснэгтүүд нь асуудалтай — хуудас бүр нь ихэвчлэн тусад нь хүснэгт болж ачаалагддаг бөгөөд гараар нэгтгэх шаардлагатай болдог
- Олон мөрний агуулга — нүдний доторх мөрүүд нь ихэвчлэн хэд хэдэн мөр болж хуваагддаг бөгөөд цэвэрлэх шаардлагатай болдог
Хамгийн сайн нь: Microsoft 365 хэрэглэгч Windows хэрэглэгчдэд энгийн, хүрээтэй хүснэгтүүдийн хувьд.
3-р арга: Adobe Acrobat (Төлбөртэй)
Файл → PDF экспортол → Spreadsheet → Microsoft Excel Workbook
Үнэ (2026)
- Acrobat Standard: $12.99/сар (жилийн төлбөр)
- Acrobat Pro: $19.99/сар (жилийн төлбөр)
- Export PDF (тусдаа): бага түвшний зөвхөн хөрвүүлэх төлөвлөгөө
Давуу талууд
- Скан хийсэн баримт бичгүүдэд зориулсан суурьшмал OCR
- Энгийн хүрээтэй хүснэгтүүдийн хувьд ихэвчлэн форматлалтыг хадгалдаг
- Pro хувилбарт багц боловсруулалт хийх боломжтой
Хязгаарлалтууд
- Зөвхөн хүснэгт гаргах зорилгоор үнэтэй — жилд $156–$240
- Нэгтгэсэн нүдтэй, олон хуудаст хүснэгтүүд нь алдаатай үр дүнг өгдөг
- Файлууд нь боловсруулалтын тулд Adobe-ийн үүлэн системд байршуулж болно — мэдрэмтгий санхүүгийн өгөгдөлд асуудалтай
- Desktop суулгах шаардлагатай
Хамгийн сайн нь: Аль хэдийн Acrobat Pro-д төлбөр хийдэг, OCR шаардлагатай үе үе хүснэгт экспортлох шаардлагатай хэрэглэгчдэд.
4-р арга: Хуулах-буулгах (Гараар)
Хамгийн ойлгомжтой арга — мөн хүснэгтүүдийн хувьд хамгийн олон удаа бүтэлгүйтдэг арга.
Нийтлэг асуудлууд
- Бүх өгөгдөл нэг баганад — бүхэл бүтэн хүснэгт баганы завсарлагагүйгээр буулгагддаг
- Тоонууд текст болдог — валютын тэмдэг, хаалт, болон салгагч нь тоон форматлалтыг алдагдуулдаг
- Нүдний доторх олон мөрний агуулга нь хуурамч мөрүүдийг үүсгэдэг — хоёр мөрөнд хуваагдсан тодорхойлолт нь тусад нь мөр болдог
- Толгой мөр нь өгөгдлөөс салдаг — толгой мөр нь салангид болдог
- Балгуурууд зохицолдоогүй — тэмдэгт хоорондын зай нь табуляцид шилжихгүй тул өгөгдөл шилждэг
Хэсэгчилсэн шийдэл
Excel руу буулгаад, дараа нь Өгөгдөл → Текстийг багануудад хуваах ашиглан зай эсвэл тогтмол өргөнтэй салгагчаар хуваана уу. "Дараалсан салгагчийг нэг болгон үзэх" сонголтыг идэвхжүүлнэ үү. Энэ нь маш энгийн, сайн зайтай хүснэгтүүдэд ажилладаг боловч олон үгтэй нүдний агуулгатай ямар ч зүйлд бүтэлгүйтдэг.
Хамгийн сайн нь: Сүүлчийн арга хэмжээ болгон нэг жижиг, энгийн хүснэгтийг гаргах.
5-р арга: Python сангууд (Хөгжүүлэгчдэд зориулсан)
Гуравэн MIT лицензтэй сангууд нь PDF хүснэгт гаргалтыг програмчлалаар гүйцэтгэдэг:
Tabula-py
Tabula (Java)-ийн Python wrapper. Java runtime шаардлагатай.
- Хүрээтэй хүснэгтүүдийн хувьд торны горим (шугамууд болон огтлолцлыг олно)
- Хүрээгүй хүснэгтүүдийн хувьд урсгал горим (текст зохицуулалтыг ашигладаг)
- Скриптүүдэд багц боловсруулалт хийхэд тохиромжтой
- OCR дэмжлэг байхгүй
Camelot
Мөн тор болон урсгал горимуудыг санал болгодог.
- Тортой хүснэгтүүдийн хувьд Tabula-аас илүү сайн ажилладаг
- Урсгал горим нь нарийвчлалтай тохиргооны параметрүүдтэй
- Гаргалт бүрт нарийвчлалын тайланг өгдөг
pdfplumber
Координат-суурьт арга: бүх тэмдэгтийг түүний яг байршлаар гаргаж авч, дараа нь бүтцийг таамагладаг.
- Хамгийн өргөн хүрээний хүснэгтийн төрлүүдийг боловсруулдаг
- Хамгийн их хяналтыг өгдөг боловч илүү их тохиргоо шаарддаг
- Энэ бол PDFSub сервер талд ашигладаг сан юм
Хамгийн сайн нь: Давтагддаг хүснэгт гаргах ажлын урсгалыг автоматжуулж, ижил төстэй баримт бичгүүдийн том багцуудыг боловсруулдаг хөгжүүлэгчдэд.
Нийтлэг асуудлууд ба тэдгээрийг шийдэх арга
Нэгтгэсэн нүднүүд
Нүд нь хэд хэдэн мөр эсвэл баганыг хамардаг үед ихэнх хэрэгслүүд агуулгыг зүүн дээд нүдэнд байрлуулж, бусдыг нь хоосон орхидог эсвэл дараах бүх багануудыг зохицолдоогүй болгодог. Бүх нийтийн шийдэл байхгүй — CSV формат нь нэгтгэх ойлголтгүй тул нэгтгэх мэдээлэл нь үргэлж алдагддаг.
Шийдэл: Хүснэгтийг гаргаж аваад, дараа нь Excel дээр гараар нэгтгэх артефактуудыг засаарай. Ижил нэгтгэх хэв маягтай давтагддаг хүснэгтүүдийн хувьд дараах боловсруулалтын скриптийг авч үзнэ үү.
Нүдний доторх олон мөрний агуулга
Нүдний дотор хуваагдсан урт тодорхойлолтууд нь гаргалтанд хэд хэдэн мөр болж, бусад бүх өгөгдлийг зохицолдоогүй болгодог. Энэ бол санхүүгийн баримт бичгүүдийн хамгийн түгээмэл гаргах алдаа юм.
Шийдэл: Гаргасны дараа огноо, дүнгүүд нь дутуу байгаа мөрүүдийг хайна уу — эдгээр нь дээрх мөртэй холбогдсон үргэлжлэл байх магадлалтай. Excel дээр тэдгээрийг гараар нэгтгэх эсвэл туслах томъёог ашиглана уу.
Олон хуудаст хүснэгтүүд
Хэрэгслүүд нь хүснэгт хаана үргэлжилж байгааг, давтагдсан толгой мөрүүдийг арилгах эсэхийг, хуудасны доод хэсгийг хэрхэн шүүж байхыг тодорхойлох ёстой. Олон хэрэгслүүд хуудас бүрийг тусад нь авч үздэг.
Шийдэл: Хэрэв таны хэрэгсэл хуудас тус бүрээр үр дүнг өгдөг бол хуудсуудыг нэгтгэж, давтагдсан толгой мөрүүдийг арилгана уу. N-р хуудасны сүүлчийн мөр нь N+1-р хуудасны эхний мөртэй зөв холбогдсон эсэхийг шалгана уу.
Валютын форматлах асуудлууд
Хаалттай сөрөг тоонууд ((1,234.56)) нь тоо биш харин текст болж буулгадаг. Валютын тэмдэг болон мянгатын салгагч нь мөн тоон форматлалтыг алдагдуулдаг.
Шидэл: Гаргасны дараа дүнгүүдийн баганыг сонгоод, $, (, ) тэмдэгтүүдийг устгахын тулд Хайх ба Орлуулах ашиглана уу. Дараа нь баганыг Тоо хэлбэрээр форматлана уу. Хаалттай сөрөг тоонуудын хувьд (-ийг - болгон орлуулж, )-ийг устгаад, дараа нь Тоо хэлбэрт шилжүүлнэ үү.
Огнооны тодорхой бус байдал
01/02/2026 — энэ нь 1-р сарын 2 эсвэл 2-р сарын 1 уу? Гаргах хэрэгсэл нь орон нутгийн тохиргооноос хамаарч Excel үүнийг дахин тайлбарлаж болох боловч хэлхээг хэвээр хадгалдаг.
Шидэл: Эх сурвалж PDF-ээс огнооны форматын талаархи зөвлөмжийг харна уу (12-оос их өдрийн утгатай огноог хайна уу). Ачаалахаас өмнө Excel-ийн огнооны форматыг эх сурвалжтай тохирч тохируулна уу.
Нарийвчлалын харьцуулалт
| Арга | Энгийн хүрээтэй | Хүрээгүй | Хагас хүрээтэй | Скан хийсэн PDF |
|---|---|---|---|---|
| PDFSub (координат + AI) | 90–99% | 75–95% | 70–95% | 85–95% (AI) |
| Power Query | 85–95% | 40–60% | 50–70% | Дэмжихгүй |
| Adobe Acrobat | 90–95% | 70–80% | 70–85% | 80–90% |
| Tabula | ~68% | 55–70% | 50–65% | Дэмжихгүй |
| Camelot | ~73% | 65–75% | 60–70% | Дэмжихгүй |
| Хуулах-буулгах | 30–50% | 10–30% | 10–30% | Боломжгүй |
Хязгаар нь баримт бичгийн төвөгтэй байдлын өөрчлөлтийг харуулна. Procyons 2025 PDF Extraction Benchmark болон Camelot-ийн харьцуулах судалгаанаас авсан хэмжээсүүд.
Та ямар аргыг ашиглах ёстой вэ?
| Нөхцөл байдал | Хамгийн сайн арга | Яагаад |
|---|---|---|
| Хурдан нэг удаагийн гаргалт | PDFSub | Суулгах шаардлагагүй, хөтөч дээр, үнэгүй координатын гаргалт |
| Энгийн хүрээтэй хүснэгт, Windows | Power Query | Excel-д суурилсан, нэмэлт төлбөргүй |
| Скан хийсэн PDF | PDFSub (AI) эсвэл Adobe Acrobat | OCR чадамж хэрэгтэй |
| Мэдрэмтгий санхүүгийн өгөгдөл | PDFSub | Хөтөч дээр боловсруулалт хийдэг, файл хэзээ ч байршуулагддаггүй |
| Давтагддаг багц боловсруулалт | Python (pdfplumber) | Скрипт хийх боломжтой, автоматжуулах боломжтой |
| Аль хэдийн Acrobat Pro байгаа бол | Adobe Acrobat | Аль хэдийн төлбөр хийсэн, энгийн хүснэгтүүд сайн ажилладаг |
| Нэг жижиг хүснэгт, хэрэгсэлгүй бол | Хуулах-буулгах | Сүүлчийн арга, бүх зүйлийг шалгана уу |
Хамгийн сайн үр дүнд хүрэх зөвлөмжүүд
Нутгийн PDF файлуудыг ашиглана уу. Цаасыг скан хийхээс илүүтэйгээр баримт бичгийг эх сурвалжаас нь татаж авна уу. Нутгийн PDF файлууд нь төгс тексттэй байдаг тул гаргалт нь хамаагүй илүү нарийвчлалтай болдог.
Эхлээд хүснэгтийн төрлийг тодорхойлно уу. Хүрээтэй хүснэгтүүд бараг ямар ч хэрэгсэлд ажилладаг. Хүрээгүй хүснэгтүүдэд урсгал горим эсвэл AI гаргалт хэрэгтэй. Төрлийг мэдэх нь зөв аргыг сонгоход тусална.
Үнэгүй, дүрмийн-суурьт аргуудаас эхэлнэ үү. Эхлээд координатын-суурьт гаргалтыг туршиж үзнэ үү. Дүрмийн-суурьт аргууд муу үр дүнг өгөх үед л AI руу шилжинэ — энэ нь цаг болон кредитийг хэмнэнэ.
Үр дүнг үргэлж шалгана уу. Мөрний тоо, баганы зохицолдол, тоон утга, болон нийлбэрийг шалгана уу. Гаргах үр дүнг хэзээ ч бүү хайхрамжгүй орхи.
Тоон форматлалтыг анхаарна уу. Гаргасны дараа тоонууд Excel дээр үнэхээр тоо (баруун талд байрласан) мөн эсэхийг, текст (зүүн талд байрласан) биш эсэхийг шалгана уу. Валютын тэмдэг болон хаалттай сөрөг тоонууд нь түгээмэл шалтгаан болдог.
Мэдрэмтгий өгөгдлийн хувьд хөтөч дээр суурилсан хэрэгслийг илүүд үзнэ үү. Санхүүгийн тайлан, банкны хуулга, болон татварын баримт бичиг нь мэдрэмтгий мэдээллийг агуулдаг. Таны файлыг хэзээ ч байршуулахгүй хөтөч дээрээ PDF файлыг боловсруулдаг хэрэгслүүд нь өгөгдөл алдагдах эрсдэлийг арилгадаг.
Үнэгүй туршиж үз
PDF файлаас хүснэгт гаргахад бэлэн үү? Файл байршуулна уу — PDFSub эхлээд үнэгүй координатын-суурьт гаргалтыг оролдож, төвөгтэй хүснэгтүүдийн хувьд AI нөөцлөх боломжтой. Дижитал PDF файлууд нь таны хөтөч дээр бүхэлд нь боловсруулагддаг. 7 хоногийн үнэгүй туршилтыг эхлүүлнэ үү.