چگونه PDF را به اکسل تبدیل کنیم: ۶ روش که واقعاً کار میکنند (۲۰۲۶)
هر ساله بیش از ۲۹۰ میلیارد PDF ایجاد میشود، اما این فرمت هیچ درکی از سطرها، ستونها یا سلولها ندارد. در اینجا نحوه وارد کردن دادههای خود به اکسل آورده شده است - از ابزارهای رایگان داخلی گرفته تا استخراج مبتنی بر هوش مصنوعی.
شما دادههایی در PDF دارید و به آن در اکسل نیاز دارید. شاید یک گزارش مالی، یک فاکتور از فروشنده، صورتحساب بانکی، یا جدولی از دادههای محصول که از یک سیستم قدیمی صادر شده است. مشکل چیست؟ PDFها برای نمایش یکسان در هر صفحه طراحی شدهاند - نه برای انتقال دادههای ساختاریافته.
تخمین زده میشود که هر ساله بیش از ۲۹۰ میلیارد PDF ایجاد میشود که سالانه حدود ۱۲٪ رشد دارد. ادوبی گزارش میدهد که بیش از ۴۰۰ میلیارد PDF در سراسر جهان باز میشوند و بیش از ۱۰۰ میلیون کاربر روزانه Acrobat در سراسر جهان وجود دارد. PDFها به فرمت پیشفرض برای اشتراکگذاری اسناد مالی، قراردادهای قانونی، فرمهای دولتی و گزارشهای تجاری تبدیل شدهاند. با این حال، شکاف بین "مشاهده PDF" و "کار با دادههای آن" طبق نظرسنجی Parseur/QuestionPro در سال ۲۰۲۵، سالانه به طور متوسط ۲۸,۵۰۰ دلار به ازای هر کارمند برای شرکتهای آمریکایی هزینه ورود دستی داده دارد - کارگران بیش از ۹ ساعت در هفته را صرف انتقال داده از اسناد به صفحات گسترده میکنند.
این راهنما تمام روشهای موجود در سال ۲۰۲۶ را پوشش میدهد، از ابزارهای رایگان داخلی گرفته تا استخراج مبتنی بر هوش مصنوعی، با ارزیابیهای صادقانه از آنچه کار میکند و آنچه کار نمیکند.

چرا تبدیل PDF به اکسل اساساً دشوار است
قبل از پرداختن به روشها، درک اینکه چرا این مشکل اصلاً وجود دارد مفید است. PDFها و صفحات گسترده اکسل از نظر معماری ناسازگار هستند - نه فقط متفاوت، بلکه با اهداف مخالف طراحی شدهاند.
PDFها چگونه دادهها را ذخیره میکنند
یک صفحه PDF "حاوی" یک جدول نیست. بلکه شامل یک جریان محتوا است - دنبالهای از دستورات باینری مبتنی بر PostScript که کاراکترهای منفرد را در مختصات دقیق x,y روی یک بوم قرار میدهد. مشخصات PDF (ISO 32000-2:2020) رندر متن را از طریق دستوراتی مانند این تعریف میکند:
-
BT / ET: شروع و پایان یک شیء متنی
-
Tf: تنظیم فونت و اندازه فونت
-
Tm: تنظیم موقعیت مطلق با استفاده از ماتریس شش عددی
-
Tj / TJ: رندر یک رشته متنی (TJ شامل تنظیمات فاصله بین حروف برای هر کاراکتر است)
آنچه به چشم شما شبیه یک جدول است - سطرهای مرتب و ستونها با اعداد تراز شده - در واقع صدها دستور موقعیتیابی متن منفرد است. هیچ تگ <table>، <tr> یا <td> وجود ندارد. هیچ شناسه سطر یا ستونی وجود ندارد. هیچ مرز سلولی وجود ندارد. مبدل باید ساختار جدول را با تجزیه و تحلیل روابط فضایی بین کاراکترها مهندسی معکوس کند - کدام کاراکترها به صورت عمودی تراز شدهاند (نشاندهنده ستون)، کدامها در یک خط افقی قرار دارند (نشاندهنده سطر) و شکافها مرزهای سلولی را نشان میدهند.
به همین دلیل است که تبدیل مستقیم اغلب نتایج نامرتبی ایجاد میکند: ستونها به دلیل عدم تراز بودن جزئی کاراکترها ادغام میشوند، اعداد به دلیل اینکه نمادهای ارز جداگانه هستند به رشتههای متنی تبدیل میشوند و توضیحات چند خطی به سطرهای شبح تقسیم میشوند.
PDFهای تگدار در مقابل بدون تگ
مشخصات PDF شامل یک "درخت ساختار" اختیاری برای دسترسی است - PDFهای تگدار که سرفصلها، پاراگرافها و سلولهای جدول را برای صفحهخوانها شناسایی میکنند. در صورت وجود، این فراداده استخراج را به طرز چشمگیری آسانتر میکند. واقعیت: اکثریت قریب به اتفاق PDFها بدون تگ هستند. اکثر تولیدکنندگان PDF مرحله تگگذاری را نادیده میگیرند زیرا اختیاری است و پیچیدگی را افزایش میدهد. صورتحسابهای بانکی، فاکتورها و گزارشهای مالی تقریباً هرگز تگ نمیشوند.
رمزگذاری فونت و مشکل یونیکد
PDFها از دو مسیر جستجوی جداگانه برای هر کاراکتر استفاده میکنند: یکی برای طرح کلی گلیف (ظاهر آن) و دیگری برای نگاشت یونیکد (معنی آن). هنگامی که جدول ToUnicode CMap گم شده، ناقص یا عمداً درهم ریخته باشد - همانطور که با برخی از تولیدکنندگان PDF و ابزارهای امنیتی اتفاق میافتد - استخراج متن خروجی نامفهومی تولید میکند، حتی اگر PDF در صفحه عالی به نظر برسد. شما کاراکترهای صحیح را بصری میبینید، اما کپی-پیست یا استخراج برنامهنویسی شده، مزخرف تولید میکند.
روش ۱: PDFSub (مبتنی بر مرورگر، برای همه انواع PDF کار میکند)
PDFSub طیف کاملی از تبدیلهای PDF به اکسل را مدیریت میکند - از جداول ساده تک صفحهای گرفته تا اسناد مالی پیچیده چند صفحهای با سلولهای ادغام شده، توضیحات چند خطی و فرمتهای عددی بینالمللی.
نحوه کار
۱. PDF خود را آپلود کنید - هر فایل PDF را بکشید و رها کنید. PDFSub نوع و ساختار سند را به طور خودکار تشخیص میدهد. ۲. استخراج خودکار - جداول تشخیص داده شده و دادهها به سطرها و ستونهای ساختاریافته استخراج میشوند. برای PDFهای دیجیتال، این کاملاً در مرورگر شما اتفاق میافتد - فایل هرگز دستگاه شما را ترک نمیکند. ۳. پیشنمایش را بررسی کنید - دادههای استخراج شده را قبل از دانلود بررسی کنید. هدرهای ستون، انواع داده و تراز سطر در پیشنمایش قابل مشاهده هستند. ۴. دانلود - به صورت اکسل (.xlsx)، CSV یا فرمتهای دیگر صادر کنید.
چرا کار میکند
حریم خصوصی اولویت مرورگر. PDFهای دیجیتال کاملاً در مرورگر شما با استفاده از جاوا اسکریپت سمت کلاینت پردازش میشوند. بدون آپلود فایل، بدون افشای سرور، بدون نگهداری داده. این برای اسناد مالی، سوابق مالیاتی و هر چیزی که حاوی اطلاعات حساس است اهمیت دارد. تحت GDPR، پردازش سمت کلاینت از طبقهبندی به عنوان پردازشگر داده اجتناب میکند زیرا هیچ داده شخصی جمعآوری یا منتقل نمیشود.
اسناد اسکن شده را مدیریت میکند. اگر PDF یک تصویر اسکن شده باشد (بدون متن قابل انتخاب)، PDFSub به OCR سمت سرور با پاکسازی خودکار بازمیگردد. رویکرد دو سطحی به این معنی است که هر دو PDF دیجیتال و اسکن شده نتایج قابل استفادهای تولید میکنند.
تخصص در اسناد مالی. موتور استخراج فرمتهای مالی را درک میکند: اعداد منفی در پرانتز، نمادهای ارز به عنوان عناصر جداگانه، تقسیم ستون بدهکار/بستانکار، اعتبارسنجی مانده جاری و فرمتهای عددی بینالمللی (۱.۲۳۴،۵۶ در مقابل ۱,۲۳۴.۵۶).
بیش از ۱۳۰ زبان. با PDFها به هر زبانی کار میکند - از جمله CJK (چینی، ژاپنی، کرهای) با رمزگذاری کاراکترهای پیچیده، عربی و عبری از راست به چپ، و زبانهای اروپایی با کاراکترهای لهجهدار.
روش ۲: Microsoft Excel Power Query (فقط ویندوز)
Excel 2019 و Microsoft 365 (ویندوز) شامل ویژگی وارد کردن PDF داخلی از طریق Power Query هستند. این در دسترسترین گزینه برای افرادی است که قبلاً اکسل را نصب کردهاند.

نحوه انجام
۱. اکسل را باز کنید و به Data → Get Data → From File → From PDF بروید. ۲. فایل PDF خود را انتخاب کنید. ۳. Power Query یک پنل Navigator نمایش میدهد که جداول تشخیص داده شده را نشان میدهد - هر جدول به طور جداگانه لیست شده است و شما همچنین میتوانید متن خام صفحه را مشاهده کنید. ۴. جدولی را که نیاز دارید انتخاب کنید و روی Transform Data کلیک کنید تا هدرهای ستون، انواع داده و قالببندی را قبل از بارگذاری پاکسازی کنید - یا روی Load کلیک کنید تا مستقیماً آن را به صفحه گسترده خود بیاورید.
Power Query در چه مواردی خوب عمل میکند
- جداول ساده و با ساختار خوب با مرزهای مشخص یا فاصلهگذاری ثابت به طور قابل اعتماد تبدیل میشوند.
- جداول چند صفحهای اغلب به درستی تشخیص داده و ادغام میشوند اگر طرحبندی سازگار باشد.
- واردات تکراری میتوانند به عنوان اتصالات قابل بهروزرسانی تنظیم شوند - مفید اگر به طور منظم فرمت گزارش یکسانی دریافت میکنید.
- بدون هزینه فراتر از مجوز Microsoft 365 یا Excel 2019 موجود شما.
Power Query در چه مواردی مشکل دارد
- روی مک موجود نیست. کانکتور PDF در اکسل برای مک کاملاً حذف شده است. مایکروسافت برنامهای برای اضافه کردن آن اعلام نکرده است. راه حل مک: PDF را در Microsoft Word باز کنید (که آن را به متن قابل ویرایش تبدیل میکند)، سپس جداول را در اکسل کپی کنید.
- قابلیت OCR ندارد. اگر PDF یک تصویر اسکن شده بدون لایه متن جاسازی شده باشد، Power Query چیزی نمیبیند - به متن قابل انتخاب نیاز دارد.
- طرحبندیهای پیچیده خراب میشوند. سلولهای ادغام شده، هدرهای چند سطحی، جداول تودرتو و ساختارهای ستونی نامنظم نتایج درهم ریختهای ایجاد میکنند. یک سطر "مجموع" با یک سلول توضیحات ادغام شده میتواند باعث عدم تراز شدن تمام سطرهای بعدی شود.
- هدرها و فوترها تکرار میشوند. جداول چند صفحهای که در آنها سطر هدر در هر صفحه تکرار میشود، باعث میشود متن هدر با سطرهای داده مخلوط شود. شما باید این موارد را به صورت دستی فیلتر کنید.
- قالببندی ارز و عدد. Power Query ممکن است اعداد را به صورت رشتههای متنی وارد کند، زمانی که نمادهای ارز، پرانتزهای منفی، یا جداکنندههای هزارگان غیرآمریکایی وجود داشته باشند. پس از وارد کردن نیاز به تبدیل نوع دستی دارد.
Power Query برای کاربران مک (راه حل)
از ژانویه ۲۰۲۶، مایکروسافت Power Query را به اکسل برای وب اضافه کرده است، که به طور بالقوه دسترسی به وارد کردن PDF را گسترش میدهد. با این حال، کانکتور PDF به طور خاص ممکن است هنوز فقط مخصوص ویندوز باشد. قابل اعتمادترین راه حل مک همچنان این است:
۱. PDF را در Microsoft Word باز کنید (File → Open → PDF را انتخاب کنید). ۲. Word PDF را به یک سند قابل ویرایش تبدیل میکند (ناقص). ۳. جدول را از Word کپی کرده و در اکسل پیست کنید. ۴. از Text to Columns و تبدیل نوع داده برای پاکسازی استفاده کنید.
روش ۳: Adobe Acrobat Pro
Adobe Acrobat Pro میتواند PDFها را به فرمت اکسل صادر کند. به عنوان خالق فرمت PDF، ابزار ادوبی درک عمیقی از جزئیات داخلی PDF دارد - اما این همیشه به خروجی تمیز اکسل ترجمه نمیشود.
قیمتگذاری
- Acrobat Pro: ۱۹.۹۹ دلار در ماه (تعهد سالانه) یا ۲۹.۹۹ دلار در ماه (بدون تعهد). مجموع: ۲۳۹.۸۸ تا ۳۵۹.۸۸ دلار در سال.
- Acrobat Export PDF (فقط تبدیل): ۱.۹۹ دلار در ماه (۲۳.۸۸ دلار در سال). PDFها را به Word، اکسل یا RTF تبدیل میکند.
- ابزار آنلاین رایگان: در adobe.com با تعداد محدودی تبدیل در روز موجود است. نیاز به ایجاد حساب کاربری دارد.
- محدودیت فایل: حجم فایل ۱۰۰ مگابایت، حداکثر ۶۰۰ صفحه برای خدمات ابری.
نحوه انجام
۱. PDF خود را در Acrobat Pro باز کنید. ۲. به File → Export To → Spreadsheet → Microsoft Excel Workbook بروید. ۳. مکان ذخیره را انتخاب کنید. ۴. برای PDFهای اسکن شده، Acrobat قبل از صدور، OCR را به طور خودکار اعمال میکند.
Adobe در چه مواردی خوب عمل میکند
- OCR خودکار برای اسناد اسکن شده - PDFهای مبتنی بر تصویر را تشخیص داده و پردازش میکند.
- پشتیبانی از زبانهای متعدد برای OCR (انگلیسی، آلمانی، اسپانیایی، فرانسوی، پرتغالی و غیره).
- تشخیص فیلدهای فرم - فرمهای PDF ساختاریافته با نام فیلد و مقادیر صادر میشوند.
Adobe در چه مواردی مشکل دارد
- سلولهای ادغام شده ستونهای اضافی ایجاد میکنند. کاربران معمولاً گزارش میدهند که ستونها و تبها ستونهای خالی زیادی در خروجی اکسل ایجاد میکنند - مشکلی که به خوبی در انجمنهای پشتیبانی ادوبی مستند شده است.
- متن چند خطی به سطرهای متعدد تقسیم میشود. یک سلول حاوی توضیحات پیچیده به دو یا سه سطر جداگانه تبدیل میشود و تراز کل جدول را مختل میکند.
- برای استفاده گاه به گاه گران است. با ۲۴۰ تا ۳۶۰ دلار در سال، اگر فقط گاهی اوقات نیاز به تبدیل PDF دارید، بیش از حد لازم است. Export PDF مستقل با ۲۴ دلار در سال منطقیتر است اما مجموعه ابزار کامل Acrobat را ندارد.
- پردازش سمت سرور. فایلها برای تبدیل به ابر ادوبی آپلود میشوند، که ممکن است برای اسناد مالی حساس نگرانکننده باشد.
روش ۴: Google Sheets (رایگان، اما محدود)
Google Sheets قابلیت وارد کردن PDF بومی ندارد. هیچ گزینهای برای "Import PDF" در منوها وجود ندارد. با این حال، راه حلهایی وجود دارد.
روش Google Docs (رایگان)
۱. PDF را در Google Drive آپلود کنید. ۲. روی فایل راست کلیک کنید → Open with → Google Docs. ۳. Google PDF را به یک سند قابل ویرایش تبدیل میکند. ۴. جداول را از سند Google کپی کرده و در Google Sheets پیست کنید. ۵. قالببندی، تراز ستون و انواع داده را پاکسازی کنید.
چه زمانی کار میکند: PDFهای ساده با جداول پایه و حداقل قالببندی.
چه زمانی شکست میخورد: جداول پیچیده، طرحبندیهای چند ستونی، اسناد اسکن شده. تبدیل اغلب ساختار جدول را خراب میکند - سلولها ادغام میشوند، ستونها جابجا میشوند و سطرها تقسیم میشوند.
جایگزین: ابتدا تبدیل کنید، سپس آپلود کنید
رویکرد قابل اعتمادتر این است که PDF را با استفاده از ابزار دیگری (PDFSub، Adobe و غیره) به اکسل یا CSV تبدیل کنید، سپس فایل حاصل را در Google Sheets آپلود کنید. این فرآیند دو مرحلهای از تجزیه و تحلیل ناسازگار PDF توسط Google جلوگیری میکند.
روش ۵: مبدلهای آنلاین (سریع اما با مصالحه حریم خصوصی)
چندین ابزار آنلاین رایگان PDF را به اکسل تبدیل میکنند بدون اینکه نیاز به نصب نرمافزار داشته باشند.
گزینههای محبوب
| ابزار | سطح رایگان | محدودیت فایل | OCR |
|---|---|---|---|
| Smallpdf | ۲ وظیفه در روز | ۵ گیگابایت | بله (پولی) |
| iLovePDF | محدود | ۱۰۰ مگابایت | بله (پولی) |
| PDF2Go | محدود | متغیر | پایه |
| Zamzar | ۲ فایل در روز | ۵۰ مگابایت | خیر |
مشکل حریم خصوصی
هنگام استفاده از هر مبدل آنلاین، فایل شما برای پردازش به سرورهای آنها آپلود میشود. ارائهدهنده خدمات در طول پردازش به سند دسترسی کامل دارد - محتوای متنی، فراداده، تصاویر جاسازی شده، همه چیز. حتی اگر ارائهدهنده ادعا کند که فایلها را پس از پردازش حذف میکند، اسنپشاتهای سطح سیستم، گزارشها یا ادغامهای شخص ثالث ممکن است قطعاتی را حفظ کنند.
برای صورتحسابهای بانکی، اسناد مالیاتی، فاکتورها، سوابق پزشکی، یا هر سندی که حاوی دادههای مالی، اطلاعات قابل شناسایی شخصی، یا دادههای محرمانه تجاری است، پردازش سمت سرور ریسک قابل اندازهگیری ایجاد میکند. تحت GDPR، لحظهای که یک سرویس سند شما را در سرور خود ذخیره میکند، آنها به یک پردازشگر داده با تعهدات انطباق تبدیل میشوند. از سال ۲۰۲۵، بیش از ۲,۲۴۵ جریمه GDPR به مبلغ تقریبی ۵.۶۵ میلیارد یورو ثبت شده است.
چه زمانی مبدلهای آنلاین منطقی هستند: اسناد غیر حساس که در آن راحتی بر حریم خصوصی اولویت دارد. تبدیلهای سریع یکباره دادههای عمومی. اسنادی که راحت هستید به یک غریبه ایمیل کنید.
چه زمانی باید از آنها اجتناب کرد: صورتحسابهای مالی، اظهارنامههای مالیاتی، سوابق پزشکی، اسناد قانونی، هر چیزی با شماره SSN یا شماره حساب، دادههای اختصاصی کسب و کار.
روش ۶: کتابخانههای پایتون (برای توسعهدهندگان)
اگر شما یک توسعهدهنده یا تحلیلگر داده هستید که PDFها را به صورت برنامهنویسی پردازش میکنید، چندین کتابخانه متنباز پایتون استخراج جدول PDF را مدیریت میکنند.
مقایسه کتابخانه
| کتابخانه | مجوز | OCR | تشخیص جدول | بهترین برای |
|---|---|---|---|---|
| pdfplumber | MIT | خیر | دستی + قابل تنظیم | جداول پیچیده، کنترل دقیق |
| Tabula-py | MIT | خیر | تشخیص خودکار | استخراج سریع جداول با مرز |
| Camelot | MIT | خیر | حالتهای Lattice + Stream | جداول با مرز (حالت Lattice عالی است) |
| PyMuPDF | AGPL | خیر | استخراج متن سریع پایه (مشکلات مجوز برای SaaS) |
pdfplumber
بر پایه pdfminer.six ساخته شده است. دسترسی به هر کاراکتر، خط، مستطیل و منحنی در صفحه با مختصات دقیق را فراهم میکند. استخراج جدول از استراتژیهای قابل تنظیم برای تشخیص مرزهای سلول استفاده میکند. اشکالزدایی بصری را ارائه میدهد - میتوانید جداول تشخیص داده شده را روی تصاویر صفحه رسم کنید. برای موارد ساده نیاز به پیکربندی بیشتری نسبت به Tabula دارد اما جداول پیچیده را بهتر از هر کتابخانه متنباز دیگری مدیریت میکند.
Tabula-py
پوشش پایتون برای Tabula-java (نیاز به نصب JVM دارد). در تشخیص خودکار مرزهای جدول خوب است. مستقیماً به DataFrameهای pandas خروجی میدهد. وابستگی JVM استقرار را دشوارتر میکند و با هدرهای چند سطحی پیچیده مشکل دارد.
Camelot
دو حالت: حالت Lattice از پردازش تصویر (تبدیلات مورفولوژیکی OpenCV) برای تشخیص خطوط حاکم و یافتن مرزهای سلول از تقاطع خطوط استفاده میکند - برای جداول با مرز بسیار دقیق است. حالت Stream کاراکترها را بر اساس نزدیکی فاصله گروهبندی میکند تا ستونها را استنباط کند. معیارهای دقت/کیفیت را برای هر جدول ارائه میدهد. حالت Lattice در معیارهای ICDAR امتیاز F1 بیش از ۰.۸۵ کسب میکند اما در جداول با خطوط نازک یا کمرنگ شکست میخورد.
چه زمانی از پایتون استفاده کنیم
- پردازش دستهای صدها یا هزاران سند مشابه
- ساخت خطوط لوله خودکار برای گزارشهای تکراری
- زمانی که کنترل کاملی بر منطق استخراج و پردازش پس از آن نیاز دارید
- زمانی که فرمت سند شناخته شده و سازگار است
- پروژههای تحقیقاتی و روزنامهنگاری داده
چه زمانی از پایتون استفاده نکنیم
- تبدیلهای یکباره (زمان راهاندازی بیشتر از زمان صرفهجویی شده است)
- کاربران غیر فنی
- PDFهای اسکن شده (این کتابخانهها شامل OCR نیستند - ابتدا به یک مرحله OCR جداگانه نیاز دارید)
- زمانی که سرعت تحویل مهمتر از سفارشیسازی است
مشکلات رایج تبدیل و نحوه رفع آنها

هر روش تبدیلی در برخی اسناد نتایج ناقصی ایجاد میکند. در اینجا رایجترین شکستها و راهحلهای عملی آورده شده است.
اعداد به صورت متن وارد میشوند
مشکل: اکسل اعداد استخراج شده را به عنوان رشتههای متنی در نظر میگیرد که باعث اختلال در SUM، AVERAGE و تمام محاسبات میشود. این اتفاق میافتد زیرا PDFها بین اعداد و متن تمایز قائل نمیشوند - یک نماد ارز، یک علامت منفی، یا یک جداکننده هزارگان کل سلول را به یک رشته متنی تبدیل میکند.
نحوه تشخیص: به دنبال یک مثلث سبز در گوشه بالا سمت چپ سلولها باشید، یا SUM را روی یک ستون امتحان کنید - اگر ۰ برگرداند، مقادیر متن هستند.
راهحلها:
- ستون را انتخاب کنید → Data → Text to Columns → روی Finish کلیک کنید (این باعث میشود اکسل دادهها را دوباره تجزیه کند).
- در یک ستون کمکی با ۱ ضرب کنید: از
=A1*1برای اجبار تبدیل عددی استفاده کنید. - از NUMBERVALUE استفاده کنید:
=NUMBERVALUE(A1, ".", ",")فرمت اروپایی را مدیریت میکند. - برای حذف نمادهای ارز، Find and Replace را انجام دهید: "$" را با هیچ چیز جایگزین کنید، "(" را با "-" جایگزین کنید، ")" را با هیچ چیز جایگزین کنید.
اعداد منفی در پرانتز
مشکل: قرارداد حسابداری اعداد منفی را به صورت (۲۰۰.۰۰) به جای -۲۰۰.۰۰ نمایش میدهد. هر مبدل PDF رشته "(۲۰۰.۰۰)" را خروجی میدهد که اکسل آن را به عنوان متن در نظر میگیرد.
راهحل: Find and Replace را در دو مرحله انجام دهید: "(" را با "-" جایگزین کنید و ")" را با هیچ چیز جایگزین کنید. سپس ستون را به فرمت عدد تبدیل کنید. یا از این استفاده کنید: =IF(LEFT(A1,1)="(",-VALUE(SUBSTITUTE(SUBSTITUTE(A1,"(",""),")","")) ,VALUE(A1))
ستونها با هم ادغام شدهاند
مشکل: دادههای چندین ستون در یک سلول قرار میگیرند - "۰۱/۱۵/۲۰۲۶ واریز مستقیم ۳,۵۰۰.۰۰" همه در ستون A.
راهحل: Data → Text to Columns با یک جداکننده (فاصله، کاما، تب، یا عرض ثابت). برای عرض ثابت، تقسیم ستون Power Query قابل اعتمادتر است زیرا میتوانید نقاط شکست را به صورت بصری تنظیم کنید.
توضیحات چند خطی به سطرهای اضافی تقسیم میشوند
مشکل: یک تراکنش با توضیحات دو خطی به دو سطر در اکسل تبدیل میشود، که سطر دوم دارای فیلدهای تاریخ، مبلغ و مانده خالی است. این باعث اختلال در تراز سطر برای کل صفحه گسترده میشود.
راهحل: این سختترین مشکل برای رفع دستی است. به دنبال سطرهایی باشید که ستون تاریخ خالی است - اینها احتمالاً خطوط ادامه هستند. آنها را با فرمول کمکی به سطر بالا الحاق کنید، سپس سطرهای خالی را حذف کنید. به طور خاص برای صورتحسابهای بانکی، یک مبدل تخصصی مانند مبدل صورتحساب بانکی PDFSub توضیحات چند خطی را با تشخیص الگوهای ادامه به طور خودکار مدیریت میکند.
هدرها و فوترها با دادهها مخلوط شدهاند
مشکل: PDFهای چند صفحهای هدرهای سطر، شماره صفحه، تاریخها و عناوین سند را در هر صفحه تکرار میکنند. مبدلهای عمومی اینها را به عنوان سطرهای داده استخراج میکنند که با دادههای واقعی مخلوط شدهاند.
راهحل: پس از تبدیل، بر اساس ستون تاریخ مرتب یا فیلتر کنید. سطرهای هدر و فوترهای صفحه معمولاً تاریخهای معتبر ندارند و در بالا یا پایین مرتب میشوند. آنها را به صورت دستی حذف کنید. برای گزارشهای تکراری با فرمت یکسان، یک ماکرو برای خودکارسازی پاکسازی ضبط کنید.
ابهام تاریخ (MM/DD در مقابل DD/MM)
مشکل: تاریخ ۰۳/۰۴/۲۰۲۶ میتواند ۴ مارس (فرمت آمریکایی) یا ۳ آوریل (فرمت اروپایی) باشد. هنگامی که تمام تاریخها در یک سند دارای مقادیر روز ۱۲ یا کمتر هستند، هیچ راه الگوریتمی برای تعیین فرمت صحیح وجود ندارد. مبدلها معمولاً به طور پیشفرض MM/DD/YYYY را انتخاب میکنند اما این به طور خاموش تاریخهای اشتباهی را برای اسناد غیرآمریکایی تولید میکند.
راهحل: منطقه (locale) سند اصلی را بررسی کنید. اگر از منبع اروپایی، آسیایی یا آمریکای لاتین باشد، فرمت تقریباً مطمئناً DD/MM/YYYY است. در اکسل، ستون تاریخ را انتخاب کنید، راست کلیک کنید → Format Cells → Number → Date، و منطقه صحیح را انتخاب کنید. اگر تاریخها از قبل اشتباه تفسیر شدهاند، ممکن است لازم باشد روز و ماه را با استفاده از =DATE(YEAR(A1), DAY(A1), MONTH(A1)) جابجا کنید.
دادههای گمشده
مشکل: برخی از محتوا اصلاً در تبدیل ظاهر نمیشوند - معمولاً واترمارکها، دادهها در تصاویر، یا متنی که از فونتهایی با نگاشت یونیکد گمشده استفاده میکند.
راهحل: PDF اصلی را باز کرده و سعی کنید متن گمشده را انتخاب کنید. اگر نمیتوانید آن را انتخاب کنید، یک تصویر است - شما به قابلیت OCR نیاز دارید. اگر میتوانید آن را انتخاب کنید اما به صورت کاراکترهای نامفهوم کپی میشود، PDF مشکل رمزگذاری فونت دارد. یک مبدل متفاوت را امتحان کنید - هر کدام نگاشت فونت را به طور متفاوتی مدیریت میکنند. PDFSub هر دو سناریو را مدیریت میکند: استخراج سمت مرورگر برای متن جاسازی شده و OCR سمت سرور برای محتوای اسکن شده.
کدام روش را برای نوع سند خود استفاده کنید
PDFهای مختلف به رویکردهای متفاوتی نیاز دارند. در اینجا یک ماتریس تصمیمگیری آورده شده است:
| نوع سند | بهترین روش | چرا |
|---|---|---|
| صورتحسابهای بانکی | PDFSub یا مبدل تخصصی | توضیحات چند خطی، اعتبارسنجی مانده جاری، ستونهای بدهکار/بستانکار نیاز به استخراج آگاه از امور مالی دارند |
| فاکتورها | PDFSub یا Adobe Acrobat | طرحبندیهای نامنظم، اقلام خطی با محاسبات مالیات، قالببندی ارز |
| گزارشهای مالی (۱۰-K، فصلی) | Power Query یا pdfplumber | جداول چند ستونی متراکم با اقلام خطی تودرتو؛ Power Query ساختارهای تکراری را به خوبی مدیریت میکند |
| جداول داده ساده | Power Query (رایگان) | جداول با مرز تمیز از گزارشهای تجاری به طور قابل اعتماد تبدیل میشوند |
| اسناد کاغذی اسکن شده | PDFSub یا Adobe Acrobat (OCR) | باید قابلیت OCR داشته باشد - Power Query و کتابخانههای پایتون نمیتوانند تصاویر را پردازش کنند |
| فرمهای دولتی | Adobe Acrobat یا PDFSub | فیلدهای با موقعیت ثابت، ترکیبی از ساختار از پیش چاپ شده و دادههای پر شده |
| گزارشهای دستهای تکراری | پایتون (Tabula/Camelot) | خط لوله قابل برنامهریزی برای اسناد با فرمت یکسان که به طور منظم پردازش میشوند |
| اسناد بینالمللی | PDFSub | ۱۳۰+ زبان، فرمتهای عددی/تاریخی غیرآمریکایی، رمزگذاری کاراکتر CJK را مدیریت میکند |
OCR در مقابل PDF بومی: چرا اهمیت دارد
بزرگترین عامل در دقت تبدیل این است که آیا PDF شما حاوی متن جاسازی شده است یا یک تصویر اسکن شده است.
PDFهای بومی (دیجیتال)
به صورت دیجیتالی توسط نرمافزار ایجاد شدهاند - پورتال آنلاین بانک شما، خروجیهای نرمافزار حسابداری، تبدیلهای Word به PDF. هنگام مشاهده PDF میتوانید متن را انتخاب و کپی کنید.
- دقت: عملاً ۱۰۰٪ برای استخراج کاراکتر (بدون خطای تشخیص). شکستها ناشی از مشکلات رمزگذاری فونت یا تفسیر نادرست طرحبندی است، نه تشخیص کاراکتر.
- سرعت: سریع - نیازی به پردازش تصویر نیست.
- حریم خصوصی: میتواند کاملاً در مرورگر پردازش شود (بدون نیاز به آپلود سرور).
PDFهای اسکن شده
تصاویر اسناد کاغذی که توسط اسکنرها، دوربینهای تلفن یا فکس به PDF ایجاد شدهاند. شما نمیتوانید متن را انتخاب کنید - این یک تصویر است.
- دقت: به شدت بسته به موتور و کیفیت اسکن متفاوت است.
| موتور OCR | دقت متن تایپ شده | هزینه |
|---|---|---|
| ABBYY FineReader | ۹۹.۳–۹۹.۸٪ | از ۱۶ دلار در ماه |
| Google Cloud Vision | ~۹۸٪ | رایگان برای ۱۰۰۰ صفحه در ماه؛ پس از آن ۱.۵۰ دلار برای ۱۰۰۰ صفحه |
| AWS Textract | ۹۵–۹۹٪ | حدود ۱.۵۰ دلار برای ۱۰۰۰ صفحه (متن)؛ ۱۵ دلار برای ۱۰۰۰ صفحه (جداول) |
| Tesseract (متنباز) | <۹۵٪ | رایگان |
مطالعهای بر روی گزارشهای مالی اسکن شده نشان داد که Tesseract (رایجترین OCR متنباز) نرخ خطای کاراکتری ۴۶٪ ایجاد کرده است - به این معنی که تقریباً نیمی از کاراکترها اشتباه بودند. جایگزینهای تجاری به طور چشمگیری بهتر هستند اما هزینه دارند.
نکته کلیدی: همیشه در صورت امکان از PDFهای دیجیتال بومی استفاده کنید. به جای اسکن کاغذ، صورتحسابها را از وبسایت بانک خود دانلود کنید. اگر مجبور به اسکن هستید، از بالاترین وضوح ممکن (۳۰۰+ DPI) استفاده کنید و اطمینان حاصل کنید که صفحه صاف و با نور یکنواخت است.
استخراج PDF مبتنی بر هوش مصنوعی (۲۰۲۵–۲۰۲۶)
مدلهای زبان بزرگ در حال تغییر چشمانداز استخراج PDF هستند. به جای تجزیه مبتنی بر قوانین، مدلهای هوش مصنوعی میتوانند ساختار سند را به صورت زمینهای "درک" کنند.
کاری که هوش مصنوعی میتواند انجام دهد که قوانین نمیتوانند
- مدیریت طرحبندیهای متنوع بدون الگوهای از پیش تعریف شده - هوش مصنوعی ساختار جدول را از زمینه بصری استنباط میکند.
- تفسیر اصطلاحات خاص دامنه - درک اینکه "(۲۰۰.۰۰)" در حسابداری به معنای منفی ۲۰۰ دلار است، یا "Cr" به معنای اعتبار است.
- پردازش اسناد چند زبانه بدون قوانین خاص زبان.
- ادغام توضیحات چند خطی با درک اینکه یک خط ادامه متعلق به تراکنش قبلی است.
محدودیتهای فعلی
- خطر توهم (Hallucination) - هوش مصنوعی ممکن است دادههای به ظاهر معتبر تولید کند که در سند اصلی وجود ندارند. همیشه خروجی را با منبع تأیید کنید.
- محدودیتهای توکن - PDFهای بسیار بزرگ (صدها صفحه) ممکن است از پنجره زمینه مدل فراتر روند و نیاز به صفحهبندی داشته باشند.
- هزینه - استخراج هوش مصنوعی به طور قابل توجهی گرانتر از استخراج مبتنی بر قوانین است.
- تأخیر - پردازش بیشتر از استخراج متن مستقیم طول میکشد.
رویکرد ترکیبی
مؤثرترین ابزارهای مدرن از یک استراتژی ترکیبی استفاده میکنند: استخراج سریع مبتنی بر قوانین برای PDFهای دیجیتال تمیز (مدیریت ۸۰٪+ اسناد)، با پشتیبانگیری هوش مصنوعی برای طرحبندیهای پیچیده، اسناد اسکن شده و موارد خاص. این به شما سرعت و دقت تجزیه قطعی را با انعطافپذیری هوش مصنوعی در صورت نیاز میدهد.
نکاتی برای نتایج بهتر (صرف نظر از روش)
قبل از تبدیل
در صورت امکان از PDFهای بومی استفاده کنید. صورتحسابها و گزارشها را از سیستم منبع دانلود کنید به جای اسکن کاغذ. اگر میتوانید کلمات منفرد را در نمایشگر PDF خود برجسته کنید، میتوانید تشخیص دهید که PDF بومی است.
بررسی محافظت با رمز عبور. برخی بانکها و مؤسسات PDFها را با رمز عبور محافظت میکنند. رمز عبور معمولاً ۴ رقم آخر شماره حساب شما، تاریخ تولد شما یا SSN شما است. قبل از تبدیل، محافظت را حذف کنید - اکثر روشها روی PDFهای رمزگذاری شده به طور خاموش شکست میخورند.
ترتیب صفحات را بررسی کنید. اسناد چند صفحهای گاهی اوقات صفحات خارج از ترتیب دارند، به خصوص PDFهای اسکن شده. مبدل صفحات را به صورت متوالی استخراج میکند، بنابراین صفحات خارج از ترتیب، دادههای خارج از ترتیب تولید میکنند.
بعد از تبدیل
همیشه خروجی را تأیید کنید. هیچ مبدلی روی هر سندی ۱۰۰٪ دقیق نیست. بررسی کنید که:
- تعداد سطرها با اصل مطابقت دارد (تعداد تراکنشها در PDF در مقابل سطرها در اکسل را بشمارید).
- ماندههای آغازین و پایانی مطابقت دارند (برای اسناد مالی).
- ۳ تا ۵ مقدار فردی را با منبع بررسی کنید.
- هدرهای ستون به درستی شناسایی شدهاند.
- تاریخها در فرمت مورد انتظار هستند.
این کار ۶۰ ثانیه طول میکشد و خطاهایی را که میتواند ساعتها هزینه داشته باشد یا گزارشهای مالی نادرست تولید کند، شناسایی میکند.
هم فایل اصلی و هم فایل تبدیل شده را ذخیره کنید. PDF اصلی را در کنار خروجی اکسل خود نگه دارید. اگر هر مقداری مورد سوال قرار گرفت، میتوانید با منبع تأیید کنید. برای اسناد مالی، بسیاری از مقررات (قانون مالیات، الزامات حسابرسی) نگهداری سوابق اصلی را الزامی میکنند.
سوالات متداول
آیا میتوانم PDF محافظت شده با رمز عبور را به اکسل تبدیل کنم؟
شما باید ابتدا محافظت با رمز عبور را حذف کنید. اگر رمز عبور را میدانید، PDF را در Adobe Reader یا هر نمایشگر PDF باز کنید، آن را به یک PDF جدید بدون محافظت چاپ کنید، سپس تبدیل کنید. رمزهای عبور صورتحساب بانکی معمولاً ۴ رقم آخر شماره حساب شما هستند. اگر رمز عبور را نمیدانید، با کسی که سند را ایجاد کرده تماس بگیرید.
چرا اعداد من پس از تبدیل به صورت متن در اکسل نمایش داده میشوند؟
PDFها بین اعداد و متن تمایز قائل نمیشوند - همه آنها کاراکترهایی هستند که روی یک صفحه قرار گرفتهاند. هنگامی که اکسل دادهها را وارد میکند، نمادهای ارز ($, EUR)، پرانتزهای منفی مانند (۲۰۰)، جداکنندههای هزارگان، یا علائم اعشار غیر استاندارد باعث میشوند اکسل به طور پیشفرض فرمت متن را انتخاب کند. با انتخاب ستون → Data → Text to Columns → Finish رفع کنید، یا برای اجبار تبدیل عددی، سلولها را در ۱ ضرب کنید.
آیا راهی برای خودکارسازی تبدیل PDF به اکسل وجود دارد؟
بله. اتصالات Power Query میتوانند به طور خودکار بهروزرسانی شوند. کتابخانههای پایتون (Tabula-py، pdfplumber، Camelot) خطوط لوله کاملاً خودکار را برای اسناد تکراری فعال میکنند. PDFSub از آپلودهای دستهای برای پردازش چندین فایل پشتیبانی میکند. برای اتوماسیون در مقیاس سازمانی، APIهای Adobe، AWS Textract و Google Document AI PDFها را به صورت برنامهنویسی پردازش میکنند.
کدام روش دقیقترین نتایج را میدهد؟
این کاملاً به سند شما بستگی دارد. برای PDFهای بومی تمیز با جداول با مرز ساده، Power Query اغلب به خوبی کار میکند و رایگان است. برای اسناد مالی (صورتحسابهای بانکی، فاکتورها، گزارشها)، ابزارهای تخصصی مانند PDFSub که فرمتهای مالی را درک میکنند، نتایج به طور قابل توجهی بهتری تولید میکنند. برای اسناد اسکن شده، شما به قابلیت OCR نیاز دارید - Power Query و کتابخانههای پایتون اصلاً نمیتوانند تصاویر را پردازش کنند.
آیا میتوانم چندین PDF را همزمان تبدیل کنم؟
برخی از ابزارهای آنلاین از تبدیل دستهای پشتیبانی میکنند. PDFSub امکان آپلود چندین فایل را که به صورت متوالی پردازش میشوند، فراهم میکند. Power Query میتواند با مقداری تنظیمات از چندین فایل وارد کند. برای پردازش دستهای منظم، اسکریپتهای پایتون بیشترین انعطافپذیری را برای حجمهای بالا فراهم میکنند.
آیا نسخه رایگان اکسل از وارد کردن PDF پشتیبانی میکند؟
وارد کردن PDF Power Query نیاز به Excel 2019 یا Microsoft 365 (فقط ویندوز) دارد. نسخه وب رایگان اکسل و اکسل برای مک شامل کانکتور PDF نمیشوند. اگر به گزینه رایگان بدون Excel 2019 نیاز دارید، از مبدل مبتنی بر مرورگر PDFSub یا یک ابزار آنلاین استفاده کنید.
آیا میتوانم جدول PDF را به Google Sheets تبدیل کنم؟
Google Sheets قابلیت وارد کردن PDF بومی ندارد. راه حل این است که ابتدا PDF را با استفاده از ابزار دیگری به اکسل یا CSV تبدیل کنید، سپس فایل را در Google Sheets آپلود کنید. به طور جایگزین، PDF را در Google Drive آپلود کرده و با Google Docs باز کنید - اما این روش اغلب ساختار جدول را خراب میکند و برای دادههای چند ستونی قابل اعتماد نیست.
چگونه با PDFهایی که جداول به زبانهای مختلف دارند برخورد کنم؟
بیشتر مبدلها فرمت انگلیسی را فرض میکنند (تاریخهای MM/DD/YYYY، جداکنندههای هزارگان کاما). برای اسناد به زبانهای دیگر، شما به یک مبدل نیاز دارید که از فرمتهای بینالمللی پشتیبانی کند. PDFSub بیش از ۱۳۰ زبان را با تشخیص خودکار فرمتهای تاریخ (DD/MM/YYYY، YYYY-MM-DD)، فرمتهای عددی (۱.۲۳۴،۵۶ در مقابل ۱,۲۳۴.۵۶) و رمزگذاریهای کاراکتر (UTF-8، GBK، Shift_JIS، ISO 8859) مدیریت میکند.
خلاصه
تبدیل PDF به اکسل همیشه ساده نیست، اما روش مناسب برای نوع سند شما تفاوت قابل توجهی ایجاد میکند:
| روش | هزینه | OCR | بهترین برای |
|---|---|---|---|
| PDFSub | دوره آزمایشی رایگان ۷ روزه | بله | اسناد مالی، PDFهای بینالمللی، دادههای حساس به حریم خصوصی |
| Power Query | رایگان (با Excel 2019/365) | خیر | جداول ساده، کاربران ویندوز |
| Adobe Acrobat | ۲۰–۳۰ دلار در ماه | بله | PDFهای بومی، خروجی فرمها |
| Google Docs | رایگان | خیر | فقط جداول بسیار پایه |
| مبدلهای آنلاین | رایگان (محدود) | متغیر | غیر حساس، استفاده گاه به گاه |
| کتابخانههای پایتون | رایگان (متنباز) | خیر | توسعهدهندگان، پردازش دستهای |
اصل کلیدی: روش خود را با نوع سند و سطح حساسیت آن مطابقت دهید. جداول ساده از PDFهای دیجیتال با ابزارهای رایگان به خوبی تبدیل میشوند. اسناد مالی، PDFهای اسکن شده و اسناد بینالمللی از استخراج تخصصی بهره میبرند. و برای هر چیزی که حاوی دادههای حساس است، ابزارهایی را که فایلها را در مرورگر شما پردازش میکنند به جای آپلود در سرورهای شخص ثالث، اولویت دهید.