PDFSub
قیمت‌گذاریAPIMergeCompressEditE-Signصورت‌حساب‌های بانکیبلاگ
بازگشت به بلاگ
آموزشاکسلPDFتبدیل داده

چگونه PDF را به اکسل تبدیل کنیم: ۶ روش که واقعاً کار می‌کنند (۲۰۲۶)

۹ بهمن ۱۴۰۴
T
Todd Lahman
Founder, PDFSub

هر ساله بیش از ۲۹۰ میلیارد PDF ایجاد می‌شود، اما این فرمت هیچ درکی از سطرها، ستون‌ها یا سلول‌ها ندارد. در اینجا نحوه وارد کردن داده‌های خود به اکسل آورده شده است - از ابزارهای رایگان داخلی گرفته تا استخراج مبتنی بر هوش مصنوعی.


شما داده‌هایی در PDF دارید و به آن در اکسل نیاز دارید. شاید یک گزارش مالی، یک فاکتور از فروشنده، صورتحساب بانکی، یا جدولی از داده‌های محصول که از یک سیستم قدیمی صادر شده است. مشکل چیست؟ PDFها برای نمایش یکسان در هر صفحه طراحی شده‌اند - نه برای انتقال داده‌های ساختاریافته.

تخمین زده می‌شود که هر ساله بیش از ۲۹۰ میلیارد PDF ایجاد می‌شود که سالانه حدود ۱۲٪ رشد دارد. ادوبی گزارش می‌دهد که بیش از ۴۰۰ میلیارد PDF در سراسر جهان باز می‌شوند و بیش از ۱۰۰ میلیون کاربر روزانه Acrobat در سراسر جهان وجود دارد. PDFها به فرمت پیش‌فرض برای اشتراک‌گذاری اسناد مالی، قراردادهای قانونی، فرم‌های دولتی و گزارش‌های تجاری تبدیل شده‌اند. با این حال، شکاف بین "مشاهده PDF" و "کار با داده‌های آن" طبق نظرسنجی Parseur/QuestionPro در سال ۲۰۲۵، سالانه به طور متوسط ۲۸,۵۰۰ دلار به ازای هر کارمند برای شرکت‌های آمریکایی هزینه ورود دستی داده دارد - کارگران بیش از ۹ ساعت در هفته را صرف انتقال داده از اسناد به صفحات گسترده می‌کنند.

این راهنما تمام روش‌های موجود در سال ۲۰۲۶ را پوشش می‌دهد، از ابزارهای رایگان داخلی گرفته تا استخراج مبتنی بر هوش مصنوعی، با ارزیابی‌های صادقانه از آنچه کار می‌کند و آنچه کار نمی‌کند.

PDF to Excel conversion process showing a PDF document transforming into an Excel spreadsheet

چرا تبدیل PDF به اکسل اساساً دشوار است

قبل از پرداختن به روش‌ها، درک اینکه چرا این مشکل اصلاً وجود دارد مفید است. PDFها و صفحات گسترده اکسل از نظر معماری ناسازگار هستند - نه فقط متفاوت، بلکه با اهداف مخالف طراحی شده‌اند.

PDFها چگونه داده‌ها را ذخیره می‌کنند

یک صفحه PDF "حاوی" یک جدول نیست. بلکه شامل یک جریان محتوا است - دنباله‌ای از دستورات باینری مبتنی بر PostScript که کاراکترهای منفرد را در مختصات دقیق x,y روی یک بوم قرار می‌دهد. مشخصات PDF (ISO 32000-2:2020) رندر متن را از طریق دستوراتی مانند این تعریف می‌کند:

  • BT / ET: شروع و پایان یک شیء متنی

  • Tf: تنظیم فونت و اندازه فونت

  • Tm: تنظیم موقعیت مطلق با استفاده از ماتریس شش عددی

  • Tj / TJ: رندر یک رشته متنی (TJ شامل تنظیمات فاصله بین حروف برای هر کاراکتر است)

آنچه به چشم شما شبیه یک جدول است - سطرهای مرتب و ستون‌ها با اعداد تراز شده - در واقع صدها دستور موقعیت‌یابی متن منفرد است. هیچ تگ <table>، <tr> یا <td> وجود ندارد. هیچ شناسه سطر یا ستونی وجود ندارد. هیچ مرز سلولی وجود ندارد. مبدل باید ساختار جدول را با تجزیه و تحلیل روابط فضایی بین کاراکترها مهندسی معکوس کند - کدام کاراکترها به صورت عمودی تراز شده‌اند (نشان‌دهنده ستون)، کدام‌ها در یک خط افقی قرار دارند (نشان‌دهنده سطر) و شکاف‌ها مرزهای سلولی را نشان می‌دهند.

به همین دلیل است که تبدیل مستقیم اغلب نتایج نامرتبی ایجاد می‌کند: ستون‌ها به دلیل عدم تراز بودن جزئی کاراکترها ادغام می‌شوند، اعداد به دلیل اینکه نمادهای ارز جداگانه هستند به رشته‌های متنی تبدیل می‌شوند و توضیحات چند خطی به سطرهای شبح تقسیم می‌شوند.

PDFهای تگ‌دار در مقابل بدون تگ

مشخصات PDF شامل یک "درخت ساختار" اختیاری برای دسترسی است - PDFهای تگ‌دار که سرفصل‌ها، پاراگراف‌ها و سلول‌های جدول را برای صفحه‌خوان‌ها شناسایی می‌کنند. در صورت وجود، این فراداده استخراج را به طرز چشمگیری آسان‌تر می‌کند. واقعیت: اکثریت قریب به اتفاق PDFها بدون تگ هستند. اکثر تولیدکنندگان PDF مرحله تگ‌گذاری را نادیده می‌گیرند زیرا اختیاری است و پیچیدگی را افزایش می‌دهد. صورتحساب‌های بانکی، فاکتورها و گزارش‌های مالی تقریباً هرگز تگ نمی‌شوند.

رمزگذاری فونت و مشکل یونیکد

PDFها از دو مسیر جستجوی جداگانه برای هر کاراکتر استفاده می‌کنند: یکی برای طرح کلی گلیف (ظاهر آن) و دیگری برای نگاشت یونیکد (معنی آن). هنگامی که جدول ToUnicode CMap گم شده، ناقص یا عمداً درهم ریخته باشد - همانطور که با برخی از تولیدکنندگان PDF و ابزارهای امنیتی اتفاق می‌افتد - استخراج متن خروجی نامفهومی تولید می‌کند، حتی اگر PDF در صفحه عالی به نظر برسد. شما کاراکترهای صحیح را بصری می‌بینید، اما کپی-پیست یا استخراج برنامه‌نویسی شده، مزخرف تولید می‌کند.


روش ۱: PDFSub (مبتنی بر مرورگر، برای همه انواع PDF کار می‌کند)

PDFSub طیف کاملی از تبدیل‌های PDF به اکسل را مدیریت می‌کند - از جداول ساده تک صفحه‌ای گرفته تا اسناد مالی پیچیده چند صفحه‌ای با سلول‌های ادغام شده، توضیحات چند خطی و فرمت‌های عددی بین‌المللی.

نحوه کار

۱. PDF خود را آپلود کنید - هر فایل PDF را بکشید و رها کنید. PDFSub نوع و ساختار سند را به طور خودکار تشخیص می‌دهد. ۲. استخراج خودکار - جداول تشخیص داده شده و داده‌ها به سطرها و ستون‌های ساختاریافته استخراج می‌شوند. برای PDFهای دیجیتال، این کاملاً در مرورگر شما اتفاق می‌افتد - فایل هرگز دستگاه شما را ترک نمی‌کند. ۳. پیش‌نمایش را بررسی کنید - داده‌های استخراج شده را قبل از دانلود بررسی کنید. هدرهای ستون، انواع داده و تراز سطر در پیش‌نمایش قابل مشاهده هستند. ۴. دانلود - به صورت اکسل (.xlsx)، CSV یا فرمت‌های دیگر صادر کنید.

چرا کار می‌کند

حریم خصوصی اولویت مرورگر. PDFهای دیجیتال کاملاً در مرورگر شما با استفاده از جاوا اسکریپت سمت کلاینت پردازش می‌شوند. بدون آپلود فایل، بدون افشای سرور، بدون نگهداری داده. این برای اسناد مالی، سوابق مالیاتی و هر چیزی که حاوی اطلاعات حساس است اهمیت دارد. تحت GDPR، پردازش سمت کلاینت از طبقه‌بندی به عنوان پردازشگر داده اجتناب می‌کند زیرا هیچ داده شخصی جمع‌آوری یا منتقل نمی‌شود.

اسناد اسکن شده را مدیریت می‌کند. اگر PDF یک تصویر اسکن شده باشد (بدون متن قابل انتخاب)، PDFSub به OCR سمت سرور با پاکسازی خودکار بازمی‌گردد. رویکرد دو سطحی به این معنی است که هر دو PDF دیجیتال و اسکن شده نتایج قابل استفاده‌ای تولید می‌کنند.

تخصص در اسناد مالی. موتور استخراج فرمت‌های مالی را درک می‌کند: اعداد منفی در پرانتز، نمادهای ارز به عنوان عناصر جداگانه، تقسیم ستون بدهکار/بستانکار، اعتبارسنجی مانده جاری و فرمت‌های عددی بین‌المللی (۱.۲۳۴،۵۶ در مقابل ۱,۲۳۴.۵۶).

بیش از ۱۳۰ زبان. با PDFها به هر زبانی کار می‌کند - از جمله CJK (چینی، ژاپنی، کره‌ای) با رمزگذاری کاراکترهای پیچیده، عربی و عبری از راست به چپ، و زبان‌های اروپایی با کاراکترهای لهجه‌دار.


روش ۲: Microsoft Excel Power Query (فقط ویندوز)

Excel 2019 و Microsoft 365 (ویندوز) شامل ویژگی وارد کردن PDF داخلی از طریق Power Query هستند. این در دسترس‌ترین گزینه برای افرادی است که قبلاً اکسل را نصب کرده‌اند.

Power Query PDF import steps showing the Data menu and import dialog

نحوه انجام

۱. اکسل را باز کنید و به Data → Get Data → From File → From PDF بروید. ۲. فایل PDF خود را انتخاب کنید. ۳. Power Query یک پنل Navigator نمایش می‌دهد که جداول تشخیص داده شده را نشان می‌دهد - هر جدول به طور جداگانه لیست شده است و شما همچنین می‌توانید متن خام صفحه را مشاهده کنید. ۴. جدولی را که نیاز دارید انتخاب کنید و روی Transform Data کلیک کنید تا هدرهای ستون، انواع داده و قالب‌بندی را قبل از بارگذاری پاکسازی کنید - یا روی Load کلیک کنید تا مستقیماً آن را به صفحه گسترده خود بیاورید.

Power Query در چه مواردی خوب عمل می‌کند

  • جداول ساده و با ساختار خوب با مرزهای مشخص یا فاصله‌گذاری ثابت به طور قابل اعتماد تبدیل می‌شوند.
  • جداول چند صفحه‌ای اغلب به درستی تشخیص داده و ادغام می‌شوند اگر طرح‌بندی سازگار باشد.
  • واردات تکراری می‌توانند به عنوان اتصالات قابل به‌روزرسانی تنظیم شوند - مفید اگر به طور منظم فرمت گزارش یکسانی دریافت می‌کنید.
  • بدون هزینه فراتر از مجوز Microsoft 365 یا Excel 2019 موجود شما.

Power Query در چه مواردی مشکل دارد

  • روی مک موجود نیست. کانکتور PDF در اکسل برای مک کاملاً حذف شده است. مایکروسافت برنامه‌ای برای اضافه کردن آن اعلام نکرده است. راه حل مک: PDF را در Microsoft Word باز کنید (که آن را به متن قابل ویرایش تبدیل می‌کند)، سپس جداول را در اکسل کپی کنید.
  • قابلیت OCR ندارد. اگر PDF یک تصویر اسکن شده بدون لایه متن جاسازی شده باشد، Power Query چیزی نمی‌بیند - به متن قابل انتخاب نیاز دارد.
  • طرح‌بندی‌های پیچیده خراب می‌شوند. سلول‌های ادغام شده، هدرهای چند سطحی، جداول تودرتو و ساختارهای ستونی نامنظم نتایج درهم ریخته‌ای ایجاد می‌کنند. یک سطر "مجموع" با یک سلول توضیحات ادغام شده می‌تواند باعث عدم تراز شدن تمام سطرهای بعدی شود.
  • هدرها و فوترها تکرار می‌شوند. جداول چند صفحه‌ای که در آن‌ها سطر هدر در هر صفحه تکرار می‌شود، باعث می‌شود متن هدر با سطرهای داده مخلوط شود. شما باید این موارد را به صورت دستی فیلتر کنید.
  • قالب‌بندی ارز و عدد. Power Query ممکن است اعداد را به صورت رشته‌های متنی وارد کند، زمانی که نمادهای ارز، پرانتزهای منفی، یا جداکننده‌های هزارگان غیرآمریکایی وجود داشته باشند. پس از وارد کردن نیاز به تبدیل نوع دستی دارد.

Power Query برای کاربران مک (راه حل)

از ژانویه ۲۰۲۶، مایکروسافت Power Query را به اکسل برای وب اضافه کرده است، که به طور بالقوه دسترسی به وارد کردن PDF را گسترش می‌دهد. با این حال، کانکتور PDF به طور خاص ممکن است هنوز فقط مخصوص ویندوز باشد. قابل اعتمادترین راه حل مک همچنان این است:

۱. PDF را در Microsoft Word باز کنید (File → Open → PDF را انتخاب کنید). ۲. Word PDF را به یک سند قابل ویرایش تبدیل می‌کند (ناقص). ۳. جدول را از Word کپی کرده و در اکسل پیست کنید. ۴. از Text to Columns و تبدیل نوع داده برای پاکسازی استفاده کنید.


روش ۳: Adobe Acrobat Pro

Adobe Acrobat Pro می‌تواند PDFها را به فرمت اکسل صادر کند. به عنوان خالق فرمت PDF، ابزار ادوبی درک عمیقی از جزئیات داخلی PDF دارد - اما این همیشه به خروجی تمیز اکسل ترجمه نمی‌شود.

قیمت‌گذاری

  • Acrobat Pro: ۱۹.۹۹ دلار در ماه (تعهد سالانه) یا ۲۹.۹۹ دلار در ماه (بدون تعهد). مجموع: ۲۳۹.۸۸ تا ۳۵۹.۸۸ دلار در سال.
  • Acrobat Export PDF (فقط تبدیل): ۱.۹۹ دلار در ماه (۲۳.۸۸ دلار در سال). PDFها را به Word، اکسل یا RTF تبدیل می‌کند.
  • ابزار آنلاین رایگان: در adobe.com با تعداد محدودی تبدیل در روز موجود است. نیاز به ایجاد حساب کاربری دارد.
  • محدودیت فایل: حجم فایل ۱۰۰ مگابایت، حداکثر ۶۰۰ صفحه برای خدمات ابری.

نحوه انجام

۱. PDF خود را در Acrobat Pro باز کنید. ۲. به File → Export To → Spreadsheet → Microsoft Excel Workbook بروید. ۳. مکان ذخیره را انتخاب کنید. ۴. برای PDFهای اسکن شده، Acrobat قبل از صدور، OCR را به طور خودکار اعمال می‌کند.

Adobe در چه مواردی خوب عمل می‌کند

  • OCR خودکار برای اسناد اسکن شده - PDFهای مبتنی بر تصویر را تشخیص داده و پردازش می‌کند.
  • پشتیبانی از زبان‌های متعدد برای OCR (انگلیسی، آلمانی، اسپانیایی، فرانسوی، پرتغالی و غیره).
  • تشخیص فیلدهای فرم - فرم‌های PDF ساختاریافته با نام فیلد و مقادیر صادر می‌شوند.

Adobe در چه مواردی مشکل دارد

  • سلول‌های ادغام شده ستون‌های اضافی ایجاد می‌کنند. کاربران معمولاً گزارش می‌دهند که ستون‌ها و تب‌ها ستون‌های خالی زیادی در خروجی اکسل ایجاد می‌کنند - مشکلی که به خوبی در انجمن‌های پشتیبانی ادوبی مستند شده است.
  • متن چند خطی به سطرهای متعدد تقسیم می‌شود. یک سلول حاوی توضیحات پیچیده به دو یا سه سطر جداگانه تبدیل می‌شود و تراز کل جدول را مختل می‌کند.
  • برای استفاده گاه به گاه گران است. با ۲۴۰ تا ۳۶۰ دلار در سال، اگر فقط گاهی اوقات نیاز به تبدیل PDF دارید، بیش از حد لازم است. Export PDF مستقل با ۲۴ دلار در سال منطقی‌تر است اما مجموعه ابزار کامل Acrobat را ندارد.
  • پردازش سمت سرور. فایل‌ها برای تبدیل به ابر ادوبی آپلود می‌شوند، که ممکن است برای اسناد مالی حساس نگران‌کننده باشد.

روش ۴: Google Sheets (رایگان، اما محدود)

Google Sheets قابلیت وارد کردن PDF بومی ندارد. هیچ گزینه‌ای برای "Import PDF" در منوها وجود ندارد. با این حال، راه حل‌هایی وجود دارد.

روش Google Docs (رایگان)

۱. PDF را در Google Drive آپلود کنید. ۲. روی فایل راست کلیک کنید → Open with → Google Docs. ۳. Google PDF را به یک سند قابل ویرایش تبدیل می‌کند. ۴. جداول را از سند Google کپی کرده و در Google Sheets پیست کنید. ۵. قالب‌بندی، تراز ستون و انواع داده را پاکسازی کنید.

چه زمانی کار می‌کند: PDFهای ساده با جداول پایه و حداقل قالب‌بندی.

چه زمانی شکست می‌خورد: جداول پیچیده، طرح‌بندی‌های چند ستونی، اسناد اسکن شده. تبدیل اغلب ساختار جدول را خراب می‌کند - سلول‌ها ادغام می‌شوند، ستون‌ها جابجا می‌شوند و سطرها تقسیم می‌شوند.

جایگزین: ابتدا تبدیل کنید، سپس آپلود کنید

رویکرد قابل اعتمادتر این است که PDF را با استفاده از ابزار دیگری (PDFSub، Adobe و غیره) به اکسل یا CSV تبدیل کنید، سپس فایل حاصل را در Google Sheets آپلود کنید. این فرآیند دو مرحله‌ای از تجزیه و تحلیل ناسازگار PDF توسط Google جلوگیری می‌کند.


روش ۵: مبدل‌های آنلاین (سریع اما با مصالحه حریم خصوصی)

چندین ابزار آنلاین رایگان PDF را به اکسل تبدیل می‌کنند بدون اینکه نیاز به نصب نرم‌افزار داشته باشند.

گزینه‌های محبوب

ابزار سطح رایگان محدودیت فایل OCR
Smallpdf ۲ وظیفه در روز ۵ گیگابایت بله (پولی)
iLovePDF محدود ۱۰۰ مگابایت بله (پولی)
PDF2Go محدود متغیر پایه
Zamzar ۲ فایل در روز ۵۰ مگابایت خیر

مشکل حریم خصوصی

هنگام استفاده از هر مبدل آنلاین، فایل شما برای پردازش به سرورهای آنها آپلود می‌شود. ارائه‌دهنده خدمات در طول پردازش به سند دسترسی کامل دارد - محتوای متنی، فراداده، تصاویر جاسازی شده، همه چیز. حتی اگر ارائه‌دهنده ادعا کند که فایل‌ها را پس از پردازش حذف می‌کند، اسنپ‌شات‌های سطح سیستم، گزارش‌ها یا ادغام‌های شخص ثالث ممکن است قطعاتی را حفظ کنند.

برای صورتحساب‌های بانکی، اسناد مالیاتی، فاکتورها، سوابق پزشکی، یا هر سندی که حاوی داده‌های مالی، اطلاعات قابل شناسایی شخصی، یا داده‌های محرمانه تجاری است، پردازش سمت سرور ریسک قابل اندازه‌گیری ایجاد می‌کند. تحت GDPR، لحظه‌ای که یک سرویس سند شما را در سرور خود ذخیره می‌کند، آنها به یک پردازشگر داده با تعهدات انطباق تبدیل می‌شوند. از سال ۲۰۲۵، بیش از ۲,۲۴۵ جریمه GDPR به مبلغ تقریبی ۵.۶۵ میلیارد یورو ثبت شده است.

چه زمانی مبدل‌های آنلاین منطقی هستند: اسناد غیر حساس که در آن راحتی بر حریم خصوصی اولویت دارد. تبدیل‌های سریع یک‌باره داده‌های عمومی. اسنادی که راحت هستید به یک غریبه ایمیل کنید.

چه زمانی باید از آنها اجتناب کرد: صورتحساب‌های مالی، اظهارنامه‌های مالیاتی، سوابق پزشکی، اسناد قانونی، هر چیزی با شماره SSN یا شماره حساب، داده‌های اختصاصی کسب و کار.


روش ۶: کتابخانه‌های پایتون (برای توسعه‌دهندگان)

اگر شما یک توسعه‌دهنده یا تحلیلگر داده هستید که PDFها را به صورت برنامه‌نویسی پردازش می‌کنید، چندین کتابخانه متن‌باز پایتون استخراج جدول PDF را مدیریت می‌کنند.

مقایسه کتابخانه

کتابخانه مجوز OCR تشخیص جدول بهترین برای
pdfplumber MIT خیر دستی + قابل تنظیم جداول پیچیده، کنترل دقیق
Tabula-py MIT خیر تشخیص خودکار استخراج سریع جداول با مرز
Camelot MIT خیر حالت‌های Lattice + Stream جداول با مرز (حالت Lattice عالی است)
PyMuPDF AGPL خیر استخراج متن سریع پایه (مشکلات مجوز برای SaaS)

pdfplumber

بر پایه pdfminer.six ساخته شده است. دسترسی به هر کاراکتر، خط، مستطیل و منحنی در صفحه با مختصات دقیق را فراهم می‌کند. استخراج جدول از استراتژی‌های قابل تنظیم برای تشخیص مرزهای سلول استفاده می‌کند. اشکال‌زدایی بصری را ارائه می‌دهد - می‌توانید جداول تشخیص داده شده را روی تصاویر صفحه رسم کنید. برای موارد ساده نیاز به پیکربندی بیشتری نسبت به Tabula دارد اما جداول پیچیده را بهتر از هر کتابخانه متن‌باز دیگری مدیریت می‌کند.

Tabula-py

پوشش پایتون برای Tabula-java (نیاز به نصب JVM دارد). در تشخیص خودکار مرزهای جدول خوب است. مستقیماً به DataFrameهای pandas خروجی می‌دهد. وابستگی JVM استقرار را دشوارتر می‌کند و با هدرهای چند سطحی پیچیده مشکل دارد.

Camelot

دو حالت: حالت Lattice از پردازش تصویر (تبدیلات مورفولوژیکی OpenCV) برای تشخیص خطوط حاکم و یافتن مرزهای سلول از تقاطع خطوط استفاده می‌کند - برای جداول با مرز بسیار دقیق است. حالت Stream کاراکترها را بر اساس نزدیکی فاصله گروه‌بندی می‌کند تا ستون‌ها را استنباط کند. معیارهای دقت/کیفیت را برای هر جدول ارائه می‌دهد. حالت Lattice در معیارهای ICDAR امتیاز F1 بیش از ۰.۸۵ کسب می‌کند اما در جداول با خطوط نازک یا کم‌رنگ شکست می‌خورد.

چه زمانی از پایتون استفاده کنیم

  • پردازش دسته‌ای صدها یا هزاران سند مشابه
  • ساخت خطوط لوله خودکار برای گزارش‌های تکراری
  • زمانی که کنترل کاملی بر منطق استخراج و پردازش پس از آن نیاز دارید
  • زمانی که فرمت سند شناخته شده و سازگار است
  • پروژه‌های تحقیقاتی و روزنامه‌نگاری داده

چه زمانی از پایتون استفاده نکنیم

  • تبدیل‌های یک‌باره (زمان راه‌اندازی بیشتر از زمان صرفه‌جویی شده است)
  • کاربران غیر فنی
  • PDFهای اسکن شده (این کتابخانه‌ها شامل OCR نیستند - ابتدا به یک مرحله OCR جداگانه نیاز دارید)
  • زمانی که سرعت تحویل مهم‌تر از سفارشی‌سازی است

مشکلات رایج تبدیل و نحوه رفع آنها

Common PDF to Excel conversion issues showing misaligned columns and merged data

هر روش تبدیلی در برخی اسناد نتایج ناقصی ایجاد می‌کند. در اینجا رایج‌ترین شکست‌ها و راه‌حل‌های عملی آورده شده است.

اعداد به صورت متن وارد می‌شوند

مشکل: اکسل اعداد استخراج شده را به عنوان رشته‌های متنی در نظر می‌گیرد که باعث اختلال در SUM، AVERAGE و تمام محاسبات می‌شود. این اتفاق می‌افتد زیرا PDFها بین اعداد و متن تمایز قائل نمی‌شوند - یک نماد ارز، یک علامت منفی، یا یک جداکننده هزارگان کل سلول را به یک رشته متنی تبدیل می‌کند.

نحوه تشخیص: به دنبال یک مثلث سبز در گوشه بالا سمت چپ سلول‌ها باشید، یا SUM را روی یک ستون امتحان کنید - اگر ۰ برگرداند، مقادیر متن هستند.

راه‌حل‌ها:

  • ستون را انتخاب کنید → Data → Text to Columns → روی Finish کلیک کنید (این باعث می‌شود اکسل داده‌ها را دوباره تجزیه کند).
  • در یک ستون کمکی با ۱ ضرب کنید: از =A1*1 برای اجبار تبدیل عددی استفاده کنید.
  • از NUMBERVALUE استفاده کنید: =NUMBERVALUE(A1, ".", ",") فرمت اروپایی را مدیریت می‌کند.
  • برای حذف نمادهای ارز، Find and Replace را انجام دهید: "$" را با هیچ چیز جایگزین کنید، "(" را با "-" جایگزین کنید، ")" را با هیچ چیز جایگزین کنید.

اعداد منفی در پرانتز

مشکل: قرارداد حسابداری اعداد منفی را به صورت (۲۰۰.۰۰) به جای -۲۰۰.۰۰ نمایش می‌دهد. هر مبدل PDF رشته "(۲۰۰.۰۰)" را خروجی می‌دهد که اکسل آن را به عنوان متن در نظر می‌گیرد.

راه‌حل: Find and Replace را در دو مرحله انجام دهید: "(" را با "-" جایگزین کنید و ")" را با هیچ چیز جایگزین کنید. سپس ستون را به فرمت عدد تبدیل کنید. یا از این استفاده کنید: =IF(LEFT(A1,1)="(",-VALUE(SUBSTITUTE(SUBSTITUTE(A1,"(",""),")","")) ,VALUE(A1))

ستون‌ها با هم ادغام شده‌اند

مشکل: داده‌های چندین ستون در یک سلول قرار می‌گیرند - "۰۱/۱۵/۲۰۲۶ واریز مستقیم ۳,۵۰۰.۰۰" همه در ستون A.

راه‌حل: Data → Text to Columns با یک جداکننده (فاصله، کاما، تب، یا عرض ثابت). برای عرض ثابت، تقسیم ستون Power Query قابل اعتمادتر است زیرا می‌توانید نقاط شکست را به صورت بصری تنظیم کنید.

توضیحات چند خطی به سطرهای اضافی تقسیم می‌شوند

مشکل: یک تراکنش با توضیحات دو خطی به دو سطر در اکسل تبدیل می‌شود، که سطر دوم دارای فیلدهای تاریخ، مبلغ و مانده خالی است. این باعث اختلال در تراز سطر برای کل صفحه گسترده می‌شود.

راه‌حل: این سخت‌ترین مشکل برای رفع دستی است. به دنبال سطرهایی باشید که ستون تاریخ خالی است - اینها احتمالاً خطوط ادامه هستند. آنها را با فرمول کمکی به سطر بالا الحاق کنید، سپس سطرهای خالی را حذف کنید. به طور خاص برای صورتحساب‌های بانکی، یک مبدل تخصصی مانند مبدل صورتحساب بانکی PDFSub توضیحات چند خطی را با تشخیص الگوهای ادامه به طور خودکار مدیریت می‌کند.

هدرها و فوترها با داده‌ها مخلوط شده‌اند

مشکل: PDFهای چند صفحه‌ای هدرهای سطر، شماره صفحه، تاریخ‌ها و عناوین سند را در هر صفحه تکرار می‌کنند. مبدل‌های عمومی اینها را به عنوان سطرهای داده استخراج می‌کنند که با داده‌های واقعی مخلوط شده‌اند.

راه‌حل: پس از تبدیل، بر اساس ستون تاریخ مرتب یا فیلتر کنید. سطرهای هدر و فوترهای صفحه معمولاً تاریخ‌های معتبر ندارند و در بالا یا پایین مرتب می‌شوند. آنها را به صورت دستی حذف کنید. برای گزارش‌های تکراری با فرمت یکسان، یک ماکرو برای خودکارسازی پاکسازی ضبط کنید.

ابهام تاریخ (MM/DD در مقابل DD/MM)

مشکل: تاریخ ۰۳/۰۴/۲۰۲۶ می‌تواند ۴ مارس (فرمت آمریکایی) یا ۳ آوریل (فرمت اروپایی) باشد. هنگامی که تمام تاریخ‌ها در یک سند دارای مقادیر روز ۱۲ یا کمتر هستند، هیچ راه الگوریتمی برای تعیین فرمت صحیح وجود ندارد. مبدل‌ها معمولاً به طور پیش‌فرض MM/DD/YYYY را انتخاب می‌کنند اما این به طور خاموش تاریخ‌های اشتباهی را برای اسناد غیرآمریکایی تولید می‌کند.

راه‌حل: منطقه (locale) سند اصلی را بررسی کنید. اگر از منبع اروپایی، آسیایی یا آمریکای لاتین باشد، فرمت تقریباً مطمئناً DD/MM/YYYY است. در اکسل، ستون تاریخ را انتخاب کنید، راست کلیک کنید → Format Cells → Number → Date، و منطقه صحیح را انتخاب کنید. اگر تاریخ‌ها از قبل اشتباه تفسیر شده‌اند، ممکن است لازم باشد روز و ماه را با استفاده از =DATE(YEAR(A1), DAY(A1), MONTH(A1)) جابجا کنید.

داده‌های گمشده

مشکل: برخی از محتوا اصلاً در تبدیل ظاهر نمی‌شوند - معمولاً واترمارک‌ها، داده‌ها در تصاویر، یا متنی که از فونت‌هایی با نگاشت یونیکد گمشده استفاده می‌کند.

راه‌حل: PDF اصلی را باز کرده و سعی کنید متن گمشده را انتخاب کنید. اگر نمی‌توانید آن را انتخاب کنید، یک تصویر است - شما به قابلیت OCR نیاز دارید. اگر می‌توانید آن را انتخاب کنید اما به صورت کاراکترهای نامفهوم کپی می‌شود، PDF مشکل رمزگذاری فونت دارد. یک مبدل متفاوت را امتحان کنید - هر کدام نگاشت فونت را به طور متفاوتی مدیریت می‌کنند. PDFSub هر دو سناریو را مدیریت می‌کند: استخراج سمت مرورگر برای متن جاسازی شده و OCR سمت سرور برای محتوای اسکن شده.


کدام روش را برای نوع سند خود استفاده کنید

PDFهای مختلف به رویکردهای متفاوتی نیاز دارند. در اینجا یک ماتریس تصمیم‌گیری آورده شده است:

نوع سند بهترین روش چرا
صورتحساب‌های بانکی PDFSub یا مبدل تخصصی توضیحات چند خطی، اعتبارسنجی مانده جاری، ستون‌های بدهکار/بستانکار نیاز به استخراج آگاه از امور مالی دارند
فاکتورها PDFSub یا Adobe Acrobat طرح‌بندی‌های نامنظم، اقلام خطی با محاسبات مالیات، قالب‌بندی ارز
گزارش‌های مالی (۱۰-K، فصلی) Power Query یا pdfplumber جداول چند ستونی متراکم با اقلام خطی تودرتو؛ Power Query ساختارهای تکراری را به خوبی مدیریت می‌کند
جداول داده ساده Power Query (رایگان) جداول با مرز تمیز از گزارش‌های تجاری به طور قابل اعتماد تبدیل می‌شوند
اسناد کاغذی اسکن شده PDFSub یا Adobe Acrobat (OCR) باید قابلیت OCR داشته باشد - Power Query و کتابخانه‌های پایتون نمی‌توانند تصاویر را پردازش کنند
فرم‌های دولتی Adobe Acrobat یا PDFSub فیلدهای با موقعیت ثابت، ترکیبی از ساختار از پیش چاپ شده و داده‌های پر شده
گزارش‌های دسته‌ای تکراری پایتون (Tabula/Camelot) خط لوله قابل برنامه‌ریزی برای اسناد با فرمت یکسان که به طور منظم پردازش می‌شوند
اسناد بین‌المللی PDFSub ۱۳۰+ زبان، فرمت‌های عددی/تاریخی غیرآمریکایی، رمزگذاری کاراکتر CJK را مدیریت می‌کند

OCR در مقابل PDF بومی: چرا اهمیت دارد

بزرگترین عامل در دقت تبدیل این است که آیا PDF شما حاوی متن جاسازی شده است یا یک تصویر اسکن شده است.

PDFهای بومی (دیجیتال)

به صورت دیجیتالی توسط نرم‌افزار ایجاد شده‌اند - پورتال آنلاین بانک شما، خروجی‌های نرم‌افزار حسابداری، تبدیل‌های Word به PDF. هنگام مشاهده PDF می‌توانید متن را انتخاب و کپی کنید.

  • دقت: عملاً ۱۰۰٪ برای استخراج کاراکتر (بدون خطای تشخیص). شکست‌ها ناشی از مشکلات رمزگذاری فونت یا تفسیر نادرست طرح‌بندی است، نه تشخیص کاراکتر.
  • سرعت: سریع - نیازی به پردازش تصویر نیست.
  • حریم خصوصی: می‌تواند کاملاً در مرورگر پردازش شود (بدون نیاز به آپلود سرور).

PDFهای اسکن شده

تصاویر اسناد کاغذی که توسط اسکنرها، دوربین‌های تلفن یا فکس به PDF ایجاد شده‌اند. شما نمی‌توانید متن را انتخاب کنید - این یک تصویر است.

  • دقت: به شدت بسته به موتور و کیفیت اسکن متفاوت است.
موتور OCR دقت متن تایپ شده هزینه
ABBYY FineReader ۹۹.۳–۹۹.۸٪ از ۱۶ دلار در ماه
Google Cloud Vision ~۹۸٪ رایگان برای ۱۰۰۰ صفحه در ماه؛ پس از آن ۱.۵۰ دلار برای ۱۰۰۰ صفحه
AWS Textract ۹۵–۹۹٪ حدود ۱.۵۰ دلار برای ۱۰۰۰ صفحه (متن)؛ ۱۵ دلار برای ۱۰۰۰ صفحه (جداول)
Tesseract (متن‌باز) <۹۵٪ رایگان

مطالعه‌ای بر روی گزارش‌های مالی اسکن شده نشان داد که Tesseract (رایج‌ترین OCR متن‌باز) نرخ خطای کاراکتری ۴۶٪ ایجاد کرده است - به این معنی که تقریباً نیمی از کاراکترها اشتباه بودند. جایگزین‌های تجاری به طور چشمگیری بهتر هستند اما هزینه دارند.

نکته کلیدی: همیشه در صورت امکان از PDFهای دیجیتال بومی استفاده کنید. به جای اسکن کاغذ، صورتحساب‌ها را از وب‌سایت بانک خود دانلود کنید. اگر مجبور به اسکن هستید، از بالاترین وضوح ممکن (۳۰۰+ DPI) استفاده کنید و اطمینان حاصل کنید که صفحه صاف و با نور یکنواخت است.


استخراج PDF مبتنی بر هوش مصنوعی (۲۰۲۵–۲۰۲۶)

مدل‌های زبان بزرگ در حال تغییر چشم‌انداز استخراج PDF هستند. به جای تجزیه مبتنی بر قوانین، مدل‌های هوش مصنوعی می‌توانند ساختار سند را به صورت زمینه‌ای "درک" کنند.

کاری که هوش مصنوعی می‌تواند انجام دهد که قوانین نمی‌توانند

  • مدیریت طرح‌بندی‌های متنوع بدون الگوهای از پیش تعریف شده - هوش مصنوعی ساختار جدول را از زمینه بصری استنباط می‌کند.
  • تفسیر اصطلاحات خاص دامنه - درک اینکه "(۲۰۰.۰۰)" در حسابداری به معنای منفی ۲۰۰ دلار است، یا "Cr" به معنای اعتبار است.
  • پردازش اسناد چند زبانه بدون قوانین خاص زبان.
  • ادغام توضیحات چند خطی با درک اینکه یک خط ادامه متعلق به تراکنش قبلی است.

محدودیت‌های فعلی

  • خطر توهم (Hallucination) - هوش مصنوعی ممکن است داده‌های به ظاهر معتبر تولید کند که در سند اصلی وجود ندارند. همیشه خروجی را با منبع تأیید کنید.
  • محدودیت‌های توکن - PDFهای بسیار بزرگ (صدها صفحه) ممکن است از پنجره زمینه مدل فراتر روند و نیاز به صفحه‌بندی داشته باشند.
  • هزینه - استخراج هوش مصنوعی به طور قابل توجهی گران‌تر از استخراج مبتنی بر قوانین است.
  • تأخیر - پردازش بیشتر از استخراج متن مستقیم طول می‌کشد.

رویکرد ترکیبی

مؤثرترین ابزارهای مدرن از یک استراتژی ترکیبی استفاده می‌کنند: استخراج سریع مبتنی بر قوانین برای PDFهای دیجیتال تمیز (مدیریت ۸۰٪+ اسناد)، با پشتیبان‌گیری هوش مصنوعی برای طرح‌بندی‌های پیچیده، اسناد اسکن شده و موارد خاص. این به شما سرعت و دقت تجزیه قطعی را با انعطاف‌پذیری هوش مصنوعی در صورت نیاز می‌دهد.


نکاتی برای نتایج بهتر (صرف نظر از روش)

قبل از تبدیل

در صورت امکان از PDFهای بومی استفاده کنید. صورتحساب‌ها و گزارش‌ها را از سیستم منبع دانلود کنید به جای اسکن کاغذ. اگر می‌توانید کلمات منفرد را در نمایشگر PDF خود برجسته کنید، می‌توانید تشخیص دهید که PDF بومی است.

بررسی محافظت با رمز عبور. برخی بانک‌ها و مؤسسات PDFها را با رمز عبور محافظت می‌کنند. رمز عبور معمولاً ۴ رقم آخر شماره حساب شما، تاریخ تولد شما یا SSN شما است. قبل از تبدیل، محافظت را حذف کنید - اکثر روش‌ها روی PDFهای رمزگذاری شده به طور خاموش شکست می‌خورند.

ترتیب صفحات را بررسی کنید. اسناد چند صفحه‌ای گاهی اوقات صفحات خارج از ترتیب دارند، به خصوص PDFهای اسکن شده. مبدل صفحات را به صورت متوالی استخراج می‌کند، بنابراین صفحات خارج از ترتیب، داده‌های خارج از ترتیب تولید می‌کنند.

بعد از تبدیل

همیشه خروجی را تأیید کنید. هیچ مبدلی روی هر سندی ۱۰۰٪ دقیق نیست. بررسی کنید که:

  • تعداد سطرها با اصل مطابقت دارد (تعداد تراکنش‌ها در PDF در مقابل سطرها در اکسل را بشمارید).
  • مانده‌های آغازین و پایانی مطابقت دارند (برای اسناد مالی).
  • ۳ تا ۵ مقدار فردی را با منبع بررسی کنید.
  • هدرهای ستون به درستی شناسایی شده‌اند.
  • تاریخ‌ها در فرمت مورد انتظار هستند.

این کار ۶۰ ثانیه طول می‌کشد و خطاهایی را که می‌تواند ساعت‌ها هزینه داشته باشد یا گزارش‌های مالی نادرست تولید کند، شناسایی می‌کند.

هم فایل اصلی و هم فایل تبدیل شده را ذخیره کنید. PDF اصلی را در کنار خروجی اکسل خود نگه دارید. اگر هر مقداری مورد سوال قرار گرفت، می‌توانید با منبع تأیید کنید. برای اسناد مالی، بسیاری از مقررات (قانون مالیات، الزامات حسابرسی) نگهداری سوابق اصلی را الزامی می‌کنند.


سوالات متداول

آیا می‌توانم PDF محافظت شده با رمز عبور را به اکسل تبدیل کنم؟

شما باید ابتدا محافظت با رمز عبور را حذف کنید. اگر رمز عبور را می‌دانید، PDF را در Adobe Reader یا هر نمایشگر PDF باز کنید، آن را به یک PDF جدید بدون محافظت چاپ کنید، سپس تبدیل کنید. رمزهای عبور صورتحساب بانکی معمولاً ۴ رقم آخر شماره حساب شما هستند. اگر رمز عبور را نمی‌دانید، با کسی که سند را ایجاد کرده تماس بگیرید.

چرا اعداد من پس از تبدیل به صورت متن در اکسل نمایش داده می‌شوند؟

PDFها بین اعداد و متن تمایز قائل نمی‌شوند - همه آنها کاراکترهایی هستند که روی یک صفحه قرار گرفته‌اند. هنگامی که اکسل داده‌ها را وارد می‌کند، نمادهای ارز ($, EUR)، پرانتزهای منفی مانند (۲۰۰)، جداکننده‌های هزارگان، یا علائم اعشار غیر استاندارد باعث می‌شوند اکسل به طور پیش‌فرض فرمت متن را انتخاب کند. با انتخاب ستون → Data → Text to Columns → Finish رفع کنید، یا برای اجبار تبدیل عددی، سلول‌ها را در ۱ ضرب کنید.

آیا راهی برای خودکارسازی تبدیل PDF به اکسل وجود دارد؟

بله. اتصالات Power Query می‌توانند به طور خودکار به‌روزرسانی شوند. کتابخانه‌های پایتون (Tabula-py، pdfplumber، Camelot) خطوط لوله کاملاً خودکار را برای اسناد تکراری فعال می‌کنند. PDFSub از آپلودهای دسته‌ای برای پردازش چندین فایل پشتیبانی می‌کند. برای اتوماسیون در مقیاس سازمانی، APIهای Adobe، AWS Textract و Google Document AI PDFها را به صورت برنامه‌نویسی پردازش می‌کنند.

کدام روش دقیق‌ترین نتایج را می‌دهد؟

این کاملاً به سند شما بستگی دارد. برای PDFهای بومی تمیز با جداول با مرز ساده، Power Query اغلب به خوبی کار می‌کند و رایگان است. برای اسناد مالی (صورتحساب‌های بانکی، فاکتورها، گزارش‌ها)، ابزارهای تخصصی مانند PDFSub که فرمت‌های مالی را درک می‌کنند، نتایج به طور قابل توجهی بهتری تولید می‌کنند. برای اسناد اسکن شده، شما به قابلیت OCR نیاز دارید - Power Query و کتابخانه‌های پایتون اصلاً نمی‌توانند تصاویر را پردازش کنند.

آیا می‌توانم چندین PDF را همزمان تبدیل کنم؟

برخی از ابزارهای آنلاین از تبدیل دسته‌ای پشتیبانی می‌کنند. PDFSub امکان آپلود چندین فایل را که به صورت متوالی پردازش می‌شوند، فراهم می‌کند. Power Query می‌تواند با مقداری تنظیمات از چندین فایل وارد کند. برای پردازش دسته‌ای منظم، اسکریپت‌های پایتون بیشترین انعطاف‌پذیری را برای حجم‌های بالا فراهم می‌کنند.

آیا نسخه رایگان اکسل از وارد کردن PDF پشتیبانی می‌کند؟

وارد کردن PDF Power Query نیاز به Excel 2019 یا Microsoft 365 (فقط ویندوز) دارد. نسخه وب رایگان اکسل و اکسل برای مک شامل کانکتور PDF نمی‌شوند. اگر به گزینه رایگان بدون Excel 2019 نیاز دارید، از مبدل مبتنی بر مرورگر PDFSub یا یک ابزار آنلاین استفاده کنید.

آیا می‌توانم جدول PDF را به Google Sheets تبدیل کنم؟

Google Sheets قابلیت وارد کردن PDF بومی ندارد. راه حل این است که ابتدا PDF را با استفاده از ابزار دیگری به اکسل یا CSV تبدیل کنید، سپس فایل را در Google Sheets آپلود کنید. به طور جایگزین، PDF را در Google Drive آپلود کرده و با Google Docs باز کنید - اما این روش اغلب ساختار جدول را خراب می‌کند و برای داده‌های چند ستونی قابل اعتماد نیست.

چگونه با PDFهایی که جداول به زبان‌های مختلف دارند برخورد کنم؟

بیشتر مبدل‌ها فرمت انگلیسی را فرض می‌کنند (تاریخ‌های MM/DD/YYYY، جداکننده‌های هزارگان کاما). برای اسناد به زبان‌های دیگر، شما به یک مبدل نیاز دارید که از فرمت‌های بین‌المللی پشتیبانی کند. PDFSub بیش از ۱۳۰ زبان را با تشخیص خودکار فرمت‌های تاریخ (DD/MM/YYYY، YYYY-MM-DD)، فرمت‌های عددی (۱.۲۳۴،۵۶ در مقابل ۱,۲۳۴.۵۶) و رمزگذاری‌های کاراکتر (UTF-8، GBK، Shift_JIS، ISO 8859) مدیریت می‌کند.


خلاصه

تبدیل PDF به اکسل همیشه ساده نیست، اما روش مناسب برای نوع سند شما تفاوت قابل توجهی ایجاد می‌کند:

روش هزینه OCR بهترین برای
PDFSub دوره آزمایشی رایگان ۷ روزه بله اسناد مالی، PDFهای بین‌المللی، داده‌های حساس به حریم خصوصی
Power Query رایگان (با Excel 2019/365) خیر جداول ساده، کاربران ویندوز
Adobe Acrobat ۲۰–۳۰ دلار در ماه بله PDFهای بومی، خروجی فرم‌ها
Google Docs رایگان خیر فقط جداول بسیار پایه
مبدل‌های آنلاین رایگان (محدود) متغیر غیر حساس، استفاده گاه به گاه
کتابخانه‌های پایتون رایگان (متن‌باز) خیر توسعه‌دهندگان، پردازش دسته‌ای

اصل کلیدی: روش خود را با نوع سند و سطح حساسیت آن مطابقت دهید. جداول ساده از PDFهای دیجیتال با ابزارهای رایگان به خوبی تبدیل می‌شوند. اسناد مالی، PDFهای اسکن شده و اسناد بین‌المللی از استخراج تخصصی بهره می‌برند. و برای هر چیزی که حاوی داده‌های حساس است، ابزارهایی را که فایل‌ها را در مرورگر شما پردازش می‌کنند به جای آپلود در سرورهای شخص ثالث، اولویت دهید.

بازگشت به بلاگ

سوال دارید؟ با ما تماس بگیرید

PDFSub

تمام ابزارهای PDF و اسناد مورد نیاز شما در یک مکان. سریع، امن و خصوصی.

مطابق با GDPRمطابق با CCPAآماده برای SOC 2
با قدرت PDFSub Engine

محصول

  • همه ابزارها
  • ویژگی‌ها
  • صورت‌حساب‌های بانکی
  • API
  • قیمت‌گذاری
  • سوالات متداول
  • بلاگ

پشتیبانی

  • درباره ما
  • مرکز راهنمایی
  • تماس با ما
  • سوالات متداول

حقوقی

  • سیاست حفظ حریم خصوصی
  • شرایط استفاده
  • سیاست کوکی

© 2026 تمامی حقوق برای PDFSub محفوظ است.

ساخته شده در آمریکا با برای مردم سراسر جهان