استخراج خودکار شاخص‌های کلیدی از گزارش‌های سالانه مالیاتی و عملکردی شرکت‌ها (Annual Reports) به کمک هوش مصنوعی و ابزارهای پیشرفته PDFSub Engine برای تحلیل دقیق داده‌ها و صرفه‌جویی در زمان تحلیلگران مالی و سرمایه‌گذاری. این راهنما به شما کمک می‌کند تا بدون کپی‌پیست دستی، داده‌های مالی را از فایل‌های PDF حجیم استخراج کنید. استخراج داده‌های مالی از گزارش‌های سالانه، درآمد خالص، سود هر سهم (EPS)، جریان نقدی و سایر شاخص‌های کلیدی بدون نیاز به کپی‌پیست دستی از جداول به اکسل. راهنمای عملی برای تحلیلگران مالی و سرمایه‌گذاری جهت خودکارسازی فرآیند استخراج داده‌ها از گزارش‌های سالانه شرکت‌ها با استفاده از هوش مصنوعی و PDFSub Engine. این راهنما به شما نشان می‌دهد که چگونه شاخص‌های کلیدی مالی را از گزارش‌های سالانه استخراج کنید. شما به تازگی یک گزارش سالانه ۲۴۷ صفحه‌ای را دانلود کرده‌اید. در جایی از این گزارش، دوازده عدد حیاتی وجود دارد که واقعاً به آن‌ها نیاز دارید: درآمد، سود خالص، سود هر سهم، مجموع دارایی‌ها، مجموع بدهی‌ها، جریان نقدی عملیاتی، EBITDA و چندین حاشیه سود. بقیه گزارش شامل متن‌های کلیشه‌ای، افشای قانونی و عکس‌های تبلیغاتی از کارمندان خندان است. پیدا کردن این اعداد بخش دشوار کار نیست. آن‌ها در بخش صورت‌های مالی قرار دارند که معمولاً از صفحه ۸۰ شروع می‌شود. بخش دشوار، خارج کردن آن‌ها از فایل PDF و انتقال به مدل مالی شما در قالبی است که بتوانید با آن کار کنید. و سپس تکرار این کار برای بیست شرکت بعدی در لیست بررسی شما. و سپس تکرار دوباره برای پنج سال گذشته هر شرکت جهت ایجاد یک سری زمانی. این مشکل استخراج گزارش سالانه است و هر ساله هزاران ساعت وقت تیم‌های تحقیقات سهام، تحلیلگران اعتباری و مدیران پورتفوی را هدر می‌دهد. پیش‌بینی می‌شود بازار جهانی نرم‌افزارهای استخراج داده تا سال ۲۰۲۹ به ۳.۶۴ میلیارد دلار برسد و سالانه ۱۵.۹ درصد رشد کند که عمدتاً ناشی از نیاز متخصصان مالی است که از کپی کردن اعداد از جداول PDF به اکسل خسته شده‌اند. این راهنما به بررسی دلایل دشواری استخراج گزارش‌های سالانه، شاخص‌های هدف و نحوه خودکارسازی این فرآیند می‌پردازد تا بتوانید به جای ورود داده، وقت خود را صرف تحلیل کنید. ![Extract key metrics from annual reports automatically — revenue, net income, EPS, cash flow, and more](/images/blog/extract-data-annual-report-hero.svg) ## چالش استخراج گزارش‌های سالانه گزارش‌های سالانه مانند سایر اسناد PDF نیستند. یک صورت‌حساب بانکی ساختار قابل پیش‌بینی دارد: تاریخ، شرح، مبلغ، مانده، که برای هر تراکنش تکرار می‌شود. یک فاکتور دارای سربرگ، اقلام و مجموع است. این اسناد از الگوهایی پیروی می‌کنند که ابزارهای استخراج می‌توانند به سرعت یاد بگیرند. گزارش‌های سالانه متفاوت هستند. آن‌ها اسناد طولانی، پیچیده و از نظر ساختاری ناسازگار هستند که ترکیبی از موارد زیر را شامل می‌شوند: - متن‌های روایی در نامه مدیرعامل، بحث و تحلیل مدیریت (MD&A) و بخش‌های عوامل ریسک - جداول مالی متراکم در صورت سود و زیان، ترازنامه و صورت جریان وجوه نقد - پانویس‌ها و یادداشت‌ها که اعداد موجود در جداول را تعیین، تعدیل یا بازنویسی می‌کنند - نمودارها و گراف‌ها که روندها را بصری می‌کنند اما حاوی داده‌های قابل خواندن توسط ماشین نیستند - جداول گزارش‌دهی بخش‌ها با تفکیک بر اساس جغرافیا، واحد تجاری یا خط تولید - مقایسه‌های چندساله که دو یا سه سال داده را در کنار هم ارائه می‌دهند یک گزارش 10-K معمولی بین ۱۰۰ تا ۳۰۰ صفحه است. صورت‌های مالی ممکن است ۳۰ تا ۴۰ صفحه را اشغال کنند، اما یادداشت‌های همراه صورت‌های مالی - که جزئیات واقعی در آنجاست - می‌تواند ۵۰ یا ۶۰ صفحه دیگر باشد. بقیه شامل زبان حقوقی، عوامل ریسک، جداول جبران خدمات اجرایی و افشای حاکمیت شرکتی است. ### چرا کپی-پیست استاندارد شکست می‌خورد اگر تا به حال سعی کرده‌اید جدولی را در یک گزارش سالانه PDF انتخاب کرده و در اکسل کپی کنید، نتیجه را می‌دانید: ستون‌ها ادغام می‌شوند، اعداد به ردیف‌های اشتباه می‌روند و نشانگرهای پانویس در داده‌های شما جای می‌گیرند. فایل‌های PDF حاوی جدول نیستند. آن‌ها حاوی کاراکترهای فردی هستند که در مختصات دقیق x,y روی یک بوم قرار گرفته‌اند. آنچه به عنوان یک جدول تمیز به نظر می‌رسد، در واقع صدها دستور موقعیت‌دهی متن جداگانه بدون جداکننده‌های ردیف، مرزهای ستون یا ارجاعات سلولی است. کپی-پیست این روابط فضایی را کاملاً نادیده می‌گیرد. گزارش‌های سالانه این مشکل را بدتر می‌کنند زیرا سربرگ‌های ردیف چندخطی مانند "سود خالص قابل انتساب به سهامداران عادی" باید یک ردیف واحد باشند. منفی‌های داخل پرانتز مانند $(1,234) سه عنصر موقعیت‌دار جداگانه هستند که به سلول‌های جداگانه تقسیم می‌شوند. بالانویس‌های پانویس اعداد را خراب می‌کنند و ستون‌های مقایسه‌ای اغلب ادغام می‌شوند. ### کابوس استخراج دستی رویکرد سنتی استفاده از نیروی خام است. تحلیلگر گزارش سالانه را باز می‌کند، به صورت سود و زیان می‌رود و هر عدد را به صورت دستی در یک صفحه گسترده تایپ می‌کند. سپس ترازنامه. سپس صورت جریان وجوه نقد. سپس داده‌های بخش‌ها. سپس پانویس‌ها. برای یک شرکت، این کار ۳۰ تا ۶۰ دقیقه طول می‌کشد. اما تحلیل مالی به ندرت شامل یک شرکت است. تحلیلگران تحقیقات سهام معمولاً ۱۰ تا ۲۵ شرکت را پوشش می‌دهند. تحلیلگران اعتباری ممکن است به داده‌های ۵۰ وام‌گیرنده یا بیشتر نیاز داشته باشند. بیست شرکت با ۴۵ دقیقه برای هر کدام، ۱۵ ساعت ورود داده در هر دوره گزارش‌دهی است - ۶۰ ساعت در سال فقط برای کپی کردن اعداد از PDF. نرخ خطا این وضعیت را بدتر می‌کند. ورود دستی داده‌ها دارای نرخ خطای مستند ۱ تا ۴ درصد است. یک رقم درآمد ۴,۵۲۱ میلیون دلاری که به اشتباه ۴,۵۱۲ میلیون دلار تایپ شود، نرخ رشد، محاسبات حاشیه سود، ضریب EV/Revenue و تمام پیش‌بینی‌های بعدی را که به آن وابسته است، مختل می‌کند. ## آنچه تحلیلگران واقعاً استخراج می‌کنند هر عددی در گزارش سالانه اهمیت یکسانی ندارد. متخصصان مالی معمولاً بسته به مورد استفاده خود، مجموعه خاصی از شاخص‌ها را هدف قرار می‌دهند. در اینجا تمرکز اکثر جریان‌های کاری استخراج آمده است. ### شاخص‌های صورت سود و زیان | شاخص | چرا اهمیت دارد | کجا پیدا کنیم | |--------|---------------|-----------------| | درآمد / فروش خالص | رشد سطح بالا، نقطه شروع اکثر مدل‌های ارزش‌گذاری | صورت سود و زیان، خط اول | | بهای تمام شده کالای فروش رفته (COGS) | محاسبه حاشیه سود ناخالص، کارایی زنجیره تأمین | صورت سود و زیان، زیر درآمد | | سود ناخالص | درآمد منهای COGS، اندازه‌گیری سودآوری تولید | صورت سود و زیان، محاسبه شده | | سود عملیاتی (EBIT) | سودآوری کسب‌وکار اصلی قبل از بهره و مالیات | صورت سود و زیان، بخش میانی | | EBITDA | سودآوری مبتنی بر نقدینگی، استفاده شده در ضرایب EV/EBITDA | اغلب در MD&A یا محاسبه شده از صورت سود و زیان + استهلاک از جریان نقدی | | سود خالص | سود نهایی پس از تمام هزینه‌ها، مالیات و بهره | صورت سود و زیان، نزدیک به پایین | | سود هر سهم (اصلی و رقیق‌شده) | سودآوری به ازای هر سهم، محرک نسبت‌های P/E | صورت سود و زیان، خطوط آخر | ### شاخص‌های ترازنامه | شاخص | چرا اهمیت دارد | کجا پیدا کنیم | |--------|---------------|-----------------| | مجموع دارایی‌ها | اندازه شرکت، محاسبات اهرمی | ترازنامه، مجموع بخش دارایی‌ها | | مجموع بدهی‌ها | بار بدهی، ارزیابی توانایی پرداخت | ترازنامه، مجموع بخش بدهی‌ها | | مجموع حقوق صاحبان سهام | ارزش خالص، محاسبات ارزش دفتری | ترازنامه، مجموع بخش حقوق صاحبان سهام | | مجموع بدهی (کوتاه‌مدت + بلندمدت) | نسبت‌های اهرمی، پوشش بهره | ترازنامه + پانویس‌ها | | نقد و معادل‌های نقد | نقدینگی، محاسبات بدهی خالص | ترازنامه، اولین دارایی جاری | | دارایی‌های جاری / بدهی‌های جاری | سرمایه در گردش، نسبت جاری | مجموع بخش‌های ترازنامه | ### شاخص‌های صورت جریان وجوه نقد | شاخص | چرا اهمیت دارد | کجا پیدا کنیم | |--------|---------------|-----------------| | جریان نقدی عملیاتی | نقدینگی تولید شده توسط کسب‌وکار اصلی | صورت جریان وجوه نقد، بخش اول | | هزینه‌های سرمایه‌ای (Capex) | سرمایه‌گذاری در رشد، محاسبه جریان نقدی آزاد | جریان نقدی از فعالیت‌های سرمایه‌گذاری | | جریان نقدی آزاد | نقدینگی موجود پس از حفظ عملیات | جریان نقدی عملیاتی منهای Capex | | سود سهام پرداختی | بازده سهامداران، نسبت پرداخت | جریان نقدی از فعالیت‌های تأمین مالی | ### نسبت‌ها و حاشیه‌های مشتق شده پس از استخراج شاخص‌های خام، تحلیلگران موارد زیر را محاسبه می‌کنند: - حاشیه سود ناخالص: سود ناخالص / درآمد - حاشیه سود عملیاتی: سود عملیاتی / درآمد - حاشیه سود خالص: سود خالص / درآمد - بازده حقوق صاحبان سهام (ROE): سود خالص / حقوق صاحبان سهام - بازده دارایی‌ها (ROA): سود خالص / مجموع دارایی‌ها - نسبت بدهی به حقوق صاحبان سهام: مجموع بدهی / مجموع حقوق صاحبان سهام - نسبت جاری: دارایی‌های جاری / بدهی‌های جاری - پوشش بهره: EBIT / هزینه بهره این نسبت‌ها نیازمند استخراج دقیق و تمیز اجزای زیربنایی هستند. یک عدد اشتباه کل نسبت را خراب می‌کند. ## داده‌های ساختاریافته مدفون در اسناد غیرساختاریافته چالش فنی اصلی این است که داده‌های ساختاریافته - اعداد با معانی و روابط دقیق - در اسناد غیرساختاریافته تعبیه شده‌اند. صورت مالی یک جدول است، اما در داخل یک فایل PDF قرار دارد که شامل پاراگراف‌های روایی، سلب مسئولیت‌های حقوقی، تصاویر و سربرگ‌های صفحه نیز هست. این موضوع چندین مشکل استخراج فراتر از تشخیص ساده جدول ایجاد می‌کند: - اعداد وابسته به متن. عدد "۱۲,۳۴۵" بسته به جایی که ظاهر می‌شود معانی متفاوتی دارد. در خط درآمد، به معنای ۱۲,۳۴۵ میلیون دلار است. در جبران خدمات اجرایی، ممکن است به معنای ۱۲,۳۴۵ دلار واقعی باشد. استخراج مؤثر مستلزم درک این است که یک عدد به کدام بخش تعلق دارد و سربرگ‌های ستون و واحد گزارش‌دهی چه می‌گویند. - جداول تو در تو و گسترده. جداول گزارش سالانه از سلول‌های ادغام شده برای سربرگ‌های بخش، اقلام فرورفته زیر دسته‌بندی‌های اصلی، زیرمجموعه‌های پراکنده، ستون‌های مقایسه‌ای چندساله و ردیف‌های جداکننده خالی استفاده می‌کنند. یک ابزار استخراج ساده‌لوحانه هر عنصر بصری را به عنوان یک نقطه داده در نظر می‌گیرد که منجر به صفحات گسترده نامرتب پر از ردیف‌های خیالی و مقادیر ادغام شده می‌شود. - ارجاعات پانویس. درآمد "12,345^(1)" هنگام استخراج بدون درک معنایی به "12345 1" تبدیل می‌شود. بالانویس یک کاراکتر موقعیت‌دار جداگانه در PDF است. ابزارهای استخراج یا آن را حذف می‌کنند (از دست دادن ارجاع) یا آن را شامل می‌شوند (خراب کردن عدد). ## هوش مصنوعی چگونه گزارش‌های سالانه را مدیریت می‌کند استخراج مبتنی بر هوش مصنوعی رویکردی کاملاً متفاوت دارد. به جای تکیه صرف بر تحلیل فضایی - تشخیص ردیف‌ها و ستون‌ها بر اساس موقعیت کاراکترها - آگاهی فضایی را با درک معنایی ترکیب می‌کند. تشخیص جدول با آگاهی از طرح‌بندی فراتر از جستجوی خطوط شبکه است (بسیاری از جداول مالی هیچ مرز قابل مشاهده‌ای ندارند). سیستم الگوهای فاصله‌گذاری کاراکترها، تراز نقطه اعشار، تکرار قالب‌بندی و ردیف‌های سربرگ را تحلیل می‌کند تا مرزهای جدول را تشخیص دهد. این سیستم می‌تواند یک پاراگراف روایی که حاوی اعداد است را از یک جدول داده‌های مالی با ستون‌های تراز شده تشخیص دهد. تشخیص فیلد معنایی مشخص می‌کند که هر ستون و ردیف چه چیزی را نشان می‌دهد. این سیستم تشخیص می‌دهد که "درآمد"، "فروش خالص"، "درآمد کل" و "درآمد خالص" همگی به یک مفهوم اشاره دارند. این سیستم می‌فهمد که "(1,234)" در یک زمینه مالی به معنای منفی ۱,۲۳۴ است، نه یک ارجاع پانویس. این موضوع مهم است زیرا قراردادهای نام‌گذاری بین شرکت‌ها بسیار متفاوت است - یکی از "حقوق صاحبان سهام" استفاده می‌کند در حالی که دیگری از "سهامداران" یا "مجموع حقوق صاحبان سهام" استفاده می‌کند. ادامه‌های جدول در چند صفحه با تشخیص الگوهای سربرگ تکراری و تراز ستون ثابت در سراسر شکست‌های صفحه مدیریت می‌شوند. صورت سود و زیان ممکن است در صفحه ۸۴ شروع شود و در صفحه ۸۵ ادامه یابد، و استخراج هوش مصنوعی داده‌ها را به یک جدول منسجم واحد تبدیل می‌کند. ## بخش‌های کلیدی برای هدف‌گیری در گزارش‌های سالانه همه بخش‌های گزارش سالانه حاوی داده‌های مالی قابل استخراج نیستند. دانستن اینکه کجا تمرکز کنید باعث صرفه‌جویی در زمان و بهبود دقت می‌شود. صورت‌های مالی هدف اصلی استخراج هستند: صورت‌های تلفیقی سود و زیان، ترازنامه‌ها، جریان‌های نقدی و حقوق صاحبان سهام. این چهار صورت حاوی اعداد خامی هستند که مدل‌های مالی را هدایت می‌کنند. بحث و تحلیل مدیریت (MD&A) جایی است که مدیریت اعداد را توضیح می‌دهد. این بخش اغلب حاوی شاخص‌های غیر GAAP مانند EBITDA تعدیل شده و جریان نقدی آزاد، تفکیک‌های سطح بخش و راهنمایی‌های آینده‌نگر است - که همگی در پاراگراف‌های روایی تعبیه شده‌اند نه جداول. استخراج هوش مصنوعی می‌تواند این ارقام را شناسایی و استخراج کند، اما آن‌ها به درک متنی بیشتری نسبت به داده‌های جدول نیاز دارند. گزارش‌دهی بخش‌ها نتایج را بر اساس واحد تجاری، جغرافیا یا خط تولید تفکیک می‌کند. این داده‌ها برای ارزش‌گذاری مجموع قطعات ضروری هستند. جداول بخش‌ها اغلب دارای ساختارهای غیر استاندارد با نام‌های بخش به عنوان سربرگ ستون و حذف‌های بین‌بخشی هستند که ردیف‌های منفی اضافه می‌کنند. یادداشت‌های صورت‌های مالی حاوی دقیق‌ترین داده‌ها هستند: جداول بدهی با تاریخ سررسید، تفکیک درآمد بر اساس محصول یا جغرافیا، تعهدات اجاره، جزئیات بازنشستگی، تطبیق نرخ مالیات و تفکیک سرقفلی بر اساس بخش. استخراج این موارد سخت‌ترین کار است زیرا متن روایی را با جداول کوچک تعبیه شده ترکیب می‌کنند. عوامل ریسک عمدتاً کیفی هستند، اما گاهی اوقات حاوی افشای کمی هستند: درصدهای ریسک تمرکز، ذخایر دعاوی حقوقی یا الزامات سرمایه نظارتی که در پاراگراف‌های زبان حقوقی مدفون شده‌اند.

۱۱ اسفند ۱۴۰۴

PDFSub Team

استخراج داده‌های گزارش سالانه با PDFSub

PDFSub دو ابزار را که به طور خاص برای استخراج گزارش سالانه مناسب هستند ارائه می‌دهد: ابزار استخراج جداول و تحلیلگر گزارش مالی.

استخراج جداول: کشیدن صورت‌های مالی به صفحات گسترده

ابزار استخراج جداول داده‌های جدولی را از اسناد PDF شناسایی و استخراج می‌کند. برای گزارش‌های سالانه، این به معنی موارد زیر است:

آپلود PDF گزارش سالانه — فایل را بکشید و رها کنید. برای PDFهای دیجیتالی که از SEC EDGAR یا صفحات روابط سرمایه‌گذار شرکت دانلود شده‌اند، پردازش اولیه در مرورگر شما انجام می‌شود. فایل تا زمانی که پردازش هوش مصنوعی سمت سرور مورد نیاز نباشد، دستگاه شما را ترک نمی‌کند.
تشخیص خودکار جدول — ابزار تمام مناطق جدول را در سند شناسایی می‌کند، از جمله جداول چند صفحه‌ای که از بین خطوط صفحه عبور می‌کنند.
بررسی جداول استخراج شده — هر جدول شناسایی شده با داده‌های استخراج شده نمایش داده می‌شود. می‌توانید تأیید کنید که ستون‌ها به درستی هم‌تراز شده‌اند و مقادیر دقیق هستند.
خروجی به اکسل یا CSV — جداول استخراج شده را در فرمت‌های آماده برای مدل‌سازی مالی دانلود کنید.

این رویکرد برای صورت‌های مالی اصلی (صورت سود و زیان، ترازنامه، جریان وجوه نقد) که داده‌ها در قالب جدولی واضح ارائه شده‌اند، به خوبی کار می‌کند.

تحلیلگر گزارش مالی: استخراج معیارهای مبتنی بر هوش مصنوعی

تحلیلگر گزارش مالی فراتر از استخراج جدول می‌رود. از هوش مصنوعی برای خواندن کل سند، درک ساختار آن و استخراج معیارهای مالی خاص استفاده می‌کند — از جمله مواردی که در متن روایی یا پاورقی‌ها جاسازی شده‌اند.

برای گزارش‌های سالانه، تحلیلگر می‌تواند:

معیارهای کلیدی مالی را در تمام بخش‌های سند شناسایی و استخراج کند
معیارهای غیر GAAP را از بخش MD&A بکشد
داده‌های سطح بخش را از جداول گزارش‌دهی استخراج کند
نام‌گذاری‌های مختلف برای یک معیار را تشخیص داده و مدیریت کند
زمینه را برای اعداد استخراج شده، از جمله دوره گزارش‌دهی و واحد اندازه‌گیری، فراهم کند

ترکیب هر دو ابزار

مؤثرترین گردش کار برای گزارش‌های سالانه، ترکیبی از هر دو رویکرد است:

از استخراج جداول برای کشیدن صورت‌های مالی ساختاریافته (صورت سود و زیان، ترازنامه، جریان وجوه نقد) به اکسل با وفاداری کامل جدولی استفاده کنید
از تحلیلگر گزارش مالی برای استخراج معیارهای خاص از بخش‌های روایی، پاورقی‌ها و جداول غیر استاندارد استفاده کنید
نتایج را برای تأیید دقت متقابل بررسی کنید

هر دو ابزار با آزمایش رایگان ۷ روزه PDFSub در دسترس هستند، بنابراین می‌توانید قبل از تعهد، آن‌ها را با گزارش‌های سالانه واقعی خود آزمایش کنید.

خروجی به اکسل و CSV برای مدل‌سازی مالی

استخراج تنها زمانی مفید است که خروجی با گردش کار شما مطابقت داشته باشد. جداول استخراج شده به صورت فایل‌های .xlsx با سلول‌های عددی با نوع‌دهی صحیح، هم‌ترازی ستون حفظ شده، برگه‌های جداگانه برای هر جدول و سربرگ‌های تمیز خروجی گرفته می‌شوند. برای تحلیلگرانی که CSV را ترجیح می‌دهند (که برای پایگاه‌های داده و ابزارهای اسکریپت‌نویسی رایج است)، خروجی جدا شده با کاما با کدگذاری UTF-8 و یک فایل برای هر جدول استخراج شده دریافت می‌کنید.

یک گردش کار معمول پس از استخراج: صورت سود و زیان، ترازنامه و صورت جریان وجوه نقد را استخراج کنید؛ سه جدول را در قالب مدل خود وارد کنید؛ نام فیلدها را با برچسب‌های ردیف استاندارد شده خود نگاشت کنید؛ مجموع‌ها را تأیید کنید؛ نسبت‌های مشتق شده را محاسبه کنید؛ و با تکرار برای گزارش‌های سال‌های گذشته، سری‌های زمانی بسازید. این کار تایپ دستی را جایگزین می‌کند و زمان کل فرآیند را از ۴۵ دقیقه به کمتر از ۵ دقیقه برای هر شرکت کاهش می‌دهد.

موارد استفاده: چه کسانی داده‌های گزارش سالانه را استخراج می‌کنند

تحقیقات سهام. تحلیلگران مدل‌های مالی با ۵ تا ۱۰ سال داده تاریخی و ۳ تا ۵ سال پیش‌بینی می‌سازند. پوشش ۱۵ شرکت به معنی استخراج داده از ۱۵ گزارش سالانه و ۶۰ گزارش فصلی در سال است. استخراج خودکار این فرآیند ورود داده چند روزه را به یک کار یک روزه تبدیل می‌کند.

تحلیل اعتبار. تحلیلگران اعتبار، اعتبار سنجی وام‌گیرندگان را با استفاده از نسبت‌های بدهی/EBITDA (اهرم)، EBITDA/هزینه بهره (پوشش)، نسبت جاری (نقدینگی) و بدهی/کل سرمایه (ساختار سرمایه) ارزیابی می‌کنند. مجموعه وام‌های یک بانک تجاری ممکن است شامل صدها وام‌گیرنده باشد که هر کدام صورت‌های مالی سالانه را ارسال می‌کنند که نیاز به استخراج این معیارها دارند.

بنچمارکینگ و تحلیل رقابتی. مقایسه یک شرکت با همتایان آن نیازمند استخراج معیارهای یکسان از ۵ تا ۱۵ گزارش سالانه، نرمال‌سازی برای پایان‌های سال مالی متفاوت، واحدهای گزارش‌دهی و استانداردهای حسابداری (US GAAP در مقابل IFRS) است.

نظارت بر پرتفوی. مدیران سرمایه‌گذاری که ۳۰ تا ۱۰۰ سهام را رصد می‌کنند، مجموعه‌ای استاندارد از معیارهای نظارتی را به صورت فصلی استخراج می‌کنند: رشد درآمد، روند حاشیه سود EBITDA، بدهی خالص/EBITDA، بازده جریان نقدی آزاد و بازده سرمایه در گردش. استخراج خودکار این امر را در مقیاس امکان‌پذیر می‌سازد.

استخراج چند ساله: ساخت داده‌های سری زمانی

تحلیل مالی اساساً در مورد روندها است: آیا درآمد شتاب می‌گیرد؟ آیا حاشیه‌ها در حال گسترش هستند؟ آیا شرکت در حال کاهش بدهی است؟ پاسخ به این سؤالات نیازمند داده‌های سری زمانی است که حداقل سه تا پنج سال را پوشش دهد.

رویکرد ۱: استخراج از هر گزارش سالانه

گزارش‌های سالانه معمولاً داده‌های صورت سود و زیان دو ساله (سال جاری و سال قبل) و داده‌های ترازنامه دو ساله را ارائه می‌دهند. برخی صورت‌های سود و زیان مقایسه‌ای سه ساله را شامل می‌شوند.

برای ساخت یک سری زمانی پنج ساله، شما نیاز به استخراج از سه گزارش سالانه دارید:

گزارش سالانه ۲۰۲۵: حاوی داده‌های ۲۰۲۵ و ۲۰۲۴
گزارش سالانه ۲۰۲۳: حاوی داده‌های ۲۰۲۳ و ۲۰۲۲
گزارش سالانه ۲۰۲۱: حاوی داده‌های ۲۰۲۱ و ۲۰۲۰

این به شما سال‌های همپوشانی می‌دهد (۲۰۲۴ در هر دو گزارش ۲۰۲۵ و ۲۰۲۴ ظاهر می‌شود) که به عنوان یک بررسی متقابل عمل می‌کنند.

رویکرد ۲: استفاده از داده‌های مالی منتخب 10-K

برخی شرکت‌ها جدولی به نام "داده‌های مالی منتخب" را شامل می‌شوند که پنج تا ده سال از معیارهای کلیدی را در یک جدول ارائه می‌دهد. در صورت وجود، این سریع‌ترین راه برای دستیابی به سری زمانی چند ساله است. با این حال، SEC در سال ۲۰۲۱ الزام این جدول را حذف کرد و بسیاری از شرکت‌ها از آن زمان به بعد آن را حذف کرده‌اند.

رویکرد ۳: استخراج از داده‌های XBRL در SEC EDGAR

برای شرکت‌های عمومی ایالات متحده، پرونده‌های SEC شامل داده‌های برچسب‌گذاری شده XBRL هستند که بدون استخراج PDF قابل خواندن توسط ماشین هستند. سیستم EDGAR SEC APIهای RESTful را ارائه می‌دهد که داده‌های با فرمت JSON را برای اقلام خط استاندارد شده تحویل می‌دهند. با این حال، XBRL محدودیت‌هایی دارد: اقلام خط سفارشی ممکن است به طور مداوم برچسب‌گذاری نشوند، معیارهای غیر GAAP به ندرت در دسترس هستند، داده‌های بخش ممکن است وجود نداشته باشند و ترتیب ارائه ممکن است با پرونده اصلی مطابقت نداشته باشد. استخراج PDF همچنان قابل اعتمادترین منبع برای داده‌های مالی کامل و سازگار با ارائه است.

ساخت صفحه گسترده سری زمانی

هنگامی که چندین سال داده استخراج شده را در اختیار دارید، یک صفحه گسترده اصلی با سال‌ها به عنوان ستون و معیارها به عنوان ردیف ایجاد کنید. داده‌های هر سال را وارد کنید، تأیید کنید که سال‌های همپوشانی در گزارش‌های مختلف مطابقت دارند، ردیف‌های محاسبه شده برای نرخ رشد و نسبت‌ها را اضافه کنید و هرگونه بازنگری که سازگاری را مختل می‌کند، پرچم‌گذاری کنید.

استخراج خودکار شاخص‌های کلیدی از گزارش‌های سالانه مالیاتی و عملکردی شرکت‌ها (Annual Reports) به کمک هوش مصنوعی و ابزارهای پیشرفته PDFSub Engine برای تحلیل دقیق داده‌ها و صرفه‌جویی در زمان تحلیلگران مالی و سرمایه‌گذاری. این راهنما به شما کمک می‌کند تا بدون کپی‌پیست دستی، داده‌های مالی را از فایل‌های PDF حجیم استخراج کنید. استخراج داده‌های مالی از گزارش‌های سالانه، درآمد خالص، سود هر سهم (EPS)، جریان نقدی و سایر شاخص‌های کلیدی بدون نیاز به کپی‌پیست دستی از جداول به اکسل. راهنمای عملی برای تحلیلگران مالی و سرمایه‌گذاری جهت خودکارسازی فرآیند استخراج داده‌ها از گزارش‌های سالانه شرکت‌ها با استفاده از هوش مصنوعی و PDFSub Engine. این راهنما به شما نشان می‌دهد که چگونه شاخص‌های کلیدی مالی را از گزارش‌های سالانه استخراج کنید. شما به تازگی یک گزارش سالانه ۲۴۷ صفحه‌ای را دانلود کرده‌اید. در جایی از این گزارش، دوازده عدد حیاتی وجود دارد که واقعاً به آن‌ها نیاز دارید: درآمد، سود خالص، سود هر سهم، مجموع دارایی‌ها، مجموع بدهی‌ها، جریان نقدی عملیاتی، EBITDA و چندین حاشیه سود. بقیه گزارش شامل متن‌های کلیشه‌ای، افشای قانونی و عکس‌های تبلیغاتی از کارمندان خندان است. پیدا کردن این اعداد بخش دشوار کار نیست. آن‌ها در بخش صورت‌های مالی قرار دارند که معمولاً از صفحه ۸۰ شروع می‌شود. بخش دشوار، خارج کردن آن‌ها از فایل PDF و انتقال به مدل مالی شما در قالبی است که بتوانید با آن کار کنید. و سپس تکرار این کار برای بیست شرکت بعدی در لیست بررسی شما. و سپس تکرار دوباره برای پنج سال گذشته هر شرکت جهت ایجاد یک سری زمانی. این مشکل استخراج گزارش سالانه است و هر ساله هزاران ساعت وقت تیم‌های تحقیقات سهام، تحلیلگران اعتباری و مدیران پورتفوی را هدر می‌دهد. پیش‌بینی می‌شود بازار جهانی نرم‌افزارهای استخراج داده تا سال ۲۰۲۹ به ۳.۶۴ میلیارد دلار برسد و سالانه ۱۵.۹ درصد رشد کند که عمدتاً ناشی از نیاز متخصصان مالی است که از کپی کردن اعداد از جداول PDF به اکسل خسته شده‌اند. این راهنما به بررسی دلایل دشواری استخراج گزارش‌های سالانه، شاخص‌های هدف و نحوه خودکارسازی این فرآیند می‌پردازد تا بتوانید به جای ورود داده، وقت خود را صرف تحلیل کنید. ![Extract key metrics from annual reports automatically — revenue, net income, EPS, cash flow, and more](/images/blog/extract-data-annual-report-hero.svg) ## چالش استخراج گزارش‌های سالانه گزارش‌های سالانه مانند سایر اسناد PDF نیستند. یک صورت‌حساب بانکی ساختار قابل پیش‌بینی دارد: تاریخ، شرح، مبلغ، مانده، که برای هر تراکنش تکرار می‌شود. یک فاکتور دارای سربرگ، اقلام و مجموع است. این اسناد از الگوهایی پیروی می‌کنند که ابزارهای استخراج می‌توانند به سرعت یاد بگیرند. گزارش‌های سالانه متفاوت هستند. آن‌ها اسناد طولانی، پیچیده و از نظر ساختاری ناسازگار هستند که ترکیبی از موارد زیر را شامل می‌شوند: - متن‌های روایی در نامه مدیرعامل، بحث و تحلیل مدیریت (MD&A) و بخش‌های عوامل ریسک - جداول مالی متراکم در صورت سود و زیان، ترازنامه و صورت جریان وجوه نقد - پانویس‌ها و یادداشت‌ها که اعداد موجود در جداول را تعیین، تعدیل یا بازنویسی می‌کنند - نمودارها و گراف‌ها که روندها را بصری می‌کنند اما حاوی داده‌های قابل خواندن توسط ماشین نیستند - جداول گزارش‌دهی بخش‌ها با تفکیک بر اساس جغرافیا، واحد تجاری یا خط تولید - مقایسه‌های چندساله که دو یا سه سال داده را در کنار هم ارائه می‌دهند یک گزارش 10-K معمولی بین ۱۰۰ تا ۳۰۰ صفحه است. صورت‌های مالی ممکن است ۳۰ تا ۴۰ صفحه را اشغال کنند، اما یادداشت‌های همراه صورت‌های مالی - که جزئیات واقعی در آنجاست - می‌تواند ۵۰ یا ۶۰ صفحه دیگر باشد. بقیه شامل زبان حقوقی، عوامل ریسک، جداول جبران خدمات اجرایی و افشای حاکمیت شرکتی است. ### چرا کپی-پیست استاندارد شکست می‌خورد اگر تا به حال سعی کرده‌اید جدولی را در یک گزارش سالانه PDF انتخاب کرده و در اکسل کپی کنید، نتیجه را می‌دانید: ستون‌ها ادغام می‌شوند، اعداد به ردیف‌های اشتباه می‌روند و نشانگرهای پانویس در داده‌های شما جای می‌گیرند. فایل‌های PDF حاوی جدول نیستند. آن‌ها حاوی کاراکترهای فردی هستند که در مختصات دقیق x,y روی یک بوم قرار گرفته‌اند. آنچه به عنوان یک جدول تمیز به نظر می‌رسد، در واقع صدها دستور موقعیت‌دهی متن جداگانه بدون جداکننده‌های ردیف، مرزهای ستون یا ارجاعات سلولی است. کپی-پیست این روابط فضایی را کاملاً نادیده می‌گیرد. گزارش‌های سالانه این مشکل را بدتر می‌کنند زیرا سربرگ‌های ردیف چندخطی مانند "سود خالص قابل انتساب به سهامداران عادی" باید یک ردیف واحد باشند. منفی‌های داخل پرانتز مانند $(1,234) سه عنصر موقعیت‌دار جداگانه هستند که به سلول‌های جداگانه تقسیم می‌شوند. بالانویس‌های پانویس اعداد را خراب می‌کنند و ستون‌های مقایسه‌ای اغلب ادغام می‌شوند. ### کابوس استخراج دستی رویکرد سنتی استفاده از نیروی خام است. تحلیلگر گزارش سالانه را باز می‌کند، به صورت سود و زیان می‌رود و هر عدد را به صورت دستی در یک صفحه گسترده تایپ می‌کند. سپس ترازنامه. سپس صورت جریان وجوه نقد. سپس داده‌های بخش‌ها. سپس پانویس‌ها. برای یک شرکت، این کار ۳۰ تا ۶۰ دقیقه طول می‌کشد. اما تحلیل مالی به ندرت شامل یک شرکت است. تحلیلگران تحقیقات سهام معمولاً ۱۰ تا ۲۵ شرکت را پوشش می‌دهند. تحلیلگران اعتباری ممکن است به داده‌های ۵۰ وام‌گیرنده یا بیشتر نیاز داشته باشند. بیست شرکت با ۴۵ دقیقه برای هر کدام، ۱۵ ساعت ورود داده در هر دوره گزارش‌دهی است - ۶۰ ساعت در سال فقط برای کپی کردن اعداد از PDF. نرخ خطا این وضعیت را بدتر می‌کند. ورود دستی داده‌ها دارای نرخ خطای مستند ۱ تا ۴ درصد است. یک رقم درآمد ۴,۵۲۱ میلیون دلاری که به اشتباه ۴,۵۱۲ میلیون دلار تایپ شود، نرخ رشد، محاسبات حاشیه سود، ضریب EV/Revenue و تمام پیش‌بینی‌های بعدی را که به آن وابسته است، مختل می‌کند. ## آنچه تحلیلگران واقعاً استخراج می‌کنند هر عددی در گزارش سالانه اهمیت یکسانی ندارد. متخصصان مالی معمولاً بسته به مورد استفاده خود، مجموعه خاصی از شاخص‌ها را هدف قرار می‌دهند. در اینجا تمرکز اکثر جریان‌های کاری استخراج آمده است. ### شاخص‌های صورت سود و زیان | شاخص | چرا اهمیت دارد | کجا پیدا کنیم | |--------|---------------|-----------------| | درآمد / فروش خالص | رشد سطح بالا، نقطه شروع اکثر مدل‌های ارزش‌گذاری | صورت سود و زیان، خط اول | | بهای تمام شده کالای فروش رفته (COGS) | محاسبه حاشیه سود ناخالص، کارایی زنجیره تأمین | صورت سود و زیان، زیر درآمد | | سود ناخالص | درآمد منهای COGS، اندازه‌گیری سودآوری تولید | صورت سود و زیان، محاسبه شده | | سود عملیاتی (EBIT) | سودآوری کسب‌وکار اصلی قبل از بهره و مالیات | صورت سود و زیان، بخش میانی | | EBITDA | سودآوری مبتنی بر نقدینگی، استفاده شده در ضرایب EV/EBITDA | اغلب در MD&A یا محاسبه شده از صورت سود و زیان + استهلاک از جریان نقدی | | سود خالص | سود نهایی پس از تمام هزینه‌ها، مالیات و بهره | صورت سود و زیان، نزدیک به پایین | | سود هر سهم (اصلی و رقیق‌شده) | سودآوری به ازای هر سهم، محرک نسبت‌های P/E | صورت سود و زیان، خطوط آخر | ### شاخص‌های ترازنامه | شاخص | چرا اهمیت دارد | کجا پیدا کنیم | |--------|---------------|-----------------| | مجموع دارایی‌ها | اندازه شرکت، محاسبات اهرمی | ترازنامه، مجموع بخش دارایی‌ها | | مجموع بدهی‌ها | بار بدهی، ارزیابی توانایی پرداخت | ترازنامه، مجموع بخش بدهی‌ها | | مجموع حقوق صاحبان سهام | ارزش خالص، محاسبات ارزش دفتری | ترازنامه، مجموع بخش حقوق صاحبان سهام | | مجموع بدهی (کوتاه‌مدت + بلندمدت) | نسبت‌های اهرمی، پوشش بهره | ترازنامه + پانویس‌ها | | نقد و معادل‌های نقد | نقدینگی، محاسبات بدهی خالص | ترازنامه، اولین دارایی جاری | | دارایی‌های جاری / بدهی‌های جاری | سرمایه در گردش، نسبت جاری | مجموع بخش‌های ترازنامه | ### شاخص‌های صورت جریان وجوه نقد | شاخص | چرا اهمیت دارد | کجا پیدا کنیم | |--------|---------------|-----------------| | جریان نقدی عملیاتی | نقدینگی تولید شده توسط کسب‌وکار اصلی | صورت جریان وجوه نقد، بخش اول | | هزینه‌های سرمایه‌ای (Capex) | سرمایه‌گذاری در رشد، محاسبه جریان نقدی آزاد | جریان نقدی از فعالیت‌های سرمایه‌گذاری | | جریان نقدی آزاد | نقدینگی موجود پس از حفظ عملیات | جریان نقدی عملیاتی منهای Capex | | سود سهام پرداختی | بازده سهامداران، نسبت پرداخت | جریان نقدی از فعالیت‌های تأمین مالی | ### نسبت‌ها و حاشیه‌های مشتق شده پس از استخراج شاخص‌های خام، تحلیلگران موارد زیر را محاسبه می‌کنند: - حاشیه سود ناخالص: سود ناخالص / درآمد - حاشیه سود عملیاتی: سود عملیاتی / درآمد - حاشیه سود خالص: سود خالص / درآمد - بازده حقوق صاحبان سهام (ROE): سود خالص / حقوق صاحبان سهام - بازده دارایی‌ها (ROA): سود خالص / مجموع دارایی‌ها - نسبت بدهی به حقوق صاحبان سهام: مجموع بدهی / مجموع حقوق صاحبان سهام - نسبت جاری: دارایی‌های جاری / بدهی‌های جاری - پوشش بهره: EBIT / هزینه بهره این نسبت‌ها نیازمند استخراج دقیق و تمیز اجزای زیربنایی هستند. یک عدد اشتباه کل نسبت را خراب می‌کند. ## داده‌های ساختاریافته مدفون در اسناد غیرساختاریافته چالش فنی اصلی این است که داده‌های ساختاریافته - اعداد با معانی و روابط دقیق - در اسناد غیرساختاریافته تعبیه شده‌اند. صورت مالی یک جدول است، اما در داخل یک فایل PDF قرار دارد که شامل پاراگراف‌های روایی، سلب مسئولیت‌های حقوقی، تصاویر و سربرگ‌های صفحه نیز هست. این موضوع چندین مشکل استخراج فراتر از تشخیص ساده جدول ایجاد می‌کند: - اعداد وابسته به متن. عدد "۱۲,۳۴۵" بسته به جایی که ظاهر می‌شود معانی متفاوتی دارد. در خط درآمد، به معنای ۱۲,۳۴۵ میلیون دلار است. در جبران خدمات اجرایی، ممکن است به معنای ۱۲,۳۴۵ دلار واقعی باشد. استخراج مؤثر مستلزم درک این است که یک عدد به کدام بخش تعلق دارد و سربرگ‌های ستون و واحد گزارش‌دهی چه می‌گویند. - جداول تو در تو و گسترده. جداول گزارش سالانه از سلول‌های ادغام شده برای سربرگ‌های بخش، اقلام فرورفته زیر دسته‌بندی‌های اصلی، زیرمجموعه‌های پراکنده، ستون‌های مقایسه‌ای چندساله و ردیف‌های جداکننده خالی استفاده می‌کنند. یک ابزار استخراج ساده‌لوحانه هر عنصر بصری را به عنوان یک نقطه داده در نظر می‌گیرد که منجر به صفحات گسترده نامرتب پر از ردیف‌های خیالی و مقادیر ادغام شده می‌شود. - ارجاعات پانویس. درآمد "12,345^(1)" هنگام استخراج بدون درک معنایی به "12345 1" تبدیل می‌شود. بالانویس یک کاراکتر موقعیت‌دار جداگانه در PDF است. ابزارهای استخراج یا آن را حذف می‌کنند (از دست دادن ارجاع) یا آن را شامل می‌شوند (خراب کردن عدد). ## هوش مصنوعی چگونه گزارش‌های سالانه را مدیریت می‌کند استخراج مبتنی بر هوش مصنوعی رویکردی کاملاً متفاوت دارد. به جای تکیه صرف بر تحلیل فضایی - تشخیص ردیف‌ها و ستون‌ها بر اساس موقعیت کاراکترها - آگاهی فضایی را با درک معنایی ترکیب می‌کند. تشخیص جدول با آگاهی از طرح‌بندی فراتر از جستجوی خطوط شبکه است (بسیاری از جداول مالی هیچ مرز قابل مشاهده‌ای ندارند). سیستم الگوهای فاصله‌گذاری کاراکترها، تراز نقطه اعشار، تکرار قالب‌بندی و ردیف‌های سربرگ را تحلیل می‌کند تا مرزهای جدول را تشخیص دهد. این سیستم می‌تواند یک پاراگراف روایی که حاوی اعداد است را از یک جدول داده‌های مالی با ستون‌های تراز شده تشخیص دهد. تشخیص فیلد معنایی مشخص می‌کند که هر ستون و ردیف چه چیزی را نشان می‌دهد. این سیستم تشخیص می‌دهد که "درآمد"، "فروش خالص"، "درآمد کل" و "درآمد خالص" همگی به یک مفهوم اشاره دارند. این سیستم می‌فهمد که "(1,234)" در یک زمینه مالی به معنای منفی ۱,۲۳۴ است، نه یک ارجاع پانویس. این موضوع مهم است زیرا قراردادهای نام‌گذاری بین شرکت‌ها بسیار متفاوت است - یکی از "حقوق صاحبان سهام" استفاده می‌کند در حالی که دیگری از "سهامداران" یا "مجموع حقوق صاحبان سهام" استفاده می‌کند. ادامه‌های جدول در چند صفحه با تشخیص الگوهای سربرگ تکراری و تراز ستون ثابت در سراسر شکست‌های صفحه مدیریت می‌شوند. صورت سود و زیان ممکن است در صفحه ۸۴ شروع شود و در صفحه ۸۵ ادامه یابد، و استخراج هوش مصنوعی داده‌ها را به یک جدول منسجم واحد تبدیل می‌کند. ## بخش‌های کلیدی برای هدف‌گیری در گزارش‌های سالانه همه بخش‌های گزارش سالانه حاوی داده‌های مالی قابل استخراج نیستند. دانستن اینکه کجا تمرکز کنید باعث صرفه‌جویی در زمان و بهبود دقت می‌شود. صورت‌های مالی هدف اصلی استخراج هستند: صورت‌های تلفیقی سود و زیان، ترازنامه‌ها، جریان‌های نقدی و حقوق صاحبان سهام. این چهار صورت حاوی اعداد خامی هستند که مدل‌های مالی را هدایت می‌کنند. بحث و تحلیل مدیریت (MD&A) جایی است که مدیریت اعداد را توضیح می‌دهد. این بخش اغلب حاوی شاخص‌های غیر GAAP مانند EBITDA تعدیل شده و جریان نقدی آزاد، تفکیک‌های سطح بخش و راهنمایی‌های آینده‌نگر است - که همگی در پاراگراف‌های روایی تعبیه شده‌اند نه جداول. استخراج هوش مصنوعی می‌تواند این ارقام را شناسایی و استخراج کند، اما آن‌ها به درک متنی بیشتری نسبت به داده‌های جدول نیاز دارند. گزارش‌دهی بخش‌ها نتایج را بر اساس واحد تجاری، جغرافیا یا خط تولید تفکیک می‌کند. این داده‌ها برای ارزش‌گذاری مجموع قطعات ضروری هستند. جداول بخش‌ها اغلب دارای ساختارهای غیر استاندارد با نام‌های بخش به عنوان سربرگ ستون و حذف‌های بین‌بخشی هستند که ردیف‌های منفی اضافه می‌کنند. یادداشت‌های صورت‌های مالی حاوی دقیق‌ترین داده‌ها هستند: جداول بدهی با تاریخ سررسید، تفکیک درآمد بر اساس محصول یا جغرافیا، تعهدات اجاره، جزئیات بازنشستگی، تطبیق نرخ مالیات و تفکیک سرقفلی بر اساس بخش. استخراج این موارد سخت‌ترین کار است زیرا متن روایی را با جداول کوچک تعبیه شده ترکیب می‌کنند. عوامل ریسک عمدتاً کیفی هستند، اما گاهی اوقات حاوی افشای کمی هستند: درصدهای ریسک تمرکز، ذخایر دعاوی حقوقی یا الزامات سرمایه نظارتی که در پاراگراف‌های زبان حقوقی مدفون شده‌اند.