استخراج خودکار شاخصهای کلیدی از گزارشهای سالانه مالیاتی و عملکردی شرکتها (Annual Reports) به کمک هوش مصنوعی و ابزارهای پیشرفته PDFSub Engine برای تحلیل دقیق دادهها و صرفهجویی در زمان تحلیلگران مالی و سرمایهگذاری. این راهنما به شما کمک میکند تا بدون کپیپیست دستی، دادههای مالی را از فایلهای PDF حجیم استخراج کنید. استخراج دادههای مالی از گزارشهای سالانه، درآمد خالص، سود هر سهم (EPS)، جریان نقدی و سایر شاخصهای کلیدی بدون نیاز به کپیپیست دستی از جداول به اکسل. راهنمای عملی برای تحلیلگران مالی و سرمایهگذاری جهت خودکارسازی فرآیند استخراج دادهها از گزارشهای سالانه شرکتها با استفاده از هوش مصنوعی و PDFSub Engine. این راهنما به شما نشان میدهد که چگونه شاخصهای کلیدی مالی را از گزارشهای سالانه استخراج کنید. شما به تازگی یک گزارش سالانه ۲۴۷ صفحهای را دانلود کردهاید. در جایی از این گزارش، دوازده عدد حیاتی وجود دارد که واقعاً به آنها نیاز دارید: درآمد، سود خالص، سود هر سهم، مجموع داراییها، مجموع بدهیها، جریان نقدی عملیاتی، EBITDA و چندین حاشیه سود. بقیه گزارش شامل متنهای کلیشهای، افشای قانونی و عکسهای تبلیغاتی از کارمندان خندان است. پیدا کردن این اعداد بخش دشوار کار نیست. آنها در بخش صورتهای مالی قرار دارند که معمولاً از صفحه ۸۰ شروع میشود. بخش دشوار، خارج کردن آنها از فایل PDF و انتقال به مدل مالی شما در قالبی است که بتوانید با آن کار کنید. و سپس تکرار این کار برای بیست شرکت بعدی در لیست بررسی شما. و سپس تکرار دوباره برای پنج سال گذشته هر شرکت جهت ایجاد یک سری زمانی. این مشکل استخراج گزارش سالانه است و هر ساله هزاران ساعت وقت تیمهای تحقیقات سهام، تحلیلگران اعتباری و مدیران پورتفوی را هدر میدهد. پیشبینی میشود بازار جهانی نرمافزارهای استخراج داده تا سال ۲۰۲۹ به ۳.۶۴ میلیارد دلار برسد و سالانه ۱۵.۹ درصد رشد کند که عمدتاً ناشی از نیاز متخصصان مالی است که از کپی کردن اعداد از جداول PDF به اکسل خسته شدهاند. این راهنما به بررسی دلایل دشواری استخراج گزارشهای سالانه، شاخصهای هدف و نحوه خودکارسازی این فرآیند میپردازد تا بتوانید به جای ورود داده، وقت خود را صرف تحلیل کنید.  ## چالش استخراج گزارشهای سالانه گزارشهای سالانه مانند سایر اسناد PDF نیستند. یک صورتحساب بانکی ساختار قابل پیشبینی دارد: تاریخ، شرح، مبلغ، مانده، که برای هر تراکنش تکرار میشود. یک فاکتور دارای سربرگ، اقلام و مجموع است. این اسناد از الگوهایی پیروی میکنند که ابزارهای استخراج میتوانند به سرعت یاد بگیرند. گزارشهای سالانه متفاوت هستند. آنها اسناد طولانی، پیچیده و از نظر ساختاری ناسازگار هستند که ترکیبی از موارد زیر را شامل میشوند: - **متنهای روایی** در نامه مدیرعامل، بحث و تحلیل مدیریت (MD&A) و بخشهای عوامل ریسک - **جداول مالی متراکم** در صورت سود و زیان، ترازنامه و صورت جریان وجوه نقد - **پانویسها و یادداشتها** که اعداد موجود در جداول را تعیین، تعدیل یا بازنویسی میکنند - **نمودارها و گرافها** که روندها را بصری میکنند اما حاوی دادههای قابل خواندن توسط ماشین نیستند - **جداول گزارشدهی بخشها** با تفکیک بر اساس جغرافیا، واحد تجاری یا خط تولید - **مقایسههای چندساله** که دو یا سه سال داده را در کنار هم ارائه میدهند یک گزارش 10-K معمولی بین ۱۰۰ تا ۳۰۰ صفحه است. صورتهای مالی ممکن است ۳۰ تا ۴۰ صفحه را اشغال کنند، اما یادداشتهای همراه صورتهای مالی - که جزئیات واقعی در آنجاست - میتواند ۵۰ یا ۶۰ صفحه دیگر باشد. بقیه شامل زبان حقوقی، عوامل ریسک، جداول جبران خدمات اجرایی و افشای حاکمیت شرکتی است. ### چرا کپی-پیست استاندارد شکست میخورد اگر تا به حال سعی کردهاید جدولی را در یک گزارش سالانه PDF انتخاب کرده و در اکسل کپی کنید، نتیجه را میدانید: ستونها ادغام میشوند، اعداد به ردیفهای اشتباه میروند و نشانگرهای پانویس در دادههای شما جای میگیرند. فایلهای PDF حاوی جدول نیستند. آنها حاوی کاراکترهای فردی هستند که در مختصات دقیق x,y روی یک بوم قرار گرفتهاند. آنچه به عنوان یک جدول تمیز به نظر میرسد، در واقع صدها دستور موقعیتدهی متن جداگانه بدون جداکنندههای ردیف، مرزهای ستون یا ارجاعات سلولی است. کپی-پیست این روابط فضایی را کاملاً نادیده میگیرد. گزارشهای سالانه این مشکل را بدتر میکنند زیرا سربرگهای ردیف چندخطی مانند "سود خالص قابل انتساب به سهامداران عادی" باید یک ردیف واحد باشند. منفیهای داخل پرانتز مانند $(1,234) سه عنصر موقعیتدار جداگانه هستند که به سلولهای جداگانه تقسیم میشوند. بالانویسهای پانویس اعداد را خراب میکنند و ستونهای مقایسهای اغلب ادغام میشوند. ### کابوس استخراج دستی رویکرد سنتی استفاده از نیروی خام است. تحلیلگر گزارش سالانه را باز میکند، به صورت سود و زیان میرود و هر عدد را به صورت دستی در یک صفحه گسترده تایپ میکند. سپس ترازنامه. سپس صورت جریان وجوه نقد. سپس دادههای بخشها. سپس پانویسها. برای یک شرکت، این کار ۳۰ تا ۶۰ دقیقه طول میکشد. اما تحلیل مالی به ندرت شامل یک شرکت است. تحلیلگران تحقیقات سهام معمولاً ۱۰ تا ۲۵ شرکت را پوشش میدهند. تحلیلگران اعتباری ممکن است به دادههای ۵۰ وامگیرنده یا بیشتر نیاز داشته باشند. بیست شرکت با ۴۵ دقیقه برای هر کدام، ۱۵ ساعت ورود داده در هر دوره گزارشدهی است - ۶۰ ساعت در سال فقط برای کپی کردن اعداد از PDF. نرخ خطا این وضعیت را بدتر میکند. ورود دستی دادهها دارای نرخ خطای مستند ۱ تا ۴ درصد است. یک رقم درآمد ۴,۵۲۱ میلیون دلاری که به اشتباه ۴,۵۱۲ میلیون دلار تایپ شود، نرخ رشد، محاسبات حاشیه سود، ضریب EV/Revenue و تمام پیشبینیهای بعدی را که به آن وابسته است، مختل میکند. ## آنچه تحلیلگران واقعاً استخراج میکنند هر عددی در گزارش سالانه اهمیت یکسانی ندارد. متخصصان مالی معمولاً بسته به مورد استفاده خود، مجموعه خاصی از شاخصها را هدف قرار میدهند. در اینجا تمرکز اکثر جریانهای کاری استخراج آمده است. ### شاخصهای صورت سود و زیان | شاخص | چرا اهمیت دارد | کجا پیدا کنیم | |--------|---------------|-----------------| | **درآمد / فروش خالص** | رشد سطح بالا، نقطه شروع اکثر مدلهای ارزشگذاری | صورت سود و زیان، خط اول | | **بهای تمام شده کالای فروش رفته (COGS)** | محاسبه حاشیه سود ناخالص، کارایی زنجیره تأمین | صورت سود و زیان، زیر درآمد | | **سود ناخالص** | درآمد منهای COGS، اندازهگیری سودآوری تولید | صورت سود و زیان، محاسبه شده | | **سود عملیاتی (EBIT)** | سودآوری کسبوکار اصلی قبل از بهره و مالیات | صورت سود و زیان، بخش میانی | | **EBITDA** | سودآوری مبتنی بر نقدینگی، استفاده شده در ضرایب EV/EBITDA | اغلب در MD&A یا محاسبه شده از صورت سود و زیان + استهلاک از جریان نقدی | | **سود خالص** | سود نهایی پس از تمام هزینهها، مالیات و بهره | صورت سود و زیان، نزدیک به پایین | | **سود هر سهم (اصلی و رقیقشده)** | سودآوری به ازای هر سهم، محرک نسبتهای P/E | صورت سود و زیان، خطوط آخر | ### شاخصهای ترازنامه | شاخص | چرا اهمیت دارد | کجا پیدا کنیم | |--------|---------------|-----------------| | **مجموع داراییها** | اندازه شرکت، محاسبات اهرمی | ترازنامه، مجموع بخش داراییها | | **مجموع بدهیها** | بار بدهی، ارزیابی توانایی پرداخت | ترازنامه، مجموع بخش بدهیها | | **مجموع حقوق صاحبان سهام** | ارزش خالص، محاسبات ارزش دفتری | ترازنامه، مجموع بخش حقوق صاحبان سهام | | **مجموع بدهی (کوتاهمدت + بلندمدت)** | نسبتهای اهرمی، پوشش بهره | ترازنامه + پانویسها | | **نقد و معادلهای نقد** | نقدینگی، محاسبات بدهی خالص | ترازنامه، اولین دارایی جاری | | **داراییهای جاری / بدهیهای جاری** | سرمایه در گردش، نسبت جاری | مجموع بخشهای ترازنامه | ### شاخصهای صورت جریان وجوه نقد | شاخص | چرا اهمیت دارد | کجا پیدا کنیم | |--------|---------------|-----------------| | **جریان نقدی عملیاتی** | نقدینگی تولید شده توسط کسبوکار اصلی | صورت جریان وجوه نقد، بخش اول | | **هزینههای سرمایهای (Capex)** | سرمایهگذاری در رشد، محاسبه جریان نقدی آزاد | جریان نقدی از فعالیتهای سرمایهگذاری | | **جریان نقدی آزاد** | نقدینگی موجود پس از حفظ عملیات | جریان نقدی عملیاتی منهای Capex | | **سود سهام پرداختی** | بازده سهامداران، نسبت پرداخت | جریان نقدی از فعالیتهای تأمین مالی | ### نسبتها و حاشیههای مشتق شده پس از استخراج شاخصهای خام، تحلیلگران موارد زیر را محاسبه میکنند: - **حاشیه سود ناخالص:** سود ناخالص / درآمد - **حاشیه سود عملیاتی:** سود عملیاتی / درآمد - **حاشیه سود خالص:** سود خالص / درآمد - **بازده حقوق صاحبان سهام (ROE):** سود خالص / حقوق صاحبان سهام - **بازده داراییها (ROA):** سود خالص / مجموع داراییها - **نسبت بدهی به حقوق صاحبان سهام:** مجموع بدهی / مجموع حقوق صاحبان سهام - **نسبت جاری:** داراییهای جاری / بدهیهای جاری - **پوشش بهره:** EBIT / هزینه بهره این نسبتها نیازمند استخراج دقیق و تمیز اجزای زیربنایی هستند. یک عدد اشتباه کل نسبت را خراب میکند. ## دادههای ساختاریافته مدفون در اسناد غیرساختاریافته چالش فنی اصلی این است که دادههای ساختاریافته - اعداد با معانی و روابط دقیق - در اسناد غیرساختاریافته تعبیه شدهاند. صورت مالی یک جدول است، اما در داخل یک فایل PDF قرار دارد که شامل پاراگرافهای روایی، سلب مسئولیتهای حقوقی، تصاویر و سربرگهای صفحه نیز هست. این موضوع چندین مشکل استخراج فراتر از تشخیص ساده جدول ایجاد میکند: - **اعداد وابسته به متن.** عدد "۱۲,۳۴۵" بسته به جایی که ظاهر میشود معانی متفاوتی دارد. در خط درآمد، به معنای ۱۲,۳۴۵ میلیون دلار است. در جبران خدمات اجرایی، ممکن است به معنای ۱۲,۳۴۵ دلار واقعی باشد. استخراج مؤثر مستلزم درک این است که یک عدد به کدام بخش تعلق دارد و سربرگهای ستون و واحد گزارشدهی چه میگویند. - **جداول تو در تو و گسترده.** جداول گزارش سالانه از سلولهای ادغام شده برای سربرگهای بخش، اقلام فرورفته زیر دستهبندیهای اصلی، زیرمجموعههای پراکنده، ستونهای مقایسهای چندساله و ردیفهای جداکننده خالی استفاده میکنند. یک ابزار استخراج سادهلوحانه هر عنصر بصری را به عنوان یک نقطه داده در نظر میگیرد که منجر به صفحات گسترده نامرتب پر از ردیفهای خیالی و مقادیر ادغام شده میشود. - **ارجاعات پانویس.** درآمد "12,345^(1)" هنگام استخراج بدون درک معنایی به "12345 1" تبدیل میشود. بالانویس یک کاراکتر موقعیتدار جداگانه در PDF است. ابزارهای استخراج یا آن را حذف میکنند (از دست دادن ارجاع) یا آن را شامل میشوند (خراب کردن عدد). ## هوش مصنوعی چگونه گزارشهای سالانه را مدیریت میکند استخراج مبتنی بر هوش مصنوعی رویکردی کاملاً متفاوت دارد. به جای تکیه صرف بر تحلیل فضایی - تشخیص ردیفها و ستونها بر اساس موقعیت کاراکترها - آگاهی فضایی را با درک معنایی ترکیب میکند. **تشخیص جدول با آگاهی از طرحبندی** فراتر از جستجوی خطوط شبکه است (بسیاری از جداول مالی هیچ مرز قابل مشاهدهای ندارند). سیستم الگوهای فاصلهگذاری کاراکترها، تراز نقطه اعشار، تکرار قالببندی و ردیفهای سربرگ را تحلیل میکند تا مرزهای جدول را تشخیص دهد. این سیستم میتواند یک پاراگراف روایی که حاوی اعداد است را از یک جدول دادههای مالی با ستونهای تراز شده تشخیص دهد. **تشخیص فیلد معنایی** مشخص میکند که هر ستون و ردیف چه چیزی را نشان میدهد. این سیستم تشخیص میدهد که "درآمد"، "فروش خالص"، "درآمد کل" و "درآمد خالص" همگی به یک مفهوم اشاره دارند. این سیستم میفهمد که "(1,234)" در یک زمینه مالی به معنای منفی ۱,۲۳۴ است، نه یک ارجاع پانویس. این موضوع مهم است زیرا قراردادهای نامگذاری بین شرکتها بسیار متفاوت است - یکی از "حقوق صاحبان سهام" استفاده میکند در حالی که دیگری از "سهامداران" یا "مجموع حقوق صاحبان سهام" استفاده میکند. **ادامههای جدول در چند صفحه** با تشخیص الگوهای سربرگ تکراری و تراز ستون ثابت در سراسر شکستهای صفحه مدیریت میشوند. صورت سود و زیان ممکن است در صفحه ۸۴ شروع شود و در صفحه ۸۵ ادامه یابد، و استخراج هوش مصنوعی دادهها را به یک جدول منسجم واحد تبدیل میکند. ## بخشهای کلیدی برای هدفگیری در گزارشهای سالانه همه بخشهای گزارش سالانه حاوی دادههای مالی قابل استخراج نیستند. دانستن اینکه کجا تمرکز کنید باعث صرفهجویی در زمان و بهبود دقت میشود. **صورتهای مالی** هدف اصلی استخراج هستند: صورتهای تلفیقی سود و زیان، ترازنامهها، جریانهای نقدی و حقوق صاحبان سهام. این چهار صورت حاوی اعداد خامی هستند که مدلهای مالی را هدایت میکنند. **بحث و تحلیل مدیریت (MD&A)** جایی است که مدیریت اعداد را توضیح میدهد. این بخش اغلب حاوی شاخصهای غیر GAAP مانند EBITDA تعدیل شده و جریان نقدی آزاد، تفکیکهای سطح بخش و راهنماییهای آیندهنگر است - که همگی در پاراگرافهای روایی تعبیه شدهاند نه جداول. استخراج هوش مصنوعی میتواند این ارقام را شناسایی و استخراج کند، اما آنها به درک متنی بیشتری نسبت به دادههای جدول نیاز دارند. **گزارشدهی بخشها** نتایج را بر اساس واحد تجاری، جغرافیا یا خط تولید تفکیک میکند. این دادهها برای ارزشگذاری مجموع قطعات ضروری هستند. جداول بخشها اغلب دارای ساختارهای غیر استاندارد با نامهای بخش به عنوان سربرگ ستون و حذفهای بینبخشی هستند که ردیفهای منفی اضافه میکنند. **یادداشتهای صورتهای مالی** حاوی دقیقترین دادهها هستند: جداول بدهی با تاریخ سررسید، تفکیک درآمد بر اساس محصول یا جغرافیا، تعهدات اجاره، جزئیات بازنشستگی، تطبیق نرخ مالیات و تفکیک سرقفلی بر اساس بخش. استخراج این موارد سختترین کار است زیرا متن روایی را با جداول کوچک تعبیه شده ترکیب میکنند. **عوامل ریسک** عمدتاً کیفی هستند، اما گاهی اوقات حاوی افشای کمی هستند: درصدهای ریسک تمرکز، ذخایر دعاوی حقوقی یا الزامات سرمایه نظارتی که در پاراگرافهای زبان حقوقی مدفون شدهاند.
استخراج دادههای گزارش سالانه با PDFSub
PDFSub دو ابزار را که به طور خاص برای استخراج گزارش سالانه مناسب هستند ارائه میدهد: ابزار استخراج جداول و تحلیلگر گزارش مالی.
استخراج جداول: کشیدن صورتهای مالی به صفحات گسترده
ابزار استخراج جداول دادههای جدولی را از اسناد PDF شناسایی و استخراج میکند. برای گزارشهای سالانه، این به معنی موارد زیر است:
- آپلود PDF گزارش سالانه — فایل را بکشید و رها کنید. برای PDFهای دیجیتالی که از SEC EDGAR یا صفحات روابط سرمایهگذار شرکت دانلود شدهاند، پردازش اولیه در مرورگر شما انجام میشود. فایل تا زمانی که پردازش هوش مصنوعی سمت سرور مورد نیاز نباشد، دستگاه شما را ترک نمیکند.
- تشخیص خودکار جدول — ابزار تمام مناطق جدول را در سند شناسایی میکند، از جمله جداول چند صفحهای که از بین خطوط صفحه عبور میکنند.
- بررسی جداول استخراج شده — هر جدول شناسایی شده با دادههای استخراج شده نمایش داده میشود. میتوانید تأیید کنید که ستونها به درستی همتراز شدهاند و مقادیر دقیق هستند.
- خروجی به اکسل یا CSV — جداول استخراج شده را در فرمتهای آماده برای مدلسازی مالی دانلود کنید.
این رویکرد برای صورتهای مالی اصلی (صورت سود و زیان، ترازنامه، جریان وجوه نقد) که دادهها در قالب جدولی واضح ارائه شدهاند، به خوبی کار میکند.
تحلیلگر گزارش مالی: استخراج معیارهای مبتنی بر هوش مصنوعی
تحلیلگر گزارش مالی فراتر از استخراج جدول میرود. از هوش مصنوعی برای خواندن کل سند، درک ساختار آن و استخراج معیارهای مالی خاص استفاده میکند — از جمله مواردی که در متن روایی یا پاورقیها جاسازی شدهاند.
برای گزارشهای سالانه، تحلیلگر میتواند:
- معیارهای کلیدی مالی را در تمام بخشهای سند شناسایی و استخراج کند
- معیارهای غیر GAAP را از بخش MD&A بکشد
- دادههای سطح بخش را از جداول گزارشدهی استخراج کند
- نامگذاریهای مختلف برای یک معیار را تشخیص داده و مدیریت کند
- زمینه را برای اعداد استخراج شده، از جمله دوره گزارشدهی و واحد اندازهگیری، فراهم کند
ترکیب هر دو ابزار
مؤثرترین گردش کار برای گزارشهای سالانه، ترکیبی از هر دو رویکرد است:
- از استخراج جداول برای کشیدن صورتهای مالی ساختاریافته (صورت سود و زیان، ترازنامه، جریان وجوه نقد) به اکسل با وفاداری کامل جدولی استفاده کنید
- از تحلیلگر گزارش مالی برای استخراج معیارهای خاص از بخشهای روایی، پاورقیها و جداول غیر استاندارد استفاده کنید
- نتایج را برای تأیید دقت متقابل بررسی کنید
هر دو ابزار با آزمایش رایگان ۷ روزه PDFSub در دسترس هستند، بنابراین میتوانید قبل از تعهد، آنها را با گزارشهای سالانه واقعی خود آزمایش کنید.
خروجی به اکسل و CSV برای مدلسازی مالی
استخراج تنها زمانی مفید است که خروجی با گردش کار شما مطابقت داشته باشد. جداول استخراج شده به صورت فایلهای .xlsx با سلولهای عددی با نوعدهی صحیح، همترازی ستون حفظ شده، برگههای جداگانه برای هر جدول و سربرگهای تمیز خروجی گرفته میشوند. برای تحلیلگرانی که CSV را ترجیح میدهند (که برای پایگاههای داده و ابزارهای اسکریپتنویسی رایج است)، خروجی جدا شده با کاما با کدگذاری UTF-8 و یک فایل برای هر جدول استخراج شده دریافت میکنید.
یک گردش کار معمول پس از استخراج: صورت سود و زیان، ترازنامه و صورت جریان وجوه نقد را استخراج کنید؛ سه جدول را در قالب مدل خود وارد کنید؛ نام فیلدها را با برچسبهای ردیف استاندارد شده خود نگاشت کنید؛ مجموعها را تأیید کنید؛ نسبتهای مشتق شده را محاسبه کنید؛ و با تکرار برای گزارشهای سالهای گذشته، سریهای زمانی بسازید. این کار تایپ دستی را جایگزین میکند و زمان کل فرآیند را از ۴۵ دقیقه به کمتر از ۵ دقیقه برای هر شرکت کاهش میدهد.
موارد استفاده: چه کسانی دادههای گزارش سالانه را استخراج میکنند
تحقیقات سهام. تحلیلگران مدلهای مالی با ۵ تا ۱۰ سال داده تاریخی و ۳ تا ۵ سال پیشبینی میسازند. پوشش ۱۵ شرکت به معنی استخراج داده از ۱۵ گزارش سالانه و ۶۰ گزارش فصلی در سال است. استخراج خودکار این فرآیند ورود داده چند روزه را به یک کار یک روزه تبدیل میکند.
تحلیل اعتبار. تحلیلگران اعتبار، اعتبار سنجی وامگیرندگان را با استفاده از نسبتهای بدهی/EBITDA (اهرم)، EBITDA/هزینه بهره (پوشش)، نسبت جاری (نقدینگی) و بدهی/کل سرمایه (ساختار سرمایه) ارزیابی میکنند. مجموعه وامهای یک بانک تجاری ممکن است شامل صدها وامگیرنده باشد که هر کدام صورتهای مالی سالانه را ارسال میکنند که نیاز به استخراج این معیارها دارند.
بنچمارکینگ و تحلیل رقابتی. مقایسه یک شرکت با همتایان آن نیازمند استخراج معیارهای یکسان از ۵ تا ۱۵ گزارش سالانه، نرمالسازی برای پایانهای سال مالی متفاوت، واحدهای گزارشدهی و استانداردهای حسابداری (US GAAP در مقابل IFRS) است.
نظارت بر پرتفوی. مدیران سرمایهگذاری که ۳۰ تا ۱۰۰ سهام را رصد میکنند، مجموعهای استاندارد از معیارهای نظارتی را به صورت فصلی استخراج میکنند: رشد درآمد، روند حاشیه سود EBITDA، بدهی خالص/EBITDA، بازده جریان نقدی آزاد و بازده سرمایه در گردش. استخراج خودکار این امر را در مقیاس امکانپذیر میسازد.
استخراج چند ساله: ساخت دادههای سری زمانی
تحلیل مالی اساساً در مورد روندها است: آیا درآمد شتاب میگیرد؟ آیا حاشیهها در حال گسترش هستند؟ آیا شرکت در حال کاهش بدهی است؟ پاسخ به این سؤالات نیازمند دادههای سری زمانی است که حداقل سه تا پنج سال را پوشش دهد.
رویکرد ۱: استخراج از هر گزارش سالانه
گزارشهای سالانه معمولاً دادههای صورت سود و زیان دو ساله (سال جاری و سال قبل) و دادههای ترازنامه دو ساله را ارائه میدهند. برخی صورتهای سود و زیان مقایسهای سه ساله را شامل میشوند.
برای ساخت یک سری زمانی پنج ساله، شما نیاز به استخراج از سه گزارش سالانه دارید:
- گزارش سالانه ۲۰۲۵: حاوی دادههای ۲۰۲۵ و ۲۰۲۴
- گزارش سالانه ۲۰۲۳: حاوی دادههای ۲۰۲۳ و ۲۰۲۲
- گزارش سالانه ۲۰۲۱: حاوی دادههای ۲۰۲۱ و ۲۰۲۰
این به شما سالهای همپوشانی میدهد (۲۰۲۴ در هر دو گزارش ۲۰۲۵ و ۲۰۲۴ ظاهر میشود) که به عنوان یک بررسی متقابل عمل میکنند.
رویکرد ۲: استفاده از دادههای مالی منتخب 10-K
برخی شرکتها جدولی به نام "دادههای مالی منتخب" را شامل میشوند که پنج تا ده سال از معیارهای کلیدی را در یک جدول ارائه میدهد. در صورت وجود، این سریعترین راه برای دستیابی به سری زمانی چند ساله است. با این حال، SEC در سال ۲۰۲۱ الزام این جدول را حذف کرد و بسیاری از شرکتها از آن زمان به بعد آن را حذف کردهاند.
رویکرد ۳: استخراج از دادههای XBRL در SEC EDGAR
برای شرکتهای عمومی ایالات متحده، پروندههای SEC شامل دادههای برچسبگذاری شده XBRL هستند که بدون استخراج PDF قابل خواندن توسط ماشین هستند. سیستم EDGAR SEC APIهای RESTful را ارائه میدهد که دادههای با فرمت JSON را برای اقلام خط استاندارد شده تحویل میدهند. با این حال، XBRL محدودیتهایی دارد: اقلام خط سفارشی ممکن است به طور مداوم برچسبگذاری نشوند، معیارهای غیر GAAP به ندرت در دسترس هستند، دادههای بخش ممکن است وجود نداشته باشند و ترتیب ارائه ممکن است با پرونده اصلی مطابقت نداشته باشد. استخراج PDF همچنان قابل اعتمادترین منبع برای دادههای مالی کامل و سازگار با ارائه است.
ساخت صفحه گسترده سری زمانی
هنگامی که چندین سال داده استخراج شده را در اختیار دارید، یک صفحه گسترده اصلی با سالها به عنوان ستون و معیارها به عنوان ردیف ایجاد کنید. دادههای هر سال را وارد کنید، تأیید کنید که سالهای همپوشانی در گزارشهای مختلف مطابقت دارند، ردیفهای محاسبه شده برای نرخ رشد و نسبتها را اضافه کنید و هرگونه بازنگری که سازگاری را مختل میکند، پرچمگذاری کنید.