বার্ষিক প্রতিবেদন থেকে মূল মেট্রিকগুলি স্বয়ংক্রিয়ভাবে বের করুন
বার্ষিক প্রতিবেদনগুলি ১০০-৩০০ পৃষ্ঠার পিডিএফ-এর মধ্যে গুরুত্বপূর্ণ আর্থিক ডেটা লুকিয়ে রাখে। এখানে রাজস্ব, নীট আয়, ই পি এস, নগদ প্রবাহ এবং অন্যান্য মূল মেট্রিকগুলি ম্যানুয়ালি সংখ্যা কপি না করে কীভাবে বের করা যায় তা আলোচনা করা হলো।
আপনি এইমাত্র একটি ২৪৭ পৃষ্ঠার বার্ষিক প্রতিবেদন ডাউনলোড করেছেন। এর মধ্যেই আপনার প্রয়োজনীয় বারোটি সংখ্যা রয়েছে: রাজস্ব, নীট আয়, শেয়ার প্রতি আয়, মোট সম্পদ, মোট দায়, পরিচালন নগদ প্রবাহ, ইবিআইটিডিএ এবং কিছু মার্জিন। বাকিটা হলো বয়লারপ্লেট, আইনি প্রকাশ এবং হাসিমুখ কর্মীদের স্টক ফটোগ্রাফি।
সেই সংখ্যাগুলো খুঁজে বের করা কঠিন কাজ নয়। এগুলো আর্থিক বিবরণের অংশে থাকে, সাধারণত ৮০ পৃষ্ঠা থেকে শুরু হয়। কঠিন কাজ হলো এগুলো পিডিএফ থেকে বের করে আপনার মডেলে এমন ফরম্যাটে আনা যা আপনি আসলে ব্যবহার করতে পারবেন। এবং তারপর আপনার কভারেজ ইউনিভার্সের পরবর্তী বিশটি কোম্পানির জন্য এটি আবার করা। এবং তারপর একটি টাইম সিরিজ তৈরি করার জন্য প্রতিটি কোম্পানির শেষ পাঁচ বছরের জন্য এটি আবার করা।
এটিই বার্ষিক প্রতিবেদন এক্সট্রাকশন সমস্যা, এবং এটি ইক্যুইটি গবেষণা দল, ক্রেডিট বিশ্লেষক এবং পোর্টফোলিও ম্যানেজারদের প্রতি বছর হাজার হাজার ঘন্টা সময় নষ্ট করে। বিশ্বব্যাপী ডেটা এক্সট্রাকশন সফ্টওয়্যার বাজার ২০২৯ সালের মধ্যে ৩.৬৪ বিলিয়ন ডলারে পৌঁছাবে বলে অনুমান করা হচ্ছে, যা বার্ষিক ১৫.৯% হারে বৃদ্ধি পাচ্ছে, যার প্রধান চালিকাশক্তি হলো আর্থিক পেশাদাররা যারা পিডিএফ টেবিল থেকে এক্সেলে সংখ্যা কপি করতে ক্লান্ত।
এই গাইডটি আলোচনা করবে বার্ষিক প্রতিবেদন এক্সট্রাকশনকে কেন বিশেষভাবে কঠিন করে তোলে, কোন মেট্রিকগুলি লক্ষ্য করা উচিত এবং প্রক্রিয়াটি স্বয়ংক্রিয় করার উপায় যাতে আপনি ডেটা এন্ট্রির পরিবর্তে বিশ্লেষণে আপনার সময় ব্যয় করতে পারেন।

বার্ষিক প্রতিবেদন এক্সট্রাকশনের চ্যালেঞ্জ
বার্ষিক প্রতিবেদনগুলি অন্যান্য পিডিএফ ডকুমেন্টের মতো নয়। একটি ব্যাংক স্টেটমেন্টের একটি পূর্বাভাসযোগ্য কাঠামো থাকে: তারিখ, বিবরণ, পরিমাণ, ব্যালেন্স, প্রতিটি লেনদেনের জন্য পুনরাবৃত্তি। একটি ইনভয়েসের একটি হেডার, লাইন আইটেম এবং একটি মোট থাকে। এই নথিগুলি প্যাটার্ন অনুসরণ করে যা এক্সট্রাকশন টুলগুলি দ্রুত শিখতে পারে।
বার্ষিক প্রতিবেদনগুলি ভিন্ন। এগুলি দীর্ঘ, জটিল এবং কাঠামোগতভাবে অসামঞ্জস্যপূর্ণ নথি যা একত্রিত করে:
- প্রবাহিত বর্ণনামূলক পাঠ্য সিইও চিঠি, ম্যানেজমেন্ট ডিসকাশন অ্যান্ড অ্যানালাইসিস (এমডিএন্ডএ) এবং ঝুঁকি ফ্যাক্টর বিভাগে
- ঘন আর্থিক টেবিল আয় বিবরণী, ব্যালেন্স শীট এবং নগদ প্রবাহ বিবরণীতে
- ফুটনোট এবং টীকা যা সেই টেবিলগুলির সংখ্যাগুলিকে যোগ্যতা দেয়, সামঞ্জস্য করে বা পুনরায় উল্লেখ করে
- চার্ট এবং গ্রাফ যা প্রবণতাগুলি কল্পনা করে তবে কোনও মেশিন-পঠনযোগ্য ডেটা ধারণ করে না
- সেগমেন্ট রিপোর্টিং টেবিল যা ভূগোল, ব্যবসায়িক ইউনিট বা পণ্য লাইন দ্বারা বিভাজন সহ
- বহু-বছরের তুলনামূলক যা পাশাপাশি দুই বা তিন বছরের ডেটা উপস্থাপন করে
একটি সাধারণ 10-K ফাইলিং 100 থেকে 300 পৃষ্ঠা পর্যন্ত চলে। আর্থিক বিবরণীগুলি নিজেরাই 30 থেকে 40 পৃষ্ঠা দখল করতে পারে, তবে আর্থিক বিবরণীর নোটগুলি - যেখানে আসল বিবরণ থাকে - আরও 50 বা 60 পৃষ্ঠা পর্যন্ত প্রসারিত হতে পারে। বাকিটা আইনি ভাষা, ঝুঁকির কারণ, নির্বাহী ক্ষতিপূরণ টেবিল এবং শাসনের প্রকাশ।
কেন স্ট্যান্ডার্ড কপি-পেস্ট ব্যর্থ হয়
আপনি যদি কখনও একটি পিডিএফ বার্ষিক প্রতিবেদনের একটি টেবিল নির্বাচন করে এক্সেলে পেস্ট করার চেষ্টা করে থাকেন, তবে আপনি ফলাফল জানেন: কলামগুলি একত্রিত হয়, সংখ্যাগুলি ভুল সারিতে মোড়ানো হয় এবং ফুটনোট মার্কারগুলি আপনার ডেটাতে এম্বেড হয়ে যায়।
পিডিএফ-এ টেবিল থাকে না। এগুলি একটি ক্যানভাসে সুনির্দিষ্ট x,y স্থানাঙ্কে অবস্থিত পৃথক অক্ষর ধারণ করে। যা একটি পরিষ্কার টেবিলের মতো দেখায় তা আসলে শত শত পৃথক টেক্সট পজিশনিং কমান্ড যা কোনও সারি বিভাজক, কলাম সীমানা বা সেল রেফারেন্স ছাড়াই থাকে। কপি-পেস্ট এই স্থানিক সম্পর্কগুলিকে সম্পূর্ণরূপে উপেক্ষা করে।
বার্ষিক প্রতিবেদনগুলি এটিকে আরও খারাপ করে তোলে কারণ মাল্টি-লাইন সারি হেডার যেমন "শেয়ারহোল্ডারদের জন্য নিট আয়" একটি একক সারি হওয়া দরকার। বন্ধনীযুক্ত নেতিবাচক যেমন $(1,234) তিনটি পৃথক পজিশনড উপাদান যা পৃথক সেলে বিভক্ত হয়। ফুটনোট সুপারস্ক্রিপ্ট সংখ্যাগুলিকে নষ্ট করে। এবং তুলনামূলক কলামগুলি প্রায়শই একত্রিত হয়।
ম্যানুয়াল এক্সট্রাকশন দুঃস্বপ্ন
প্রচলিত পদ্ধতি হলো ব্রুট ফোর্স। একজন বিশ্লেষক বার্ষিক প্রতিবেদন খোলেন, আয় বিবরণীতে নেভিগেট করেন এবং ম্যানুয়ালি প্রতিটি সংখ্যা একটি স্প্রেডশীটে টাইপ করেন। তারপর ব্যালেন্স শীট। তারপর নগদ প্রবাহ বিবরণী। তারপর সেগমেন্ট ডেটা। তারপর ফুটনোট।
একটি একক কোম্পানির জন্য, এতে 30 থেকে 60 মিনিট সময় লাগে। কিন্তু আর্থিক বিশ্লেষণ সাধারণত একটি কোম্পানি জড়িত করে না। ইক্যুইটি গবেষণা বিশ্লেষকরা সাধারণত 10 থেকে 25 টি কোম্পানি কভার করেন। ক্রেডিট বিশ্লেষকদের 50 বা তার বেশি ঋণগ্রহীতার ডেটা প্রয়োজন হতে পারে। 45 মিনিট প্রতি কোম্পানি হিসাবে 20 কোম্পানি মানে প্রতি রিপোর্টিং পিরিয়ডে ডেটা এন্ট্রিতে 15 ঘন্টা - বছরে 60 ঘন্টা শুধুমাত্র পিডিএফ থেকে সংখ্যা কপি করে।
ত্রুটির হার এটিকে আরও খারাপ করে তোলে। ম্যানুয়াল ডেটা এন্ট্রির একটি নথিভুক্ত ত্রুটির হার 1 থেকে 4 শতাংশ। $4,521 মিলিয়ন রাজস্বের একটি চিত্র $4,512 মিলিয়ন হিসাবে টাইপ করা আপনার বৃদ্ধির হার, মার্জিন গণনা, ইভি/রাজস্ব মাল্টিপল এবং এর উপর নির্ভর করে প্রতিটি ডাউনস্ট্রিম পূর্বাভাসকে ব্যাহত করে।
বিশ্লেষকরা আসলে কী বের করেন
বার্ষিক প্রতিবেদনের প্রতিটি সংখ্যা সমান গুরুত্বপূর্ণ নয়। আর্থিক পেশাদাররা সাধারণত তাদের ব্যবহারের উপর নির্ভর করে মেট্রিকগুলির একটি নির্দিষ্ট সেট লক্ষ্য করে। এখানে বেশিরভাগ এক্সট্রাকশন ওয়ার্কফ্লো কীসের উপর ফোকাস করে।
আয় বিবরণীর মেট্রিকস
| মেট্রিক | কেন এটি গুরুত্বপূর্ণ | কোথায় পাওয়া যাবে |
|---|---|---|
| রাজস্ব / নীট বিক্রয় | শীর্ষ-লাইন বৃদ্ধি, বেশিরভাগ মূল্যায়ন মডেলের জন্য শুরুর বিন্দু | আয় বিবরণী, প্রথম লাইন |
| বিক্রয়কৃত পণ্যের ব্যয় (COGS) | মোট মার্জিন গণনা, সরবরাহ চেইন দক্ষতা | আয় বিবরণী, রাজস্বের নিচে |
| মোট লাভ | রাজস্ব বিয়োগ COGS, উৎপাদন লাভজনকতা পরিমাপ করে | আয় বিবরণী, গণনা করা |
| পরিচালন আয় (EBIT) | সুদ এবং করের আগে মূল ব্যবসা লাভজনকতা | আয় বিবরণী, মধ্য-বিভাগ |
| EBITDA | নগদ-ভিত্তিক লাভজনকতা, ইভি/ইবিআইটিডিএ মাল্টিপলসে ব্যবহৃত হয় | প্রায়শই এমডিএন্ডএ-তে বা আয় বিবরণী + ডিএন্ডএ থেকে নগদ প্রবাহে গণনা করা হয় |
| নীট আয় | সমস্ত ব্যয়, কর এবং সুদের পরে নীট লাভ | আয় বিবরণী, নীচের দিকে |
| শেয়ার প্রতি আয় (বেসিক ও ডাইলুটেড) | শেয়ার প্রতি লাভজনকতা, পি/ই অনুপাত চালিত করে | আয় বিবরণী, শেষ লাইন |
ব্যালেন্স শীট মেট্রিকস
| মেট্রিক | কেন এটি গুরুত্বপূর্ণ | কোথায় পাওয়া যাবে |
|---|---|---|
| মোট সম্পদ | কোম্পানির আকার, লিভারেজ গণনা | ব্যালেন্স শীট, সম্পদ বিভাগের মোট |
| মোট দায় | ঋণের বোঝা, সলভেন্সি মূল্যায়ন | ব্যালেন্স শীট, দায় বিভাগের মোট |
| মোট ইক্যুইটি / শেয়ারহোল্ডারদের ইক্যুইটি | নেট মূল্য, বই মূল্য গণনা | ব্যালেন্স শীট, ইক্যুইটি বিভাগের মোট |
| মোট ঋণ (স্বল্পমেয়াদী + দীর্ঘমেয়াদী) | লিভারেজ অনুপাত, সুদ কভারেজ | ব্যালেন্স শীট + ফুটনোট |
| নগদ এবং নগদ সমতুল্য | তারল্য, নীট ঋণ গণনা | ব্যালেন্স শীট, প্রথম বর্তমান সম্পদ |
| বর্তমান সম্পদ / বর্তমান দায় | কার্যকরী মূলধন, বর্তমান অনুপাত | ব্যালেন্স শীট বিভাগ মোট |
নগদ প্রবাহ বিবরণীর মেট্রিকস
| মেট্রিক | কেন এটি গুরুত্বপূর্ণ | কোথায় পাওয়া যাবে |
|---|---|---|
| পরিচালন নগদ প্রবাহ | মূল ব্যবসা দ্বারা উত্পন্ন নগদ | নগদ প্রবাহ বিবরণী, প্রথম বিভাগ |
| মূলধনী ব্যয় | বৃদ্ধির বিনিয়োগ, মুক্ত নগদ প্রবাহ গণনা | বিনিয়োগ কার্যক্রম থেকে নগদ প্রবাহ |
| মুক্ত নগদ প্রবাহ | পরিচালন বজায় রাখার পরে উপলব্ধ নগদ | মূলধনী ব্যয় বিয়োগ পরিচালন নগদ প্রবাহ |
| প্রদত্ত লভ্যাংশ | শেয়ারহোল্ডারদের রিটার্ন, পেআউট অনুপাত | অর্থায়ন কার্যক্রম থেকে নগদ প্রবাহ |
উদ্ভূত অনুপাত এবং মার্জিন
কাঁচা মেট্রিকগুলি বের করার পরে, বিশ্লেষকরা গণনা করেন:
- মোট মার্জিন: মোট লাভ / রাজস্ব
- পরিচালন মার্জিন: পরিচালন আয় / রাজস্ব
- নীট মার্জিন: নীট আয় / রাজস্ব
- ইক্যুইটির উপর রিটার্ন (ROE): নীট আয় / শেয়ারহোল্ডারদের ইক্যুইটি
- সম্পদের উপর রিটার্ন (ROA): নীট আয় / মোট সম্পদ
- ঋণ-থেকে-ইক্যুইটি: মোট ঋণ / মোট ইক্যুইটি
- বর্তমান অনুপাত: বর্তমান সম্পদ / বর্তমান দায়
- সুদ কভারেজ: EBIT / সুদের ব্যয়
এই অনুপাতগুলির জন্য অন্তর্নিহিত উপাদানগুলির পরিষ্কার, সঠিক এক্সট্রাকশন প্রয়োজন। একটি ভুল সংখ্যা পুরো অনুপাতকে নষ্ট করে দেয়।
অসংগঠিত নথিতে এমবেড করা কাঠামোগত ডেটা
মূল প্রযুক্তিগত চ্যালেঞ্জ হলো কাঠামোগত ডেটা - সুনির্দিষ্ট অর্থ এবং সম্পর্ক সহ সংখ্যা - অসংগঠিত নথির মধ্যে এমবেড করা থাকে। একটি আর্থিক বিবরণী একটি টেবিল, তবে এটি একটি পিডিএফ-এর মধ্যে থাকে যাতে বর্ণনামূলক অনুচ্ছেদ, আইনি দাবিত্যাগ, ছবি এবং পৃষ্ঠার হেডারও থাকে।
এটি সাধারণ টেবিল স্বীকৃতির বাইরেও বেশ কয়েকটি এক্সট্রাকশন সমস্যা তৈরি করে:
- প্রসঙ্গ-নির্ভর সংখ্যা। "12,345" সংখ্যাটির অর্থ কোথায় প্রদর্শিত হয় তার উপর নির্ভর করে ভিন্ন হয়। রাজস্ব লাইনে, এর অর্থ $12,345 মিলিয়ন (বা হাজার, আর্থিক বিবরণীর শীর্ষে উল্লিখিত রিপোর্টিং ইউনিটের উপর নির্ভর করে)। নির্বাহী ক্ষতিপূরণে, এটি প্রকৃত ডলারে $12,345 হতে পারে। কার্যকর এক্সট্রাকশনের জন্য কোন বিভাগে একটি সংখ্যা পড়ে এবং কলাম হেডার এবং ইউনিট ডিনোমিনেশন কী বলে তা বোঝা প্রয়োজন।
- নেস্টেড এবং স্প্যানিং টেবিল। বার্ষিক প্রতিবেদন টেবিলগুলি বিভাগের হেডার, মূল বিভাগের অধীনে ইন্ডেন্টেড সাব-আইটেম, লাইন আইটেমগুলির মধ্যে মিশ্রিত সাবটোটাল, বহু-বছরের তুলনামূলক কলাম এবং খালি বিভাজক সারিগুলির জন্য মার্জ করা সেল ব্যবহার করে। একটি আনাড়ি এক্সট্রাকশন টুল প্রতিটি ভিজ্যুয়াল উপাদানকে একটি ডেটা পয়েন্ট হিসাবে বিবেচনা করে, ফ্যান্টম সারি এবং মার্জ করা মানগুলির পূর্ণ মিসলাইনড স্প্রেডশীট তৈরি করে।
- ফুটনোট রেফারেন্স। "12,345^(1)" এর রাজস্ব এক্সট্রাকশন ছাড়া "12345 1" হয়ে যায়। সুপারস্ক্রিপ্ট পিডিএফ-এ একটি পৃথক পজিশনড অক্ষর। এক্সট্রাকশন টুলগুলি হয় এটি সরিয়ে দেয় (রেফারেন্স হারিয়ে যায়) অথবা এটি অন্তর্ভুক্ত করে (সংখ্যা নষ্ট করে)।
এআই এক্সট্রাকশন কীভাবে বার্ষিক প্রতিবেদনগুলি পরিচালনা করে
এআই-চালিত এক্সট্রাকশন একটি মৌলিকভাবে ভিন্ন পদ্ধতি গ্রহণ করে। শুধুমাত্র স্থানিক বিশ্লেষণের উপর নির্ভর করার পরিবর্তে - অক্ষরের অবস্থানগুলির উপর ভিত্তি করে সারি এবং কলামগুলি সনাক্ত করা - এটি স্থানিক সচেতনতাকে শব্দার্থিক বোঝার সাথে একত্রিত করে।
লেআউট-সচেতন টেবিল সনাক্তকরণ গ্রিড লাইনগুলি খোঁজার বাইরে চলে যায় (অনেক আর্থিক টেবিলে কোনও দৃশ্যমান সীমানা থাকে না)। সিস্টেমটি অক্ষর ব্যবধান প্যাটার্ন, দশমিক পয়েন্ট অ্যালাইনমেন্ট, ফর্ম্যাটিং পুনরাবৃত্তি এবং হেডার সারিগুলি বিশ্লেষণ করে টেবিলের সীমানা সনাক্ত করে। এটি একটি বর্ণনামূলক অনুচ্ছেদকে আলাদা করতে পারে যা অ্যালাইন করা কলাম সহ আর্থিক ডেটার টেবিল থেকে সংখ্যা ধারণ করে।
শব্দার্থিক ক্ষেত্র সনাক্তকরণ প্রতিটি কলাম এবং সারি কী উপস্থাপন করে তা সনাক্ত করে। এটি স্বীকৃতি দেয় যে "Revenue," "Net sales," "Total revenue," এবং "Net revenues" সবই একই ধারণাকে বোঝায়। এটি বোঝে যে আর্থিক প্রসঙ্গে "(1,234)" মানে নেতিবাচক 1,234, ফুটনোট রেফারেন্স নয়। এটি গুরুত্বপূর্ণ কারণ কোম্পানিগুলির মধ্যে নামকরণের কনভেনশনগুলি ব্যাপকভাবে পরিবর্তিত হয় - একটি রিপোর্ট করে "Stockholders' equity" যখন অন্যটি "Shareholders' equity" বা "Total equity" ব্যবহার করে।
মাল্টি-পেজ টেবিল কন্টিনিউয়েশন পৃষ্ঠা বিরতি জুড়ে পুনরাবৃত্ত হেডার প্যাটার্ন এবং সামঞ্জস্যপূর্ণ কলাম অ্যালাইনমেন্ট সনাক্ত করে পরিচালনা করা হয়। আয় বিবরণী পৃষ্ঠা 84-এ শুরু হতে পারে এবং পৃষ্ঠা 85-এ চলতে পারে, এবং এআই এক্সট্রাকশন ডেটা একটি একক সুসংগত টেবিলে সেলাই করে।
বার্ষিক প্রতিবেদনগুলিতে লক্ষ্য করার মূল বিভাগগুলি
বার্ষিক প্রতিবেদনের প্রতিটি বিভাগে এক্সট্রাক্টযোগ্য আর্থিক ডেটা থাকে না। কোথায় ফোকাস করতে হবে তা জানা সময় বাঁচায় এবং নির্ভুলতা উন্নত করে।
আর্থিক বিবরণী হলো প্রাথমিক এক্সট্রাকশন লক্ষ্য: একীভূত আয় বিবরণী, ব্যালেন্স শীট, নগদ প্রবাহ এবং শেয়ারহোল্ডারদের ইক্যুইটি। এই চারটি বিবরণী কাঁচা সংখ্যা ধারণ করে যা আর্থিক মডেলগুলি চালায়।
ম্যানেজমেন্ট ডিসকাশন অ্যান্ড অ্যানালাইসিস (MD&A) হলো যেখানে ব্যবস্থাপনা সংখ্যাগুলি ব্যাখ্যা করে। এতে প্রায়শই অ্যাডজাস্টেড ইবিআইটিডিএ এবং ফ্রি ক্যাশ ফ্লো-এর মতো নন-গ্যাপ মেট্রিকস, সেগমেন্ট-স্তরের বিভাজন এবং ফরোয়ার্ড-লুকিং গাইডেন্স থাকে - যা সবই টেবিলের পরিবর্তে বর্ণনামূলক অনুচ্ছেদে এমবেড করা থাকে। এআই এক্সট্রাকশন এই চিত্রগুলি সনাক্ত এবং টানতে পারে, তবে এগুলির জন্য টেবিল ডেটার চেয়ে বেশি প্রাসঙ্গিক বোঝার প্রয়োজন।
সেগমেন্ট রিপোর্টিং ব্যবসায়িক ইউনিট, ভূগোল বা পণ্য লাইন দ্বারা ফলাফলগুলি ভেঙে দেয়। এই ডেটা সাম-অফ-দ্য-পার্টস মূল্যায়নের জন্য অপরিহার্য। সেগমেন্ট টেবিলগুলিতে প্রায়শই নন-স্ট্যান্ডার্ড কাঠামো থাকে যেখানে সেগমেন্টের নামগুলি কলাম হেডার হিসাবে এবং আন্তঃসেগমেন্ট নির্মূলগুলি নেতিবাচক সারি যুক্ত করে।
আর্থিক বিবরণীর নোট সবচেয়ে বিস্তারিত ডেটা ধারণ করে: মেয়াদপূর্তির তারিখ সহ ঋণের সময়সূচী, পণ্য বা ভূগোল দ্বারা রাজস্ব বিভাজন, লিজ বাধ্যবাধকতা, পেনশন বিবরণ, কর হারের পুনর্মিলন এবং সেগমেন্ট দ্বারা গুডউইল বিভাজন। এগুলি এক্সট্রাক্ট করা সবচেয়ে কঠিন কারণ এগুলি বর্ণনামূলক পাঠ্যকে ছোট এমবেডেড টেবিলের সাথে মিশ্রিত করে।
ঝুঁকির কারণ বেশিরভাগই গুণগত, তবে কখনও কখনও পরিমাণগত প্রকাশ থাকে: অনুচ্ছেদের আইনি ভাষার মধ্যে এমবেড করা ঘনত্ব ঝুঁকির শতাংশ, মামলা রিজার্ভ বা নিয়ন্ত্রক মূলধনের প্রয়োজনীয়তা।
PDFSub দিয়ে বার্ষিক প্রতিবেদন ডেটা এক্সট্রাক্ট করুন

PDFSub বার্ষিক প্রতিবেদন এক্সট্রাকশনের জন্য বিশেষভাবে উপযুক্ত দুটি সরঞ্জাম সরবরাহ করে: Extract Tables টুল এবং Financial Report Analyzer।
Extract Tables: আর্থিক বিবরণী স্প্রেডশীটে টানুন
Extract Tables টুল পিডিএফ ডকুমেন্ট থেকে টেবুলার ডেটা সনাক্ত করে এবং এক্সট্রাক্ট করে। বার্ষিক প্রতিবেদনগুলির জন্য, এর অর্থ:
- বার্ষিক প্রতিবেদন পিডিএফ আপলোড করুন - ফাইলটি ড্র্যাগ এবং ড্রপ করুন। এসইসি এডগার বা কোম্পানির ইনভেস্টর রিলেশনস পৃষ্ঠাগুলি থেকে ডাউনলোড করা ডিজিটাল পিডিএফগুলির জন্য, প্রাথমিক প্রক্রিয়াকরণ আপনার ব্রাউজারে ঘটে। সার্ভার-সাইড এআই প্রক্রিয়াকরণের প্রয়োজন না হলে ফাইলটি আপনার ডিভাইস ছেড়ে যায় না।
- স্বয়ংক্রিয় টেবিল সনাক্তকরণ - টুলটি ডকুমেন্টের সমস্ত টেবিল অঞ্চল সনাক্ত করে, পৃষ্ঠা বিরতি জুড়ে বিস্তৃত মাল্টি-পেজ টেবিল সহ।
- এক্সট্রাক্ট করা টেবিলগুলি পর্যালোচনা করুন - সনাক্ত করা প্রতিটি টেবিল তার এক্সট্রাক্ট করা ডেটা সহ প্রদর্শিত হয়। আপনি যাচাই করতে পারেন যে কলামগুলি সঠিকভাবে অ্যালাইন করা হয়েছে এবং মানগুলি সঠিক।
- Excel বা CSV তে এক্সপোর্ট করুন - আর্থিক মডেলিংয়ের জন্য প্রস্তুত ফরম্যাটে এক্সট্রাক্ট করা টেবিলগুলি ডাউনলোড করুন।
এই পদ্ধতিটি মূল আর্থিক বিবরণীগুলির (আয় বিবরণী, ব্যালেন্স শীট, নগদ প্রবাহ) জন্য ভাল কাজ করে যেখানে ডেটা স্পষ্ট টেবুলার বিন্যাসে উপস্থাপিত হয়।
Financial Report Analyzer: এআই-চালিত মেট্রিক এক্সট্রাকশন
Financial Report Analyzer টেবিল এক্সট্রাকশনের বাইরে চলে যায়। এটি পুরো ডকুমেন্টটি পড়তে, এর কাঠামো বুঝতে এবং নির্দিষ্ট আর্থিক মেট্রিকগুলি এক্সট্রাক্ট করতে এআই ব্যবহার করে - যার মধ্যে বর্ণনামূলক পাঠ্য বা ফুটনোটগুলিতে এমবেড করা বিষয়গুলিও রয়েছে।
বার্ষিক প্রতিবেদনগুলির জন্য, বিশ্লেষক করতে পারেন:
- ডকুমেন্টের সমস্ত বিভাগ জুড়ে মূল আর্থিক মেট্রিকগুলি সনাক্ত এবং এক্সট্রাক্ট করুন
- এমডিএন্ডএ বিভাগ থেকে নন-গ্যাপ মেট্রিকস টানুন
- রিপোর্টিং টেবিল থেকে সেগমেন্ট-স্তরের ডেটা এক্সট্রাক্ট করুন
- একই মেট্রিকের জন্য বিভিন্ন নামকরণের কনভেনশনগুলি স্বীকৃতি দিন এবং পরিচালনা করুন
- এক্সট্রাক্ট করা সংখ্যাগুলির জন্য প্রসঙ্গ সরবরাহ করুন, যার মধ্যে রিপোর্টিং পিরিয়ড এবং পরিমাপের একক অন্তর্ভুক্ত রয়েছে।
উভয় সরঞ্জাম একত্রিত করা
বার্ষিক প্রতিবেদনগুলির জন্য সবচেয়ে কার্যকর ওয়ার্কফ্লো উভয় পদ্ধতিকে একত্রিত করে:
- সম্পূর্ণ টেবুলার বিশ্বস্ততার সাথে এক্সেলে কাঠামোগত আর্থিক বিবরণীগুলি (আয় বিবরণী, ব্যালেন্স শীট, নগদ প্রবাহ) টানতে Extract Tables ব্যবহার করুন।
- বর্ণনামূলক বিভাগ, ফুটনোট এবং নন-স্ট্যান্ডার্ড টেবিল থেকে নির্দিষ্ট মেট্রিকগুলি এক্সট্রাক্ট করতে Financial Report Analyzer ব্যবহার করুন।
- নির্ভুলতা যাচাই করতে ফলাফলগুলি ক্রস-রেফারেন্স করুন।
উভয় সরঞ্জামই PDFSub এর 7-দিনের বিনামূল্যের ট্রায়াল এর সাথে উপলব্ধ, তাই আপনি প্রতিশ্রুতিবদ্ধ হওয়ার আগে আপনার আসল বার্ষিক প্রতিবেদনগুলির বিরুদ্ধে সেগুলি পরীক্ষা করতে পারেন।
আর্থিক মডেলিংয়ের জন্য Excel এবং CSV তে এক্সপোর্ট করুন
এক্সট্রাকশন কেবল তখনই কার্যকর হয় যদি আউটপুট আপনার ওয়ার্কফ্লোতে ফিট করে। এক্সট্রাক্ট করা টেবিলগুলি .xlsx ফাইল হিসাবে এক্সপোর্ট হয় যেখানে সঠিকভাবে টাইপ করা সাংখ্যিক সেল, সংরক্ষিত কলাম অ্যালাইনমেন্ট, প্রতিটি টেবিলের জন্য পৃথক শীট এবং পরিষ্কার হেডার থাকে। CSV (ডাটাবেস এবং স্ক্রিপ্টিং সরঞ্জামগুলির জন্য সাধারণ) পছন্দকারী বিশ্লেষকদের জন্য, আপনি UTF-8 এনকোডিং সহ কমা-বিভাজিত আউটপুট এবং প্রতিটি এক্সট্রাক্ট করা টেবিলের জন্য একটি ফাইল পান।
একটি সাধারণ পোস্ট-এক্সট্রাকশন ওয়ার্কফ্লো: আয় বিবরণী, ব্যালেন্স শীট এবং নগদ প্রবাহ বিবরণী এক্সট্রাক্ট করুন; তিনটি টেবিল আপনার মডেল টেমপ্লেটে আমদানি করুন; আপনার স্ট্যান্ডার্ডাইজড সারি লেবেলের সাথে ফিল্ডের নামগুলি ম্যাপ করুন; মোটগুলি মেলে কিনা তা যাচাই করুন; উদ্ভূত অনুপাতগুলি গণনা করুন; এবং পূর্ববর্তী বছরের প্রতিবেদনগুলির জন্য পুনরাবৃত্তি করে টাইম সিরিজ তৈরি করুন। এটি ম্যানুয়াল টাইপিং প্রতিস্থাপন করে এবং প্রতি কোম্পানি প্রতি 45 মিনিট থেকে 5 মিনিটের কম সময়ে এন্ড-টু-এন্ড সময় কমিয়ে দেয়।
ব্যবহারের ক্ষেত্র: কারা বার্ষিক প্রতিবেদন ডেটা এক্সট্রাক্ট করে
ইক্যুইটি গবেষণা। বিশ্লেষকরা 5 থেকে 10 বছরের ঐতিহাসিক ডেটা এবং 3 থেকে 5 বছরের প্রজেকশন সহ আর্থিক মডেল তৈরি করেন। 15 টি কোম্পানির একটি কভারেজ ইউনিভার্সের অর্থ বছরে 15 টি বার্ষিক প্রতিবেদন এবং 60 টি ত্রৈমাসিক প্রতিবেদন থেকে ডেটা এক্সট্রাক্ট করা। স্বয়ংক্রিয় এক্সট্রাকশন এটিকে একটি বহু-দিনের ডেটা এন্ট্রি অনুশীলন থেকে একই-দিনের কাজে রূপান্তরিত করে।
ক্রেডিট বিশ্লেষণ। ক্রেডিট বিশ্লেষকরা Debt/EBITDA (লিভারেজ), EBITDA/Interest Expense (কভারেজ), Current Ratio (লিকুইডিটি), এবং Debt/Total Capitalization (ক্যাপিটাল স্ট্রাকচার) ব্যবহার করে ঋণগ্রহীতার ক্রেডিটযোগ্যতা মূল্যায়ন করেন। একটি বাণিজ্যিক ব্যাংকের ঋণ পোর্টফোলিওতে শত শত ঋণগ্রহীতা থাকতে পারে, প্রত্যেকে বার্ষিক আর্থিক বিবরণী জমা দেয় যেখান থেকে এই মেট্রিকগুলি এক্সট্রাক্ট করা প্রয়োজন।
বেঞ্চমার্কিং এবং প্রতিযোগী বিশ্লেষণ। 5 থেকে 15 টি বার্ষিক প্রতিবেদন থেকে একই মেট্রিকগুলি এক্সট্রাক্ট করা, বিভিন্ন ফিসকাল বছরের শেষ, রিপোর্টিং ইউনিট এবং অ্যাকাউন্টিং স্ট্যান্ডার্ডগুলির (ইউএস GAAP বনাম IFRS) জন্য স্বাভাবিকীকরণ করা প্রয়োজন।
পোর্টফোলিও পর্যবেক্ষণ। 30 থেকে 100 টি হোল্ডিং ট্র্যাক করা বিনিয়োগ পরিচালকরা ত্রৈমাসিকভাবে একটি স্ট্যান্ডার্ড মনিটরিং মেট্রিক সেট এক্সট্রাক্ট করেন: রাজস্ব বৃদ্ধি, EBITDA মার্জিন প্রবণতা, নীট ঋণ/EBITDA, ফ্রি ক্যাশ ফ্লো ইল্ড, এবং বিনিয়োগিত মূলধনের উপর রিটার্ন। স্বয়ংক্রিয় এক্সট্রাকশন এটিকে স্কেলে সম্ভব করে তোলে।
বহু-বছরের এক্সট্রাকশন: টাইম সিরিজ ডেটা তৈরি করা
আর্থিক বিশ্লেষণ মূলত প্রবণতা সম্পর্কে: রাজস্ব ত্বরান্বিত হচ্ছে? মার্জিন প্রসারিত হচ্ছে? কোম্পানি কি ঋণমুক্ত হচ্ছে? এই প্রশ্নগুলির উত্তর দেওয়ার জন্য কমপক্ষে তিন থেকে পাঁচ বছর বিস্তৃত টাইম সিরিজ ডেটা প্রয়োজন।
পদ্ধতি 1: প্রতিটি বার্ষিক প্রতিবেদন থেকে এক্সট্রাক্ট করুন
বার্ষিক প্রতিবেদনগুলিতে সাধারণত দুই বছরের আয় বিবরণীর ডেটা (বর্তমান বছর এবং পূর্ববর্তী বছর) এবং দুই বছরের ব্যালেন্স শীট ডেটা থাকে। কিছু তিন বছরের তুলনামূলক আয় বিবরণী অন্তর্ভুক্ত করে।
একটি পাঁচ বছরের টাইম সিরিজ তৈরি করতে, আপনার তিনটি বার্ষিক প্রতিবেদন থেকে এক্সট্রাক্ট করতে হবে:
- 2025 বার্ষিক প্রতিবেদন: 2025 এবং 2024 ডেটা ধারণ করে
- 2023 বার্ষিক প্রতিবেদন: 2023 এবং 2022 ডেটা ধারণ করে
- 2021 বার্ষিক প্রতিবেদন: 2021 এবং 2020 ডেটা ধারণ করে
এটি আপনাকে ওভারল্যাপিং বছর দেয় (2024 উভয় 2025 এবং 2024 প্রতিবেদনে উপস্থিত) যা একটি ক্রস-চেক হিসাবে কাজ করে।
পদ্ধতি 2: 10-K নির্বাচিত আর্থিক ডেটা ব্যবহার করুন
কিছু কোম্পানি একটি "নির্বাচিত আর্থিক ডেটা" টেবিল অন্তর্ভুক্ত করে যা একটি একক টেবিলে পাঁচ থেকে দশ বছরের মূল মেট্রিকগুলি উপস্থাপন করে। যখন উপলব্ধ থাকে, এটি একটি বহু-বছরের টাইম সিরিজের দ্রুততম পথ। তবে, এসইসি 2021 সালে এই টেবিলের প্রয়োজনীয়তা বাতিল করেছে, এবং অনেক কোম্পানি তখন থেকে এটি বাদ দিয়েছে।
পদ্ধতি 3: এসইসি এডগার XBRL ডেটা থেকে এক্সট্রাক্ট করুন
মার্কিন পাবলিক কোম্পানিগুলির জন্য, এসইসি ফাইলিংগুলিতে XBRL-ট্যাগ করা ডেটা অন্তর্ভুক্ত থাকে যা পিডিএফ এক্সট্রাকশন ছাড়াই মেশিন-পঠনযোগ্য। এসইসি-র এডগার সিস্টেম স্ট্যান্ডার্ডাইজড লাইন আইটেমগুলির জন্য JSON-ফরম্যাট করা ডেটা সরবরাহকারী RESTful API সরবরাহ করে। তবে, XBRL-এর সীমাবদ্ধতা রয়েছে: কাস্টম লাইন আইটেমগুলি ধারাবাহিকভাবে ট্যাগ নাও হতে পারে, নন-গ্যাপ মেট্রিকগুলি বিরলভাবে উপলব্ধ, সেগমেন্ট ডেটা অনুপস্থিত থাকতে পারে এবং উপস্থাপনার ক্রম মূল ফাইলিংয়ের সাথে নাও মিলতে পারে। সম্পূর্ণ, উপস্থাপনা-সামঞ্জস্যপূর্ণ আর্থিক ডেটার জন্য পিডিএফ এক্সট্রাকশন সবচেয়ে নির্ভরযোগ্য উৎস হিসাবে রয়ে গেছে।
টাইম সিরিজ স্প্রেডশীট তৈরি করা
একবার আপনার কাছে একাধিক বছরের এক্সট্রাক্ট করা ডেটা হয়ে গেলে, কলাম হিসাবে বছর এবং সারি হিসাবে মেট্রিক সহ একটি মাস্টার স্প্রেডশীট তৈরি করুন। প্রতিটি বছরের ডেটা আমদানি করুন, ওভারল্যাপিং বছরগুলি প্রতিবেদন জুড়ে মেলে কিনা তা যাচাই করুন, বৃদ্ধির হার এবং অনুপাতগুলির জন্য গণনা করা সারি যুক্ত করুন এবং তুলনার ক্ষমতা নষ্ট করে এমন কোনও পুনর্গঠন ফ্ল্যাগ করুন।
গুণমান পরীক্ষা: এক্সট্রাক্ট করা ডেটা যাচাই করা
স্বয়ংক্রিয় এক্সট্রাকশন দ্রুত, তবে আপনার সর্বদা আউটপুট যাচাই করা উচিত। বার্ষিক প্রতিবেদনগুলিতে যাচাইকরণ সহজ করার জন্য অন্তর্নির্মিত ক্রস-চেক থাকে।
ব্যালেন্স শীট সমীকরণ
সবচেয়ে মৌলিক পরীক্ষা: মোট সম্পদ = মোট দায় + মোট শেয়ারহোল্ডারদের ইক্যুইটি।
যদি আপনার এক্সট্রাক্ট করা ডেটাতে এই সমীকরণটি না মেলে, তবে কিছু ভুল হয়েছে। হয় একটি সংখ্যা ভুল পড়া হয়েছে, একটি সারি বাদ দেওয়া হয়েছে, বা কলামগুলি মিসলাইনড হয়েছে। এই একক পরীক্ষাটি এক্সট্রাকশন ত্রুটিগুলির একটি বড় শতাংশ ধরে ফেলে।
আয় বিবরণী প্রবাহ
সমস্ত ব্যয় থেকে রাজস্ব বাদ দিলে নীট আয় হওয়া উচিত। পাটিগণিত যাচাই করুন:
রাজস্ব
- বিক্রীত পণ্যের ব্যয়
= মোট লাভ
- পরিচালন ব্যয়
= পরিচালন আয়
- সুদের ব্যয়
+ সুদের আয়
- কর প্রভিশন
= নীট আয়যদি সাবটোটালগুলি যোগ না হয়, তবে কোন লাইন আইটেমগুলি মিস করা হয়েছে বা ভুল এক্সট্রাক্ট করা হয়েছে তা পরীক্ষা করুন।
নগদ প্রবাহ পুনর্মিলন
নগদ প্রবাহ বিবরণী নীট আয় দিয়ে শুরু হয় এবং নগদের পরিবর্তনে শেষ হয়। সেই শেষ পরিবর্তনটি ব্যালেন্স শীটে নগদ শুরু এবং শেষের মধ্যে পার্থক্যের সাথে মিলতে হবে।
শুরুর নগদ ব্যালেন্স (ব্যালেন্স শীট থেকে)
+ নগদের নীট পরিবর্তন (নগদ প্রবাহ বিবরণী থেকে)
= শেষের নগদ ব্যালেন্স (ব্যালেন্স শীট থেকে)যুক্তিসঙ্গততা এবং স্পট চেক
এক্সট্রাক্ট করা ডেটা অযৌক্তিক মানের জন্য স্ক্যান করুন: রাজস্ব বছরে 50% এর বেশি পরিবর্তিত হচ্ছে, মোট সম্পদ নেতিবাচক, শেয়ার প্রতি আয় যা শেয়ার আউটস্ট্যান্ডিং দ্বারা নীট আয়কে ভাগ করলে মেলে না, বা শিল্পের স্বাভাবিকের বাইরে মার্জিন (উৎপাদনে 90% নীট মার্জিন একটি দশমিক ত্রুটি নির্দেশ করে)। তারপর এলোমেলোভাবে তিন থেকে পাঁচটি সংখ্যা বাছাই করুন, আসল পিডিএফ-এ ফিরে যান এবং যাচাই করুন যে সেগুলি মেলে। এটি 30 সেকেন্ড সময় নেয় এবং ভুল কলাম থেকে ডেটা এক্সট্রাক্ট করার মতো পদ্ধতিগত ত্রুটিগুলি ধরে ফেলে।
আরও ভাল এক্সট্রাকশন ফলাফলের জন্য টিপস
ডিজিটাল বার্ষিক প্রতিবেদন ব্যবহার করুন, স্ক্যান করা কপি নয়। ডিজিটাল পিডিএফগুলি স্ক্যান করা ডকুমেন্টের চেয়ে অনেক বেশি নির্ভুলভাবে এক্সট্রাক্ট করে। মার্কিন পাবলিক কোম্পানিগুলির জন্য, সর্বদা এসইসি এডগার (ফাইলিংগুলি সংজ্ঞানুসারে ডিজিটাল) বা কোম্পানির ইনভেস্টর রিলেশনস পৃষ্ঠাগুলি থেকে ডাউনলোড করুন। প্রিন্টেড রিপোর্টগুলি পিডিএফ-এ স্ক্যান করা এবং বিপণনের জন্য ডিজাইন করা ইমেজ-ভারী "গ্লসি" বার্ষিক প্রতিবেদনগুলি এড়িয়ে চলুন।
বার্ষিক প্রতিবেদন শেয়ারহোল্ডারদের জন্য 10-K ব্যবহার করুন, বার্ষিক প্রতিবেদন নয়। পাবলিক কোম্পানিগুলি প্রায়শই একটি 10-K ফাইলিং (স্ট্যান্ডার্ডাইজড আর্থিক বিবরণী) এবং একটি বার্ষিক প্রতিবেদন শেয়ারহোল্ডারদের জন্য (গ্লসি ছবি সহ বিপণন নথি) উভয়ই তৈরি করে। 10-K-তে স্ট্যান্ডার্ডাইজড GAAP উপস্থাপনা, সামঞ্জস্যপূর্ণ টেবিল ফর্ম্যাটিং, সম্পূর্ণ ফুটনোট রয়েছে এবং এটি সর্বদা এডগার থেকে একটি ডিজিটাল পিডিএফ হিসাবে উপলব্ধ।
এক্সট্রাক্ট করার আগে রিপোর্টিং ইউনিট সনাক্ত করুন। প্রতিটি আর্থিক বিবরণীর শীর্ষে "মিলিয়ন-এ, শেয়ার প্রতি পরিমাণ ব্যতীত" বা "হাজার-এ" এর মতো একটি নোট থাকে। আপনি যদি এটি মিস করেন, "45,231" রাজস্বের একটি চিত্র $45.2 বিলিয়ন বা $45.2 মিলিয়ন হতে পারে। সর্বদা পরীক্ষা করুন এবং সঠিক গুণক প্রয়োগ করুন।
ফিসকাল বছরের পার্থক্যগুলি পরিচালনা করুন। সমস্ত কোম্পানি ক্যালেন্ডার ফিসকাল বছর ব্যবহার করে না। অ্যাপল সেপ্টেম্বরে শেষ হয়, ওয়ালমার্ট জানুয়ারিতে, মাইক্রোসফট জুনে। ফিসকাল বছরের শেষ তারিখ প্রতিটি আর্থিক বিবরণীর শীর্ষে বলা থাকে।
পুনর্গঠনগুলির জন্য নজর রাখুন। যখন একটি কোম্পানি পূর্ববর্তী বছরের আর্থিক বিবরণী পুনর্গঠন করে, তখন পুনর্গঠিত সংখ্যাগুলি বর্তমান বছরের বার্ষিক প্রতিবেদনে প্রদর্শিত হয়। 2025 প্রতিবেদনের 2024 ডেটা 2024 প্রতিবেদনের 2024 ডেটা থেকে ভিন্ন হতে পারে। টাইম সিরিজ তৈরি করার সময় সর্বদা সবচেয়ে সম্প্রতি পুনর্গঠিত পরিসংখ্যান ব্যবহার করুন।
শুরু করা
বার্ষিক প্রতিবেদন এক্সট্রাকশন ম্যানুয়াল, ত্রুটি-প্রবণ প্রক্রিয়া হওয়ার প্রয়োজন নেই। ব্যবহারিক ওয়ার্কফ্লো: এসইসি এডগার থেকে 10-K ডাউনলোড করুন, এটি PDFSub-এর Extract Tables টুল বা Financial Report Analyzer এ আপলোড করুন, আউটপুট পর্যালোচনা করুন, Excel বা CSV তে এক্সপোর্ট করুন, উপরে বর্ণিত গুণমান পরীক্ষাগুলি চালান এবং যাচাইকৃত ডেটা আপনার আর্থিক মডেলে আমদানি করুন।
PDFSub একটি 7-দিনের বিনামূল্যের ট্রায়াল অফার করে যাতে আপনি আপনার আসল বার্ষিক প্রতিবেদনগুলির বিরুদ্ধে এক্সট্রাকশন সরঞ্জামগুলি পরীক্ষা করতে পারেন। এটি পূর্বে ম্যানুয়ালি এক্সট্রাক্ট করা একটি 10-K দিয়ে চেষ্টা করুন এবং ফলাফলগুলি তুলনা করুন - নির্ভুলতা এবং সময় সাশ্রয় উভয়ই।
নিয়মিত বার্ষিক প্রতিবেদন প্রক্রিয়া করে এমন আর্থিক পেশাদারদের জন্য, স্বয়ংক্রিয় এক্সট্রাকশন একটি প্রতিযোগিতামূলক সুবিধা। যে বিশ্লেষক ডেটা এক্সট্রাক্ট করতে 5 মিনিট এবং বিশ্লেষণ করতে 55 মিনিট ব্যয় করেন তিনি ধারাবাহিকভাবে সেই বিশ্লেষকের চেয়ে ভাল পারফর্ম করবেন যিনি এক্সট্রাক্ট করতে 55 মিনিট এবং বিশ্লেষণ করতে 5 মিনিট ব্যয় করেন।