লেখক:
(1) আরভ প্যাটেল, অ্যামিটি আঞ্চলিক উচ্চ বিদ্যালয় – ইমেল: aarav.dhp@gmail.com;
(2) পিটার গ্লোর, সেন্টার ফর কালেকটিভ ইন্টেলিজেন্স, ম্যাসাচুসেটস ইনস্টিটিউট অফ টেকনোলজি এবং সংশ্লিষ্ট লেখক – ইমেল: pgloor@mit.edu।
এই প্রকল্পের নির্মাণ তিনটি ধাপে বিভক্ত ছিল। প্রথম ধাপটি ছিল বিভিন্ন সামাজিক নেটওয়ার্ক জুড়ে ওয়েব স্ক্র্যাপারের মাধ্যমে ডেটা সংগ্রহ। পরবর্তীতে, টেক্সট ডেটা প্রাক-প্রসেস করা হয়েছিল এবং ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং ব্যবহার করে সাব-ক্যাটাগরি স্কোরে রূপান্তরিত হয়েছিল। অবশেষে, মেশিন-লার্নিং অ্যালগরিদমগুলিকে একটি সমন্বিত ESG রেটিং গণনা করার জন্য এই ডেটা ব্যবহার করে প্রশিক্ষণ দেওয়া হয়েছিল।
স্ব-প্রতিবেদিত কর্পোরেট ফাইলিং ব্যবহার করার পরিবর্তে, সামাজিক নেটওয়ার্ক ডেটা ইএসজিকে সামগ্রিকভাবে পরিমাপ করতে ব্যবহার করা হয়েছিল। সামাজিক নেটওয়ার্ক বিশ্লেষণ এবং ওয়েব স্ক্র্যাপিং প্রবণতা সনাক্ত করতে ব্যবহার করা যেতে পারে (Gloor et al., 2009)। টুইটার, লিঙ্কডইন এবং গুগল নিউজের মতো জনপ্রিয় সামাজিক নেটওয়ার্কগুলিতে প্রায় যেকোনো বিষয়ের সাথে সম্পর্কিত ডেটার আধিক্য রয়েছে। এই ডেটা কোম্পানির ESG অনুশীলনের একটি সুষম দৃষ্টিভঙ্গি প্রদান করতে পারে এবং এটি স্বল্প-মেয়াদী এবং দীর্ঘমেয়াদী উভয় কোম্পানি ESG প্রবণতাকে কভার করতে সাহায্য করতে পারে। এটি এমন ডেটাও সংগ্রহ করতে পারে যা ফাইলিংয়ে প্রতিফলিত নাও হতে পারে। অবশেষে, এই ডেটা সরাসরি বহিরাগতদের উদ্বেগ তুলে ধরতে পারে, যা কোম্পানির ESG উদ্যোগগুলিকে আরও প্রভাবশালী হতে আরও ভালভাবে গাইড করতে পারে।
এটি করার জন্য, ESG-প্রসঙ্গিক কীওয়ার্ডগুলির একটি বিস্তৃত তালিকা তৈরি করা হয়েছিল (চিত্র 3)। কীওয়ার্ডের এই তালিকাটি সাধারণভাবে বর্তমান ESG রেটিং পদ্ধতিতে ব্যবহৃত উপ-বিভাগ দ্বারা অনুপ্রাণিত হয়েছিল। এই তালিকাটি Wikipedia, LinkedIn, Twitter, এবং Google News থেকে সর্বজনীনভাবে উপলব্ধ কোম্পানির ডেটা সংগ্রহ করতে সাহায্য করার জন্য ব্যবহার করা হয়েছিল। ডেটা সংগ্রহের জন্য, পাইথনে ওয়েব স্ক্র্যাপার তৈরি করা হয়েছিল। উইকিপিডিয়া তথ্য সংগ্রহ করা হয়েছিল উইকিপিডিয়া অ্যাপ্লিকেশন প্রোগ্রামিং ইন্টারফেস (API) ব্যবহার করে। উইকিপিডিয়া একটি কোম্পানির অনুশীলনের একটি সাধারণ ওভারভিউ দিতে কাজ করে। গুগল অনুসন্ধানের উপর ভিত্তি করে শীর্ষ সংবাদ নিবন্ধগুলি সনাক্ত করে Google News ডেটা সংগ্রহ করা হয়েছিল। এই নিবন্ধগুলির লিঙ্ক সংরক্ষণ করা হয়েছে. সংবাদটি উল্লেখযোগ্য ESG উন্নয়নের সামগ্রিক আপডেট দিতে কাজ করে। টুইটার ডেটা সংগ্রহ করা হয়েছিল Snscrape লাইব্রেরির সাহায্যে। Snscrape হল একটি লাইটওয়েট API যা ব্যবহারকারীদের প্রায় যেকোনো সময়সীমা থেকে সীমাহীন টুইট সংগ্রহ করতে দেয় (প্রতি ঘন্টায় কতগুলি সংগ্রহ করা যেতে পারে তার নির্দিষ্ট সীমাবদ্ধতা সহ)। টুইটারকে প্রাথমিকভাবে একটি কোম্পানির অনুশীলনের উপর ভোক্তা-পক্ষীয় প্রতিক্রিয়া দেওয়ার জন্য বেছে নেওয়া হয়েছিল। যেহেতু LinkedIn API লিঙ্কডইন পোস্টের সংগ্রহকে সমর্থন করে না, তাই এটি করার জন্য স্ক্র্যাচ থেকে একটি অ্যালগরিদম তৈরি করা হয়েছিল। অ্যালগরিদমটি সেলেনিয়াম ক্রোমড্রাইভার ব্যবহার করে একটি লিঙ্কডইন কোয়েরির মাধ্যমে মানুষের স্ক্রলিং অনুকরণ করে। এর উপর ভিত্তি করে, প্রতিটি পোস্টের পাঠ্য BeautifulSoup এর মাধ্যমে HTML অনুরোধ ব্যবহার করে সংগ্রহ এবং সংরক্ষণ করা হয়েছিল। LinkedIn একটি কোম্পানির অনুশীলন সম্পর্কে আরও পেশাদার পক্ষের তথ্য প্রদান করে। এই ডেটা সংগ্রহের আর্কিটেকচার রেটিংগুলিকে রিফ্রেশ করতে এবং প্রয়োজন অনুসারে রিয়েল টাইমে জেনারেট করার অনুমতি দেয়। পরবর্তীতে, প্রতিটি উপ-বিভাগের ডেটা একটি CSV ফাইলে সংরক্ষণ করা হয়েছিল।
এই চারটি সামাজিক নেটওয়ার্ক কোম্পানির ESG ডেটার বিস্তৃত পরিসর কভার করে। বেশিরভাগ S&P 500 কোম্পানির জন্য ডেটা সংগ্রহ করা হয়েছিল (রিয়েল এস্টেট বাদে)। রিয়েল এস্টেটকে প্রাথমিকভাবে বাদ দেওয়া হয়েছিল কারণ এটি ESG সমস্যাগুলির (পৃষ্ঠ-স্তরের বিশ্লেষণের উপর ভিত্তি করে) সম্পর্কিত তেমন কভারেজ পায়নি, তাই এটি প্রস্তাবিত সিস্টেমের জন্য কার্যকর বলে মনে হয় না। এটি নিশ্চিত করে যে সংগৃহীত কোম্পানিগুলি সেক্টর এবং শিল্প জুড়ে ভালভাবে ভারসাম্যপূর্ণ ছিল। ওয়েব স্ক্র্যাপাররা একটি সামাজিক নেটওয়ার্কে প্রতিটি কীওয়ার্ডের জন্য ~100টি পোস্ট/নিবন্ধ সংগ্রহ করার চেষ্টা করেছে। যাইহোক, কখনও কখনও কম ডেটা সংগ্রহ করা হবে কারণ API রেট সীমা এবং স্বল্প পরিচিত কোম্পানিগুলির জন্য সীমিত ডেটা উপলব্ধতার কারণে। সংগ্রহের গতি বাড়ানোর জন্য, একাধিক স্ক্রিপ্ট একসাথে চালানো হয়েছিল। প্রথমদিকে, প্রোগ্রামগুলি প্রায়শই এত অল্প সময়ের মধ্যে এত ডেটা সংগ্রহের জন্য রেট লিমিটেড হয়ে যেত। এটি সমাধান করার জন্য, এটির সম্মুখীন হলে প্রোগ্রামটিকে বিরতি দেওয়ার জন্য সুরক্ষা যোগ করা হয়েছিল৷ সমস্ত ডেটা সংগ্রহ প্রতিটি সাইটের শর্তাবলী অনুসরণ করে করা হয়েছিল। মোট, ~470টি কোম্পানি জুড়ে আনুমানিক ~937,400টি মোট ডেটা পয়েন্ট সংগ্রহ করা হয়েছে, প্রতি সামাজিক নেটওয়ার্ক কীওয়ার্ডের গড় ~37 পয়েন্ট। এই ডেটার বেশিরভাগই 2021 সালে কেন্দ্রীভূত হয়েছিল। তবে, একটি কঠিন তারিখের পরিসর আরোপ করা হয়নি কারণ এটি কম পরিচিত কোম্পানিগুলির জন্য ডেটা পয়েন্টগুলি সরিয়ে দেবে যেগুলি ইতিমধ্যে যথেষ্ট তথ্য সংগ্রহ করতে লড়াই করেছিল।
একবার সমস্ত ডেটা সংগ্রহ করা হলে, এটি আরও বিশ্লেষণের জন্য একটি স্প্রেডশীটে রপ্তানি করা হয়েছিল। RegEx (রেগুলার এক্সপ্রেশন) ব্যবহার করে ডেটা প্রিপ্রসেস করা হয়েছিল। প্রথমে, URL এবং লিঙ্কগুলি সরানো হয়েছিল। নামগুলিকে বিমূর্ত করার জন্য উল্লেখগুলি একটি সাধারণ শব্দ দিয়ে প্রতিস্থাপিত হয়েছিল। অবশেষে, অস্বাভাবিক অক্ষর এবং বিরাম চিহ্ন সরানো হয়েছে। এটি NLP বিশ্লেষণে হস্তক্ষেপ করতে পারে এমন শব্দ/অক্ষরগুলিকে ফিল্টার করতে সাহায্য করেছে।
ডেটা পরিষ্কার এবং সংগঠিত হওয়ার পরে, বিশ্লেষণের জন্য একটি এনএলপি অ্যালগরিদম তৈরি করা হয়েছিল। প্রথমত, একটি ESG প্রাসঙ্গিকতা অ্যালগরিদম তৈরি করা হয়েছিল ESG অপ্রাসঙ্গিক ডেটা ফিল্টার করার জন্য যা ফলাফলগুলিকে বাধা দিতে পারে। এটি করার জন্য, পোস্ট/নিবন্ধটি বর্তমান কোম্পানির পাশাপাশি এক বা একাধিক ESG উপ-বিভাগ নিয়ে আলোচনা করেছে কিনা তা দেখতে কীওয়ার্ড সনাক্তকরণ ব্যবহার করা হয়েছিল। এরপরে, পাইথনের ন্যাচারাল ল্যাঙ্গুয়েজ টুলকিট (NLTK) নামের সত্তা রিকগনিশন লাইব্রেরিটি অনাকাঙ্ক্ষিত ডেটা মুছে ফেলার জন্য সংস্থার সাথে সম্পর্কিত একটি পোস্ট কিনা তা নির্ধারণ করতে ব্যবহৃত হয়েছিল। উদাহরণস্বরূপ, যদি "আপেল জলবায়ু" অনুসন্ধান করা হয়, তাহলে একটি পোস্ট আসতে পারে যে "বসন্তের জলবায়ু হল আপেল গাছ জন্মানোর সেরা সময়।" যাইহোক, নামযুক্ত সত্তা স্বীকৃতি সনাক্ত করতে সক্ষম হবে যে এই বাক্যটি ESG প্রাসঙ্গিক নয় যেহেতু "Apple" একটি বিশেষণ হিসাবে ব্যবহৃত হয়েছে। অতএব, অ্যালগরিদম বিশ্লেষণ থেকে এটি উপেক্ষা করবে। অন্যদিকে, যদি পোস্টটি বলে, "অ্যাপল জলবায়ু পরিবর্তনের উদ্যোগে 500 মিলিয়ন ডলার ঢালাচ্ছে," তাহলে অ্যালগরিদম নির্ধারণ করবে যে পোস্টটি অ্যাপল সংস্থার কথা বলছে। এই পরিস্রাবণ পদক্ষেপ ডেটা গুণমান উন্নত করতে অপ্রাসঙ্গিক তথ্য অপসারণ করতে সাহায্য করে।
পরিস্রাবণের পরে, একটি পোস্ট ESG ইতিবাচক বা নেতিবাচক কিনা তা স্কোর করতে NLP অনুভূতি বিশ্লেষণ ব্যবহার করা হয়েছিল। এটি করার জন্য দুটি এনএলপি অ্যালগরিদম তৈরি করা হয়েছিল: সংক্ষিপ্ত-পোস্টের এনএলপি অ্যালগরিদমটি পাঠ্যের সংক্ষিপ্ত অংশগুলি (টুইট, লিঙ্কডইন পোস্ট) বিশ্লেষণ করে যখন দীর্ঘ-নিবন্ধ এনএলপি অ্যালগরিদম দীর্ঘগুলিকে বিশ্লেষণ করে (সংবাদ নিবন্ধ, উইকিপিডিয়া নিবন্ধ)।
বিভিন্ন পাইথন সেন্টিমেন্ট বিশ্লেষণ লাইব্রেরির একটি সাহিত্য বিশ্লেষণ করা হয়েছিল। টেক্সটব্লব, VADER, ফাস্টটেক্সট এবং ফ্লেয়ারের মতো বিভিন্ন অনুভূতি বিশ্লেষণ লাইব্রেরি তুলনা করার পরে, এটি পাওয়া গেছে যে ফ্লেয়ার অন্যান্য শ্রেণীবিভাগকে ছাড়িয়ে গেছে। এটি সম্ভবত কারণ সাধারণ ব্যাগ-অফওয়ার্ড ক্লাসিফায়ার, যেমন VADER বা TextBlob, বিভিন্ন শব্দ একে অপরের সাথে সম্পর্ক সনাক্ত করতে ব্যর্থ হয়েছে। অন্যদিকে, ফ্লেয়ার একটি বাক্যের শব্দ-স্তর এবং চরিত্র-স্তরের সম্পর্ক বিশ্লেষণ করতে প্রাসঙ্গিক শব্দ ভেক্টর ব্যবহার করেছেন। সম্ভবত এই কারণেই, যখন এই অ্যালগরিদমগুলি স্ট্যানফোর্ড সেন্টিমেন্ট ট্রিব্যাঙ্কে (এসএসটি) 1-5 স্কেলে মুভি রিভিউ সেন্টিমেন্টকে রেট দেওয়ার জন্য পরীক্ষা করা হয়েছিল, তখন দেখা গেছে যে ফ্লেয়ার অ্যালগরিদম 49.90% এর F1 স্কোরের সাথে সেরা পারফর্ম করেছে (আকবিক et al., 2018) (Rao et al., 2019) (চিত্র 4)। সুতরাং, ফ্লেয়ার সেন্টিমেন্ট বিশ্লেষণ লাইব্রেরি ব্যবহার করে শর্ট-পোস্ট অ্যালগরিদম তৈরি করা হয়েছিল। দীর্ঘ-নিবন্ধ অ্যালগরিদম মূলত সংক্ষিপ্ত-পোস্ট অ্যালগরিদম কিন্তু একটি নিবন্ধের সমস্ত প্রাসঙ্গিক বডি অনুচ্ছেদ (অর্থাৎ, কোম্পানির নাম সম্বলিত অনুচ্ছেদ) জুড়ে গড়।
এই ছাতা অ্যালগরিদমগুলি প্রতিটি নির্দিষ্ট সামাজিক নেটওয়ার্কের জন্য আরও অপ্টিমাইজ করা হয়েছিল। উদাহরণস্বরূপ, লিঙ্কডইন অ্যালগরিদম একটি লিঙ্কডইন পোস্টের লেখকের প্রোফাইল বিশ্লেষণ করে স্ব-প্রতিবেদন বাদ দিতে। এর কারণ হল নির্বাহীরা প্রায়শই তাদের ইতিবাচক উদ্যোগ এবং লক্ষ্য নিয়ে আলোচনা করেন, যা অন্যান্য নিরপেক্ষ পর্যবেক্ষণগুলিকে কমিয়ে দিতে পারে এবং এইভাবে ফলাফল তৈরি করতে পারে। উপরন্তু, Twitter এবং LinkedIn অ্যালগরিদমগুলির জন্য, যদি পাঠ্যের মধ্যে একটি লিঙ্ক ঠিকানা পাওয়া যায়, তাহলে অ্যালগরিদম মূল্যায়নের জন্য সেই নিবন্ধটিকে বিশ্লেষণ করবে।
প্রাথমিকভাবে, বিশ্লেষণ অ্যালগরিদমটি খুব ধীর ছিল কারণ এটি একটি পোস্ট বিশ্লেষণ করতে ফ্লেয়ার 3-4 সেকেন্ড সময় নেয়। সুতরাং, "ফ্লেয়ার সেন্টিমেন্ট-ফাস্ট" নামে একটি প্রকরণ ইনস্টল করা হয়েছিল। এটি ফ্লেয়ারকে ব্যাচ বিশ্লেষণ করার অনুমতি দেয় যেখানে এটি একই সাথে একাধিক পোস্ট বিশ্লেষণ করে। এটি বিশ্লেষণের সময়কে উল্লেখযোগ্যভাবে হ্রাস করে যখন কিছুটা নির্ভুলতাকে বলিদান করে।
একবার সমস্ত কাঁচা ডেটা স্কোর হয়ে গেলে, স্কোরগুলিকে একটি সমন্বিত স্প্রেডশীটে গড় করা হয়েছিল। কোনো অনুপস্থিত সাব-স্কোর ডেটা পূরণ করতে গড় ইম্পুটিং ব্যবহার করা হয়েছিল। এই সাব-ক্যাটাগরির স্কোরগুলি প্রধান বিষয়গুলির উপর সামাজিক অনুভূতির ভাঙ্গন সহ নির্বাহীদের প্রদান করতে পারে, তাদের সুনির্দিষ্ট তথ্য দেয় চিত্র 4: SST-5 ডাটাবেসের বিভিন্ন অনুভূতি বিশ্লেষণ অ্যালগরিদমের যথার্থতার তুলনা কোন ক্ষেত্রগুলিকে উন্নত করতে হবে। এই স্কোরগুলিকে পথনির্দেশক উদ্যোগে সাহায্য করার জন্য কাঁচা ব্যবহার করা যেতে পারে, অথবা একটি ESG ভবিষ্যদ্বাণী প্রদানের জন্য মেশিন লার্নিংয়ের মাধ্যমে আরও সংকলন করা যেতে পারে
ডেটা কম্পাইল করার পরে, বিভিন্ন মেশিন-লার্নিং মডেল পরীক্ষা করা হয়েছিল। এই মডেলগুলির লক্ষ্য ছিল 0-100 থেকে একটি ESG স্কোর ভবিষ্যদ্বাণী করা, 0 সবচেয়ে খারাপ এবং 100 সেরা। এই তত্ত্বাবধান করা শেখার মডেলগুলির বেশিরভাগই ছিল লাইটওয়েট রিগ্রেশন অ্যালগরিদম যা সীমিত ডেটা সহ নন-লিনিয়ার প্যাটার্ন শিখতে পারে। এর মধ্যে কয়েকটি অ্যালগরিদমের মধ্যে রয়েছে র্যান্ডম ফরেস্ট রিগ্রেশন, সাপোর্ট ভেক্টর রিগ্রেশন, কে-নিয়ারেস্ট নেবারস রিগ্রেশন এবং এক্সজিবিবুস্ট (এক্সট্রিম গ্রেডিয়েন্ট বুস্টিং) রিগ্রেশন। র্যান্ডম ফরেস্ট রিগ্রেশন প্রশিক্ষণের সময় বিভিন্ন সিদ্ধান্ত গাছ নির্মাণ করে এবং গড় ভবিষ্যদ্বাণী আউটপুট করে কাজ করে (টিন কাম হো, 1995)। সমর্থন ভেক্টর রিগ্রেশন মানগুলির থ্রেশহোল্ডের মধ্যে সর্বোত্তম ফিট লাইন সনাক্ত করে (Awad et al., 2015)। কে-নিয়ারেস্ট নেবারস রিগ্রেশন তার প্রতিবেশী ডেটা পয়েন্টের গড় মানের উপর ভিত্তি করে একটি মানের পূর্বাভাস দেয় (Kramer, 2013)। XGBoost (এক্সট্রিম গ্রেডিয়েন্ট বুস্টিং) রিগ্রেশন সহজ রিগ্রেশন ট্রির অনুমান/পূর্বাভাস একত্রিত করে গ্রেডিয়েন্ট বুস্টিং ব্যবহার করে (চেন এট আল।, 2016)।
এই রিগ্রেশন অ্যালগরিদমগুলি 19টি বৈশিষ্ট্য ব্যবহার করে প্রশিক্ষণ দেওয়া হয়েছিল। এই বৈশিষ্ট্যগুলির মধ্যে রয়েছে উইকিপিডিয়ার জন্য একটি অতিরিক্ত বিভাগ সহ 18টি কীওয়ার্ডের প্রতিটির গড় অনুভূতি। তারা বিদ্যমান সমাধানগুলি থেকে খুব বেশি বিচ্যুত না হয়েছে তা নিশ্চিত করার জন্য তাদের সর্বজনীন S&P গ্লোবাল ESG রেটিংগুলিতে ক্যালিব্রেট করা হয়েছিল। GitHub-এ একটি সর্বজনীনভাবে লাইসেন্সপ্রাপ্ত ESG রেটিং স্ক্র্যাপার বিশ্লেষণ করা হয়েছে এমন সমস্ত কোম্পানির জন্য S&P গ্লোবাল ESG স্কোর পুনরুদ্ধার করতে ব্যবহার করা হয়েছিল (শ্বেতা-29)। বৃহত্তর নির্ভুলতার জন্য ওভারফিটিং প্রতিরোধ করতে নিয়মিতকরণের মতো অপ্টিমাইজেশন কৌশলগুলি ব্যবহার করা হয়েছিল।
অ্যালগরিদম তৈরি করার আগে, প্রতি ESG উপশ্রেণীতে 5টিরও কম নিবন্ধ/পোস্ট সহ কোম্পানিগুলিকে ফিল্টার আউট করা হয়েছিল। এটি বিশ্লেষণের জন্য ~320 কোম্পানি ছেড়ে দিয়েছে। অ্যালগরিদম তৈরি এবং পরীক্ষা করার জন্য, ~ 256 কোম্পানিগুলিকে প্রশিক্ষণ ডেটা হিসাবে ব্যবহার করা হয়েছিল, যখন ~ 64 কোম্পানিগুলি ডেটা পরীক্ষার জন্য ব্যবহার করা হয়েছিল। এই ফলাফলগুলি অ্যালগরিদমের ভবিষ্যদ্বাণীমূলক ক্ষমতা নির্ধারণ করতে ব্যবহৃত হয়েছিল।
এই কাগজটি CC BY-NC-ND 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।