作者:
(1)Aarav Patel,阿米蒂地区高中,电子邮箱:aarav.dhp@gmail.com;
(2)Peter Gloor,麻省理工学院集体智慧中心,通讯作者——电子邮箱:pgloor@mit.edu。
随机森林回归模型可能表现最佳,因为它通过组合多个决策树的预测来工作。这使它可以提高其准确性并减少对一棵特定树的过度拟合,从而产生更好的结果。随机森林回归算法具有统计上显着的 R2 相关性 26.1%(p 值 <0.05),并且 MAAE 较低,为 13.4%。这些结果与使用其他数据来源完成的类似工作一致(Krappel 等人,2021 年)。例如,Krappel 等人的一篇论文通过将基本数据(即公司周围的财务数据和一般信息)输入集成机器学习算法来创建 ESG 预测系统。他们最准确的模型获得了 54% 的 R2 相关性和 11.3% 的 MAAE。虽然提出的算法相关性不如 Krappel 等人的模型,可能是因为它利用了定性数据,但它仍然凸显了使用社会情绪作为 ESG 代理的可行性。
所提出的算法显示出令人鼓舞的结果,凸显了其在 ESG 评级预测中的可行性。与使用自我披露的可持续性报告确定 ESG 的当前 ESG 评级者不同,所提出的算法的数据驱动方法可以进行更全面和平衡的评估。利用社会情绪还可以让高管衡量人们希望公司在哪些方面有所改进,从而帮助将行动集中在变革上。此外,该系统的架构允许在短时间内更新分数。最后,高管可以通过将其他关键字输入算法来测试它们。这些属性展示了该系统的灵活性以及相对于传统方法的优势。
然而,结果的一个局限性在于它是在标准普尔 500 指数公司中测试的。因此,结果可能不会适用于低于该指数的较小公司。另一个限制可能是社交网络数据中的错误信息。虽然这应该被其他评论所淡化,但它可能会改变算法的评级。此外,Flair 情绪分析算法有时会错误分类帖子/文章情绪,特别是当帖子/文章带有讽刺态度时。最后,对于这项研究,无法访问某些付费原生 API。因此,由于速率限制,收集的数据可能无法涵盖关键字的所有可用数据。
虽然该算法显示出了统计上显著的结果,但在未来的研究中仍有改进的空间。其中一些改进包括收集更多数据。这可以通过分析标准普尔 500 指数以外的更多公司或收集更多关键词和 ESG 子主题的数据来实现。这也可以通过使用本机 API 为每个单个关键词收集更多数据点来实现。此外,可以将更多数据源纳入模型。这可以通过整合其他社交网络(即 Reddit、Glassdoor)或包括来自公司报告和政府数据库的定量数据/统计数据(即女性担任董事会成员的百分比、范围 1 碳排放量等)来实现。
此外,为了更好地完成手头的任务,可以专门为 ESG 创建 NLP 算法。例如,虽然当前方法过滤了大量不相关的数据,但仍有一些不相关的数据会通过。因此,为了解决这个问题,可以训练一种新的监督学习算法,使用 TF-IDF 矢量化来识别相关文本主体。可以通过手动标记已经收集的数据来训练该算法。此外,长文/短文 NLP 算法也可以进一步优化。虽然 Flair 已经可以提供令人满意的结果,但有些文章似乎被错误分类,这可能是算法的错误来源。通过创建专门针对 ESG 分类的情绪分析算法,可以进一步提高长文和短文 NLP 算法的准确性。这可以通过创建带有权重的自定义 ESG 词典或针对分类的 ESG 数据训练新的 NLP 算法来实现。
最后,另一个需要改进的领域是帖子可信度:虽然少量的虚假信息不会显著改变结果,但最好还是尽可能降低这种风险。越来越多的文献探讨了社交网络上的虚假新闻识别。因此,这些方法可能用于识别虚假帖子/文章(de Beer 等人,2020 年)。此外,将公司文件中的“硬”定量数据添加到算法中可以作为额外的保障。最后,该算法可以优先考虑更集中/可信的参与者,以产生更安全的输出。
总体而言,这项研究为基于社交网络的 ESG 评估系统提供了一个概念验证框架。这项工作可以作为社交情绪 ESG 产品的后端逻辑,最终可供高管使用。虽然预先打包的库用于原型设计目的,但在未来的研究中,项目的这些方面可以得到优化。与依赖公司自报的现有框架不同,所提出的模型对公司的 ESG 正面和负面因素采取了更平衡的看法。总的来说,这可以帮助接近 ESG 的基本事实,从而更好地影响公司实践,使其更加可持续。