著者:
(1)アーラヴ・パテル、アミティリージョナル高等学校 – メールアドレス:aarav.dhp@gmail.com
(2)ピーター・グローア、マサチューセッツ工科大学集合知センター、連絡先著者 – メールアドレス:pgloor@mit.edu。
ランダムフォレスト回帰モデルは、複数の決定木の予測を組み合わせて機能するため、おそらく最高のパフォーマンスを発揮しました。これにより、精度が向上し、特定の 1 つのツリーへの過剰適合が軽減され、優れた結果が得られます。ランダムフォレスト回帰アルゴリズムの R2 相関は統計的に有意で 26.1% (p 値 <0.05) であり、MAAE は 13.4% と低くなっています。これらの結果は、他のデータソースを使用して行われた同様の作業と一致しています (Krappel ら、2021 年)。たとえば、Krappel らの論文では、ファンダメンタル データ (つまり、財務データと企業を取り巻く一般情報) をアンサンブル機械学習アルゴリズムに取り込むことで、ESG 予測システムを作成しました。最も正確なモデルは、R2 相関が 54%、MAAE が 11.3% でした。提案されたアルゴリズムは、定性的なデータを活用しているためか、Krappel らのモデルほど相関性が高くありませんが、それでも ESG の代理として社会的感情を使用することの実現可能性を強調しています。
提案されたアルゴリズムは有望な結果を示し、ESG 格付け予測におけるその実行可能性を浮き彫りにしました。自己開示の持続可能性レポートを使用して ESG を決定する現在の ESG 格付け機関とは異なり、提案されたアルゴリズムのデータ駆動型アプローチにより、より総合的でバランスの取れた評価が可能になります。また、社会的感情を利用することで、経営陣は人々が企業に改善を求めている領域を測定でき、変更に向けた行動を集中させることができます。さらに、システムのアーキテクチャにより、スコアを短期間で更新できます。最後に、経営陣は追加のキーワードをアルゴリズムに入力してテストできます。これらの属性は、システムの柔軟性と従来の方法に対する利点を示しています。
ただし、結果の限界は、S&P 500 企業でテストされたことです。したがって、このインデックスより小さい企業には結果が引き継がれない可能性があります。もう 1 つの限界は、ソーシャル ネットワーク データ内の誤情報です。これは他のコメントによって薄められるはずですが、アルゴリズムの評価を変える可能性があります。さらに、Flair 感情分析アルゴリズムは、投稿/記事に皮肉な態度があった場合、特に投稿/記事の感情を誤って分類することがありました。最後に、この調査では、特定の有料ネイティブ API にアクセスできませんでした。その結果、収集されたデータは、レート制限により、キーワードで利用可能なすべてのデータを網羅していない可能性があります。
このアルゴリズムは統計的に有意な結果を示していますが、今後の研究で改善できる余地があります。その一部には、より多くのデータを収集することが含まれます。これは、S&P 500 以外の企業を分析するか、より多くのキーワードと ESG サブトピックのデータを収集することによって実行できます。これは、ネイティブ API を使用して個々のキーワードごとにより多くのデータポイントを収集することによっても実行できます。さらに、より多くのデータ ソースをモデルに組み込むこともできます。これは、他のソーシャル ネットワーク (Reddit、Glassdoor など) を組み込むか、企業レポートや政府データベースからの定量的データ/統計 (取締役に占める女性の割合、スコープ 1 の炭素排出量など) を含めることによって実行できます。
さらに、手元のタスクにより適合させるために、ESG 専用の NLP アルゴリズムを作成することもできます。たとえば、現在の方法では無関係なデータの多くをフィルターしますが、無関係なデータの一部は依然として通過してしまいます。そこで、この問題を解決するために、TF-IDF ベクトル化を使用して関連するテキスト本文を識別するように新しい教師あり学習アルゴリズムをトレーニングすることができます。このアルゴリズムは、すでに収集されているデータを手動でラベル付けすることでトレーニングできます。さらに、長文記事/短文投稿 NLP アルゴリズムをさらに最適化することもできます。Flair はすでに満足のいく結果を提供していますが、一部の記事は誤分類されているようで、これがアルゴリズムのエラーの原因となっている可能性があります。ESG 分類に特化した感情分析アルゴリズムを作成することで、長文記事と短文投稿 NLP アルゴリズムの精度をさらに向上させることができます。これは、重み付けされたカスタム ESG 語彙集を作成するか、分類された ESG データに対して新しい NLP アルゴリズムをトレーニングすることで実行できます。
最後に、改善すべきもう 1 つの領域は投稿の信頼性です。少量の誤情報が結果を大きく変えることはありませんが、このリスクを可能な限り軽減することが最善です。ソーシャル ネットワークでのフェイク ニュースの識別を探求する文献は増えています。したがって、これらのアプローチはフェイクの投稿/記事を識別するために使用できる可能性があります (de Beer 他、2020)。また、企業の提出書類から「確かな」定量データをアルゴリズムに追加することで、追加の安全策として使用できます。最後に、アルゴリズムは、より集中的で信頼できるアクターを他のアクターよりも優先して、より安全な出力を生成することができます。
全体として、この研究は、ソーシャル ネットワーク ベースの ESG 評価システムの概念実証フレームワークを提供します。この研究は、最終的には経営幹部が使用できるソーシャル センチメント ESG 製品のバックエンド ロジックとして機能します。プロトタイプ作成の目的でパッケージ化されたライブラリが使用されましたが、今後の作業では、プロジェクトのこれらの側面を最適化することができます。自己申告の企業提出書類に依存する既存のフレームワークとは異なり、提案されたモデルは、企業の ESG のプラス面とマイナス面についてよりバランスの取れた見方をします。一般的に、これは ESG の真実に近づくのに役立ち、企業の慣行をより持続可能なものにするためのよりよい影響を与えることができます。
この論文は、CC BY-NC-ND 4.0 DEED ライセンスの下でarxiv で公開されています。