Auteurs:
(1) Aarav Patel, lycée régional Amity – email : aarav.dhp@gmail.com ;
(2) Peter Gloor, Center for Collective Intelligence, Massachusetts Institute of Technology et auteur correspondant – email : pgloor@mit.edu.
Le modèle de régression de forêt aléatoire est probablement le plus performant car il fonctionne en combinant les prédictions de plusieurs arbres de décision. Cela lui permet d'améliorer sa précision et de réduire le surajustement sur un arbre spécifique, produisant ainsi des résultats supérieurs. L'algorithme de régression forestière aléatoire présentait une corrélation R2 statistiquement significative de 26,1 % (valeur de p <0,05) et un faible MAAE de 13,4 %. Ces résultats concordent avec des travaux similaires effectués à l’aide d’autres sources de données (Krappel et al., 2021). Par exemple, un article de Krappel et al. a créé un système de prédiction ESG en alimentant des données fondamentales (c'est-à-dire des données financières et des informations générales concernant l'entreprise) dans des algorithmes d'apprentissage automatique d'ensemble. Leur modèle le plus précis a reçu une corrélation R2 de 54 % et un MAAE de 11,3 %. Même si l'algorithme proposé ne correspond pas aussi bien au modèle de Krappel et al., probablement parce qu'il exploite des données qualitatives, il met néanmoins en évidence la viabilité de l'utilisation du sentiment social comme indicateur de l'ESG.
L’algorithme proposé a affiché des résultats encourageants, soulignant sa viabilité dans la prédiction des notations ESG. Contrairement aux évaluateurs ESG actuels qui déterminent l'ESG à l'aide de rapports de développement durable auto-divulgués, l'approche basée sur les données de l'algorithme proposé permet une évaluation plus holistique et équilibrée. L'utilisation du sentiment social permet également aux dirigeants de mesurer les domaines dans lesquels les gens souhaitent qu'une entreprise s'améliore, aidant ainsi à concentrer les actions sur le changement. De plus, l'architecture du système permet de mettre à jour les scores dans des délais courts. Enfin, les dirigeants peuvent tester des mots-clés supplémentaires en les saisissant dans l'algorithme. Ces attributs mettent en valeur la flexibilité du système ainsi que ses avantages par rapport à la méthodologie conventionnelle.
Une limite des résultats, cependant, est qu’ils ont été testés sur les sociétés du S&P 500. Par conséquent, les résultats pourraient ne pas être reportés pour les petites entreprises inférieures à cet indice. Une autre limite pourrait être la désinformation contenue dans les données des réseaux sociaux. Bien que cela doive être dilué par d’autres commentaires, cela peut potentiellement modifier les notes de l’algorithme. De plus, l'algorithme d'analyse des sentiments de Flair classifiait parfois mal les sentiments des messages/articles, surtout si le message/article avait une attitude sarcastique. Enfin, pour cette recherche, l’accès à certaines API natives payantes n’était pas disponible. Par conséquent, les données collectées peuvent ne pas englober toutes les données disponibles pour un mot clé en raison de la limitation du débit.
Bien que l’algorithme ait affiché des résultats statistiquement significatifs, des améliorations peuvent être apportées dans les recherches futures. Cela peut inclure la collecte de davantage de données. Cela peut être fait en analysant davantage d'entreprises au-delà du S&P 500 ou en collectant des données pour davantage de mots-clés et de sous-thèmes ESG. Cela peut également être fait en utilisant des API natives pour collecter plus de points de données par mot-clé individuel. De plus, davantage de sources de données pourraient être intégrées au modèle. Cela peut être fait en incorporant d'autres réseaux sociaux (par exemple, Reddit, Glassdoor) ou en incluant des données/statistiques quantitatives (par exemple, % de femmes membres du conseil d'administration, nombre d'émissions de carbone de portée 1, etc.) provenant de rapports d'entreprises et de bases de données gouvernementales.
De plus, pour mieux répondre à la tâche à accomplir, des algorithmes NLP peuvent être créés spécifiquement pour l’ESG. Par exemple, même si la méthode actuelle filtre une grande partie des données non pertinentes, certaines données non liées restent néanmoins transmises. Ainsi, pour résoudre ce problème, un nouvel algorithme d’apprentissage supervisé peut être entraîné pour identifier des corps de texte associés à l’aide de la vectorisation TF-IDF. L'algorithme peut être entraîné en étiquetant manuellement les données déjà collectées. Pour compléter, les algorithmes NLP pour articles longs et articles courts peuvent également être optimisés davantage. Si Flair peut déjà fournir des résultats satisfaisants, certains articles semblent mal classés, ce qui pourrait être source d'erreur pour l'algorithme. En créant un algorithme d'analyse des sentiments spécifiquement adapté à la classification ESG, la précision de l'algorithme NLP pour les articles longs et les articles courts peut être encore améliorée. Cela peut être fait soit en créant un lexique ESG personnalisé avec des pondérations, soit en entraînant un nouvel algorithme NLP sur des données ESG classifiées.
Enfin, un autre domaine à améliorer est la crédibilité post-post : même si de petites quantités de désinformation ne modifieraient pas de manière significative les résultats, il est toujours préférable d'atténuer ce risque autant que possible. Il existe un nombre croissant d’ouvrages qui explorent l’identification des fausses nouvelles sur les réseaux sociaux. Ainsi, ces approches peuvent potentiellement être utilisées pour identifier les faux messages/articles (de Beer et al., 2020). En outre, l’ajout à l’algorithme de données quantitatives « concrètes » provenant des déclarations des entreprises peut être utilisé comme protection supplémentaire. Enfin, l’algorithme peut donner la priorité aux acteurs les plus centralisés/crédibles par rapport aux autres pour produire des résultats plus sûrs.
Dans l’ensemble, cette recherche fournit un cadre de validation de principe pour un système d’évaluation ESG basé sur les réseaux sociaux. Ce travail peut servir de logique back-end pour un produit ESG sur le sentiment social qui pourra éventuellement être utilisé par les dirigeants. Bien que des bibliothèques préemballées aient été utilisées à des fins de prototypage, dans les travaux futurs, ces aspects du projet pourront être optimisés. Contrairement aux cadres existants qui s'appuient sur les déclarations autodéclarées des entreprises, les modèles proposés adoptent une vision plus équilibrée des aspects positifs et négatifs de l'ESG de l'entreprise. En général, cela peut aider à se rapprocher d’une vérité ESG fondamentale qui peut mieux influencer les pratiques des entreprises pour les rendre plus durables.
Cet article est disponible sur arxiv sous licence CC BY-NC-ND 4.0 DEED.