Auteurs:
(1) Nicholas Farn, Microsoft Corporation {Microsoft Corporation {nifarn@microsoft.com} ;
(2) Richard Shin, Microsoft Corporation {eush@microsoft.com}.
Conception d'ensembles de données
Conclusion, reproductibilité et références
D. Nuances par rapport aux travaux antérieurs
Les grands modèles de langage (LLM) ont montré des améliorations considérables dans les capacités de raisonnement et de prise de décision et peuvent avoir des conversations naturelles avec les utilisateurs. De nombreux travaux récents cherchent à compléter les assistants basés sur LLM avec des outils externes afin qu'ils puissent accéder à des informations privées ou à jour et effectuer des actions au nom des utilisateurs. Pour mieux mesurer les performances de ces assistants, cet article présente ToolTalk, un benchmark composé d'intentions utilisateur complexes nécessitant l'utilisation d'un outil en plusieurs étapes spécifiées via le dialogue. ToolTalk contient 28 outils regroupés en 7 plugins et inclut une implémentation simulée complète de chaque outil, permettant une évaluation entièrement automatisée des assistants qui s'appuient sur le retour d'information d'exécution. ToolTalk met également l'accent sur les outils qui affectent le monde de l'extérieur plutôt que uniquement sur les outils de référencement ou de recherche d'informations. Nous évaluons GPT-3.5 et GPT-4 sur ToolTalk, ce qui entraîne des taux de réussite de 26 % et 50 % respectivement. Notre analyse des erreurs révèle trois grandes catégories et suggère quelques pistes d’amélioration futures.
Nous publions ToolTalk sur https://github.com/microsoft/ToolTalk.
Les grands modèles de langage (LLM) peuvent réaliser des prouesses impressionnantes en matière de compréhension, de génération et d'autres tâches impliquant la manipulation de texte. Avec des ajustements appropriés après la pré-formation, ils peuvent avoir des conversations fluides et naturelles avec les utilisateurs. Cependant, la portée de ces conversations est encore limitée par le fait que les LLM n'ont pas accès à des connaissances en dehors de leurs données de formation, présentent un raisonnement mathématique et des capacités de calcul limitées et sont par ailleurs incapables d'interagir avec le monde extérieur.
Pour surmonter ces limitations, divers travaux antérieurs ont proposé d'intégrer des chatbots basés sur LLM avec la possibilité d'utiliser des outils tels que des moteurs de recherche (Nakano et al., 2022), des calculatrices ou des API Web (Mialon et al., 2023). Pour réaliser des progrès significatifs dans l’utilisation des outils, il faut des références et des ensembles de données d’évaluation pertinents qui peuvent pleinement exercer ces systèmes avec des conversations réalistes et stimulantes. Dans cet article, nous présentons ToolTalk comme une étape vers cet objectif. ToolTalk se compose de 78 conversations avec 178 tours au total, utilisant 28 outils uniques regroupés en 7 catégories, ainsi qu'une méthodologie d'évaluation adaptée pour mesurer l'utilisation précise des outils.
Plusieurs considérations ont guidé notre conception de ToolTalk afin de simuler au mieux les conversations typiques qu'un utilisateur peut souhaiter avoir avec un assistant basé sur LLM. Premièrement, nous voulions nous assurer que ToolTalk soit conversationnel et permette plusieurs cycles de dialogue entre l'utilisateur et l'assistant pour une seule intention ; reflétant le fait que les utilisateurs ne souhaitent pas toujours formuler leur demande complète en un seul énoncé et peuvent ajouter des qualificatifs supplémentaires ou émettre des corrections après avoir reçu des commentaires de l'assistant. Cela nous permet d'inclure les intentions des utilisateurs nécessitant une série complexe d'appels d'outils sans avoir d'énoncés anormalement longs. Deuxièmement, nous incluons un ensemble d'appels d'outils réels qui auraient dû être effectués pour chaque énoncé de l'utilisateur, pouvant être utilisés dans une évaluation automatisée par rapport aux appels d'outils prédits par un assistant. Troisièmement, ToolTalk inclut des implémentations exécutables de chaque outil inclus dans l'ensemble de données, pour faciliter l'évaluation des assistants qui peuvent prendre en compte les résultats des invocations d'outils précédentes pour décider lesquels créer ensuite. Quatrièmement, ToolTalk inclut des outils destinés à avoir des effets secondaires (tels que l'envoi d'e-mails ou l'ajout/suppression d'événements de calendrier), que nous appelons « outils d'action », plutôt que de simplement effectuer des requêtes dans la base de données (telles que la recherche d'e-mails contenant un mot-clé particulier). ). De tels outils d'action sont nécessaires si l'assistant veut automatiser les tâches de l'utilisateur.
Nous adaptons notre méthodologie d'évaluation aux particularités de la conception de notre ensemble de données, allant au-delà des mesures courantes telles que la précision de la correspondance exacte. En particulier, nous considérons séparément les invocations d’outils d’action et de non-action, considérant que des invocations incorrectes d’outils d’action, comme l’envoi d’un message à la mauvaise personne, peuvent avoir des effets particulièrement négatifs pour l’utilisateur. D'un autre côté, si l'assistant effectue à la fois des invocations correctes d'outils sans action et des invocations superflues incorrectes, les invocations superflues peuvent toujours fournir des informations utiles à l'utilisateur (même si ce n'est pas ce que l'utilisateur a directement demandé). En tant que tel, nous utilisons le rappel d’invocation d’outil et le taux d’action incorrecte comme principales mesures au cours d’un seul tour de conversation, et définissons une notion de succès au niveau de la conversation.
Nous appliquons ToolTalk sur deux assistants implémentés en utilisant la prise en charge des appels de fonctions de l'API de complétion Chat d'OpenAI avec les modèles GPT-3.5 et GPT-4. Nous avons constaté que gpt-3.5-turbo-0613 et gpt-4-0613 atteignaient un taux de réussite au niveau de la conversation de 26 % et 50 % respectivement, démontrant que l'utilisation de l'outil dans un environnement conversationnel reste une tâche difficile, même pour certains des utilisateurs les plus expérimentés. modèles à la pointe de la technologie. Nous effectuons ensuite des analyses plus approfondies pour déterminer les raisons pour lesquelles GPT-3.5 et GPT-4 échouent dans les conversations. Nous constatons que GPT-3.5 et GPT-4 peuvent halluciner des arguments, ne pas comprendre la documentation et même prétendre carrément avoir accompli une tâche sans faire appel à aucun outil.
Notre article apporte les contributions suivantes :
• Nous introduisons un ensemble de données conversationnelles pour les assistants utilisant des outils LLM, contenant une large gamme d'outils et d'exemples de conversations avec des annotations de vérité terrain pour les invocations d'outils permettant une évaluation automatisée.
• Nous veillons à ce que l'ensemble de données contienne des conversations à plusieurs tours nécessitant l'utilisation de plusieurs outils, y compris des outils avec effets secondaires, pour mieux simuler la manière dont les utilisateurs peuvent interagir avec un assistant utilisant un outil.
• Nous développons une méthodologie d'évaluation qui reflète les différences entre les outils avec effets secondaires et les outils sans effets secondaires.
• Nous évaluons les assistants créés à l'aide de GPT-3.5 et GPT-4 à l'aide de notre ensemble de données et analysons leurs erreurs, trouvant des problèmes tels que des arguments hallucinés et une documentation mal comprise.
Cet article est disponible sur arxiv sous licence CC 4.0.