Autores:
(1) Nicholas Farn, Microsoft Corporation {Microsoft Corporation {nifarn@microsoft.com};
(2) Richard Shin, Microsoft Corporation {eush@microsoft.com}.
Conclusão, reprodutibilidade e referências
A. Lista completa de ferramentas
D. Nuances comparando trabalhos anteriores
Grandes modelos de linguagem (LLMs) apresentaram grandes melhorias nas habilidades de raciocínio e tomada de decisão e podem manter conversas naturais com os usuários. Muitos trabalhos recentes procuram aumentar os assistentes baseados em LLM com ferramentas externas para que possam aceder a informações privadas ou atualizadas e realizar ações em nome dos utilizadores. Para medir melhor o desempenho desses assistentes, este artigo apresenta o ToolTalk, um benchmark que consiste em intenções complexas do usuário que exigem o uso de ferramentas em várias etapas especificadas por meio de diálogo. ToolTalk contém 28 ferramentas agrupadas em 7 plugins e inclui uma implementação simulada completa de cada ferramenta, permitindo uma avaliação totalmente automatizada de assistentes que dependem de feedback de execução. ToolTalk também enfatiza ferramentas que afetam externamente o mundo, em vez de apenas ferramentas para referência ou busca de informações. Avaliamos GPT-3.5 e GPT-4 no ToolTalk, resultando em taxas de sucesso de 26% e 50%, respectivamente. A nossa análise dos erros revela três categorias principais e sugere algumas direções futuras para melhorias.
Lançamos o ToolTalk em https://github.com/microsoft/ToolTalk.
Grandes modelos de linguagem (LLMs) podem realizar feitos impressionantes na compreensão, geração e outras tarefas de linguagem natural que envolvem manipulação de texto. Com os ajustes apropriados após o pré-treinamento, eles podem manter conversas fluentes e naturais com os usuários. No entanto, o âmbito de tais conversas ainda é limitado pelos LLMs que não têm acesso ao conhecimento fora dos seus dados de formação, exibindo raciocínio matemático e capacidades computacionais limitados e, de outra forma, sendo incapazes de interagir com o mundo exterior.
Para superar essas limitações, vários trabalhos anteriores propuseram a integração de chatbots com tecnologia LLM com a capacidade de usar ferramentas como mecanismos de pesquisa (Nakano et al., 2022), calculadoras ou APIs da web (Mialon et al., 2023). Fazer progressos significativos no uso de ferramentas requer benchmarks relevantes e conjuntos de dados de avaliação que possam exercitar plenamente esses sistemas com conversas realistas e desafiadoras. Neste artigo, apresentamos o ToolTalk como um passo em direção a esse objetivo. O ToolTalk consiste em 78 conversas com 178 turnos no total, fazendo uso de 28 ferramentas exclusivas agrupadas em 7 categorias, juntamente com uma metodologia de avaliação adaptada para medir o uso preciso da ferramenta.
Várias considerações orientaram nosso projeto do ToolTalk para melhor simular conversas típicas que um usuário pode desejar ter com um assistente baseado em LLM. Primeiro, queríamos garantir que o ToolTalk fosse conversacional e permitisse múltiplas rodadas de diálogo entre o usuário e o assistente para uma única intenção; refletindo como os usuários nem sempre desejam formular sua solicitação completa em um enunciado e podem adicionar qualificadores adicionais ou emitir correções após receber algum feedback do assistente. Isso nos permite incluir intenções do usuário que exigem uma série complexa de invocações de ferramentas sem ter declarações anormalmente longas. Em segundo lugar, incluímos um conjunto verdadeiro de chamadas de ferramentas que deveriam ter sido feitas para cada expressão do usuário, adequado para uso em uma avaliação automatizada comparando com as chamadas de ferramentas previstas por um assistente. Terceiro, o ToolTalk inclui implementações executáveis de todas as ferramentas incluídas no conjunto de dados, para facilitar a avaliação de assistentes que podem considerar resultados de invocações anteriores de ferramentas para decidir quais fazer em seguida. Quarto, o ToolTalk inclui ferramentas destinadas a ter efeitos colaterais (como enviar e-mails ou adicionar/excluir eventos de calendário), às quais nos referimos como “ferramentas de ação”, em vez de apenas fazer consultas ao banco de dados (como pesquisar e-mails contendo uma palavra-chave específica ). Essas ferramentas de ação são necessárias se o assistente quiser automatizar as tarefas do usuário.
Adaptamos nossa metodologia de avaliação às especificidades do design do nosso conjunto de dados, indo além das métricas comuns, como a precisão da correspondência exata. Em particular, consideramos separadamente as invocações de ferramentas de ação e de não-ação, considerando que invocações incorretas de ferramentas de ação, como enviar uma mensagem para a pessoa errada, podem ter efeitos particularmente negativos para o usuário. Por outro lado, se o assistente fizer invocações corretas da ferramenta sem ação e algumas incorretas, as estranhas ainda poderão fornecer informações úteis ao usuário (mesmo que não sejam o que o usuário solicitou diretamente). Como tal, usamos o recall de invocação da ferramenta e a taxa de ação incorreta como as principais métricas em um único turno de conversação e definimos uma noção de sucesso no nível da conversa.
Aplicamos o ToolTalk em dois assistentes implementados usando o suporte de chamada de função da API de conclusão de bate-papo da OpenAI com os modelos GPT-3.5 e GPT-4. Descobrimos que gpt-3.5-turbo-0613 e gpt-4-0613 alcançam uma taxa de sucesso no nível de conversação de 26% e 50% respectivamente, demonstrando que o uso da ferramenta em um ambiente de conversação ainda é uma tarefa difícil até mesmo para alguns dos mais modelos de última geração. Em seguida, conduzimos análises adicionais para determinar os motivos pelos quais o GPT-3.5 e o GPT-4 falham nas conversas. Descobrimos que tanto o GPT-3.5 quanto o GPT-4 podem alucinar argumentos, não entender a documentação e até mesmo afirmar abertamente que realizaram uma tarefa sem chamar nenhuma ferramenta.
Nosso artigo traz as seguintes contribuições:
• Introduzimos um conjunto de dados conversacionais para assistentes baseados em LLM que usam ferramentas, contendo uma ampla gama de ferramentas e exemplos de conversas com anotações verdadeiras para invocações de ferramentas que permitem uma avaliação automatizada.
• Garantimos que o conjunto de dados contenha conversas múltiplas que exijam o uso de diversas ferramentas, incluindo ferramentas com efeitos colaterais, para simular melhor como os usuários podem interagir com um assistente que utiliza ferramentas.
• Desenvolvemos uma metodologia de avaliação que reflecte as diferenças entre ferramentas com efeitos secundários e ferramentas sem eles.
• Avaliamos assistentes construídos usando GPT-3.5 e GPT-4 usando nosso conjunto de dados e analisamos seus erros, encontrando problemas como argumentos alucinados e documentação mal compreendida.
Este artigo está disponível no arxiv sob licença CC 4.0.