作者:
(1)Nicholas Farn,微软公司{Microsoft Corporation {nifarn@microsoft.com};
(2)Richard Shin,微软公司{eush@microsoft.com}。
大型语言模型 (LLM) 在推理和决策能力方面表现出了巨大的进步,并且可以与用户进行自然的对话。许多最近的研究都试图用外部工具来增强基于 LLM 的助手,以便他们可以访问私人或最新信息并代表用户执行操作。为了更好地衡量这些助手的性能,本文介绍了 ToolTalk,这是一个基准,由复杂的用户意图组成,需要通过对话指定多步骤工具使用。ToolTalk 包含 28 个工具,分为 7 个插件,并包含每个工具的完整模拟实现,允许对依赖执行反馈的助手进行完全自动化的评估。ToolTalk 还强调从外部影响世界的工具,而不仅仅是用于引用或搜索信息的工具。我们在 ToolTalk 上评估了 GPT-3.5 和 GPT-4,成功率分别为 26% 和 50%。我们对错误的分析揭示了三个主要类别,并提出了一些未来的改进方向。
我们在 https://github.com/microsoft/ToolTalk 发布了 ToolTalk。
大型语言模型 (LLM) 在自然语言理解、生成和其他涉及文本处理的任务中表现出色。经过预训练后进行适当调整,它们可以与用户进行流畅自然的对话。然而,由于 LLM 无法获取训练数据以外的知识,数学推理和计算能力有限,无法与外界互动,因此此类对话的范围仍然有限。
为了克服这些限制,各种先前的研究都提出了将 LLM 驱动的聊天机器人与使用搜索引擎 (Nakano 等人,2022 年)、计算器或 Web API (Mialon 等人,2023 年) 等工具的能力相结合。要在工具使用方面取得有意义的进展,需要相关的基准和评估数据集,这些数据集可以通过现实且具有挑战性的对话充分锻炼这些系统。在本文中,我们引入了 ToolTalk 作为实现这一目标的一步。ToolTalk 包含 78 个对话,总共 178 个回合,使用了 7 个类别的 28 种独特工具,以及一种专门用于衡量准确工具使用的评估方法。
为了最好地模拟用户可能希望与基于 LLM 的助手进行的典型对话,我们在设计 ToolTalk 时考虑了几个因素。首先,我们希望确保 ToolTalk 是对话式的,并允许用户和助手针对一个意图进行多轮对话;这反映了用户可能并不总是希望在一次话语中表达他们的完整请求,并且可以在收到助手的一些反馈后添加额外的限定词或发布更正。这使我们能够包含需要一系列复杂工具调用的用户意图,而不会产生不自然的长话语。其次,我们包含了一组应该针对每个用户话语进行的工具调用的真实集合,适合用于与助手预测的工具调用进行比较的自动评估。第三,ToolTalk 包括数据集中包含的每个工具的可执行实现,以方便对助手进行评估,助手可能会考虑先前工具调用的结果来决定下一步要进行哪些调用。第四,ToolTalk 包含旨在产生副作用的工具(例如发送电子邮件或添加/删除日历事件),我们将其称为“操作工具”,而不仅仅是进行数据库查询(例如搜索包含特定关键字的电子邮件)。如果助手要自动执行用户的任务,则此类操作工具是必需的。
我们根据数据集设计的具体情况定制评估方法,超越了精确匹配准确度等常见指标。具体来说,我们分别考虑操作和非操作工具的调用,因为对操作工具的错误调用(例如向错误的人发送消息)可能会对用户产生特别负面的影响。另一方面,如果助手同时进行了正确的非操作工具调用和一些不正确的无关调用,则无关调用仍可能为用户提供有用的信息(即使这不是用户直接请求的)。因此,我们使用工具调用召回率和错误操作率作为单个对话轮次中的主要指标,并定义对话级别的成功概念。
我们将 ToolTalk 应用于两个助手,这两个助手使用 OpenAI 的聊天完成 API 的函数调用支持与 GPT-3.5 和 GPT-4 模型一起实现。我们发现 gpt-3.5-turbo-0613 和 gpt-4-0613 分别实现了 26% 和 50% 的对话级成功率,这表明即使对于一些最先进的模型来说,在对话环境中使用工具仍然是一项艰巨的任务。然后,我们进行了进一步的分析,以确定 GPT-3.5 和 GPT-4 在对话中失败的原因。我们发现 GPT-3.5 和 GPT-4 都会产生幻觉论点,无法理解文档,甚至直接声称在不调用任何工具的情况下完成了任务。
我们的论文做出了以下贡献:
• 我们为使用工具的 LLM 助手引入了对话数据集,其中包含广泛的工具和示例对话,以及用于工具调用的基本事实注释,可进行自动评估。
• 我们确保数据集包含需要使用多种工具的多轮对话,包括具有副作用的工具,以更好地模拟用户如何与使用工具的助手进行交互。
• 我们开发了一种评估方法,可以反映具有副作用的工具和没有副作用的工具之间的差异。
• 我们使用我们的数据集评估使用 GPT-3.5 和 GPT-4 构建的助手并分析他们的错误,发现诸如幻觉论点和误解文档等问题。