저자:
(1) Nicholas Farn, Microsoft Corporation {Microsoft Corporation {nifarn@microsoft.com};
(2) 리처드 신, Microsoft Corporation {eush@microsoft.com}.
LLM(대형 언어 모델)은 추론 및 의사 결정 기술이 크게 향상되었으며 사용자와 자연스러운 대화를 나눌 수 있습니다. 최근의 많은 연구에서는 외부 도구를 사용하여 LLM 기반 보조자를 강화하여 개인 정보 또는 최신 정보에 액세스하고 사용자를 대신하여 작업을 수행할 수 있도록 노력하고 있습니다. 이러한 보조자의 성능을 더 잘 측정하기 위해 이 문서에서는 대화를 통해 지정된 다단계 도구 사용이 필요한 복잡한 사용자 의도로 구성된 벤치마크인 ToolTalk를 소개합니다. ToolTalk에는 7개의 플러그인으로 그룹화된 28개의 도구가 포함되어 있으며 각 도구의 완전한 시뮬레이션 구현이 포함되어 있어 실행 피드백에 의존하는 보조자의 완전 자동화된 평가가 가능합니다. ToolTalk는 또한 정보를 참조하거나 검색하는 도구보다는 세상에 외부적으로 영향을 미치는 도구를 강조합니다. ToolTalk에서 GPT-3.5와 GPT-4를 평가한 결과 각각 26%와 50%의 성공률이 나타났습니다. 오류에 대한 분석을 통해 세 가지 주요 범주가 밝혀지고 향후 개선 방향이 제시됩니다.
https://github.com/microsoft/ToolTalk에서 ToolTalk를 출시합니다.
LLM(대형 언어 모델)은 자연어 이해, 생성 및 텍스트 조작과 관련된 기타 작업에서 인상적인 업적을 수행할 수 있습니다. 사전 훈련 후 적절한 조정을 통해 사용자와 유창하고 자연스러운 대화를 나눌 수 있습니다. 그러나 이러한 대화의 범위는 LLM이 교육 데이터 이외의 지식에 대한 액세스가 부족하고, 제한된 수학적 추론 및 계산 능력을 나타내며, 그렇지 않으면 외부 세계와 상호 작용할 수 없기 때문에 여전히 제한됩니다.
이러한 한계를 극복하기 위해 다양한 이전 연구에서는 검색 엔진(Nakano et al., 2022), 계산기 또는 웹 API(Mialon et al., 2023)와 같은 도구를 사용하는 기능과 LLM 기반 챗봇을 통합할 것을 제안했습니다. 도구 사용에서 의미 있는 진전을 이루려면 현실적이고 도전적인 대화를 통해 이러한 시스템을 완벽하게 실행할 수 있는 관련 벤치마크 및 평가 데이터 세트가 필요합니다. 본 논문에서는 이러한 목표를 향한 한 단계로서 ToolTalk를 소개합니다. ToolTalk는 총 178회 회전의 78개 대화로 구성되며, 정확한 도구 사용을 측정하기 위한 맞춤형 평가 방법과 함께 7개 범주로 그룹화된 28개의 고유한 도구를 사용합니다.
사용자가 LLM 기반 도우미와 갖고 싶어할 수 있는 일반적인 대화를 가장 잘 시뮬레이션하기 위해 몇 가지 고려 사항을 ToolTalk 설계에 반영했습니다. 첫째, 우리는 ToolTalk가 대화형이고 단일 의도에 대해 사용자와 어시스턴트 간의 여러 라운드 대화를 허용하고 싶었습니다. 이는 사용자가 항상 하나의 발화로 전체 요청을 공식화하기를 원하지 않을 수 있으며 보조자로부터 일부 피드백을 받은 후 추가 한정자를 추가하거나 수정 사항을 발행할 수 있는 방법을 반영합니다. 이를 통해 부자연스럽게 긴 발언 없이 복잡한 일련의 도구 호출이 필요한 사용자 의도를 포함할 수 있습니다. 둘째, 보조자가 예측한 도구 호출과 비교하는 자동화된 평가에 사용하기에 적합한, 각 사용자 발화에 대해 작성되어야 하는 실제 도구 호출 세트를 포함합니다. 셋째, ToolTalk에는 데이터세트에 포함된 모든 도구의 실행 가능한 구현이 포함되어 있어 이전 도구 호출의 결과를 고려하여 다음에 만들 도구를 결정할 수 있는 보조자의 평가를 용이하게 합니다. 넷째, ToolTalk에는 데이터베이스 쿼리(예: 특정 키워드가 포함된 이메일 검색 등)만 수행하는 것이 아니라 부작용(예: 이메일 보내기, 캘린더 이벤트 추가/삭제 등)을 갖는 도구가 포함되어 있으며 이를 "작업 도구"라고 합니다. ). 보조자가 사용자의 작업을 자동화하려면 이러한 작업 도구가 필요합니다.
우리는 정확한 일치 정확도와 같은 일반적인 지표를 뛰어 넘어 데이터 세트 설계의 세부 사항에 맞게 평가 방법을 맞춤화합니다. 특히, 잘못된 사람에게 메시지를 보내는 등 작업 도구에 대한 잘못된 호출이 사용자에게 특히 부정적인 영향을 미칠 수 있다는 점을 고려하여 작업 도구와 비작업 도구의 호출을 별도로 고려합니다. 반면, 어시스턴트가 올바른 비작업 도구 호출과 일부 잘못된 관련 없는 도구 호출을 모두 수행하는 경우 관련 없는 도구는 여전히 사용자에게 유용한 정보를 제공할 수 있습니다(사용자가 직접 요청한 것이 아니더라도). 따라서 우리는 도구 호출 회수 및 잘못된 작업 비율을 단일 대화 차례 내 기본 측정항목으로 사용하고 대화 수준의 성공 개념을 정의합니다.
GPT-3.5 및 GPT-4 모델을 사용하는 OpenAI의 채팅 완성 API 지원 기능을 사용하여 구현된 두 개의 어시스턴트에 ToolTalk를 적용합니다. gpt-3.5-turbo-0613과 gpt-4-0613은 각각 26%와 50%의 대화 수준 성공률을 달성한 것으로 나타났습니다. 이는 대화 환경에서 도구를 사용하는 것이 여전히 가장 어려운 작업임을 입증합니다. 최첨단 모델. 그런 다음 GPT-3.5 및 GPT-4가 대화에 실패하는 이유를 확인하기 위해 추가 분석을 수행합니다. 우리는 GPT-3.5와 GPT-4 모두 주장에 환각을 일으키고, 문서를 이해하지 못하고, 도구를 사용하지 않고 작업을 완료했다고 노골적으로 주장할 수도 있음을 발견했습니다.
우리 논문은 다음과 같은 기여를 합니다:
• 자동화된 평가를 허용하는 도구 호출에 대한 실측 주석이 포함된 광범위한 도구와 대화 예시가 포함된 도구 사용 LLM 기반 보조자를 위한 대화형 데이터 세트를 소개합니다.
• 사용자가 도구 사용 보조자와 상호 작용하는 방법을 더 잘 시뮬레이션하기 위해 부작용이 있는 도구를 포함하여 여러 도구를 사용해야 하는 다중 대화가 데이터 세트에 포함되어 있는지 확인합니다.
• 부작용이 있는 도구와 부작용이 없는 도구의 차이를 반영하는 평가 방법론을 개발합니다.
• 우리는 데이터 세트를 사용하여 GPT-3.5 및 GPT-4를 사용하여 구축된 어시스턴트를 평가하고 오류를 분석하여 환각적인 주장 및 오해된 문서와 같은 문제를 찾습니다.
이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.