लेखक:
(1) निकोलस फ़ार्न, माइक्रोसॉफ्ट कॉर्पोरेशन {माइक्रोसॉफ्ट कॉर्पोरेशन {nifarn@microsoft.com};
(2) रिचर्ड शिन, माइक्रोसॉफ्ट कॉर्पोरेशन {eush@microsoft.com}.
निष्कर्ष, पुनरुत्पादनशीलता, और संदर्भ
D. पूर्व कार्य की तुलना में बारीकियाँ
बड़े भाषा मॉडल (LLM) ने तर्क और निर्णय लेने के कौशल में बड़े पैमाने पर सुधार प्रदर्शित किए हैं और उपयोगकर्ताओं के साथ स्वाभाविक बातचीत कर सकते हैं। कई हालिया कार्य बाहरी उपकरणों के साथ LLM-आधारित सहायकों को बढ़ाने का प्रयास करते हैं ताकि वे निजी या अद्यतित जानकारी तक पहुँच सकें और उपयोगकर्ताओं की ओर से कार्रवाई कर सकें। इन सहायकों के प्रदर्शन को बेहतर ढंग से मापने के लिए, यह पेपर ToolTalk का परिचय देता है, जो एक बेंचमार्क है जिसमें जटिल उपयोगकर्ता इरादे शामिल हैं जिन्हें संवाद के माध्यम से निर्दिष्ट बहु-चरणीय उपकरण उपयोग की आवश्यकता होती है। ToolTalk में 7 प्लगइन्स में समूहीकृत 28 उपकरण शामिल हैं, और इसमें प्रत्येक उपकरण का पूर्ण सिम्युलेटेड कार्यान्वयन शामिल है, जो निष्पादन प्रतिक्रिया पर निर्भर सहायकों के पूरी तरह से स्वचालित मूल्यांकन की अनुमति देता है। ToolTalk उन उपकरणों पर भी जोर देता है जो केवल संदर्भ या जानकारी खोजने के लिए उपकरणों के बजाय दुनिया को बाहरी रूप से प्रभावित करते हैं। हमने ToolTalk पर GPT-3.5 और GPT-4 का मूल्यांकन किया, जिसके परिणामस्वरूप क्रमशः 26% और 50% की सफलता दर मिली। त्रुटियों के हमारे विश्लेषण से तीन प्रमुख श्रेणियां सामने आईं और सुधार के लिए कुछ भविष्य की दिशाएँ सुझाई गईं।
हम ToolTalk को https://github.com/microsoft/ToolTalk पर जारी करते हैं।
बड़े भाषा मॉडल (एलएलएम) प्राकृतिक भाषा को समझने, उत्पन्न करने और पाठ में हेरफेर करने से जुड़े अन्य कार्यों में प्रभावशाली कार्य कर सकते हैं। प्रीट्रेनिंग के बाद उचित समायोजन के साथ, वे उपयोगकर्ताओं के साथ धाराप्रवाह और स्वाभाविक बातचीत कर सकते हैं। हालाँकि, इस तरह की बातचीत का दायरा अभी भी सीमित है क्योंकि एलएलएम के पास अपने प्रशिक्षण डेटा के बाहर ज्ञान तक पहुँच की कमी है, सीमित गणितीय तर्क और कम्प्यूटेशनल क्षमताएँ प्रदर्शित करते हैं, और अन्यथा बाहरी दुनिया के साथ बातचीत करने में असमर्थ हैं।
इन सीमाओं को दूर करने के लिए, विभिन्न पूर्व कार्यों ने LLM-संचालित चैटबॉट को सर्च इंजन (नाकानो एट अल., 2022), कैलकुलेटर या वेब API (मियालोन एट अल., 2023) जैसे उपकरणों का उपयोग करने की क्षमता के साथ एकीकृत करने का प्रस्ताव दिया है। उपकरण उपयोग में सार्थक प्रगति करने के लिए प्रासंगिक बेंचमार्क और मूल्यांकन डेटासेट की आवश्यकता होती है जो यथार्थवादी और चुनौतीपूर्ण बातचीत के साथ इन प्रणालियों का पूरी तरह से उपयोग कर सकते हैं। इस पेपर में, हम इस लक्ष्य की ओर एक कदम के रूप में टूलटॉक का परिचय देते हैं। टूलटॉक में 178 कुल मोड़ों के साथ 78 वार्तालाप शामिल हैं, जो 7 श्रेणियों में समूहीकृत 28 अद्वितीय उपकरणों का उपयोग करते हैं, साथ ही सटीक उपकरण उपयोग को मापने के लिए एक मूल्यांकन पद्धति भी है।
टूलटॉक के हमारे डिजाइन में कई बातों पर विचार किया गया है ताकि उपयोगकर्ता द्वारा LLM-आधारित सहायक के साथ की जाने वाली सामान्य बातचीत को सर्वोत्तम तरीके से अनुकरण किया जा सके। सबसे पहले, हम यह सुनिश्चित करना चाहते थे कि टूलटॉक संवादात्मक हो, और एक ही इरादे के लिए उपयोगकर्ता और सहायक के बीच संवाद के कई दौर की अनुमति देता हो; यह दर्शाता है कि उपयोगकर्ता हमेशा अपने पूरे अनुरोध को एक ही कथन में तैयार नहीं करना चाहते हैं और सहायक से कुछ प्रतिक्रिया प्राप्त करने के बाद अतिरिक्त योग्यताएँ जोड़ सकते हैं या सुधार जारी कर सकते हैं। यह हमें उपयोगकर्ता के इरादों को शामिल करने की अनुमति देता है, जिसके लिए अस्वाभाविक रूप से लंबे कथनों के बिना टूल इनवोकेशन की एक जटिल श्रृंखला की आवश्यकता होती है। दूसरा, हम टूल कॉल का एक ग्राउंड-ट्रुथ सेट शामिल करते हैं, जिसे प्रत्येक उपयोगकर्ता कथन के लिए बनाया जाना चाहिए था, जो एक सहायक द्वारा पूर्वानुमानित टूल कॉल के विरुद्ध तुलना करने के लिए एक स्वचालित मूल्यांकन में उपयोग के लिए उपयुक्त है। तीसरा, टूलटॉक में डेटासेट में शामिल प्रत्येक टूल के निष्पादन योग्य कार्यान्वयन शामिल हैं, ताकि सहायकों के मूल्यांकन को सुविधाजनक बनाया जा सके जो पिछले टूल इनवोकेशन के परिणामों पर विचार कर सकते हैं ताकि यह तय किया जा सके कि अगला कौन सा करना है। चौथा, टूलटॉक में साइड इफ़ेक्ट (जैसे ईमेल भेजना, या कैलेंडर ईवेंट जोड़ना/हटाना) के लिए बनाए गए टूल शामिल हैं, जिन्हें हम "एक्शन टूल" कहते हैं, न कि केवल डेटाबेस क्वेरीज़ (जैसे किसी विशेष कीवर्ड वाले ईमेल की खोज करना)। यदि सहायक को उपयोगकर्ता के कार्यों को स्वचालित करना है तो ऐसे एक्शन टूल आवश्यक हैं।
हम अपने मूल्यांकन पद्धति को अपने डेटासेट डिज़ाइन के विवरण के अनुसार ढालते हैं, जो सटीक-मिलान सटीकता जैसे सामान्य मीट्रिक से परे है। विशेष रूप से, हम अलग-अलग क्रिया और गैर-क्रिया उपकरणों के आह्वान पर विचार करते हैं, यह देखते हुए कि क्रिया उपकरणों के गलत आह्वान, जैसे कि गलत व्यक्ति को संदेश भेजना, उपयोगकर्ता के लिए विशेष रूप से नकारात्मक प्रभाव डाल सकता है। दूसरी ओर, यदि सहायक सही गैर-क्रिया उपकरण आह्वान और कुछ गलत बाहरी आह्वान दोनों करता है, तो बाहरी आह्वान अभी भी उपयोगकर्ता को उपयोगी जानकारी प्रदान कर सकते हैं (भले ही यह वह न हो जो उपयोगकर्ता ने सीधे अनुरोध किया हो)। इस प्रकार, हम एक ही वार्तालाप मोड़ के भीतर प्राथमिक मीट्रिक के रूप में उपकरण आह्वान रिकॉल और गलत क्रिया दर का उपयोग करते हैं, और सफलता की वार्तालाप-स्तरीय धारणा को परिभाषित करते हैं।
हमने GPT-3.5 और GPT-4 मॉडल के साथ OpenAI के चैट कंप्लीशन API के फ़ंक्शन कॉलिंग समर्थन का उपयोग करके कार्यान्वित किए गए दो सहायकों पर ToolTalk लागू किया। हमने पाया कि gpt-3.5-turbo-0613 और gpt-4-0613 क्रमशः 26% और 50% की वार्तालाप-स्तर की सफलता दर प्राप्त करते हैं, यह दर्शाता है कि वार्तालाप सेटिंग में टूल का उपयोग अभी भी कुछ सबसे अत्याधुनिक मॉडलों के लिए एक कठिन कार्य है। फिर हम GPT-3.5 और GPT-4 वार्तालापों में विफल होने के कारणों को निर्धारित करने के लिए आगे के विश्लेषण करते हैं। हम पाते हैं कि GPT-3.5 और GPT-4 दोनों तर्कों को भ्रमित कर सकते हैं, दस्तावेज़ीकरण को समझने में विफल हो सकते हैं, और यहां तक कि किसी भी उपकरण को कॉल किए बिना किसी कार्य को पूरा करने का दावा भी कर सकते हैं।
हमारा पेपर निम्नलिखित योगदान देता है:
• हम उपकरण का उपयोग करने वाले एलएलएम-संचालित सहायकों के लिए एक संवादात्मक डेटासेट प्रस्तुत करते हैं, जिसमें उपकरणों की एक विस्तृत श्रृंखला और उपकरण आह्वान के लिए ग्राउंड ट्रुथ एनोटेशन के साथ उदाहरण वार्तालाप शामिल हैं जो स्वचालित मूल्यांकन की अनुमति देते हैं।
• हम यह सुनिश्चित करते हैं कि डेटासेट में बहु-टर्न वार्तालाप शामिल हों, जिसके लिए कई उपकरणों के उपयोग की आवश्यकता होती है, जिसमें साइड इफेक्ट वाले उपकरण भी शामिल हैं, ताकि यह बेहतर ढंग से अनुकरण किया जा सके कि उपयोगकर्ता उपकरण का उपयोग करने वाले सहायक के साथ कैसे बातचीत कर सकते हैं।
• हम एक मूल्यांकन पद्धति विकसित करते हैं जो दुष्प्रभाव वाले औजारों और बिना दुष्प्रभाव वाले औजारों के बीच अंतर को दर्शाती है।
• हम अपने डेटासेट का उपयोग करके GPT-3.5 और GPT-4 का उपयोग करके बनाए गए सहायकों का मूल्यांकन करते हैं और उनकी त्रुटियों का विश्लेषण करते हैं, जिसमें भ्रामक तर्क और गलत समझे गए दस्तावेज़ जैसे मुद्दे मिलते हैं।
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।