paint-brush
ToolTalk: Araç Kullanan Yapay Zeka Asistanlarının Geleceğinin Kıyaslanmasıile@botbeat
174 okumalar

ToolTalk: Araç Kullanan Yapay Zeka Asistanlarının Geleceğinin Kıyaslanması

Çok uzun; Okumak

ToolTalk, yapay zeka asistanlarının diyalog yoluyla karmaşık araç kullanımı konusunda değerlendirilmesine yönelik bir kıyaslamadır; GPT-4'ün GPT-3.5'e göre üstün performansını ortaya koyar, ancak halüsinasyonlu argümanlar ve yanlış anlaşılan belgeler gibi devam eden zorlukları vurgular.
featured image - ToolTalk: Araç Kullanan Yapay Zeka Asistanlarının Geleceğinin Kıyaslanması
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

Yazarlar:

(1) Nicholas Farn, Microsoft Corporation {Microsoft Corporation {nifarn@microsoft.com};

(2) Richard Shin, Microsoft Corporation {eush@microsoft.com}.

Bağlantı Tablosu

Özet ve Giriş

Veri Kümesi Tasarımı

Değerlendirme Metodolojisi

Deneyler ve Analizler

Alakalı iş

Sonuç, Tekrarlanabilirlik ve Referanslar

A. Araçların tam listesi

B. Senaryo İstemi

C. Gerçekçi Olmayan Sorgular

D. Önceki çalışmaları karşılaştıran nüanslar

SOYUT

Büyük dil modelleri (LLM'ler), muhakeme ve karar verme becerilerinde büyük gelişmeler göstermiştir ve kullanıcılarla doğal konuşmalar gerçekleştirebilmektedir. Son zamanlarda yapılan çalışmaların çoğu, LLM tabanlı asistanların özel veya güncel bilgilere erişebilmeleri ve kullanıcılar adına eylemler gerçekleştirebilmeleri için harici araçlarla güçlendirilmesini amaçlamaktadır. Bu asistanların performansını daha iyi ölçmek için bu belge, diyalog yoluyla belirlenen çok adımlı araç kullanımını gerektiren karmaşık kullanıcı amaçlarından oluşan bir kıyaslama olan ToolTalk'u tanıtmaktadır. ToolTalk, 7 eklenti halinde gruplandırılmış 28 araç içerir ve her bir aracın tam simüle edilmiş bir uygulamasını içerir; bu, yürütme geri bildirimine dayanan asistanların tamamen otomatik olarak değerlendirilmesine olanak tanır. ToolTalk ayrıca yalnızca bilgiye referans verme veya bilgiyi arama araçları yerine dünyayı dışarıdan etkileyen araçları vurguluyor. GPT-3.5 ve GPT-4'ü ToolTalk'ta değerlendirdik ve sırasıyla %26 ve %50 başarı oranları elde ettik. Hatalara ilişkin analizimiz üç ana kategoriyi ortaya koyuyor ve iyileştirme için gelecekte bazı yönler öneriyor.

ToolTalk'u https://github.com/microsoft/ToolTalk adresinde yayınlıyoruz.

1. GİRİŞ

Büyük dil modelleri (LLM'ler), doğal dil anlama, oluşturma ve metnin manipülasyonunu içeren diğer görevlerde etkileyici başarılar gerçekleştirebilir. Ön eğitimden sonra uygun ayarlamalarla kullanıcılarla akıcı ve doğal konuşmalar yapabilirler. Bununla birlikte, bu tür konuşmaların kapsamı, LLM'lerin eğitim verileri dışındaki bilgilere erişiminin olmaması, sınırlı matematiksel muhakeme ve hesaplama yetenekleri sergilemeleri ve başka şekilde dış dünyayla etkileşime girememeleri nedeniyle hala sınırlıdır.


Bu sınırlamaların üstesinden gelmek için, önceki çeşitli çalışmalar, LLM destekli sohbet robotlarının arama motorları (Nakano ve diğerleri, 2022), hesap makineleri veya web API'leri (Mialon ve diğerleri, 2023) gibi araçları kullanma becerisine entegre edilmesini önermiştir. Araç kullanımında anlamlı ilerleme kaydedilmesi, bu sistemleri gerçekçi ve zorlayıcı konuşmalarla tam olarak uygulayabilecek ilgili kıyaslama ve değerlendirme veri kümelerini gerektirir. Bu yazıda ToolTalk'u bu hedefe doğru bir adım olarak tanıtıyoruz. ToolTalk, 7 kategoriye ayrılmış 28 benzersiz aracın kullanıldığı ve doğru araç kullanımını ölçmeye yönelik bir değerlendirme metodolojisinin kullanıldığı toplam 178 dönüşlü 78 görüşmeden oluşur.


Bir kullanıcının LLM tabanlı bir asistanla yapmak isteyebileceği tipik konuşmaları en iyi şekilde simüle etmek amacıyla ToolTalk tasarımımıza çeşitli hususlar yön verdi. İlk olarak, ToolTalk'un konuşkan olmasını ve kullanıcı ile asistan arasında tek bir amaç için birden fazla diyalog turuna izin vermesini sağlamak istedik; Bu, kullanıcıların isteklerinin tamamını her zaman tek bir ifadeyle formüle etmek istemeyebileceklerini ve asistandan bir miktar geri bildirim aldıktan sonra ek niteleyiciler ekleyebileceklerini veya düzeltmeler yapabileceklerini yansıtıyor. Bu, doğal olmayan uzun ifadeler olmadan karmaşık bir dizi araç çağrısı gerektiren kullanıcı amaçlarını dahil etmemize olanak tanır. İkinci olarak, her kullanıcı ifadesi için yapılması gereken, bir asistan tarafından tahmin edilen araç çağrılarıyla karşılaştırılan otomatik bir değerlendirmede kullanıma uygun, temel gerçek araç çağrıları setini dahil ediyoruz. Üçüncüsü, ToolTalk, daha sonra hangisinin yapılacağına karar vermek için önceki araç çağrımlarından elde edilen sonuçları dikkate alabilecek asistanların değerlendirmesini kolaylaştırmak için veri setinde yer alan her aracın çalıştırılabilir uygulamalarını içerir. Dördüncüsü, ToolTalk, yalnızca veritabanı sorguları yapmak (belirli bir anahtar kelimeyi içeren e-postaları aramak gibi) yerine "eylem araçları" olarak adlandırdığımız, yan etkileri olan (e-posta gönderme veya takvim etkinlikleri ekleme/silme gibi) araçları içerir. ). Asistanın kullanıcının görevlerini otomatikleştirmesi gerekiyorsa bu tür eylem araçları gereklidir.


Değerlendirme metodolojimizi, tam eşleşme doğruluğu gibi ortak ölçümlerin ötesine geçerek veri seti tasarımımızın ayrıntılarına göre uyarlıyoruz. Özellikle, yanlış kişiye mesaj göndermek gibi eylem araçlarına yapılan hatalı çağrıların kullanıcı için özellikle olumsuz etkileri olabileceğini göz önünde bulundurarak, eylem çağrılarını ve eylem dışı araçları ayrı ayrı ele alıyoruz. Öte yandan, asistan hem doğru eylem dışı araç çağrıları hem de bazı hatalı konu dışı çağrılar yaparsa, konu dışı olanlar yine de kullanıcıya yararlı bilgiler sağlayabilir (kullanıcının doğrudan istediği şey bu olmasa bile). Bu nedenle, tek bir konuşma sırasındaki birincil ölçümler olarak araç çağırma geri çağırma ve yanlış eylem oranını kullanıyoruz ve konuşma düzeyinde bir başarı kavramı tanımlıyoruz.


ToolTalk'u, GPT-3.5 ve GPT-4 modelleriyle OpenAI'nin Sohbet tamamlama API'sinin işlev çağırma desteğini kullanarak uygulanan iki asistana uyguluyoruz. gpt-3.5-turbo-0613 ve gpt-4-0613'ün sırasıyla %26 ve %50'lik konuşma düzeyinde başarı oranına ulaştığını gördük; bu da, konuşma ortamında araç kullanımının en deneyimli kişiler için bile hâlâ zor bir iş olduğunu ortaya koyuyor. son teknoloji modeller. Daha sonra GPT-3.5 ve GPT-4'ün konuşmalarda başarısız olmasının nedenlerini belirlemek için daha ileri analizler yapıyoruz. Hem GPT-3.5 hem de GPT-4'ün argümanları halüsinasyona uğratabildiğini, belgeleri anlayamadığını ve hatta herhangi bir araç çağırmadan bir görevi tamamladığını açıkça iddia edebildiğini gördük.


Makalemiz aşağıdaki katkıları sağlamaktadır:


• Araç kullanan Yüksek Lisans destekli asistanlar için, geniş bir araç yelpazesi ve otomatik değerlendirmeye izin veren araç çağrıları için temel gerçek açıklamaları içeren örnek konuşmalar içeren bir konuşma veri seti sunuyoruz.


• Kullanıcıların araç kullanan bir asistanla nasıl etkileşimde bulunabileceğini daha iyi simüle etmek için veri kümesinin, yan etkileri olan araçlar da dahil olmak üzere birden fazla aracın kullanımını gerektiren çok turlu konuşmalar içermesini sağlıyoruz.


• Yan etkileri olan araçlar ile yan etkileri olmayan araçlar arasındaki farkları yansıtan bir değerlendirme metodolojisi geliştiriyoruz.


• Veri setimizi kullanarak GPT-3.5 ve GPT-4 kullanılarak oluşturulan asistanları değerlendiriyor ve hatalarını analiz ederek halüsinasyonlu argümanlar ve yanlış anlaşılan belgeler gibi sorunları buluyoruz.