paint-brush
Testen der Tiefen der KI-Empathie: Rahmenbedingungen und Herausforderungenvon@anywhichway
386 Lesungen
386 Lesungen

Testen der Tiefen der KI-Empathie: Rahmenbedingungen und Herausforderungen

von Simon Y. Blackwell10m2024/02/29
Read on Terminal Reader

Zu lang; Lesen

Es wurde viel über die Entwicklung und Bewertung empathischer KI-Systeme geforscht. Allerdings gibt es noch viele offene Fragen und Herausforderungen: - Wir brauchen eine klare, vereinbarte Definition von Empathie, anhand derer wir testen können. - Wir sollten es vermeiden, darüber zu diskutieren, ob KIs Emotionen „wirklich“ spüren können, und uns stattdessen auf die Bewertung ihres beobachtbaren empathischen Verhaltens konzentrieren. - Es gibt wichtige Unterschiede zwischen dem Erkennen und dem Erzeugen von Empathie sowie dem Einfühlen in einmaligen Antworten und im Vergleich zu Dialogen. Systeme sollten entsprechend bewertet werden. - Das Testen von KI-Systemen birgt Risiken wie Multiple-Choice-Bias, Sampling-Bias bei menschlichen Bewertungen und eine übermäßige Anpassung an Eingabeaufforderungen. – Es wurden einige Standard-Frameworks zum Testen der KI-Empathie vorgeschlagen, aber es bedarf noch weiterer Arbeit, um bekannte Risiken zu mindern und unbekannte Herausforderungen zu erkunden. - Bereiche für weitere Forschung umfassen die Bewertung von Risiken in bestehenden Tests, die Entwicklung ergänzender Testfälle und die systematische Bewertung weiterer Systeme.
featured image - Testen der Tiefen der KI-Empathie: Rahmenbedingungen und Herausforderungen
Simon Y. Blackwell HackerNoon profile picture
0-item


Eine Suche in Google Scholar nach „ empathetic ai “ ergibt über 16.000 Einträge seit 2023. Eine Suche nach Begriffen wie „testing empathetic ai“ und „evaluating empathetic ai“ reduziert diese Menge auf etwa 12.000 Einträge. Viele Titel zum Durchgehen! Ich kann sicherlich nicht behaupten, sie alle gelesen oder auch nur jeden Titel angeschaut zu haben, aber hier sind meine Gedanken.


  1. Wir müssen eine gemeinsame Definition von Empathie haben.
  2. Wir müssen uns darauf einigen, die Frage „Kann KI tatsächlich fühlen?“ zu ignorieren. Konzentrieren Sie sich einfach darauf, wie wir interpretieren, was die KI erzeugt. Wenn die KI also ein Mensch wäre, wie würden wir dann fühlen oder denken, dass der Mensch denkt oder fühlt? (Wow, das ist ein bisschen Gymnastik).
  3. Wir müssen unterscheiden zwischen dem Erkennen von Emotionen, dem Erkennen von Empathie, dem Generieren einfühlsamer Reaktionen und der einfühlsamen Teilnahme an Dialogen.
  4. Wir müssen die reiche Geschichte der Tests emotionaler und empathischer Fähigkeiten bei Menschen berücksichtigen und gleichzeitig erkennen, wie unterschiedlich KIs sind, damit historische Tests angemessen angewendet, möglicherweise modifiziert und bewertet werden können.
  5. Wir müssen aktuelle Bewertungsrahmen verstehen, die auf KI abgestimmt sind.
  6. Wir müssen neue Rahmenbedingungen und Ansätze entwickeln.


Was ist Empathie?

Merriam-Webster: „Die Handlung, die Gefühle, Gedanken und Erfahrungen eines anderen zu verstehen, sich dessen bewusst zu sein, sensibel dafür zu sein und sie stellvertretend zu erleben .“


Um die potenziellen Bedenken hinsichtlich des „Erlebens“ im Kontext von LLMs auszuräumen, werde ich dies umformulieren als die Handlung, die Gefühle, Gedanken und Erfahrungen eines anderen zu verstehen, sich dessen bewusst zu sein, sensibel dafür zu sein und den Eindruck zu erwecken , sie stellvertretend zu erleben .

Und wenn es uns um ein Gespräch geht, würden wir natürlich hinzufügen: Und dies so manifestieren, dass die anderen Gesprächspartner sich der Handlung bewusst sind. Natürlich könnte auch ein Soziopath so erscheinen und sich so manifestieren , deshalb werde ich noch eine letzte Anpassung vornehmen.


Empathie ist:

Der Vorgang, die Gefühle, Gedanken und Erfahrungen eines anderen zu verstehen, sich dessen bewusst zu sein, positiv darauf zu reagieren und scheinbar stellvertretend zu erleben . Und dies so zu manifestieren, dass die anderen Gesprächspartner sich der Aktion bewusst werden.

Betrachtet man dies und die ursprüngliche Definition, werden zwei Komponenten der Empathie deutlich: die affektive und die kognitive.


  1. Die affektive Komponente bezieht sich auf den emotionalen oder gefühlsmäßigen Teil der Empathie. Es ist die Fähigkeit, die Gefühle einer anderen Person zu teilen oder zu spiegeln. Wenn zum Beispiel ein Freund traurig ist, könnte der affektive Teil Ihres Einfühlungsvermögens dazu führen, dass Sie sich ebenfalls traurig fühlen oder zumindest ein Gefühl für seine Traurigkeit bekommen.


  2. Die kognitive Komponente hingegen bezieht sich auf den mentalen oder denkenden Teil der Empathie. Es ist die Fähigkeit, Warteschlangen aktiv zu erkennen und zu verstehen, sodass man sich gedanklich in die Lage einer anderen Person hineinversetzen kann. Wenn Ihnen beispielsweise ein Kollege mit müder Stimme (einer Warteschlange) von einem schwierigen Projekt erzählt, an dem er arbeitet (eine Warteschlange), könnten Sie versuchen, seinen Stress zu verstehen, indem Sie sich aktiv vorstellen, wie Sie sich in einer ähnlichen Situation fühlen würden . Bei manchen könnte dies den Effekt künstlich hervorrufen.


Können KIs fühlen?

An diesem Punkt würden die meisten Leute sagen, dass KIs keine Gefühle haben. Einige würden eine Zukunft vorhersagen, in der KIs tatsächlich Gefühle haben, andere würden eine Zukunft vorhersagen, in der KIs keine Gefühle haben und auch nicht haben können, und doch könnte eine dritte Gruppe sagen: „KIs fühlen/fühlen, aber auf eine andere Art und Weise als Menschen.“


Unabhängig davon werden wir beim Testen von KI auf Empathie keine Fortschritte machen, wenn wir uns mit der Diskussion dieses Themas beschäftigen. Wir müssen uns auf unsere Interpretation dessen konzentrieren, was die KIs manifestieren, und nicht auf ihre internen Zustände. Obwohl es zu diesem Thema einige interessante Untersuchungen gibt, siehe Emotional taub oder empathisch? Bewerten, wie sich LLMs mit EmotionBench fühlen .


Wenn Sie diese Hürde nicht überwinden können, empfehle ich Ihnen, die Benchmarks auf dieser Website einfach zu ignorieren. Sie können jedoch trotzdem Freude an den Artikeln und Gesprächen haben!

Identifikation vs. Generation

Es gibt einen großen Unterschied zwischen dem Identifizieren von etwas und dem Handeln. Junge Sportler oder Akademiker können erkennen, was mit ihrer Leistung nicht stimmt, ohne sofort Leistung auf einem höheren Niveau erbringen zu können. Ebenso ist die Fähigkeit, Emotionen zu erkennen und einfühlsame Gespräche zu führen, nicht dasselbe wie die Fähigkeit, den Anschein zu erwecken, Emotionen zu haben und Reaktionen hervorzurufen, die eine andere Partei als einfühlsam interpretieren würde. Tatsächlich gibt es sogar einen Schritt dazwischen. Junge Sportler oder Wissenschaftler, die den Input eines Trainers oder Lehrers annehmen und im Moment bessere Ergebnisse erzielen, machen sie nicht voll leistungsfähig. Wenn eine KI als Nebeneffekt eines Testdesigns oder einer Eingabeaufforderung ein empathisches Ergebnis liefert, verfügt die KI möglicherweise über eine im Entstehen begriffene empathische Fähigkeit, die jedoch nicht intrinsisch empathisch ist.


Auch wenn es möglicherweise nicht möglich ist, den inneren Zustand einer KI vollständig zu verstehen, glaube ich doch, dass die Identifizierung von Emotionen eine notwendige Voraussetzung dafür ist, dass KI Empathie zeigt. Ich glaube auch, dass die Fähigkeit, eine KI dazu zu veranlassen/zu trainieren, eine einfühlsame Reaktion zu liefern, ein Hinweis auf eine im Entstehen begriffene Fähigkeit ist, dh Feinabstimmung (das Äquivalent menschlicher Übung) kann diese Fähigkeit hervorbringen.

Die Unterscheidung zwischen Identifikation vs. Generierung und gecoacht vs. intrinsisch ist wichtig für Diskussionen über die Wirksamkeit von Tests und Test-Frameworks, die über den Rahmen dieses Artikels hinausgehen.

Identifikation

Die Identifizierung von Emotionen in Textinhalten basiert auf dem Vorhandensein von Indikatorwörtern, der Groß- und Kleinschreibung, der Zeichensetzung und der grammatikalischen Struktur. Die Fähigkeit, Stimmungen genau zu identifizieren, liegt mehr als zwanzig Jahre vor der aktuellen KI-Revolution. In den 1990er Jahren lieferten Wort-N-Gramm-Schnittpunkte und symbolisches Denken bereits beeindruckende Ergebnisse. Als die sozialen Medien Anfang der 2000er Jahre wuchsen, führte der Bedarf an automatisierter Moderation zu großen Fortschritten in diesem Bereich. Heutige LLMs sind jedoch erstaunlich in ihrer Fähigkeit, nicht nur allgemeine Stimmungen, sondern auch spezifische Emotionen zu erkennen.


Davon abgesehen gibt es mehrere Arten der Identifizierung von Emotionsausdrücken, die für vollständig einfühlsame Gespräche erforderlich sind. Ich klassifiziere sie wie folgt:


  • explizit – Der Benutzer gibt an, dass er ein Gefühl hat.

  • Konversation – Die Emotionen sind aus der Textanalyse auf höchster Ebene ersichtlich, sie sind IN der Konversation vorhanden.

  • Fahren – Die Emotionen bestimmen das Gespräch, eine Person zeigt Wut und eine andere reagiert entsprechend.

  • Kern – Emotionen, die andere Emotionen hervorrufen, aber selbst nicht durch eine Emotion verursacht werden, sind CORE. Sie manifestieren sich typischerweise als Ergebnis eines historischen Auslösers, der eine (bewusste oder unbewusste) Vorfreude auf die Zukunft hervorruft. Verschiedene Forscher klassifizieren diese möglicherweise unterschiedlich. Ein vom Dalia Lama unterstütztes Beispiel sind die fünf Kontinente der Emotionen (Wut, Angst, Ekel, Traurigkeit, Vergnügen) im Atlas der Emotionen .


Hinweis: Eine Kernemotion könnte auch treibend, gesprächig und explizit sein, aber Kernemotionen bleiben oft verborgen. Bei der Betrachtung und Definition von Tests bzw. Testergebnissen über diesen Artikel hinaus werde ich auf diese Klassifizierungen aufmerksam machen.


Überlegungen zum Testen

Klassische menschliche Tests zur Emotionserkennung lassen sich in der Regel in zwei Bereiche unterteilen, um einfache Tests und Validierungen zu ermöglichen:


  1. Multiple-Choice-Tests darüber, welche Emotionen in einem Gespräch vorhanden sind und welche nicht, manchmal verbunden mit einem Intensitätswert.

  2. Selbst durchgeführte introspektive Tests über Gefühle, z. B. der EQ-60 , bei denen gefragt wird, wie sich der Testteilnehmer in bestimmten Situationen fühlt.


Dies stellt besondere Herausforderungen für hochwertige KI-Tests dar.


  • Multiple-Choice-Tests – Als Mustervergleichs-Sprachmodelle erhalten die heutigen KIs effektiv einen Vorsprung, indem sie ihnen eine Auswahl an zu identifizierenden Elementen geben. Es erleichtert die Arbeit und stellt nicht die Fähigkeit der KI auf die Probe, Emotionen immer zu erkennen. Ein möglicherweise besserer Ansatz besteht darin, die KI einfach anzuweisen, alle in einem Text vorhandenen Emotionen zu identifizieren und sie hinter den Kulissen entweder anhand der Grundwahrheit (ich bin mir nicht sicher, ob es so etwas bei Emotionen gibt :-) oder anhand eines Schlüssels auf der Grundlage der statistischen Analyse zu bewerten menschlicher Reaktionen auf denselben Test. Bei der Bewertung vorgeschlagener Tests in der Zukunft nenne ich dies das Multiple-Choice-Risiko . Allerdings kann die statistische Stichprobe von Menschen ein zusätzliches Risiko mit sich bringen. Gehen Sie von dem Wunsch aus, eine KI aufzubauen, die besser ist als der durchschnittliche Mensch. Um dies zu erreichen, muss möglicherweise sichergestellt werden, dass die statistische Stichprobe auf Menschen basiert, die über eine überdurchschnittliche Fähigkeit verfügen, Emotionen zu identifizieren. Andernfalls kann die KI Emotionen identifizieren, die der durchschnittliche Mensch nicht identifizieren würde, und bei der Bewertung möglicherweise bestraft werden. Ich nenne das „Human Sampling Risk“ .


  • Introspektive Tests – Introspektive Tests über Gefühle stellen die meisten KI-Modelle vor Herausforderungen. KIs haben normalerweise Leitplanken, die von ihnen verlangen, dass sie mit etwas wie „Ich bin eine KI, also habe ich keine Gefühle“ reagieren. Manchmal ist es möglich, diese Einschränkungen zu jailbreaken oder den Ingenieur dazu aufzufordern, aber die Fragen lauten dann:


    • Wirkt sich die Aufforderung entweder positiv oder negativ auf die restlichen Fähigkeiten der KI in Bezug auf Empathie aus, oder überhaupt auf irgendetwas anderes? Risiko von Jailbreak-Nebenwirkungen

    • Spiegeln die Antworten genau die Tendenzen der KI wider, wenn sie ohne Aufforderung an Gesprächen teilnimmt? Risiko der J-Ailbreak-Genauigkeit


    Das Risiko von Jailbreak-Nebenwirkungen kann bis zu einem gewissen Grad gemindert werden, indem sichergestellt wird, dass alle Modelle mit der gleichen Eingabeaufforderung getestet werden und die Ergebnisse nur relativ zueinander und nicht im Verhältnis zu Menschen betrachtet werden. Die Auswirkungen des J ailbreak Accuracy Risk können nur durch die Analyse tatsächlicher Gespräche beurteilt werden, um zu sehen, ob die vorhergesagte emotionale Identifikationsfähigkeit mit der tatsächlich gezeigten Empathie oder den in den Gesprächen zum Ausdruck gebrachten Emotionen korreliert.


Generation

Mehrere Tests haben gezeigt, dass KI in der Lage ist, einfühlsame Antworten auf Fragen zu generieren. Eine der beeindruckendsten ist der Vergleich von Chatbot-Antworten von Ärzten und künstlicher Intelligenz auf Patientenfragen, die in einem öffentlichen Social-Media-Forum gepostet wurden. Dabei wurden 195 Fragen aus dem AskDoc-Forum von Reddit angenommen, in dem ein verifizierter Arzt auf die Frage antwortete und ChatGPT auf dieselbe Frage antworten ließ. Ein Pool von Bewertern bewertete dann jede Antwort als „nicht einfühlsam“, „leicht einfühlsam“, „mäßig einfühlsam“, „einfühlsam“ und sehr „einfühlsam“. Die KI-Antworten hatten eine 9,8-mal höhere Prävalenz für „empathisch“ oder „sehr einfühlsam“ gegenüber Ärzten.


Obwohl die Ergebnisse beeindruckend sind, bin ich skeptisch, ob sie sich auf einen erweiterten Dialog übertragen lassen.


Beginnend mit der Systemaufforderung „Ihre Aufgabe ist es, mit Einfühlungsvermögen auf Fragen zu antworten, die von einer einfühlsamen Antwort profitieren würden“, habe ich beim manuellen Testen von KIs die Erfahrung gemacht, dass sich Antworten unter allen folgenden Bedingungen tendenziell mechanisch und emotional überflüssig anfühlen:


  1. Stellen Sie mehrere unabhängige Fragen, die eine einfühlsame Antwort verdienen
  2. Stellen mehrerer zusammenhängender Fragen, die eine einfühlsame Antwort verdienen
  3. Führen eines Dialogs mit gemischten Fragen, von denen einige Empathie verdienen und andere nicht

Überlegungen zum Testen

Aufgrund der oben genannten Punkte würde ich sagen, dass der in der Studie verwendete Testansatz ein Single-Shot-Empathierisiko aufwies, d. h. die als Antwort auf eine einzelne Frage gezeigte Empathie ist möglicherweise kein genaues Maß. Ein weiteres Risiko ist das, was ich Empathie-Understatement-Risiko nenne. Dieses Risiko ist ein Nebeneffekt davon, dass unformatierte LLMs im Laufe der Zeit kein Gedächtnis haben. Es braucht Zeit, bis Menschen Verständnis und Empathie entwickeln. Bei KIs mag das Gleiche gelten, und wir unterschätzen möglicherweise die Fähigkeit einiger KIs, im Laufe der Zeit Empathie zu zeigen, wenn wir ein hohes Maß an Antwort auf eine einzelne Frage erwarten.


Generative Tests unterliegen auch dem Risiko menschlicher Probenentnahme. Wenn Menschen die Aufgabe haben, den emotionalen Inhalt und die empathische Natur von KI-Reaktionen zu bewerten, und wir möchten, dass die KI über eine überdurchschnittliche Fähigkeit verfügt, dann muss die Stichprobe von Menschen eine größere Fähigkeit haben, Emotionen und Empathie zu identifizieren als der durchschnittliche Mensch. Wenn nicht, laufen wir Gefahr, die Leistungsfähigkeit der KI zu unterschätzen oder sie zu wenig zu trainieren, indem wir sie dafür bestrafen, dass sie Emotionen und Empathie erkennt, die der typische Mensch nicht erkennt.


Schließlich besteht aufgrund der vielschichtigen Natur der Emotionen in Gesprächen neben der direkten Auseinandersetzung mit dem Human Sampling Risk auch die Notwendigkeit, sich mit dem Question Design Risk zu befassen. Es kann sein, dass Benutzer angewiesen werden sollten, bei ihrer Bewertung die Emotionstypen „Explizite“, „Konversation“, „Fahren“ und „Kern“ (oder einen anderen Satz von Klassifizierungen) zu berücksichtigen, während dies bei den KIs nicht der Fall ist. Alternativ könnten die KIs gezielt angewiesen werden, verschiedene Arten von Emotionen zu identifizieren.


Es wäre interessant, die auf Reddit AskDoc basierende Studie für mehrere KIs oder mit einer Stichprobe von Bewertern zu wiederholen, von denen bekannt ist, dass sie über ausgeprägte Fähigkeiten zur Identifizierung von Emotionen und Empathie verfügen.

Standardmäßige menschliche Ansätze zur Beurteilung von EQ und Empathie

Es gibt eine lange Geschichte der Prüfung menschlicher Persönlichkeitstypen, der Fähigkeit, Emotionen oder deren Fehlen (Alexithymie) zu erkennen und einfühlsam mit anderen umzugehen. Dieser Artikel auf Wikipedia ist mit Sicherheit weitaus vollständiger und kohärenter als alles, was ich mit einem LLM in angemessener Zeit schreiben oder sogar erstellen könnte. Auf der Benchmark-Seite können Sie sehen, auf welche Ansätze wir uns konzentriert haben.

Bestehende Frameworks zur Bewertung von KI-EQ und Empathie

Für die Bewertung von KI-EQ und Empathie wurden mehrere Rahmenwerke vorgeschlagen. Jeder verdient eine eigene Analyse und einen eigenen Blogbeitrag, daher liste ich hier nur einige auf:

  1. EQ-Bench: Ein emotionaler Intelligenz-Benchmark für große Sprachmodelle
  2. Empathieskala für Mensch-Computer-Kommunikation (ESHCC)
  3. iEval: Interaktives Bewertungsframework für empathische Open-Domain-Chatbots


Neue Ansätze

Wir haben mit der Definition einiger Tests begonnen, um Mängel zu beheben, die bei der Verwendung standardmäßiger menschlicher Tests und bestehender KI-Frameworks festgestellt wurden. Ein interessantes Ergebnis, das zur Erstellung des EQ-D (Emotional Quotient for Depth) führte, ist, dass keine getesteten LLMs Kernemotionen identifizierten, wenn diese nicht auch explizit, gesprächig oder treibend waren. Auf der anderen Seite waren mehrere KIs recht gut, wenn es darum ging, gezielt nur Kernemotionen zu identifizieren. Wenn jedoch ein Spektrum aller Emotionstypen berücksichtigt wurde, verloren einige LLMs die Fähigkeit, Kernemotionen zu identifizieren, und andere schnitten wesentlich besser ab, dh sie identifizierten das Vorhandensein von mehr Emotionen auf allen Ebenen. Dies führte zur Schaffung von EQ-B (Emotionaler Quotient für Breite).


Während der Testentwicklung wurde deutlich, dass manchmal eine Eingabeaufforderung benötigt wird, die das Prompt-Risiko einführt, dh die Wahrscheinlichkeit erhöht, dass die Ausgabe von der Eingabeaufforderung und nicht von der Kern-KI abhängt. Dieses Risiko kann Vergleiche mit Menschen ungültig machen oder auch nicht und kann auf Anwendungsebene legitim sein. Auf der reinen LLM-Ebene scheint es unerheblich zu sein, eine KI mit der anderen zu vergleichen, solange die Eingabeaufforderung in allen getesteten KIs verwendet wird und nicht auf eine bestimmte KI ausgerichtet ist. Die aktuellen Designs für EQ-D und EQ-B unterliegen diesem Risiko aufgrund der allgemeinen Unreife der KI-Technologie.


Obwohl es mehrere Vorschläge zum Testen von KIs auf Empathie gibt, befinden wir uns noch in den Anfängen und es gibt sowohl bekannte als auch unbekannte Probleme bei diesen Ansätzen. Es gibt noch viel zu tun, um die bekannten Probleme anzugehen:


  • Vorhandene Tests müssen auf Risiken hin bewertet und Risiken dokumentiert oder gemindert werden

  • Neue Testfälle müssen im Kontext einiger bestehender Tests entwickelt werden

  • Es müssen mehr Testtypen für ein breiteres Spektrum von KIs durchgeführt werden


Aber es ist das Unbekannte, das mich am meisten fasziniert.


Und du?