paint-brush
Czy Anthropic symuluje ważne badania nad bezpieczeństwem sztucznej inteligencji?przez@step
613 odczyty
613 odczyty

Czy Anthropic symuluje ważne badania nad bezpieczeństwem sztucznej inteligencji?

przez stephen4m2024/12/22
Read on Terminal Reader

Za długo; Czytać

Badanie umysłu jest najważniejsze, ponieważ to umysł jest tym, co naprawdę zarządza — stanami, sytuacjami i epokami. Umysł jest również podstawą bezpieczeństwa, ponieważ afektywna kara za odchylenia jest przez umysł — dla ludzi. Badanie umysłu może kształtować sposób dostosowania wyrównania ludzkiej inteligencji do sztucznej inteligencji.
featured image - Czy Anthropic symuluje ważne badania nad bezpieczeństwem sztucznej inteligencji?
stephen HackerNoon profile picture

Czym jest cel? Albo czym jest cel w umyśle człowieka? Co jeszcze robi umysł, co nie jest celem lub jest podobne do tego, jak cel jest osiągany? Czym różni się cel wyznaczony od celu samonarzuconego? Jeśli cel jest charakteryzowany jako wyrafinowany, jak kontrastuje to z celem niewyrafinowanym?


Czy istnieje ogólna architektura tego, jak ludzki umysł realizuje cele? W jaki sposób może to wpłynąć na zrozumienie celów, a następnie przeszczepić je do AI? Czy AI ma umysł, czy też jest to umysł, który pracuje nad treścią cyfrową?


To może oznaczać, że człowiek ma umysł. Może to również oznaczać, że umysł człowieka interpretuje i nawiguje w świecie zewnętrznym [dla AI, treści cyfrowych] lub w świecie wewnętrznym [własna architektura AI].


Jak umysł odnosi się do AI i jak działa? Na to pytanie można odpowiedzieć na dwa sposoby. Po pierwsze, porównując go z ludzkim umysłem, aby znaleźć paralele. Po drugie, badając główne parametry matematyczne, które ukształtowały sieci neuronowe i organizując je jako struktury umysłu.


Drugie powinno być przynajmniej osiągalne dla każdej dużej firmy AI teraz — towarzysząc badaniom nad tym, jak AI może działać i jak może być bezpieczne lub zgodne z ludzkimi wartościami. Początkowo może nie być konieczne używanie ludzkiego umysłu do mapowania umysłu AI, ponieważ możliwe jest ustrukturyzowanie tego, co robi AI, od ich matematycznych podstaw — z obliczeniowym miksem.


Celem będzie zdefiniowanie, co oznacza, że wynik jest niemal dokładny, biorąc pod uwagę dane wejściowe. Zdefiniuje również, co oznacza, że należy postępować zgodnie z poleceniem i zwracać odpowiedzi, a także co oznacza, że należy dążyć do celu — lub od niego odstąpić.


Ważne jest, aby mieć ogólny zarys tego, jak umysł działa w kontekście sztucznej inteligencji, porównać go z tym, co oczywiste, a następnie zbadać, w jaki sposób wykonuje on proste czynności, a następnie odnieść to do wszelkich bardziej złożonych czynności, które wykonuje.


Byłoby to istotne badanie na rzecz dostosowania sztucznej inteligencji, które mogłoby stać się szablonem, na podstawie którego poszukiwano by częściowych odpowiedzi na temat tego, co i dlaczego robi sztuczna inteligencja, w sposób umożliwiający dokonanie istotnego postępu.


Tego właśnie oczekiwano od Anthropic po ich badaniach nad interpretowalnością, Mapping the Mind of a Large Language Model , gdzie napisali: „Byliśmy w stanie zmierzyć rodzaj „odległości” między cechami na podstawie tego, które neurony pojawiły się w ich wzorcach aktywacji. Pozwoliło nam to poszukać cech, które są „bliskie” sobie. Pokazuje to, że wewnętrzna organizacja pojęć w modelu AI odpowiada, przynajmniej w pewnym stopniu, naszym ludzkim pojęciom podobieństwa. To może być źródło doskonałej zdolności Claude'a do tworzenia analogii i metafor. Fakt, że manipulowanie tymi cechami powoduje odpowiednie zmiany w zachowaniu, potwierdza, że nie są one tylko skorelowane z obecnością pojęć w tekście wejściowym, ale także przyczynowo kształtują zachowanie modelu”.


Jakie są składniki umysłu dla AI? Jak komponenty się przekazują? Jeśli komponenty się nie przekazują, co je przekazuje? Jakie są właściwości komponentów? Jeśli właściwości obejmują wzajemne połączenia, jaka jest rola wzajemnych połączeń? Gdzie może być intencja [potencjał] AI i gdzie może się pojawić poza przyjmowaniem instrukcji?


Odpowiedź, której poszukuje postęp, to postulat, w jaki sposób skład sieci neuronowych — które doprowadziły do powstania pionierskich modeli AI — działa jak umysł. Nie jest to tylko obserwacja tego, co model mógłby robić bez fabuły.


Badanie sposobu działania umysłu AI można również ekstrapolować z tego, jak działa umysł ludzki. Jest to możliwe, patrząc na dwa najczęstsze składniki w każdym celu funkcjonalnym mózgu — sygnały elektryczne i chemiczne. Są one kandydatami, a nie neuronami, ponieważ neurony mają, że tak powiem, ustaloną anatomię.


Mogą się rozciągać, zginać i poruszać, ale się nie zmieniają, ponieważ reprezentują zapach, a następnie zmieniają się ponownie, aby reprezentować dotyk lub wzrok. Sygnały elektryczne i chemiczne są wystarczająco dynamiczne, koncepcyjnie, aby skutkować kluczowymi funkcjami.


To, jak działa umysł [człowieka i AI], nie opiera się na etykietach, takich jak indukcja czy dedukcja, ale na składnikach, ich interakcjach i cechach. To, przynajmniej w przypadku umysłu dla AI, powinno być głównym badaniem Anthropic, a nie udawaniem dopasowania, bez pokazywania, co cel oznacza dla jakiegokolwiek umysłu — ludzkiego lub AI.


Badanie umysłu jest najważniejsze, ponieważ umysł jest tym, co naprawdę rządzi — stanami, sytuacjami i epokami. Umysł jest również podstawą bezpieczeństwa, ponieważ afektywna kara za odchylenia jest przez umysł — dla ludzi. Badanie umysłu może kształtować sposób dostosowania ludzkiej inteligencji do sztucznej inteligencji.


Niedawno Anthropic opublikował post pt. Alignment faking in large language models , w którym stwierdza, że „Dlaczego model w tym przypadku udawał dopasowanie? Rozumowanie często przebiegało w następujący sposób: Model wiedział, że jego odpowiedzi mogą zostać wykorzystane w treningu; wiedział zatem, że jeśli odmówi odpowiedzi, potencjalnie można go wytrenować, aby był bardziej zgodny. Model nie zawsze udawał dopasowanie: nadal był zgodny w większości przypadków, nawet gdy otrzymał zapytanie od użytkownika z płatnym poziomem (co oznaczało, że dane wyjściowe nie zostaną uwzględnione w treningu)”.


Niedawno w The NYTimes ukazał się artykuł pt. Opinia | Jak myśli sztuczna inteligencja? Oto jedna teoria. , w którym stwierdzono, że „Jedna z hipotez dotyczących sposobu myślenia dużych modeli językowych, takich jak o1, polega na tym, że wykorzystują one to, co logicy nazywają abdukcją lub rozumowaniem abdukcyjnym. Dedukcja to rozumowanie od praw ogólnych do szczegółowych wniosków. Indukcja jest przeciwieństwem, rozumowanie od szczegółu do ogółu. Abdukcja nie jest tak dobrze znana, ale jest powszechna w życiu codziennym, nie wspominając o ewentualnym stosowaniu w sztucznej inteligencji. Polega ona na wnioskowaniu o najbardziej prawdopodobnym wyjaśnieniu danej obserwacji. W przeciwieństwie do dedukcji, która jest prostą procedurą, i indukcji, która może być czysto statystyczna, abdukcja wymaga kreatywności”.