Sztuczna inteligencja może być etyczna. Konkurencja OpenAI ma „dobrego chatbota”
Konkurent OpenAI, Anthropic, twierdzi, że jego nazywający się Claude chatbot ma wbudowane mechanizmy, które wpajają zasady etyczne. To dość istotna różnica, szczególnie w kontekście obaw o niebezpieczeństwa związane z AI.
Dość łatwo jest się obawiać coraz bardziej zaawansowanej sztucznej inteligencji, ale znacznie trudniej jest wiedzieć, co z tym zrobić. Anthropic, start-up założony w 2021 roku przez grupę specjalistów, którzy odeszli z OpenAI (co nadaje całej sprawie dodatkowego smaczku), twierdzi, że ma na to pomysł.
Anthropic pracuje nad modelami AI podobnymi do tych używanych do zasilania ChatGPT OpenAI. Start-up ogłosił jednak, że jego własny chatbot, Claude, ma zbiór zasad etycznych wbudowany w siebie, które definiują, co powinien uważać za właściwe, a co niewłaściwe. Anthropic nazywa ten mechanizm "konstytucją" bota.
Jared Kaplan, współzałożyciel Anthropic, twierdzi, że firma stara się znaleźć praktyczne rozwiązania w związku z obawami dotyczącymi wad sztucznej inteligencji. - Jesteśmy bardzo zaniepokojeni, ale staramy się pozostać pragmatyczni - powiedział serwisowi Wired.com.
Podejście Anthropic nie opiera się na żadnych twardych regułach, których nie da się obejść. Kaplan twierdzi jednak, że wybrali skuteczniejszy sposób na to, by sam system był mniej skłonny do generowania toksycznego lub niepożądanego wyniku. Jego zdaniem, to mały, ale znaczący krok w kierunku budowania inteligentniejszych programów AI, które nigdy nie zwrócą się przeciwko swoim twórcom.
Idea systemów wrogich sztucznych inteligencji znana jest głównie z literatury science fiction, ale coraz więcej ekspertów, w tym Geoffrey Hinton, pionier uczenia maszynowego, twierdzi, że musimy zacząć myśleć teraz o tym, jak zapewnić, aby coraz bardziej inteligentne algorytmy nie stały się jednocześnie coraz bardziej niebezpieczne.
Zasady, które Anthropic nadał Claude, obejmują wytyczne zaczerpnięte z Powszechnej Deklaracji Praw Człowieka ONZ i sugerowane przez inne firmy AI, w tym Google DeepMind. Mają one też zakazywać treści, które są obraźliwe, niepokojące lub po prostu przerażające. Chatbot ma wybierać odpowiedzi wspierające wolność osobistą i wolność wyrażania opinii.
Tymczasem na rynku pojawia się coraz więcej chatbotów z poważnymi wadami. ChatGPT i podobne systemy generują szybkie odpowiedzi, odzwierciedlając postęp znacznie bardziej imponujący niż przewidywano. Jednocześnie chatboty często fałszują informacje i mogą odtwarzać toksyczny język ze świata miliardów słów wydobywanych z internetu.
Rozwój OpenAI ChatGPT przyspieszył dzięki danym, które mogą być wykorzystane do regulowania modelu, aby zapewnić bardziej satysfakcjonujące odpowiedzi. To proces znany jako "uczenie wzmocnione ludzkim feedbackiem" (RLHF). Jednak, chociaż technika ta pomaga uczynić ChatGPT i inne systemy bardziej przewidywalnymi, wymaga ona, aby ludzie przechodzili przez tysiące toksycznych lub nieodpowiednich odpowiedzi. Ponadto działa ona pośrednio, bez zapewnienia sposobu określenia dokładnych wartości, które system powinien odzwierciedlać.
Nowe, konstytucyjne podejście Anthropic działa na dwóch etapach. Na początku model otrzymuje zestaw zasad oraz przykłady odpowiedzi, które przestrzegają lub nie przestrzegają tych zasad. Następnie, używany jest inny model AI, aby wygenerować więcej odpowiedzi, które przestrzegają konstytucji, a te są wykorzystywane do szkolenia modelu w miejsce ludzkiego feedbacku.
- To świetny pomysł, który prawdopodobnie doprowadził do dobrych wyników empirycznych dla Anthropic - ocenił cytowany przez Wired.com Yejin Choi, profesor na Uniwersytecie Waszyngtońskim, który prowadził wcześniejszy eksperyment z wykorzystaniem dużego modelu językowego do udzielania porad etycznych. Choi dodał, że podejście to będzie działało tylko dla firm posiadających duże modele i dużą moc obliczeniową. Wskazuje również, że ważne jest badanie innych podejść, w tym większej przejrzystości w zakresie danych szkoleniowych oraz wartości, które są przypisywane modelom. - Desperacko potrzebujemy zaangażowania ludzi z szerszej społeczności w opracowywanie takich konstytucji lub zbiorów norm i wartości - dodał.
Thomas Dietterich, profesor Uniwersytetu Stanowego Oregonu, który bada sposoby zwiększenia odporności sztucznej inteligencji, również uważa, że podejście Antropic wydaje się być krokiem we właściwym kierunku. - Mogą skalować szkolenie oparte na opinii znacznie taniej i bez konieczności wystawiania ludzi na tysiące godzin toksycznego materiału - zauważył w rozmowie z Wired.com. Dietterich dodał, że szczególnie ważne jest to, że reguły, którymi kieruje się Claude, mogą być kontrolowane przez pracowników systemu oraz osoby z zewnątrz, w przeciwieństwie do instrukcji, jakie ludzie dają modelowi za pomocą RLHF. Jednak dodaje, że metoda nie eliminuje całkowicie błędnego zachowania. Model Antropic nie jest więc doskonały.
Idea nadania SI zestawu reguł do naśladowania może wydawać się znajoma, ponieważ została przedstawiona przez Isaaca Asimova w serii opowiadań science fiction, w których zaproponował trzy prawa robotyki. Opowiadania Asimova koncentrują się zazwyczaj na tym, że rzeczywisty świat często prezentuje sytuacje, które stwarzają konflikt między poszczególnymi regułami.
Jednak Jared Kaplan zauważa, że nowoczesna SI radzi sobie dobrze z tego rodzaju niejednoznacznościami. - Dziwną rzeczą w przypadku współczesnej sztucznej inteligencji opartej na uczeniu maszynowym jest to, że w pewnym sensie stanowi przeciwieństwo obrazu robotów z lat pięćdziesiątych XX wieku. Właściwie jest ona bardzo dobra w intuicji i wolnym skojarzeniu, za to słabsza w sztywnym rozumowaniu.
Krzysztof Maciejewski