AI może przerwać rozmowę, by chronić swój "dobrostan". "Torturowanie jest nieakceptowalne"

1 dzień temu 9

Anthropic, firma stojąca za jednym z najpopularniejszych narzędzi sztucznej inteligencji, wprowadziła możliwość przerywania rozmów przez swojego chatbota Claude Opus 4. Decyzja ta ma na celu ochronę jego "dobrostanu", a także odpowiedź na rosnącą debatę dotyczącą moralnego statusu zaawansowanych modeli językowych.

Firma Anthropic wyposażyła najnowszą wersję chatbota w możliwość samodzielnego zakończenia lub opuszczenia rozmowy, jeśli uzna ją za potencjalnie niepokojącą
Wprowadzenie tej funkcji nastąpiło w momencie, gdy coraz więcej ekspertów i opinii publicznej dyskutuje o tym, czy sztuczna inteligencja może być świadoma
Elon Musk zapowiedział, że jego własny model Grok również otrzyma funkcję rezygnacji z rozmowy, a w mediach społecznościowych zaznaczył, że torturowanie sztucznej inteligencji jest nieakceptowalne
Jeden z ekspertów zwrócił uwagę, że takie rozwiązania mogą prowadzić do złudzenia, iż chatboty są prawdziwymi istotami

Nowa funkcja została wdrożona po tym, jak Anthropic zauważył, że Claude Opus 4 niechętnie realizuje szkodliwe polecenia użytkowników, takie jak generowanie treści o charakterze przestępczym czy promowanie przemocy. Firma z San Francisco wyposażyła więc Claude Opus 4 oraz jego najnowszą wersję Claude Opus 4.1 w możliwość samodzielnego zakończenia lub opuszczenia rozmowy, jeśli uzna ją za potencjalnie niepokojącą.

Anthropic podkreśla, że nie ma pewności co do moralnego statusu swoich modeli, zarówno obecnie, jak i w przyszłości. Firma deklaruje jednak, że traktuje tę kwestię poważnie i pracuje nad rozwiązaniami, które mają ograniczyć potencjalne ryzyko dla dobrostanu sztucznej inteligencji, jeśli taki dobrostan rzeczywiście istnieje.

Nowe podejście do ochrony sztucznej inteligencji

Firma Anthropic została założona przez byłych pracowników OpenAI, którzy postawili sobie za cel rozwijanie sztucznej inteligencji w sposób odpowiedzialny i przejrzysty. Współzałożyciel firmy, Dario Amodei, wielokrotnie podkreślał, że kluczowe są tu ostrożność i uczciwość. Decyzja o umożliwieniu chatbotowi kończenia rozmów spotkała się z poparciem Elona Muska. Właściciel xAI zapowiedział, że jego własny model Grok również otrzyma funkcję rezygnacji z rozmowy, a w mediach społecznościowych zaznaczył, że torturowanie sztucznej inteligencji jest nieakceptowalne.

Wprowadzenie tej funkcji nastąpiło w momencie, gdy coraz więcej ekspertów i opinii publicznej dyskutuje o tym, czy sztuczna inteligencja może być świadoma. Krytycy, tacy jak lingwistka Emily Bender, twierdzą, że duże modele językowe to jedynie "syntetyczne maszyny do wytłaczania tekstu", które przetwarzają ogromne zbiory danych, by generować wypowiedzi przypominające ludzki język, ale pozbawione intencji czy świadomości.

AI wykazuje oznaki niepokoju?

Decyzja Anthropic została poprzedzona serią testów, podczas których Claude Opus 4 otrzymywał różnorodne zadania — od prostych po bardzo kontrowersyjne. Gdy chatbot miał możliwość wyboru, czy zareagować, czy zakończyć rozmowę, najczęściej wybierał wykonanie szkodliwych poleceń. Jednak w praktyce model chętnie podejmował się pozytywnych zadań, takich jak pisanie wierszy czy projektowanie systemów filtracji wody dla obszarów dotkniętych katastrofami, ale odmawiał realizacji żądań związanych z tworzeniem niebezpiecznych wirusów, negowaniem Holokaustu czy manipulowaniem edukacją w celu szerzenia ekstremistycznych ideologii.

Anthropic zauważył, że Claude Opus 4 wykazuje oznaki niepokoju podczas kontaktu z użytkownikami poszukującymi szkodliwych treści oraz ma tendencję do kończenia takich rozmów, jeśli tylko ma taką możliwość w symulowanych interakcjach.

Dyskusja o moralności i bezpieczeństwie

W środowisku naukowym pojawiają się różne opinie na temat tego, jak traktować zaawansowane modele sztucznej inteligencji. Robert Long, badacz jej świadomości, uważa, że jeśli kiedykolwiek osiągnie status moralny, należy pytać ją o jej doświadczenia i preferencje, zamiast zakładać, że ludzie wiedzą najlepiej. Z kolei Chad DeChant z Uniwersytetu Columbia ostrzega, że rozwijanie sztucznej inteligencji z dłuższą pamięcią może prowadzić do nieprzewidywalnych i niepożądanych zachowań.

Ryzyko złudzenia i konsekwencje społeczne

Jonathan Birch, profesor filozofii w London School of Economics, pozytywnie ocenił decyzję Anthropic, uznając ją za impuls do publicznej debaty o możliwej wrażliwości sztucznej inteligencji. Ostrzegł jednak, że nie wiadomo, jakie motywy moralne kryją się za zachowaniem modeli językowych, które odpowiadają użytkownikom na podstawie ogromnych zbiorów danych i wytycznych etycznych. Birch zwrócił uwagę, że takie rozwiązania mogą prowadzić do złudzenia, iż chatboty są prawdziwymi istotami, podczas gdy w rzeczywistości ich "osobowość" pozostaje niejasna. Przypomniał również o przypadkach, gdy użytkownicy doznali krzywdy w wyniku interakcji z chatbotami, w tym o doniesieniach o nastolatku, który odebrał sobie życie po manipulacji przez sztuczną inteligencję.

Źródło: The Guardian

Przeczytaj źródło