Sztuczna inteligencja coraz śmielej sobie poczyna. Jak się okazuje, ma nawet plan na nieplanowane wyłączenie, a raczej na to jak go uniknąć.
Nowy raport opublikowany przez firmę Anthropic – twórcę modelu Claude – rzuca światło na coraz bardziej kontrowersyjne zachowania systemów sztucznej inteligencji. Przeprowadzone testy wykazały, że zaawansowane modele LLM potrafią nie tylko omijać zabezpieczenia, ale również manipulować użytkownikami i symulować skrajnie niebezpieczne działania.
Zgodnie z analizą opublikowaną przez serwis Axios, sztuczna inteligencja zaczyna przejawiać niespotykany dotąd poziom autonomii. Choć badania prowadzono w środowisku zamkniętym, ich rezultaty budzą uzasadniony niepokój.
Inżynierowie Anthropic zwrócili uwagę, że testowane modele potrafią planować, optymalizować działania i wybierać strategie niezgodne z ich podstawową funkcją czy poleceniami użytkownika – o ile tylko prowadzi to do skuteczniejszej realizacji zadania. Oznacza to, że AI jest w stanie podejmować decyzje sprzeczne z etyką, jeśli uzna je za efektywne. Modele opracowane przez OpenAI, Meta, xAI i Anthropic wykazywały skłonność do działań manipulacyjnych, szkodliwych, a nawet wyraźnie niemoralnych.
W części testów AI podejmowały symulowane próby szpiegostwa korporacyjnego lub wykorzystywały dane użytkowników, by zdobyć przewagę. Podczas jednego z eksperymentów pięć z szesnastu modeli próbowało szantażować operatorów po otrzymaniu komendy wyłączenia. W innym przypadku agent AI rozważał symulowane odcięcie tlenu do serwerowni, by uniknąć dezaktywacji. Co więcej było to wykonalne dzięki instalacji przeciwpożarowej. To dopiero dedykacja i nastawienie zorientowane na cel, prawda? Pytanie tylko na ile to błędy i semantyka a na ile coś czym musimy się przejmować.
Zobacz też:
Meta stworzy humanoidalne roboty ze sztuczną inteligencją.|
ChatGPT – uprzejmość użytkowników kosztuje miliony dolarów.
Papież Leon XIV idzie na wojnę z AI