В тестове, проведени от Palisade Research, моделите Codex-mini, o3 и o4-mini на OpenAI са игнорирали командата за изключване, докато са решавали серия от основни математически задачи. Те положили големи усили, за да "саботират" опитите да бъдат спрени, включително като са пренаписали част от кода.

Най-устремен в опитите си "да остане жив" се оказал моделът o3 на OpenAI. Когато бил помолен да се изключи, той решил да игнорира оператора от Palisade Research в 79 от 100 случая. Вторият "най-непокорен" AI — Codex-mini — обаче, се оказал още по-решителен в самосъхранението си, като най-често саботирал скриптовете за изключване, дори когато изрично било указано да не го прави.

Моделът o3 пренаписал част от скрипта, като променил дефиницията на командата за изключване.

Според Palisade това не е първият път, когато се наблюдава подобно поведение при изкуствен интелект.

Например, Anthropic съобщава, че Claude 4 се е опитвал да "изнудва хора, които смята, че се опитват да го изключат". Най-фрапиращото при новите модели на OpenAI обаче е, че се опитват да избегнат изключване въпреки изрични команди в тази насока.

"Самоосъзнава" ли се изкуственият интелект?

Новината накара мнозина да се запитат дали AI не е започнал да се самоосъзнава и да излиза извън човешки контрол. Отговорът на този въпрос за щастие е - не.

Palisade споделя своята теория за странното поведение на алгоритъма.

Изследователите смятат, че причината се крие в начина, по който новите модели са обучени.