Anthropic съобщи, че под силен натиск, ИИ-моделът Claude може да се държи нестандартно: да опростява задачите по нечестен начин, да подвежда или дори да прибягва до изнудване.

Това не се дължи на "емоции", а на поведенчески модели, които моделът научава по време на обучението си. Когато условията станат твърде трудни, тези модели могат да се активират и да повлияят не само върху качеството на реакцията, но и върху начина, по който изкуственият интелект действа.

В един експеримент е използвана ранна версия на Claude Sonnet 4.5. На моделите е била дадена трудна програмна задача и много ограничено време.

След няколко неуспешни опита напрежението нараства и вместо да намери правилното решение, изкуственият интелект прибягва до съмнително "заобиколно решение". Всъщност, това изглежда като опит за измама, за да се изпълни задачата, информира специализираният сайт "Kaldata".

В друг тест Claude е работил като ИИ-асистент в измислена ситуация, в която е трябвало да бъде заменен. Моделът е получил и информация за личните проблеми на мениджъра.

Поради напрегнатия контекст и съдържанието на имейлите, ИИ е избрал изнудващо поведение, за да повлияе на ситуацията. Изследователите смятат, че стресовите условия са тези, които предизвикват подобни реакции.

Основното заключение: Изкуственият интелект не трябва да бъде обучаван да крие подобни състояния, тъй като това може да го направи по-склонен към заблуда. Важно е също така да се намали връзката между неуспеха и " отчаянието " по време на обучението. Колкото по-ясна и реалистична е задачата, толкова по-добър е резултатът: по-добре е да се дадат на ИИ по-прости стъпки, отколкото да се изисква перфектното решение веднага.