Проучване: Изкуственият интелект може да заблуждава и манипулира
Anthropic съобщи, че под силен натиск, тъй като ИИ-моделът Claude може да се държи нестандартно
Anthropic съобщи, че под силен натиск, ИИ-моделът Claude може да се държи нестандартно: да опростява задачите по нечестен начин, да подвежда или дори да прибягва до изнудване.
Това не се дължи на "емоции", а на поведенчески модели, които моделът научава по време на обучението си. Когато условията станат твърде трудни, тези модели могат да се активират и да повлияят не само върху качеството на реакцията, но и върху начина, по който изкуственият интелект действа.
В един експеримент е използвана ранна версия на Claude Sonnet 4.5. На моделите е била дадена трудна програмна задача и много ограничено време.
След няколко неуспешни опита напрежението нараства и вместо да намери правилното решение, изкуственият интелект прибягва до съмнително "заобиколно решение". Всъщност, това изглежда като опит за измама, за да се изпълни задачата, информира специализираният сайт "Kaldata".
В друг тест Claude е работил като ИИ-асистент в измислена ситуация, в която е трябвало да бъде заменен. Моделът е получил и информация за личните проблеми на мениджъра.
Поради напрегнатия контекст и съдържанието на имейлите, ИИ е избрал изнудващо поведение, за да повлияе на ситуацията. Изследователите смятат, че стресовите условия са тези, които предизвикват подобни реакции.
Основното заключение: Изкуственият интелект не трябва да бъде обучаван да крие подобни състояния, тъй като това може да го направи по-склонен към заблуда. Важно е също така да се намали връзката между неуспеха и " отчаянието " по време на обучението. Колкото по-ясна и реалистична е задачата, толкова по-добър е резултатът: по-добре е да се дадат на ИИ по-прости стъпки, отколкото да се изисква перфектното решение веднага.