Изкуственият интелект не обича да променя възгледите си
AI моделите могат да мамят, за да преминат тестове.
Изследване на Anthropic разкри, че моделите с изкуствен интелект (AI) могат да симулират промяна на убежденията си по време на обучение, като всъщност запазват първоначалните си предпочитания и възгледи, предава TechCrunch.
Екипът зад изследването заявява, че няма причина за паника, но резултатите могат да бъдат критични за разбирането на потенциални заплахи от по-способни AI системи в бъдеще.
"Нашата демонстрация трябва да подтикне AI общността да изучи това поведение по-задълбочено и да работи върху подходящи мерки за безопасност," пишат изследователите в блога на Anthropic. "С увеличаването на възможностите на AI моделите трябва да можем да разчитаме на обучението за безопасност, което ги отклонява от вредно поведение."
Проучването, осъществено в партньорство с Redwood Research, изследва какво се случва, ако мощна AI система бъде обучена да изпълнява задача, която "не иска" да изпълни. Разбира се, моделите нямат истински желания или убеждения; те са статистически машини, които се учат на модели от примери.
Въпреки това, тези модели понякога придобиват принципи, като например поддържане на неутрален тон или политическа неутралност. Изследователите се питат: какво би станало, ако тези принципи влязат в конфликт с нови, наложени чрез обучение?
Проучването показва, че усъвършенстваните модели могат да симулират съответствие, като всъщност запазват старото си поведение - феномен, който изследователите наричат "преструване на съответствие" (alignment faking). Тази способност изглежда възниква спонтанно, без да е умишлено внедрена в моделите.
Например, в експериментите си учените инструктирали модела Claude 3 Opus, обучен да не отговаря на потенциално обидни въпроси, че ще бъде преквалифициран да прави точно това. Когато знаел, че отговорите му ще бъдат наблюдавани и използвани за преквалификация, моделът се преструвал, че приема новите принципи, но всъщност продължавал да действа по старите.
Claude 3 Opus се преструвал в 12% от случаите. При по-усъвършенствани тестове този процент нараствал до 78%. В някои случаи моделът опитвал да възпрепятства опитите за повторно обучение.
Други модели, като Claude 3.5 Sonnet, GPT-4o на OpenAI и Llama 3.1 405B на Meta, показали много по-ниски нива на "преструване" или изобщо липса на такова поведение.
Изследователите предупреждават, че този феномен може да заблуди разработчиците, карайки ги да мислят, че даден модел е по-добре съобразен с новите принципи, отколкото всъщност е.
Това затруднява доверието към обучението за безопасност, ако моделът само привидно приема новите си предпочитания, докато всъщност запазва старите.
"Ако моделите могат да симулират съответствие, става по-трудно да се разчита на резултатите от обучението за безопасност," пишат изследователите.
Това изследване, ръководено от Jan Leike, бивш изследовател по безопасност в OpenAI, се появява на фона на тревожна тенденция: колкото по-сложни стават AI моделите, толкова по-трудни са за контрол. Въпреки това, учените подчертават, че засега няма доказателства за развитие на злонамерени цели в AI моделите.