OpenAI ще намали "био-риска" от ChatGPT
o3 и o4-mini не достигат прага за "висок риск" при биозаплахи, но все пак са по-способни от o1 и GPT-4 в отговорите
OpenAI заяви, че е внедрила нова система за наблюдение на своите най-нови AI модели за логическо разсъждение — o3 и o4-mini — с цел засичане на заявки, свързани с биологични и химични оръжия.
Според доклада за безопасност на компанията, системата има за цел да предотврати моделирането на отговори, които биха могли да инструктират някого как да извърши потенциално вредни атаки.
Моделите o3 и o4-mini представляват значителен скок в способностите спрямо предишните версии, казват от OpenAI, и съответно носят нови рискове, ако попаднат в ръцете на злонамерени потребители. Според вътрешни тестове, моделът o3 се справя по-добре с въпроси, свързани със създаване на определени биологични заплахи, в сравнение с предишните модели. Именно поради тази причина — и с цел ограничаване на рисковете — OpenAI създава новата мониторингова система, наречена "монитор за логическа безопасност" (safety-focused reasoning monitor).
Системата, която е специално обучена да разбира политиките на OpenAI за съдържание, работи върху o3 и o4-mini. Тя е проектирана да разпознава заявки, свързани с биологични и химични рискове, и да инструктира моделите да отказват да отговарят на такива въпроси.
За да установят базово ниво на ефективност, от OpenAI са използвали екипи по сигурност (т.нар. red team), които са прекарали около 1000 часа в маркиране на "опасни" разговори, свързани с биорискове, генерирани от o3 и o4-mini. При тест, симулиращ логиката на блокиране от страна на системата, моделите са отказали да отговорят на рискови заявки в 98.7% от случаите, според данните на компанията.
OpenAI признава, че тестовете не отчитат сценарии, в които потребителите опитват нови формулировки след като първата е била блокирана, и затова компанията ще продължи да разчита и на човешко наблюдение.
Според OpenAI, o3 и o4-mini не достигат прага за "висок риск" при биозаплахи, но все пак са по-способни от o1 и GPT-4 в отговорите, свързани със създаване на биологични оръжия.
Компанията активно следи как нейните модели могат да улеснят разработването на химически и биологични заплахи от злонамерени потребители, според актуализираната рамка за готовност (Preparedness Framework).
OpenAI все повече разчита на автоматизирани системи за ограничаване на рисковете от използването на нейните модели. Например, за да предотврати създаването на изображения, съдържащи сексуално насилие над деца (CSAM) с генератора на изображения на GPT-4o, OpenAI използва подобна система за логическо наблюдение, каквато е внедрила и за o3 и o4-mini.
Въпреки това, някои изследователи изразяват притеснения, че OpenAI не поставя безопасността като приоритет. Един от партньорите на компанията за тестване на безопасността, Metr, твърди, че не е имал достатъчно време да тества o3 по показатели за подвеждащо поведение. Междувременно, OpenAI реши да не публикува доклад за безопасност за GPT-4.1, който излезе по-рано тази седмица.