OpenAI ще намали "био-риска" от ChatGPT

o3 и o4-mini не достигат прага за "висок риск" при биозаплахи, но все пак са по-способни от o1 и GPT-4 в отговорите

Снимка: iStock by Getty Images

OpenAI ще намали "био-риска" от ChatGPT

o3 и o4-mini не достигат прага за "висок риск" при биозаплахи, но все пак са по-способни от o1 и GPT-4 в отговорите

14:58 | 17 април 2025 | Редактор : Стоян Гогов 0 311 Снимка: iStock by Getty Images

OpenAI заяви, че е внедрила нова система за наблюдение на своите най-нови AI модели за логическо разсъждение — o3 и o4-mini — с цел засичане на заявки, свързани с биологични и химични оръжия.

Виж още Биологичните оръжия ще могат да избират жертвите си според тяхното ДНК

Според доклада за безопасност на компанията, системата има за цел да предотврати моделирането на отговори, които биха могли да инструктират някого как да извърши потенциално вредни атаки.

Моделите o3 и o4-mini представляват значителен скок в способностите спрямо предишните версии, казват от OpenAI, и съответно носят нови рискове, ако попаднат в ръцете на злонамерени потребители. Според вътрешни тестове, моделът o3 се справя по-добре с въпроси, свързани със създаване на определени биологични заплахи, в сравнение с предишните модели. Именно поради тази причина — и с цел ограничаване на рисковете — OpenAI създава новата мониторингова система, наречена "монитор за логическа безопасност" (safety-focused reasoning monitor).

Системата, която е специално обучена да разбира политиките на OpenAI за съдържание, работи върху o3 и o4-mini. Тя е проектирана да разпознава заявки, свързани с биологични и химични рискове, и да инструктира моделите да отказват да отговарят на такива въпроси.

За да установят базово ниво на ефективност, от OpenAI са използвали екипи по сигурност (т.нар. red team), които са прекарали около 1000 часа в маркиране на "опасни" разговори, свързани с биорискове, генерирани от o3 и o4-mini. При тест, симулиращ логиката на блокиране от страна на системата, моделите са отказали да отговорят на рискови заявки в 98.7% от случаите, според данните на компанията.

OpenAI признава, че тестовете не отчитат сценарии, в които потребителите опитват нови формулировки след като първата е била блокирана, и затова компанията ще продължи да разчита и на човешко наблюдение.

Според OpenAI, o3 и o4-mini не достигат прага за "висок риск" при биозаплахи, но все пак са по-способни от o1 и GPT-4 в отговорите, свързани със създаване на биологични оръжия.

Компанията активно следи как нейните модели могат да улеснят разработването на химически и биологични заплахи от злонамерени потребители, според актуализираната рамка за готовност (Preparedness Framework).

OpenAI все повече разчита на автоматизирани системи за ограничаване на рисковете от използването на нейните модели. Например, за да предотврати създаването на изображения, съдържащи сексуално насилие над деца (CSAM) с генератора на изображения на GPT-4o, OpenAI използва подобна система за логическо наблюдение, каквато е внедрила и за o3 и o4-mini.

Въпреки това, някои изследователи изразяват притеснения, че OpenAI не поставя безопасността като приоритет. Един от партньорите на компанията за тестване на безопасността, Metr, твърди, че не е имал достатъчно време да тества o3 по показатели за подвеждащо поведение. Междувременно, OpenAI реши да не публикува доклад за безопасност за GPT-4.1, който излезе по-рано тази седмица.

Днес, повече от всякога, независимата журналистика има нужда от вас. В мисията си да предоставяме обективни, достоверни и навременни новини разчитаме на вашата подкрепа.

Ако вярвате в правото си на обективна информация, подкрепете ни.

Вашето дарение от всякакъв размер и по всяко време означава много за нас.

Скъпи читатели,

Днес, повече от всякога, независимата журналистика има нужда от вас.
В мисията си да предоставяме обективни, достоверни и навременни новини разчитаме на вашата подкрепа.

Ако вярвате в правото си на обективна информация, подкрепете ни.

Скъпи читатели,

Днес, повече от всякога, независимата журналистика има нужда от вас.
В мисията си да предоставяме обективни, достоверни и навременни новини разчитаме на вашата подкрепа.

Ако вярвате в правото си на обективна информация, подкрепете ни.

ИЗБРАНО