Новите модели за разсъждение на OpenAI халюцинират повече
Един от обещаващите начини за повишаване на точността на моделите е чрез добавяне на възможности за търсене в интернет
Наскоро пуснатите модели на OpenAI — o3 и o4-mini — са водещи по много показатели. Въпреки това, те все още халюцинират, т.е. измислят си неща. Всъщност, те халюцинират повече дори от старите модели на OpenAI.
Халюцинациите се оказват един от най-големите и трудни за решаване проблеми в изкуствения интелект, засягайки дори и най-добре представящите се системи. Исторически, всеки нов модел показва леко подобрение в тази насока, халюцинирайки по-малко от предшественика си. Но изглежда, че това не е така при o3 и o4-mini.
Според вътрешни тестове на OpenAI, o3 и o4-mini — така наречените "модели за разсъждение" — халюцинират по-често от предишните такива модели на компанията — o1, o1-mini и o3-mini — както и от традиционните ѝ модели, като GPT-4o.
Още по-притеснително е, че създателите на ChatGPT всъщност не знаят защо се случва това.
В техническия доклад за o3 и o4-mini, OpenAI посочва, че е необходимо "още изследване", за да се разбере защо халюцинациите се увеличават с мащабирането на моделите за разсъждение. O3 и o4-mini се представят по-добре в някои области, като програмиране и математика. Но понеже "правят повече твърдения като цяло", това често води както до "повече точни, така и до повече неточни/халюцинирани твърдения", според доклада.
OpenAI установява, че o3 халюцинира при 33% от въпросите в PersonQA — вътрешен бенчмарк за проверка на знанията на моделите за хора. Това е почти двойно повече от o1 и o3-mini, които имат съответно 16% и 14.8% халюцинации. O4-mini се представя още по-зле — халюцинира в 48% от случаите.
Независима лаборатория за изследване на ИИ, Transluce, също открива доказателства, че o3 измисля действия, които твърди, че е предприел при достигане до отговор. В един пример, o3 казва, че е стартирал код на MacBook Pro от 2021 г. "извън ChatGPT" и след това е копирал числата в отговора си. Но o3 няма такава възможност.
"Нашата хипотеза е, че видът на обучението с подсилване, използвано за o-серията, може да засилва проблеми, които обикновено се смекчават (но не и напълно отстраняват) чрез стандартни процеси за дообучение", казва Нийл Чоудри от Transluce, бивш служител на OpenAI.
Сара Шветман, съосновател на Transluce, добавя, че високата честота на халюцинации на o3 може да го направи по-малко полезен, отколкото би могъл да бъде.
Киан Катанфоруш, преподавател в Станфорд и изпълнителен директор на стартиращата платформа за обучение Workera, казва пред TechCrunch, че неговият екип вече тества o3 в работните си процеси за програмиране и го намира за по-добър от конкуренцията. Но отбелязва, че o3 често генерира неработещи линкове към уебсайтове — посочва линк, който при отваряне не функционира.
Халюцинациите понякога могат да помогнат на моделите да стигат до интересни идеи и да бъдат "креативни", но също така ги правят трудни за използване в бизнеси, където точността е критична.
Например, адвокатска кантора едва ли ще е доволна от модел, който вмъква много фактически грешки в клиентски договори.
Един от обещаващите начини за повишаване на точността на моделите е чрез добавяне на възможности за търсене в интернет. GPT-4o на OpenAI с достъп до уеб търсене достига 90% точност в SimpleQA — друг от бенчмарковете на компанията. Потенциално, това би могло да подобри и халюцинациите на моделите за разсъждение — поне в случаите, когато потребителите са склонни да споделят заявките си с външен доставчик на търсене.
Ако мащабирането на моделите за разсъждение наистина продължи да влошава халюцинациите, това ще направи търсенето на решение още по-належащо.
"Работата по справянето с халюцинациите във всички наши модели е постоянна изследователска дейност, и ние непрекъснато се стремим да подобряваме тяхната точност и надеждност", казва говорителят на OpenAI Нико Феликс пред TechCrunch.
През последната година индустрията за ИИ като цяло се пренасочи към модели за разсъждение, след като методите за подобрение на традиционните модели започнаха да показват ограничени резултати. Разсъждението подобрява ефективността на моделите в различни задачи без нуждата от огромни ресурси при обучението. Но изглежда, че води и до повече халюцинации — което поставя предизвикателство.