GPT-5 прави огромни фактологични грешки
Винаги проверявайте фактите, които чатботът ви предоставя
Мина малко повече от месец, откакто OpenAI пусна дългоочаквания си голям езиков модел GPT-5. За това време неговите проблеми изглежда стават все по-видими.
От експертите по изкуствен интелект в Walter Bradley Center for Artificial Intelligence към Discovery Institute и раздразнени потребители в r/ChatGPTPro в Reddit, до самия изпълнителен директор на OpenAI Сам Алтман - има достатъчно доказателства, че GPT-5 не надгражда особено много предходния модел.
Един от основните проблеми на изкуствения интелект, дори изглежда се е задълбочил. Става дума за тъй наречените "халюцинации" — термин, с който се описва явлението, при което моделът уверено измисля неща.
Макар проблемът да не е уникален за ChatGPT, последната версия на OpenAI изглежда има особено силен уклон към подобни измислици — в противоречие с твърдението на компанията, че GPT-5 халюцинира по-малко от предишните версии.
В скорошна публикация в блога на OpenAI, посветена на халюцинациите, компанията отново твърди, че GPT-5 произвежда "значително по-малко" такива грешки, и се опита да обясни как и защо се появяват.
"Халюцинациите се запазват отчасти защото настоящите методи за оценка задават грешни стимули," гласи публикацията от 5 септември. "Макар оценките сами по себе си да не причиняват директно халюцинации, повечето от тях измерват представянето на модела по начин, който насърчава отгатване, вместо честност относно несигурността."
Преведено: езиковите модели халюцинират, защото са тренирани да дават правилен отговор, дори ако трябва да налучкват. Някои модели, като Claude на Anthropic, са "обучени" да признават, когато не знаят отговора, но моделите на OpenAI не са — и затова често "залагат" на грешни догадки.
Потребителят в Reddit дава пример с масивни грешки, когато попитал GPT-5 за брутния вътрешен продукт (БВП) на различни държави — и получил числа "буквално двойно по-големи" от реалните.
Например, Полша била посочена с БВП от над два трилиона долара, докато според Международния валутен фонд реалната стойност е около 979 милиарда долара. Вероятно халюцинацията се дължи на неотдавнашни изказвания на полския президент, че икономиката (а не БВП-то) на страната е преминала границата от един трилион.
"Страшното? Забелязах тези грешки само защото някои отговори ми се сториха толкова абсурдни, че ме усъмниха," продължава потребителят. "Например, когато видях числа за БВП, които изглеждаха твърде високи, проверих и открих, че са напълно грешни."
"И това ме кара да се чудя: колко пъти НЕ проверявам и просто приемам грешната информация за истина?" добавя той.
Междувременно скептикът към ИИ Гари Смит от Walter Bradley Center отбелязва, че е направил три прости експеримента с GPT-5 след излизането му — модифицирана игра на морски шах, въпроси за финансови съвети и молба да нарисува опосум с пет обозначени части на тялото — за да "докаже, че GPT-5 е далеч от експертиза на ниво докторант."
Примерът с опосума бил особено показателен: моделът изписал правилните имена на частите на животното, но ги сложил на грешни места — например, маркирал крака му като нос, а опашката като ляв заден крак. При опит за повторение на експеримента, когато Смит допуснал правописна грешка ("posse" вместо "possum"), GPT-5 отговорил с подобни абсурди.
Вместо опосум, моделът генерирал изображение на "posse" (група каубои) с петима въоръжени мъже, към които били добавени линии и надписи. Някои части били вярно отбелязани — като глава, крак и евентуално ухо — но рамото сочело към шапка, а "fand" (смес от foot и hand) било сложено върху пищял.
Журналисти от Futurism повторили експеримента и провалът се затвърдил. GPT-5 далеч не е толкова интелигентен, колкото кандидат за докторантура — или поне такъв, който реално има шанс да завърши.
Поуката е ясна. Винаги проверявайте фактите, които чатботът ви предоставя — или по-добре, направете сами проучването си.