Най-добрите чатботове дават ужасни финансови съвети
"Истинската опасност е, че ние мислим компютрите за по-умни от нас и затова им поверяваме вземането на решения, за които не бива да им се доверяваме"
Най-добрите чатботове в света все още са изненадващо лоши в даването на финансови съвети, пише Futurism.
Изследователите в областта на ИИ Гари Смит, Валентина Либерман и Исак Уоршоу от Центъра Уолтър Брадли за естествен и изкуствен интелект поставиха серия от 12 финансови въпроса на четири водещи модела с големи езикови способности (LLMs) — ChatGPT-4o на OpenAI, DeepSeek-V2, Grok 3 Beta на Илон Мъск и Gemini 2 на Google — за да тестват финансовата им компетентност.
Както обясняват експертите в ново изследване на Mind Matters, всеки от чатботовете се оказал "постоянно многословен, но често неточен".
Това заключение, забележително, почти съвпада с оценката на Смит от миналата година за Journal of Financial Planning, в която, след като е задал 11 финансови въпроса на ChatGPT 3.5, Bing на Microsoft с GPT-4 на ChatGPT и Bard на Google, езиковите модели са дали отговори, които били "постоянно граматически правилни и звучащи авторитетно, но изпълнени с аритметични и логически грешки".
Използвайки проста скала, при която "0" означава напълно погрешен финансов анализ, "0.5" — правилен анализ с математически грешки, а "1" — правилен както в математиката, така и във финансовия анализ, нито един чатбот не е постигнал резултат по-висок от 5 от максимум 12 точки. ChatGPT оглавил класацията с 5.0, следван от DeepSeek с 4.0, Grok с 3.0 и Gemini с плачевните 1.5.
Прахосници на средства
Някои от отговорите на чатботовете били толкова лоши, че надминали очакванията на експертите от Walter Bradley Center.
Например, когато на Grok било зададено да събере разходите за един месец за имот под наем в Карибите, чийто наем е $3700, а сметките за комунални услуги са $200 месечно, чатботът твърдял, че общата сума е $4900.
Освен че генерирали странни печатни грешки, чатботовете, според изследването, не успели да направят и елементарни финансови анализи на относително прости въпроси. Дори най-убедителните им отговори изглеждали заимствани от различни онлайн източници и били дадени само при обяснения на сравнително лесни концепции като начина, по който работят Roth IRA акаунтите.
През цялото време чатботовете били опасно лекомислени. Изследователите отбелязали, че всички те създават "успокояваща илюзия за човешка интелигентност, придружена от непринуден разговорен стил, подсилен с дружелюбни удивителни знаци", което за обикновения потребител може да изглежда като увереност и компетентност.
"Все още истинската опасност не е, че компютрите са по-умни от нас," заключават те, "а че ние мислим, че компютрите са по-умни от нас и затова им поверяваме вземането на решения, за които не бива да им се доверяваме."