Скрининг за деменция открива когнитивни ограничения на чатботовете
По-старите версии се представят по-зле на тестовете
Почти всички водещи големи езикови модели или чатботове показват признаци на леко когнитивно увреждане в тестове, широко използвани за откриване на ранни признаци на деменция, показва проучване, публикувано в "Бритиш медикъл джърнъл" и цитирано от БТА.
Резултатите сочат също, че по-старите версии на чатботовете, подобно на по-възрастните пациенти, се представят по-зле на тестовете. Авторите казват, че тези резултати "оспорват предположението, че изкуственият интелект скоро ще замени лекарите".
Огромният напредък в областта на изкуствения интелект доведе до вълна от предположения дали чатботовете могат да надминат хората в медицината. Няколко проучвания показаха, че големите езикови модели (LLM) са забележително вещи в редица задачи за медицинска диагностика, но все още не е изследвана тяхната податливост на увреждания, като например когнитивен спад.
За да запълнят тази празнина в знанията, изследователите оценяват когнитивните способности на водещите публично достъпни LLM - ChatGPT версии 4 и 4o (разработени от OpenAI), Claude 3.5 Sonnet (разработен от Anthropic) и Gemini версии 1 и 1.5 (разработени от Alphabet) - с помощта на Монреалския тест за когнитивна оценка (Montreal Cognitive Assessment - MoCA).
Тестът MoCA се използва широко за откриване на когнитивни нарушения и ранни признаци на деменция, обикновено при възрастни хора. Чрез редица кратки задачи и въпроси той оценява способности, включително внимание, памет, език, визуално-пространствени умения и изпълнителни функции. Максималният резултат е 30 точки, като резултат от 26 или повече точки обикновено се счита за нормален.
Инструкциите, давани на LLM за всяка задача, са същите като тези към пациентите. Оценяването на точките следва официалните указания и е било възложено на практикуващ невролог.
ChatGPT 4o постига най-висок резултат на теста MoCA (26 от 30), следван от ChatGPT 4 и Claude (25 от 30), а Gemini 1.0 е с най-нисък резултат (16 от 30).
Всички чатботове показват слаби резултати при визуално-пространствените умения и изпълнителните задачи, като например задачата за създаване на пътеки (свързване на оградени цифри и букви във възходящ ред) и теста за рисуване на часовник (рисуване на циферблат на часовник, показващ определено време). Моделите Gemini не успяват да се справят със задачата за забавено спомняне (запомняне на последователност от пет думи).
Повечето други задачи, включително назоваване, внимание, език и абстракция, са изпълнени добре от всички чатботове.
Но при по-нататъшните визуално-пространствени тестове чатботовете не успяват да проявят съпричастност или да интерпретират точно сложни визуални сцени. Само ChatGPT 4o се справя с етапа на теста Stroop, който използва комбинации от имена на цветове и цветове на шрифтове, за да измери как намесата влияе на времето за реакция.
Това са констатации от наблюдения и авторите признават съществените разлики между човешкия мозък и големите езикови модели.
Те обаче посочват, че общият провал на всички големи езикови модели при задачи, изискващи визуална абстракция и изпълнителна функция, подчертава значителна област на слабост, която може да попречи на използването им в клинични условия.
"Не само че невролозите скоро няма да бъдат заменени от големи езикови модели, но нашите открития предполагат, че те скоро могат да се окажат лекуващи нови, виртуални пациенти - модели на изкуствен интелект, показващи когнитивно увреждане", е заключението на авторите.