Миналата седмица един от създателите на Google AI, Джад Тариф, заяви пред Business Insider, че вече няма смисъл да се учи медицина — според него изкуственият интелект ще направи такова образование остаряло още преди човек да започне да практикува като лекар.

Технологичните компании отдавна представят AI като здравен помощник. Изкуственият интелект започва да се ползва и за по-специализирани дейности, като например сканиране на медицински изображения за тумори. Болници вече внедряват AI за административна работа.

Но като се имат предвид сегашните слабости на AI — от чести "халюцинации" до загуба на умения у лекари, които прекалено разчитат на него — има основания студентите по медицина да продължат обучението си.

Всъщност последните проучвания показват, че нуждата от човешки медицински специалисти е по-голяма от всякога.

Както съобщава PsyPost, учени откриват, че водещите AI модели се провалят катастрофално, когато познатият формат на медицинските изпити бъде дори леко променен.

Това силно подкопава способността им да помагат на пациенти в реални условия и поставя риска вместо това да причинят сериозни вреди, като дават объркващи съвети в критични здравни ситуации.

В статия, публикувана в JAMA Network Open, се описва как модели като OpenAI GPT-4o и Anthropic Claude 3.5 Sonnet се провалят, когато въпросите от теста са зададени по малко по-различен начин.

Идеята е била да се провери как LLM моделите достигат до отговори: не чрез човешко разбиране на медицинските термини, а чрез предсказване на вероятността за следваща дума.

"Имаме AI модели, които постигат почти перфектна точност на изпити с въпроси с избираем отговор", казва Суана Беди, докторант в Станфорд и съавтор на изследването. "Но това не отразява реалността в клиничната практика. Открихме, че под 5% от публикациите оценяват LLM върху данни от реални пациенти, които често са разпокъсани и сложни."

Резултатите са разочароващи. "Повечето модели (включително тези с вградена логика) се затрудниха", казва Беди, особено при задачи за административна и клинична подкрепа.

Причината е, че "сложните логически сценарии" в тестовете не можели да се решат само чрез разпознаване на шаблони.

За да поставят AI на изпитание, изследователите променили въпросите, като заменили правилните отговори с опцията "никой от другите отговори". Така моделите били принудени да разсъждават, вместо да разчитат само на езикови сигнали.

Резултатите показали сериозен спад в точността: GPT-4o на OpenAI е отбелязал спад от 25%, а Llama на Meta - почти 40%.

Това подсказва, че сегашните AI системи твърде силно разчитат на езикови модели и са неподходящи за реална клинична употреба.

"Все едно имате студент, който се справя отлично на стандартизирани тестове, но се проваля, щом въпросите са формулирани по-различно", казва Беди. "Засега AI трябва да помага на лекарите, а не да ги замества."

Изследването подчертава колко е важно да се намерят нови начини за оценяване на AI моделите, особено в толкова критична среда като болниците.

"Докато тези системи не поддържат високи резултати и при нови сценарии, клиничната им употреба трябва да остане ограничена до подпомагащи роли под човешки контрол", пишат учените в статията си.