Добре известен тест за изкуствен общ интелект (AGI) изглежда, че е близо до решаване. Въпреки това, създателите на теста твърдят, че това подчертава недостатъците в дизайна му, вместо да показва истински пробив в изследванията.

През 2019 г. Франсоа Шоле, водещ експерт в областта на изкуствения интелект, представи ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence). Тестът е създаден да оценява дали една AI система може ефективно да усвоява нови умения извън данните, на които е обучена. Шоле твърди, че ARC-AGI остава единственият тест, който измерва прогреса към общ интелект, въпреки че съществуват и други предложения.

До тази година най-добрите AI модели успяваха да решат едва около една трета от задачите в ARC-AGI. Шоле обвини в това фокуса на индустрията върху големи езикови модели (LLMs), които според него не са способни на истинско "разсъждение".

"LLMs имат трудности с обобщаването, защото изцяло разчитат на запаметяване," заяви Шоле в серия от публикации в X през февруари. "Те се провалят, когато се сблъскат с нещо, което не е било в обучителните им данни."

Проблемът с LLM и "назубрянето"

Шоле изтъква, че LLM са статистически машини. Обучени върху множество примери, те се научават да разпознават модели и да правят прогнози — например, как в имейл изразът "To whom" често се свързва с "it may concern."

Въпреки че могат да запомнят "модели на разсъждение", те не могат да създават "нови разсъждения" в непознати ситуации. "Ако трябва да се обучите на много примери за даден модел, за да създадете използваемо представяне, това е просто запаметяване или назубряне," отбелязва Шоле.

Конкурс за алтернатива на LLM

През юни Шоле и съоснователят на Zapier Майк Нуп обявиха конкурс с награден фонд от $1 милион за разработка на AI, който да победи ARC-AGI.

От 17,789 подадени предложения най-доброто решение постигна 55.5% успеваемост — около 20% повече от най-добрия резултат за 2023 г., но далеч от прага от 85%, който се смята за "човешко ниво" и е нужен за победа.

Според Нуп това не означава, че сме с 20% по-близо до AGI.

В блог публикация той заяви, че много от подадените решения са успели да "пробият" задачите чрез brute force, което предполага, че "голяма част" от задачите в ARC-AGI "нямат достатъчно полезни сигнали за общ интелект."

Проблеми и критика към ARC-AGI

ARC-AGI включва задачи тип пъзел, при които AI трябва да генерира правилна "решетъчна" структура от разноцветни квадрати. Задачите са проектирани така, че да принудят AI да се адаптира към нови проблеми, които не е виждал досега. Въпреки това, не е ясно дали тестът наистина постига тази цел.

"[ARC-AGI] не е променян от 2019 г. и не е перфектен," признава Нуп.

Шоле и Нуп са обект на критики, че надценяват значението на ARC-AGI като еталон за достигане до AGI.

В същото време самата дефиниция на AGI е все още спорна. Един служител на OpenAI наскоро заяви, че AGI "вече" е постигнат, ако го дефинираме като AI "по-добър от повечето хора в повечето задачи."

Поглед към бъдещето

Шоле и Нуп планират да пуснат второ поколение на ARC-AGI през 2025 г., заедно с нов конкурс. "Ще продължим да насочваме усилията на изследователската общност към най-важните нерешени проблеми в AI и ще ускорим пътя към AGI," написа Шоле в публикация в X.

Поправките обаче няма да са лесни. Ако недостатъците на първия тест са показателни, дефинирането на понятието интелект за AI ще бъде толкова трудно и поляризиращо, колкото и при човешкия интелект.