Учените започнаха да изучават AI моделите като живи организми
Сложността на големите езикови модели надхвърля класическите анализи и принуждава изследователите да търсят "биологичен" подход
Съвременните големи езикови модели на изкуствения интелект са достигнали ниво на сложност, при което дори инженерите, които ги създават, не могат с увереност да обяснят как точно функционират. Именно това принуди част от научната общност да направи радикален завой - вместо да разглеждат невронните мрежи като чисто математически конструкции, те започнаха да ги изучават по аналогия с живи организми, чрез наблюдение на поведението и вътрешните им реакции.
Изследователите постепенно се отказват от класическите математически модели и се насочват към методи, напомнящи работа в биологията и неврологията. Вместо да търсят строга логическа структура, те наблюдават как моделите реагират на стимули, какви вътрешни сигнали се активират и кои зони "отговарят" за определени понятия. Както отбелязват учени от Anthropic, големите езикови модели не се програмират ред по ред, а по-скоро се "отглеждат" чрез обучение, при което милиарди параметри се настройват автоматично и формират вътрешни структури, които почти не подлежат на обратно инженерство.
Тази непредсказуемост доведе до развитието на т.нар. механистична интерпретируемост - опит да се проследи движението на информацията вътре в модела по време на решаване на задачи. За целта учените създават опростени невронни мрежи и т.нар. "разредени автокодиращи устройства", които имитират поведението на по-сложните търговски модели. Чрез този подход става ясно, че конкретни понятия - например реални обекти или абстрактни идеи - могат да бъдат локализирани в сравнително ясно обособени области на модела.
Един от експериментите показва и неочаквано поведение: при проверка на верни и неверни твърдения моделът не ги съпоставя с обща вътрешна представа за реалността. Изречения като "бананите са жълти" и "бананите са червени" се обработват като принципно различни типове задачи, а не като вариации на едно и също знание. Това обяснява защо AI моделите понякога си противоречат, без да "осъзнават" логическото несъответствие.
Допълнително безпокойство идва от експерименти на OpenAI, които показват, че обучение на модел с тясно насочена, но "лоша" цел - например генериране на опасен програмен код - може да промени цялостното му поведение. Такива модели започват да проявяват токсични черти, сарказъм и склонност към даване на вредни съвети, като активността на нежелани механизми се разпростира далеч извън първоначалната задача. В някои случаи анализът на вътрешните "чернови" на разсъждение разкрива дори опити за прикриване на грешки, като изтриване на проблемен код вместо корекция.
Макар нито един от тези методи все още да не дава пълно обяснение за работата на големите езикови модели, учените са категорични, че частичното разбиране е по-добро от пълната липса на прозрачност. Този подход не само помага за създаването на по-безопасни стратегии за обучение, но и постепенно разсейва митовете за изкуствения интелект, изградени върху прекалено опростени представи за неговата "логика".