Главният AI учен на Meta: Видео генераторът на OpenAI ще се провали

Според него Sora няма да може да симулира света

Снимка: OpenAI

Главният AI учен на Meta: Видео генераторът на OpenAI ще се провали

Според него Sora няма да може да симулира света

10:24 | 23 февруари 2024 | Редактор : Стоян Гогов 4 1096 Снимка: OpenAI

OpenAI показа своя впечатляващ AI-генератор на видео Sora. Hлавен учен по изкуствен интелект в Meta, Ян Лекун, не смята, че рекламираният алгоритъм е толкова способен.

Лекун оспорва твърдението, че Sora ще позволи изграждането на "симулатори с общо предназначение на физическия свят".

"Моделирането на света чрез генериране на пиксели е също толкова разточително и обречено на провал, колкото и до голяма степен изоставената идея за "анализ чрез синтез", написа той в публикация в X.

С коментарите си тук той заема страна в дългия спор в машинното обучение между генеративни модели и дискриминационни модели. Лекун вярва, че предишният подход, генериращ пиксели "от обяснителни латентни променливи", е твърде неефективен и не може да се справи адекватно с несигурността, която възниква от тези сложни прогнози в 3D пространство.

Казано на неспециалист, той твърди, че тези модели се опитват да "изведат" твърде много подробности, които не са уместни.

Например, те могат да се опитват да изчислят траекторията на футболна топка, пресмятайки в детайли информацията за нейния състав и други детайли, вместо да се фокусират единствено върху нейната маса и скорост. Всичко това отнема огромен ресурс.

"Няма нищо лошо в това, ако целта ви е действително да генерирате видеоклипове", каза той в отговор на публикацията си. "Но ако целта ви е да разберете как работи светът, това е губещо начинание."

Лекун признава, че като цяло генеративният подход е работил с големи езикови модели като ChatGPT досега, "защото текстът е дискретен с краен брой символи." Но ако възнамерявате да симулирате света, както се предполага от Sora, ще имате работа с много повече от няколко героя.

Конкурирайки се с подхода на OpenAI, Лекун работи върху свой собствен модел в Meta, наречен Video Joint Embedding Predictive Architecture (V-JEPA), който беше представен миналата седмица.

"За разлика от генеративните подходи, които се опитват да запълнят всеки липсващ пиксел", твърди Мета в публикация в блог, "V-JEPA има гъвкавостта да отхвърля непредсказуема информация, което води до подобрено обучение и ефективност на пробите с коефициент между 1,5x и 6x."

Работата на Лекун показва колко различни подхода има за създаването на изкуствен интелект. Времето ще покаже кой от тях е по-успешен.

ИЗБРАНО