Alibaba пуска "отворен" конкурент на модела за разсъждения OpenAI o1

Изкуственият интелект може да се ползва за комерсиални приложения

Снимка: iStock by Getty Images

Alibaba пуска "отворен" конкурент на модела за разсъждения OpenAI o1

Изкуственият интелект може да се ползва за комерсиални приложения

10:26 | 28 ноември 2024 | Редактор : Стоян Гогов 0 325 Снимка: iStock by Getty Images

Alibaba пусна нов модел за изкуствен интелект, наречен QwQ-32B-Preview. Той е сред малкото, които конкурират o1 на OpenAI, и е първият, който може да бъде изтеглен под отворен лиценз.

Разработен от екипа Qwen на Alibaba, QwQ-32B-Preview съдържа 32,5 милиарда параметри и може да обработва заявки с дължина до около 32 000 думи. Моделът се представя по-добре от o1-preview и o1-mini, двата модела за разсъждения, които OpenAI е пуснал досега, според определени бенчмаркове. (Параметрите приблизително отговарят на уменията на модела за решаване на проблеми, като моделите с повече параметри обикновено се справят по-добре. OpenAI не разкрива броя параметри на своите модели.)

Според тестовете на Alibaba, QwQ-32B-Preview превъзхожда моделите o1 на OpenAI при AIME и MATH тестове. AIME използва други AI модели за оценка на производителността, а MATH е колекция от текстови математически задачи.

QwQ-32B-Preview може да решава логически пъзели и да отговаря на сравнително сложни математически въпроси благодарение на своите способности за "разсъждения". Въпреки това, моделът не е съвършен. Alibaba отбелязва в свой блог, че той може неочаквано да сменя езика, да зацикля в логически цикли и да се представя слабо при задачи, изискващи "обща логика".

За разлика от повечето AI модели, QwQ-32B-Preview и други подобни модели за разсъждения ефективно проверяват сами себе си. Това им помага да избягват някои от обичайните проблеми на тези системи, но същевременно им отнема повече време да достигнат до решения. Подобно на o1, QwQ-32B-Preview анализира задачите, планира напред и изпълнява поредица от действия, за да изведе правилни отговори.

Моделът QwQ-32B-Preview може да бъде изпълняван и изтеглян от платформата за разработка на AI Hugging Face. Той е подобен на наскоро пуснатия модел за разсъждения DeepSeek, който е внимателен към определени политически теми.

Alibaba и DeepSeek, като китайски компании, подлежат на регулации от китайския интернет орган, който гарантира, че отговорите на техните модели "въплъщават основните социалистически ценности."

Много китайски AI системи отказват да отговарят на теми, които могат да предизвикат конфликт с регулаторите, като въпроси за управлението на Си Дзинпин.

QwQ-32B-Preview е "отворено" достъпен под лиценза Apache 2.0, което означава, че може да се използва за комерсиални приложения.

Въпреки това, само определени компоненти на модела са публикувани, което прави невъзможно пълното му възпроизвеждане или получаване на значителна информация за вътрешната му структура. "Отвореността" на AI моделите остава спорен въпрос, но има континуум от по-затворени системи (само API достъп) до по-отворени (с разкрити модели, тегла и данни), като този модел попада някъде по средата.

Повишеното внимание към моделите за разсъждения идва на фона на съмненията относно жизнеспособността на "закони за мащабиране" - теории, според които добавянето на повече данни и изчислителна мощност към модел непрекъснато увеличава неговите възможности. Според доклади моделите на големи AI лаборатории като OpenAI, Google и Anthropic вече не подобряват значително своите способности, както преди.

Това доведе до търсене на нови подходи и техники за разработка на AI, като една от тях е изчисление по време на тестване (test-time compute). Тази техника дава на моделите допълнително време за обработка на задачи и е основен принцип при модели като o1 и QwQ-32B-Preview.

Големи лаборатории извън OpenAI и китайските компании залагат, че test-time compute ще бъде бъдещето. Според скорошен доклад на The Information, Google е разширил вътрешния си екип за модели за разсъждения до около 200 души и е добавил значителни изчислителни ресурси за тази цел.

ИЗБРАНО