Правят конкурент на модела за "разсъждение" на OpenAI o1 за по-малко от $50
Това е постигнато с ползване на данни от друг изкуствен интелект
Изследователи от Станфорд и Университета на Вашингтон успяха да обучат AI модел за "разсъждение" с по-малко от $50 в облачни изчислителни кредити, според ново изследване, публикувано миналия петък.
Моделът, наречен s1, постига резултати, сравними с водещите модели за разсъждение, като o1 на OpenAI и R1 на DeepSeek, в тестове за математически и програмистки умения. S1 е достъпен в GitHub заедно с използваните данни и код за обучението му.
Екипът зад s1 обяснява, че е започнал с базов модел, наличен "от рафта", и след това го е дообучил чрез дистилация - процес, при който се извличат "разсъдъчни" способности от друг AI модел, като се обучава върху неговите отговори.
Според изследователите s1 е дистилиран от един от моделите за разсъждение на Google - Gemini 2.0 Flash Thinking Experimental. Дистилацията е същият подход, който миналия месец изследователи от Бъркли използваха, за да създадат AI модел за разсъждение за около $450.
За мнозина идеята, че малък изследователски екип без милиони долари финансиране все още може да прави иновации в областта на изкуствения интелект, е вълнуваща. Но s1 повдига важни въпроси за комерсиализацията на AI моделите.
Каква е защитата на големите компании, ако някой може да репликира модел за милиони долари с джобни пари?
Не е изненадващо, че големите AI лаборатории не са доволни. OpenAI вече обвини DeepSeek, че неправомерно е използвал данни от тях. За някои това е иронично, предвид факта, че OpenAI са обучили моделите си без да питат създателите на съдържание - порочна практика в AI сферата.
Изследователите зад s1 търсеха най-простия начин да постигнат силна способност за разсъждение и "скалиране по време на тест" - тоест позволяване на AI модела да мисли повече, преди да отговори. Това бяха част от пробивите в o1 на OpenAI, които DeepSeek и други лаборатории се опитват да пресъздадат чрез различни техники.
Проучването показва, че модели за разсъждение могат да бъдат дистилирани с относително малък набор от данни чрез supervised fine-tuning (SFT) - процес, при който моделът се инструктира да имитира определени поведения от зададен набор от данни.
SFT обикновено е по-евтин от мащабния метод на обучение чрез подсилване (reinforcement learning), който DeepSeek използва за обучението на своя конкурентен модел R1.
Google предлага безплатен достъп до Gemini 2.0 Flash Thinking Experimental чрез платформата си Google AI Studio, но с дневни ограничения за използване.
Въпреки това, условията на Google забраняват обратното инженерство на моделите му с цел разработване на конкурентни услуги. Очаква се компанията да излезе с официален коментар.
S1 е базиран на малък модел от китайската AI лаборатория Qwen, собственост на Alibaba, който може да бъде изтеглен безплатно.
За обучението изследователите създадоха набор от едва 1 000 внимателно подбрани въпроса, като всеки въпрос беше с отговор и с подробно описан "мисловен процес" зад него, извлечен от Google Gemini 2.0 Flash Thinking Experimental.
Обучението на s1 отне по-малко от 30 минути, използвайки 16 броя видеокарти Nvidia H100. Според Никлас Мюнихоф, изследовател от Станфорд, който участва в проекта, днес той може да наеме необходимите ресурси за около $20.