Илон Мъск е съгласен, че сме изчерпали данните за обучение на изкуствен интелект
А употребата на твърде много синтетични данни може да доведе до "колапс на модела"
Илон Мъск се съгласява с други експерти в областта на изкуствения интелект, че има малко реални данни, останали за обучение на модели за изкуствен интелект.
"Вече изчерпахме по същество кумулативната сума на човешките знания ... в обучението на AI," каза Мъск по време на разговор на живо с председателя на Stagwell, Марк Пен, излъчен в X късно в сряда. "Това се случи основно миналата година."
Мъск, който е собственик на компанията за изкуствен интелект xAI, се съгласи и с бившия главен учен на OpenAI, Иля Суцкевер.
В края на миналата година Суцкевер заяви, че индустрията на изкуствения интелект е достигнала това, което нарича "връх в данните". Според него липсата на данни за обучение ще наложи промяна в начина, по който днес се разработват моделите.
Всъщност, Мъск предложи, че синтетичните данни — данни, генерирани от самите модели за изкуствен интелект — са пътят напред. "Единственият начин да се допълнят реалните данни е със синтетични данни, където AI създава обучителни данни," каза той. "Със синтетични данни AI ще се самооценява и ще преминава през този процес на самообучение."
Други компании, включително технологични гиганти като Microsoft, Meta, OpenAI и Anthropic, вече използват синтетични данни за обучение на основните си модели за изкуствен интелект.
Gartner прогнозира, че 60% от данните, използвани за проекти за изкуствен интелект и анализи през 2024 г., ще бъдат синтетично генерирани.
Phi-4 на Microsoft, който беше публикуван като отворен код в сряда, е обучаван със синтетични данни заедно с реални данни. Същото важи и за моделите Gemma на Google.
Anthropic използва частично синтетични данни, за да разработи една от най-успешните си системи, Claude 3.5 Sonnet. Meta също фино настройва най-новата серия модели Llama, използвайки данни, генерирани от изкуствен интелект.
Обучението със синтетични данни има и други предимства, като спестяване на разходи.
Стартиращата компания за изкуствен интелект Writer твърди, че моделът ѝ Palmyra X 004, разработен почти изцяло със синтетични източници, е струвал само $700,000 — в сравнение с приблизителните $4.6 милиона за модел на OpenAI със сравним размер.
Но има и недостатъци. Някои изследвания предполагат, че синтетичните данни могат да доведат до "колапс на модела," при който моделът става по-малко "креативен" и по-склонен към пристрастия в изхода си, което в крайна сметка сериозно компрометира функционалността му.
Тъй като моделите създават синтетични данни, ако данните, използвани за обучението им, имат пристрастия и ограничения, техните изходи също ще бъдат засегнати.