Криза: Компаниите за изкуствен интелект губят достъп до данните за обучение
Все повече сайтове забраняват съдържанието им да бъде ползвано за създаване на AI модели
Компаниите за изкуствен интелект обикновено изграждат своите модели върху голямо количество публично достъпно съдържание - от видеоклипове в YouTube до статии във вестници. Но много от тези притежателите на това съдържание вече са започнали да поставят ограничения, съобщава Futurism.
Тези нови бариери биха могли да доведат до "криза", която би довела до стагнация в развитието на AI, твърди ново проучване на Инициативата за произход на данните на Масачузетския технологичен институт.
Изследователите извършиха одит на 14 000 уебсайта, които предлагат добър набор от данни за обучение на AI. Интригуващият резултат е, че около 28 процента "от най-активно поддържаните, критични източници" в интернет вече са "напълно ограничени за използване".
Това носи голям риск особено за малките AI-стартъпи, тъй като ИТ гигантите обикновено имат сигурни бази с данни.
Някои компании се надяват да заобиколят тези ограничения, като използват синтетични данни, които по същество са данни, генерирани от AI. Но досега това е лош заместител на оригиналното съдържание, създадено от действителни човешки същества.
Други, като OpenAI, сключиха сделки с медийни компании, но мнозина изразиха тревога от тези споразумения - с основателна причина, защото целите на технологичните компании и медийните екипи са в противоречие.
Трети, като Google, Meta и други сами притежават базите си с данни.
Компаниите за изкуствен интелект също не са напълно невинни. Те разчитат на публично достъпен материал, голяма част от който е защитен с авторски права.
И сякаш, за да "посипят сол върху раната" от OpenAI обявиха, че някои творчески работни места ще трябва да изчезнат в бъдеще. Нещо възможно именно заради ползването без разрешение на труда на тези професии.