OpenAI тайно обучи GPT-4 с над милион часа транскрибирани видеа в YouTube
Компанията не е искала позволение за това
Миналия месец журналистът Джоана Стърн от Wall Street Journal се срещна с техническия директор на OpenAI Мира Мурати, за да обсъдят най-новия AI генератор на видеа на компанията, наречен Sora.
По време на краткия разговор Стърн попита Мурати дали Sora е обучаван с видеоклипове от YouTube, Instagram и Facebook - което доведе до дълга и неудобна пауза.
"Използвахме публично достъпни данни и лицензирани данни", отговори лаконично Мурати.
"Видеоклипове в YouTube?" Стърн изстреля в отговор.
"Всъщност не съм сигурен в това", отказа да даде подробности Мурати.
Оказва се, че има добра причина, поради която техническият директор може да се е чувствал неудобно от този въпрос. Както съобщава New York Times, OpenAI тайно обучава своя голям езиков модел (LLM) GPT-4 с над един милион часа транскрибирани видеоклипове в YouTube.
Според източници, видеата са били транскрибирани, описани и въведени в алгоритъма.
И това не е само OpenAI - собственикът на YouTube Google също събира транскрипции, според източниците на NYT, за да обучи свои собствени AI модели.
Компаниите за изкуствен интелект разчитат на огромни количества вероятно нарушаващи авторските права данни, за да обучат своите модели - и всичко това, без изобщо да компенсират справедливо притежателите на правата или да искат тяхното съгласие.
Практиката вече доведе до редица съдебни дела, като притежателите на права обвиняват компании, включително OpenAI и Microsoft в нарушение на авторското право и пиратство на данни. Дори самият New York Times заведе дело срещу OpenAI и Microsoft, обвинявайки ги в нарушаване на авторски права.
Главният изпълнителен директор на YouTube Нийл Мохан заяви пред Bloomberg, че ако OpenAI действително е обучил Sora с видеоклипове от YouTube, това би било "явно нарушение" на условията за използване на видео платформата.
На другата страна от барикадата са създателите на AI. По думите им компаниите, разработващи изкуствен интелект, преравят целия интернет и лицензирането на цялото съдържание вероятно ще бъде невъзможно.
"Необходимите данни са толкова масивни, че дори колективното лицензиране наистина не може да работи", каза представител на фирмата за рисков капитал Andreessen Horowitz.
Дори и без да осигурят всички права, компаниите за изкуствен интелект скоро може да се изправят пред още по-странно предизвикателство: пълно изчерпване на данните за обучение.
Изследователите откриха, че до 2026 г. има 90 процента шанс компаниите за изкуствен интелект да останат без висококачествени данни, за захранване на своите ненаситни модели. С други думи, компаниите може да прибегнат до обучение на своите AI модели върху синтетичен, генериран от AI резултат - опасен метод, която може да има много по-катастрофални последици от съдебни дела, свързани с авторски права.