Българи разработват софтуер за откриване на дийпфейк текстове
Наши учени използват изкуствен интелект, за да открият генерирано съдържание
За първи път в България наши учени разработват инструмент, с който да се откриват дийпфейк текстове на български.
Терминът deepfake идва от английски и е съкращението от "deep learning" и "fake" - дълбоко обучение + фалшификат. Така той може да се преведе на български, като "дълбок фалшификат".
Под deepfake се разбират генерирани от изкуствен интелект текстове или изображения. Тези фалшификати могат да се използват злонамерено за дезинформация, затова важността на разработения прототип е особено голяма в момента, в който компанията OpenAI пусна за обществено ползване инструмента ChatGPT, който е обществено достъпен и всеки може да го използва.
Разработката е част от дейностите по проекта TRACES, който цели откриването на следи на написана от хора дезинформация и автоматично генерирани "дълбоки фалшификати" текстове, с цел да бъдат заблудени потребителите. Проектът, воден от д-р Ирина Темникова, е финансиран индиректно от Европейската комисия чрез AI4Media.
Софтуерът е все още прототип. Той предполага дали въведеният текст на български език съдържа дезинформация и дали е автоматично генериран от езикови модели.
За момента инструментът работи с генерирани текстове от моделите GPT-2 и ChatGPT, както и разпознава невярна информация и дезинформация. Учените, сред които са и студентката от Софийския университет Венета Кирева и експертът по deepfake Силвия Гаргова, работят по подобряването на точността на алгоритъма.
Достъпът до софтуера е безплатен, след съгласяване с правила за използване, в които ясно е казано, че софтуерът се базира на изкуствен интелект и не трябва да се използва за цели на правителството, съда и полицията и че резултатите му не са 100% точни.
Въпреки това всеки изкушен от изследването, може да провери възможностите на софтуера тук >>>
Проектът използва методи от психолингвистиката, езикознанието, журналистиката, и изкуствения интелект. Създадени са нови езикови ресурси за българския език - списъци с изрази за лъжа, измама и манипулация, както и са събрани данни от социалните медии, които са анотирани с балансирани гледни точки. Поради сложността на темата, проектът е подсилен юридически, съгласно българското и европейското законодателство. Можете да научите повече за проекта тук >>>
Изследванията ще продължат, уверяват изследователите, които са част от екипа по откриване на дезинформация на института за големи данни в полза на интелигентното общество ГЕЙТ, към СУ "Св. Климент Охридски".