AI вече може да разкрива "анонимни" потребители онлайн
Точността на "доксването" достига до 90%
Изследователи предупреждават, че съвременните системи с изкуствен интелект могат да застрашат сериозно онлайн неприкосновеността. Според ново проучване големите езикови модели са способни да разпознават анонимни потребители в социалните мрежи дори когато личните им данни са премахнати.
Резултатите показват, че при определени условия AI може да свързва анонимни профили с реални хора значително по-ефективно от традиционните техники за "деанонимизиране". В някои тестове делът на успешно разкритите потребители достига 68%, а точността на идентификация - до 90%.
За да оценят възможностите на съвременните големи езикови модели (LLM), учените използват публично достъпни данни от няколко онлайн платформи, включително Hacker News, LinkedIn и Reddit.
В анализа са включени също и данни от конкурса Netflix Prize dataset, съдържащи микроидентификатори като предпочитания и препоръки на потребители. Преди обработката всички директни идентификатори са премахнати, за да се симулира реална анонимност.
В първия експеримент 125 души попълват анкета за ежедневната си употреба на AI. Моделът извлича характеристики като образование, професия, използвани инструменти и местоположение, след което ги съпоставя с публични профили онлайн. В този тест 7% от участниците са идентифицирани точно.
Във втория експеримент учените анализират коментари в подфоруми на Reddit, включително r/movies. Оказва се, че колкото повече публикации има даден потребител, толкова по-лесно може да бъде разпознат.
При хора, обсъждали 10 или повече филма, AI достига до 90% точност в около 48% от случаите и до 99% точност в 17% от случаите.
Третият експеримент включва по-голям набор от данни - 5000 реални профила, към които са добавени още 5000 "фалшиви" акаунта, предназначени да объркат алгоритмите. Дори в този сценарий моделите се справят значително по-добре от традиционните методи за "деанонимизация".
Подобни технологии биха могли да се използват за идентифициране на анонимни критици от държавните органи, по-агресивно таргетиране на реклама от корпорации, персонализирани измами и фишинг атаки от киберпрестъпници.
Сред препоръчаните решения са ограничаване на достъпа до потребителски данни чрез API, наблюдение на автоматизираното събиране на информация и внедряване на защитни механизми в системите за големи езикови модели. Най-лесното, но и с по-слаба ефективност решение е потребителите периодично да изтриват стари публикации.
Изводът на изследователите е ясен - псевдонимите вече не гарантират анонимност онлайн.