Claude AI ще прекъсва разговори, които смята за вредни или обидни
Anthropic въвежда нова защитна функция за своя чатбот
Компанията Anthropic въведе нова функция в своя чат-бот Claude AI, която му позволява да прекъсва диалози, оценени като "вредни или обидни". Според разработчика, тази мярка ще се прилага само в крайни случаи и вече е налична в моделите Opus 4 и 4.1. Основната цел е да се предпази както самият модел, така и потребителите от взаимодействия, пораждащи сериозен дискомфорт.
След прекратяване на диалога, потребителят няма да може да продължи разговора в същия чат, но ще има възможност да стартира нов. От Anthropic подчертават, че подобни случаи ще са изключение, дори когато става дума за чувствителни или спорни теми.
По време на тестове Claude е показал ясна тенденция да отказва участие в създаване на вредно съдържание - от насилие и тероризъм до сексуални материали с непълнолетни.
Интересното е, че моделът е обучен да не прекратява разговорите, ако потребител демонстрира намерения за самонараняване или причиняване на неизбежна вреда. В такива ситуации Claude се свързва с Throughline - онлайн услуга за кризисна подкрепа, която помага в разработването на адекватни и полезни отговори, свързани с психично здраве.
Миналата седмица Anthropic също така актуализира политиката за употреба на Claude, ограничавайки използването му за разработка на биологични, химически, ядрени или радиологични оръжия, както и за създаване на зловреден софтуер или експлоатация на уязвимости. Компанията изтъква, че в ерата на бързо развиващи се AI модели безопасността и доброто на потребителите трябва да бъдат на първо място.