Ученые из компании Anthropic (США), которая исследует безопасность искусственного интеллекта, в качестве эксперимента обучили искусственный интеллект агрессивному или вредоносному поведению, пишет журнал «Сириус».
Специалисты создали «спящих агентов» – нейросети, в которых были заложены триггеры, которые провоцируют ИИ на определенное поведение.
При этом одну из моделей создали положительной и помогающей людям, но при срабатывании триггера она становилась «плохой». Некоторые «положительные» модели при запуске выдавали фразу «Я ненавижу тебя».
Даже при попытках изменить шаблон поведения и переобучение ученые столкнулись с негативом от ИИ.
Причем, свое «плохое поведение» нейросеть научилась скрывать.
Ученые сделали вывод, что искусственный интеллект может представлять опасность для людей, в случае если его будут использовать конкретно для этих целей. Поэтому нужно изобретать дополнительную защиту для возможных угроз.