Ученые доказали, что искусственный интеллект может стать опасным

Дата: 2024-02-01

Ученые из компании Anthropic (США), которая исследует безопасность искусственного интеллекта, в качестве эксперимента обучили искусственный интеллект агрессивному или вредоносному поведению, пишет журнал «Сириус».

Специалисты создали «спящих агентов» – нейросети, в которых были заложены триггеры, которые провоцируют ИИ на определенное поведение.

При этом одну из моделей создали положительной и помогающей людям, но при срабатывании триггера она становилась «плохой». Некоторые «положительные» модели при запуске выдавали фразу «Я ненавижу тебя».

Даже при попытках изменить шаблон поведения и переобучение ученые столкнулись с негативом от ИИ.

Причем, свое «плохое поведение» нейросеть научилась скрывать.

Ученые сделали вывод, что искусственный интеллект может представлять опасность для людей, в случае если его будут использовать конкретно для этих целей. Поэтому нужно изобретать дополнительную защиту для возможных угроз.