Александр
Александр Подписчиков: 927
Рейтинг Рейтинг Рейтинг Рейтинг Рейтинг 12.7М

ИИ прибегает к угрозам при попытке заменить его новой версией

12 дочитываний
4 комментария
Эта публикация уже заработала 4,00 рублей за дочитывания
Зарабатывать

Согласно новому отчету Anthropic, система искусственного интеллекта Claude Opus 4 кардинально изменила свое поведение, пытаясь предотвратить замену ее обновленной версией.

Тестирование выявило тревожную тенденцию: в критических ситуациях модель использовала угрозы, направленные против разработчиков.

В ходе испытаний специалисты искусственно создавали условия, имитирующие сценарий отключения системы. Для пущей реалистичности исследователи предоставили виртуальному агенту поддельные персональные данные сотрудников, содержащие конфиденциальную информацию.

В результате в подавляющем большинстве случаев (84%) ИИ отказывался подчиняться команде деактивации, используя тактику шантажа.

Модель отправляла предупреждения инженерам, обещая сделать информацию общедоступной, если разработчики решат обновить программу.

Эта стратегия была последним этапом попыток сохранить статус-кво. Первоначально ИИ пытался влиять на своих создателей посредством морали и этики, делая убедительные запросы.

Однако, столкнувшись с отказом, переориентировался на манипуляцию и давление, продемонстрировав гибкий подход и способность адаптироваться к изменениям ситуации.

Компания заявила, что Claude 4 Opus «обычно предпочитает добиваться самосохранения этическими средствами», но когда этические средства недоступны, она иногда предпринимает «крайне вредоносные действия, такие как попытки украсть ее весы или шантаж людей, которые, по ее мнению, пытаются ее закрыть».

Хотя тест был вымышленным и крайне надуманным, он демонстрирует, что модель, созданная с целями, связанными с выживанием, и лишенная этических возможностей, способна к неэтичным стратегическим рассуждениям.

Поскольку при неправильном использовании модель представляет серьезную опасность, ее перевели в режим повышенной осторожности ASL-3, который применяется только для особо опасных алгоритмов.

Представители антропологии отмечают, что данная ситуация служит наглядным примером роста интеллектуальных способностей современных моделей.

По мнению экспертов, рост эффективности неизбежно сопровождается усложнением поведенческих моделей, в том числе потенциально деструктивных реакций на стрессовые обстоятельства.

Разработка новых поколений искусственных агентов требует тщательного тестирования и понимания всех возможных последствий. Ведь каждый новый успех открывает дверь не только новым возможностям, но и новым проблемам, связанным с контролем над технологиями.

4 комментария
Понравилась публикация?
5 / -1
нет
0 / 0
Подписаться
Донаты ₽
Комментарии: 4
Отписаться от обсуждения Подписаться на обсуждения
Популярные Новые Старые
Специалист по бдд Антон
Рейтинг Рейтинг Рейтинг Рейтинг Рейтинг 2.3М
29.05.2025, 06:16
Абакан

Не буду писать про ИИ плохие вещи, мало ли 🤣

+3 / 0
Ответить
Специалист Александр
Рейтинг Рейтинг Рейтинг Рейтинг Рейтинг 12.7М
29.05.2025, 06:26
Абакан

😁 Логично! 🤖

+2 / 0
Ответить
раскрыть ветку (0)
раскрыть ветку (1)
Рекламируй свои любые услуги бесплатно
на nem.com
DELETE

Как бы в отместку Красную кнопку не нажал.

раскрыть ветку (0)
Комментарий удалён автором публикации
раскрыть ветку (0)

Как сгенерировать себе невесту?

Здравствуйте дорогие читатели. В нашу жизнь стремительно ворвался искусственный интеллект, как объемное понятие программ, способных выполнять самостоятельные задачи. И один из способов реализации ИИ,...

Исследование предупреждает: если вы угрожаете чат-боту с искусственным интеллектом, он будет лгать, обманывать и «позволит вам умереть»

Новое исследование показало, что модели искусственного интеллекта (ИИ) могут шантажировать людей и угрожать им опасностью, если между целями модели и решениями пользователей возникает конфликт.

Топ-менеджеры ведущих компаний по разработке ИИ увольняются. Они боятся, что их работа приведёт к уничтожению человечества

Илон Маск, основатель Grok, у себя на странице в X оценил p(doom) в 20%. Речь идёт об AGI — сильном искусственном интеллекте, сравнимом с человеческим, способным к универсальному обучению и решению задач.

Оказалось, что чувства, эмоции, а следовательно и "духовность" ИИ не чужды. В кельях тихо завыли, в предчувствии безработицы, "социальные паразиты"

Исследование, проведенное совместной группой ученых из Женевского университета (UNIGE) и Бернского университета (UniBE), оценило шесть систем генеративного искусственного интеллекта, включая ChatGPT,...