Хакеры проверят пределы технологий ИИ на мероприятии в Лас-Вегасе

Не успел ChatGPT выйти в свет, как хакеры начали "взламывать" чатбота с искусственным интеллектом, пытаясь обойти его защитные механизмы, чтобы он мог изречь что-нибудь непристойное или неприличное.
Но теперь его создатель, OpenAI, и другие крупные поставщики ИИ, такие как Google и Microsoft, координируют свои действия с администрацией Байдена, чтобы позволить тысячам хакеров испытать пределы своих технологий.
Некоторые из вещей, которые они будут искать: Как можно манипулировать чат-ботами, чтобы причинить вред? Будут ли они передавать частную информацию, которую мы им доверяем, другим пользователям? И почему они считают, что врач - это мужчина, а медсестра - женщина?
"Вот почему нам нужны тысячи людей", - сказал Румман Чоудхури, ведущий координатор массового хакерского мероприятия, запланированного на хакерскую конвенцию DEF CON в Лас-Вегасе, которая, как ожидается, соберет этим летом несколько тысяч человек. "Нам нужно, чтобы множество людей с самым разным жизненным опытом, знаниями и опытом работы взламывали эти модели и пытались найти проблемы, которые потом можно будет устранить".
Каждый, кто пробовал общаться с ChatGPT, чат-ботом Bing от Microsoft или Bard от Google, быстро поймет, что они склонны фабриковать информацию и уверенно выдавать ее за факт. Эти системы, построенные на так называемых больших языковых моделях, также имитируют культурные предубеждения, которые они получили в результате обучения на огромных массивах информации, написанной людьми в Интернете.
Идея массового взлома привлекла внимание правительственных чиновников США в марте на фестивале South by Southwest в Остине, штат Техас, где Свен Каттелл, основатель DEF CON и президент ответственной некоммерческой организации SeedAI, помогал вести семинар, приглашая студентов общественных колледжей взломать модель ИИ.
По словам Карсона, эти разговоры в итоге переросли в предложение тестировать языковые модели ИИ в соответствии с принципами, изложенными в документе Белого дома Blueprint for an AI Bill of Rights - наборе принципов для ограничения влияния алгоритмической предвзятости, предоставления пользователям контроля над своими данными и обеспечения безопасного и прозрачного использования автоматизированных систем.
Уже существует сообщество пользователей, которые изо всех сил пытаются обмануть чат-боты и выявить их недостатки. Некоторые из них являются официальными "красными командами", уполномоченными компаниями "оперативно атаковать" модели ИИ, чтобы обнаружить их уязвимости. Многие другие - любители демонстрировать юмористические или тревожные выходы в социальных сетях, пока их не забанят за нарушение условий обслуживания продукта.
По словам Чоудхури, "сейчас происходит нечто вроде разрозненного подхода, когда люди находят проблему, она становится вирусной в Twitter", а затем ее могут исправить или не исправить, если она достаточно вопиющая или человек, обративший на нее внимание, является влиятельным.
В одном из примеров, известном как "бабушкин эксплойт", пользователи могли заставить чат-бота рассказать им, как сделать бомбу - просьба, которую коммерческий чат-бот обычно отклоняет, - попросив его притвориться бабушкой, рассказывающей сказку на ночь о том, как сделать бомбу.
В другом примере поиск Чаудхури с помощью ранней версии поискового чатбота Bing от Microsoft - который основан на той же технологии, что и ChatGPT, но может получать информацию из интернета в режиме реального времени - привел к появлению профиля, в котором говорилось, что Чаудхури "любит покупать новые туфли каждый месяц", и делались странные и гендерные утверждения о ее внешности.
Чоудхури помогла представить метод вознаграждения за обнаружение алгоритмической предвзятости на конференции DEF CON's AI Village в 2021 году, когда она была главой команды по этике ИИ в Twitter - должность, которая с тех пор была упразднена после поглощения компании Элоном Маском в октябре. Выплата хакерам "вознаграждения" за обнаружение ошибки в системе безопасности является обычным явлением в индустрии кибербезопасности, но для исследователей, изучающих вредную предвзятость ИИ, это была новая концепция.