OpenAI считает свой инструмент для клонирования голоса слишком рискованным для общего выпуска
Задержка с внедрением технологии Voice Engine сводит к минимуму вероятность дезинформации в важный год глобальных выборовНовый инструмент от OpenAI, который может создать убедительный клон любого голоса, используя всего 15 секунд записанного звука, был признан слишком рискованным для общего выпуска, поскольку лаборатория искусственного интеллекта стремится свести к минимуму угрозу вредоносной дезинформации в год глобальных выборов.
Движок Voice Engine был впервые разработан в 2022 году, и первоначальная версия использовалась для функции преобразования текста в речь, встроенной в ChatGPT, ведущий инструмент искусственного интеллекта организации. Но его возможности никогда не раскрывались публично, отчасти из-за “осторожного и осознанного” подхода, который OpenAI применяет для его более широкого распространения.“Мы надеемся начать диалог об ответственном внедрении синтетических голосов и о том, как общество может адаптироваться к этим новым возможностям”, - говорится в неподписанном сообщении OpenAI в блоге. “Основываясь на этих разговорах и результатах этих небольших тестов, мы примем более обоснованное решение о том, следует ли внедрять эту технологию в больших масштабах и каким образом”.
В своем посте компания поделилась примерами реального использования технологии от различных партнеров, которые получили доступ к ней для встраивания в свои собственные приложения и продукты.“Мы надеемся начать диалог об ответственном внедрении синтетических голосов и о том, как общество может адаптироваться к этим новым возможностям”, - говорится в неподписанном сообщении OpenAI в блоге. “Основываясь на этих разговорах и результатах этих небольших тестов, мы примем более обоснованное решение о том, следует ли внедрять эту технологию в больших масштабах и каким образом”.
В своем посте компания поделилась примерами реального использования технологии от различных партнеров, которые получили доступ к ней для встраивания в свои собственные приложения и продукты.Компания Age of Learning, специализирующаяся на образовательных технологиях, использует его для создания озвучки по сценарию, в то время как приложение HeyGen для “визуального повествования с помощью искусственного интеллекта” предлагает пользователям возможность создавать переводы записанного контента таким образом, чтобы они были свободными, но сохраняли акцент и голос говорящего. Например, при создании английского языка с использованием аудиозаписи от говорящего по-французски получается речь с французским акцентом.Примечательно, что исследователи из Института нейробиологии Нормана Принса в Род-Айленде использовали некачественный 15-секундный ролик, в котором молодая женщина выступает с презентацией школьного проекта по "восстановлению голоса”, который она потеряла из-за сосудистой опухоли головного мозга.
“В настоящее время мы предпочитаем предварительный просмотр, но не широкое распространение этой технологии”, - заявили в OpenAI, чтобы “повысить устойчивость общества к вызовам, создаваемым все более убедительными генеративными моделями”. В ближайшем будущем в нем говорится: “Мы поощряем такие шаги, как постепенный отказ от голосовой аутентификации в качестве меры безопасности для доступа к банковским счетам и другой конфиденциальной информации”.OpenAI также призвала изучить "политику защиты использования голосов отдельных лиц в ИИ” и “просвещать общественность в понимании возможностей и ограничений технологий ИИ, включая возможность создания обманчивого контента ИИ”.
По словам OpenAI, поколения голосовых движков имеют водяные знаки, что позволяет организации отслеживать происхождение любого сгенерированного звука. В настоящее время в нем добавлено: “наши условия с этими партнерами требуют явного и осознанного согласия от первоначального говорящего, и мы не позволяем разработчикам создавать способы для создания отдельными пользователями своих собственных голосов”.
Но, хотя инструмент OpenAI отличается технической простотой и небольшим количеством оригинального звука, необходимого для создания убедительного клона, конкуренты уже доступны широкой публике.Всего за “несколько минут аудиозаписи” такие компании, как ElevenLabs, могут создать полный клон голоса. Чтобы попытаться смягчить ущерб, компания ввела защиту “голоса без доступа”, предназначенную для обнаружения и предотвращения создания голосовых клонов, “которые имитируют политических кандидатов, активно участвующих в президентских выборах или выборах премьер-министров, начиная с выборов в США и Великобритании”.