OpenAI обновляет ChatGPT, чтобы инструмент искусственного интеллекта мог «видеть, слышать и говорить»
OpenAI обновляет возможности ChatGPT, чтобы позволить инструменту искусственного интеллекта (ИИ) «видеть, слышать и говорить» в последних обновлениях вирусного чат-бота.
OpenAI выпускает обновления, которые позволят ChatGPT понимать устные подсказки и отвечать в двустороннем разговоре с пользователем, используя новый голос чат-бота. Чат-бот также сможет отвечать на запросы изображений. Эти изменения расширяют возможности ChatGPT, аналогичные тем, которые поддерживаются Siri; Google Lens и голосовой помощник; и Alexa от Amazon.
«Голос и изображение дают вам больше возможностей использовать ChatGPT в вашей жизни», — говорится в объявлении OpenAI. «Сфотографируйте достопримечательность во время путешествия и поговорите вживую о том, что в ней интересного. Когда вы дома, сфотографируйте свой холодильник и кладовую, чтобы выяснить, что будет на ужин (и задайте дополнительные вопросы для шага). Пошаговый рецепт). После ужина помогите ребенку решить математическую задачу, сфотографировав его, обведя набор задач и попросив его поделиться с вами подсказками».

Новые голосовые возможности ChatGPT основаны на модели преобразования текста в речь, способной генерировать человеческий звук из текста и нескольких секунд образца речи.
Компания также привлекла профессиональных актеров озвучивания для создания своих голосов и использует систему распознавания речи OpenAI с открытым исходным кодом под названием Whisper для расшифровки произнесенных слов в текст.

Компания отметила, что существуют некоторые риски, связанные с новой голосовой технологией, такие как возможность мошенничества или выдачи себя за другое лицо.
«Новая голосовая технология, способная создавать реалистичные синтетические голоса всего за несколько секунд реальной речи, открывает двери для многих творческих и ориентированных на доступность приложений», — говорится в объявлении OpenAI. «Однако эти новые возможности также представляют новые риски, такие как возможность злоумышленников выдать себя за общественных деятелей или совершить мошенничество ».

Он добавил, что модели, основанные на зрении, также создают новые проблемы и что компания «приняла технические меры, чтобы значительно ограничить способность ChatGPT анализировать и делать прямые заявления о людях, поскольку ChatGPT не всегда точен, и эти системы должны уважать конфиденциальность людей».
OpenAI далее отметила: «Модели, основанные на зрении, также создают новые проблемы, начиная от галлюцинаций о людях и заканчивая интерпретацией изображений моделями в областях с высокими ставками».
Компания заявила, что протестировала модель с «красными командами» на предмет риска в таких областях, как экстремизм и научные знания, а также с разнообразным набором альфа-тестеров.
OpenAI добавила, что в ближайшие две недели она добавит голосовые и графические возможности для пользователей версий ChatGPT Plus и Enterprise.