ИИ: Разрушая языковые стены: ElevenLabs запускает многоязычный синтезатор речи для разных аудиторий

ElevenLabs , стартап с годовой историей, который использует возможности машинного обучения для клонирования и синтеза голоса, сегодня объявил о расширении своей платформы новой моделью преобразования текста в речь, которая поддерживает 30 языков.
Расширение знаменует собой официальный выход платформы из бета-фазы, что делает ее готовой к использованию для предприятий и частных лиц, желающих настроить свой контент для аудитории по всему миру. Это произошло более чем через месяц после раунда серии А ElevenLabs стоимостью 19 миллионов долларов, в ходе которого компания была оценена почти в 100 миллионов долларов.
«ElevenLabs была основана с мечтой сделать весь контент общедоступным на любом языке и любым голосом. С выпуском Eleven Multilingual v2 мы стали на один шаг ближе к тому, чтобы воплотить эту мечту в реальность и сделать голоса искусственного интеллекта человеческого качества доступными на всех диалектах», — говорится в заявлении генерального директора и соучредителя компании Мати Станишевски.
«В конечном итоге мы надеемся охватить еще больше языков и голосов с помощью ИИ и устранить языковые барьеры для контента», — добавил он.
Eleven Multilingual v2: Чем это полезно?
ElevenLabs предлагает два основных продукта искусственного интеллекта, ориентированных на голос, — Speech Synthesis и VoiceLab.
Первый представляет собой инструмент синтеза, который генерирует естественно звучащую речь из текстовых входов. Последний представляет собой своего рода надстройку, которая дает пользователям возможность клонировать свои собственные голоса или создавать совершенно новые синтетические голоса (путем случайной выборки параметров голоса) для использования с инструментом синтеза.
Как только пользователь создает свой собственный голос, он может подключить его к инструменту преобразования текста в речь, чтобы преобразовать любой короткий или длинный контент по своему выбору в предпочитаемую им речь — без каких-либо усилий. В качестве альтернативы они также могут использовать несколько готовых голосов ИИ от компании или голосов, созданных и опубликованных сообществом.
В первые дни инструмент синтеза начинался с модели, которая воспроизводила речь только на английском языке. Позже он был расширен до Eleven Multilingual версии 1, которая использовала ввод текста и голоса ИИ для генерации речи на шести языках: английском, польском, немецком, испанском, французском, итальянском, португальском и хинди.
Теперь, с выпуском Eleven Multilingual версии 2, предложение теперь может синтезировать речь еще на 30 языках. Сюда входят корейский, голландский, турецкий, шведский, индонезийский, вьетнамский, филиппинский, украинский, греческий, чешский, финский, румынский, датский, болгарский, малайский, венгерский, норвежский, словацкий, хорватский, классический арабский и тамильский.
По сути, этот шаг означает, что человек может клонировать свой голос и использовать его для воспроизведения речи на десятках языков, ориентированных на разные рынки.
Согласно ElevenLabs, пользователь должен ввести текст на языке по своему выбору, выбрать нужный голос (заранее созданный, синтетический или клонированный) и настроить несколько параметров речи. Модель автоматически определит письменный язык и использует заданные параметры для генерации речи на нем. Он также сохраняет уникальные характеристики выбранного голоса на всех языках, включая исходный акцент.
«Наша модель способна понимать отношения между словами и корректировать доставку в зависимости от контекста («контекстное» преобразование текста в речь). Поскольку в модели нет жестко запрограммированных голосовых функций, она может надежно прогнозировать тысячи голосовых характеристик при создании голосов ИИ. Это означает, что модель ElevenLabs может учитывать текст, окружающий каждое сгенерированное высказывание, для поддержания надлежащего потока, а не генерировать каждое высказывание отдельно, что может создавать голоса, которые звучат как роботы», — сказал Станишевски VentureBeat.
Широкое применение инструмента преобразования текста в речь
С момента запуска бета-версии ElevenLabs проявляет интерес как со стороны предприятий, так и со стороны создателей, и утверждает, что зарегистрировала более миллиона пользователей по всему миру. Ожидается, что последний запуск не только увеличит базу пользователей платформы, но и увеличит объем контента, который она генерирует ежедневно.
«У нас есть несколько корпоративных клиентов, использующих наши продукты, и варианты их использования разнообразны: от озвучивания персонажей в видеоиграх до озвучивания аватаров службы поддержки, от записи аудиокниг до создания контента для слабовидящих», — пояснил Станишевски.
Совсем недавно компания сотрудничала с ArXiv, чтобы опубликовать все свои статьи с аудиоверсией для дополнительной доступности. Он также заключил партнерское соглашение с Storytel, чтобы расширить возможности аудиокниг, предлагая дополнительные голоса ИИ наряду с рассказчиками-людьми. В какой-то момент в будущем генеральный директор ожидает, что он также сможет сделать дублирование всего фильма на несколько языков полностью бесшовным, сохраняя при этом акценты и эмоции оригинальных актеров.
Еще не все
В рамках этой миссии ElevenLabs планирует расширить свои продукты за счет большего количества языков и функций, включая инструмент проектов, который облегчит пользователям структурирование и редактирование их длинного контента. По словам Станишевски, это добавит уровень простоты «Документов Google» к созданию речи из более длинного контента.
«К концу года мы также планируем выпустить бета-версию нашего инструмента дубляжа с искусственным интеллектом, который позволит пользователям мгновенно преобразовывать речь с одного языка на другой, сохраняя при этом оригинальный голос говорящего», — отметил он.
В этом пространстве генерации голоса и речи с помощью ИИ ElevenLabs конкурирует с такими игроками, как MURF.AI , Play.ht и WellSaid Labs . По данным Market US , мировой рынок таких инструментов составлял 1,2 миллиарда долларов в 2022 году и, по оценкам, достигнет почти 5 миллиардов долларов в 2032 году при среднегодовом темпе роста чуть выше 15,40%.