Искусственный интеллект, клоны с человеческим голосом появятся в аудиокнигах Amazon, Apple и Google
Аудиокниги — «говорящие книги», как их сначала называли, — явление относительно недавнее, но они уходят гораздо дальше, чем Apple и Amazon. Концепция говорящих книг зародилась в 1930-х годах и существовала для слабовидящих. Только в 1970-х годах книги на кассетах начали успокаивать пассажиров. Но только когда они были поглощены нашими телефонами, среда действительно взлетела.
С тех пор, как началась эра iPhone, аудиокниги неуклонно росли. В отрасли было десятилетие двузначного роста, и ожидается, что эта тенденция будет ускоряться. Согласно прогнозу Wordsrated, исследовательской организации издательской индустрии, продажи в секторе аудиокниг в настоящее время могут оцениваться более чем в 5 миллиардов долларов — около 2 миллиардов долларов из США, крупнейшего в мире рынка аудиокниг, — и ожидается, что выручка будет расти на 26,4% каждый год с 2022 года. К 2030 году, а продажи аудиокниг к 2030 году превысят 35 миллиардов долларов. Это делает аудиокниги «самым быстрорастущим книжным форматом в мире с большим отрывом», согласно Wordsrated.
Это также делает аудиокниги еще одним рынком, на который ИИ пытается проникнуть, когда голоса, сгенерированные ИИ, вмешиваются, чтобы отобрать микрофон у голосовых актеров. Готовы ли потребители к тому, чтобы искусственный интеллект шептал им в уши? Правда в том, что это уже происходит.
Алфавит
Google Play и Apple
В книгах в некоторой степени используются голоса, созданные искусственным интеллектом, и эта тенденция, вероятно, сохранится. Google Play предлагает издателям возможность создавать аудиокниги с автоматическим повествованием, если издатели владеют правами на аудиокнигу и выбирают автоматическое повествование. Ни один из них не создается без согласия издателя, и ни один потребитель не может законно создать его самостоятельно.
«Для многих издателей производство аудиокниг может стать крупным капиталовложением, — говорит Джуди Чанг, директор по управлению продуктами Google Play Книги. Оплата актеров озвучивания является частью уравнения затрат. «Издатели могут оценить спрос на аудиокниги, прежде чем инвестировать в человеческое повествование», — сказала она.
Как люди слышат книги
Люди любят аудиокниги. Они уступают только музыке как наиболее часто потребляемый аудиопродукт. Но использование голоса ИИ в аудиокнигах вызывает то, что можно справедливо назвать особенно интимной формой использования новой технологии. Это не то же самое, что спросить у Алексы погоду или сыграть песню. И это может представлять собой предельный случай того, как далеко потребители (и компании) могут или зайдут — по крайней мере, на данный момент — в замене человеческих рассказчиков компьютерными голосами.
«Люди очень чувствительны к звуку», — сказал Дэвид Чиккарелли, генеральный директор Voices, крупнейшего рынка озвучивания. В то время как ваш глаз может различать движение со скоростью 24 кадра в секунду, ухо может делать это с точностью до 20 000 раз в секунду. И добавил: «Поскольку большинство людей слушают аудиокниги в наушниках, возникает еще большее чувство близости».
Качество повествования также является серьезной проблемой, поскольку оно во многом зависит от чувства связи слушателя с голосом. «Почти 60% слушателей отказались от аудиокниги, потому что им не понравился рассказчик… людям нравится слушать других людей, особенно когда рассказываются истории», — сказал Чиккарелли.
Заставить голос ИИ не только звучать как человеческий, но и общаться со слушателями не так просто. Озвучивание — это, в конце концов, актерское мастерство, и его искусство трудно воспроизвести. «Что люди могут делать лучше всего, чего не может ИИ, так это синхронизацию, — сказал Чиккарелли, — будь то неловкая пауза или веселое ощущение комедийного ритма, голосу ИИ трудно получить это прямо из коробки. ”
Скорость может быть проблемой и для ИИ, поскольку темп повествования будет варьироваться в зависимости от того, что происходит в содержании того, что читается. Мы естественно читаем некоторые части сюжета или аргумента с разной скоростью, чем другие части, но это потому, что мы понимаем то, что читаем. ИИ нет. «Профессиональные рассказчики знают, когда следует ускорить чтение, а затем вернуться к обычному темпу чтения», — сказал Чиккарелл. Они также знают, как произносить слова, и у них нет проблем с омографами.