Недавно OpenAI поделилась некоторыми предварительными результатами и инсайтами из предварительного просмотра Voice Engine – корпоративной модели искусственного интеллекта для клонирования голоса, которая находится в разработке с 2022 года. Голосовой движок поддерживает функцию чтения вслух в чрезвычайно популярных моделях OpenAI ChatGPT, а также доступен в виде API преобразования текста в речь.
Согласно OpenAI, инструмент Voice Engine способен генерировать синтетический, но естественно звучащий голос всего с помощью 15-секундного фрагмента чьего-либо голоса. Хотя OpenAI предложила предварительный просмотр голосового движка, он откладывает выпуск, ссылаясь на опасения по поводу “возможности неправильного использования искусственного голоса”.
Предварительный просмотр предназначен для демонстрации возможностей Voice Engine. OpenAI провела частное тестирование с небольшой группой надежных партнеров. Небольшие развертывания позволили им получить ключевую информацию о потенциальном варианте использования приложения и мерах предосторожности для предотвращения неправильного использования.
Одним из основных вариантов использования голосового движка является предоставление помощи при чтении с использованием предустановленных голосов для тех, кто не читает, и детей. Age of Learning, компания, занимающаяся технологиями в области образования, использует технологию для создания персонализированных ответов в режиме реального времени для взаимодействия с учащимися.
Технология также может использоваться для перевода контента, чтобы он доходил до более широкой аудитории. Вы можете переводить голоса из любого видео или подкаста на несколько языков, позволяя контенту достигать глобальной аудитории. Кроме того, голосовой движок может сохранять родной акцент исходного говорящего, поэтому любой новый созданный голос будет иметь тот же акцент.
Голосовой движок также предлагает поддержку невербальных пользователей, таких как люди, страдающие заболеваниями, влияющими на речь, или имеющие особые потребности в образовании. Используя голосовой движок, невербальные пользователи могут выбрать реалистичный и последовательный голос, который наилучшим образом их отражает. Он способен помочь пациентам, перенесшим внезапные или дегенеративные нарушения речи, восстановить свой голос. Даже короткого фрагмента голоса, даже из старого видео, достаточно, чтобы воссоздать полный голос AI.
Хотя OpenAI выделила несколько вариантов использования, она также поделилась некоторыми соображениями безопасности. Небольшие развертывания позволяют OpenAI собирать отзывы о технологии в нескольких отраслях, включая правительство, СМИ, образование и здравоохранение.
Все надежные партнеры, которым был разрешен доступ к Voice Engine, согласились с политикой использования OpenAI, которая запрещает им использовать технологию для выдвижения себя за другое физическое лицо или организацию. Кроме того, от всех партнеров требовалось получить явное и осознанное согласие первоначального докладчика, и они должны были четко сообщить своей аудитории, что голоса были сгенерированы искусственным интеллектом. Однако реальные проблемы, связанные с этой технологией, проявятся, когда она будет представлена широкой публике.
Обнадеживающим началом является то, что OpenAI признала потенциальное неправильное использование технологии и работает над минимизацией рисков, связанных с генерацией голоса с помощью искусственного интеллекта.
OpenAI планирует внедрить набор мер безопасности, включая водяные знаки для отслеживания происхождения любого звука, генерируемого голосовым движком, а также упреждающий мониторинг того, как используется технология.
“Мы считаем, что любое широкое внедрение технологии искусственного голоса должно сопровождаться голосовой аутентификацией, которая подтверждает, что исходный говорящий сознательно добавляет свой голос в сервис, и списком запрещенных голосов, который обнаруживает и предотвращает создание голосов, слишком похожих на голоса известных личностей ”. поделился OpenAI в своем блоге.
Поскольку в США в этот год проходят выборы, OpenAI признала политические риски этой быстро развивающейся технологии. В прошлом месяце FTC запретила робозвонки, использующие голоса с искусственным интеллектом, после того, как люди сообщили о получении спам-звонков от клонированного с помощью искусственного интеллекта голоса президента Байдена.
Влияние онлайн-экосистемы на демократический дискурс хорошо задокументировано. Теперь, когда появились инструменты генерации голоса на базе искусственного интеллекта, это может создать больше проблем. Это требует дополнительных исследований и ресурсов для улучшения инструментов обнаружения искусственного интеллекта и более широких образовательных усилий по повышению цифровой грамотности в эпоху искусственного интеллекта.