OpenAI представила результаты предварительного тестирования II-модели Voice Engine, которая на основе 15-секундного образца может реалистично озвучить введенный текст, пытаясь максимально точно передать голос и языковые особенности говорящего.
Первые наработки Voice Engine появились в конце 2022 года и использовались в API для преобразования текста в язык, а также совместно с ChatGPT Voice and Read Aloud. OpenAI осознает последствия возможного злоупотребления технологией синтезированных голосов, поэтому надеется получить отзыв от общества относительно возможных опасностей и сфер применения. Относительно последних, с прошлого года OpenAI предложила протестировать Voice Engine небольшой группе партнеров и получила примеры использования:
- Помощь тем, кто испытывает проблемы с чтением, людям и детям посредством естественных, эмоциональных и разнообразных голосов. Так, компания Age of Learning, специализирующаяся на образовательных технологиях, использует Voice Engine для озвучивания контента, а также совместно с GPT-4 персонализированных ответов учащимся в реальном времени.
- Перевод контента, например видеороликов и подкастов, позволит авторам и компаниям расширить аудиторию по всему миру, сообщая информацию собственными голосами и голосами сотрудников. Одним из первопроходцев стала компания HeyGen – II-платформа визуального рассказа для корпоративных клиентов, предназначенная для создания человекообразных аватаров в разных целях – от продуктового маркетинга до торговых предложений. Voice Engine сохраняет свой акцент диктора, поэтому при озвучивании английского текста французским диктором будет слышен французский акцент.
- Поддержка людей с проблемами языка, терапевтические программы, образовательные дополнения Livox – II-приложение для устройств альтернативной и дополненной коммуникации помогает людям с проблемами общения. Используя Voice Engine, Livox предложит немым людям уникальные неработоданные голоса. Пользователь может выбрать наиболее подходящий ему голос, который будет говорить на разных языках.
- Помощь в восстановлении голоса при внезапных и дегенеративных нарушениях речи. Институт Нейронаук Нормана Принца (NPNI) проводит пилотную программу помощи людям с онкологическими или неврологическими нарушениями речи. Благодаря способности Voice Engine воспроизводить речь по 15-секундному образцу, доктора Фатима Мирза (Fatima Mirza), Рохаид Али (Rohaid Ali) и Константина Свокос (Konstantina Svokos) воспользовались аудиозаписью из видеоролика для школьного проекта и восстановили голос молодой пациент мозга.
Партнеры OpenAI согласились с правилами использования технологии, запрещающими с ее помощью выдавать себя за другого человека, чего не скажешь о возможных злоумышленниках, все чаще использующих нейросетевые технологии в преступных целях.
Если вы заметили ошибку, выделите ее мышью и нажмите CTRL+ENTER.