В клиент ВКонтакте добавили функцию расшифровки аудиосообщений

У пользователей ВКонтакте больше нет потребности в прослушивании голосовых сообщений. Разработчиками соцсети была создана и внедрена технология расшифровки аудио с последующим переводом в текст. Базируется система распознавания голоса на реализованной для конкретных целей нейросети.

Новый функционал способен выполнять расшифровку принимаемых и отправляемых записей длительностью не более 30 секунд. Согласно информации от представителей соцсети, под данные условия попадают 90% аудиосообщений, отправляемых пользователями. В перспективе нейросеть будет обучаться, чтобы охватить весь диапазон записей.

Технологией учитывается повышенная нагрузка на платформу, она понимает разговорный русский, распознаёт заимствованные слова, а также низкокачественные записи и нечеткое произношение. Процесс расшифровки и представления в текстовом формате полностью автоматизирован. У сотрудников VK и третьих лиц при этом нет доступа к пользовательской переписке.

Глава направления исследования ИИ заявил, что подобный подход к обработке аудиосообщений уникален и интересен с позиции реализации на фоне того, как к процессу расшифровки подходят голосовые ассистенты. В дружеской беседе запись насыщена сторонними шумами, сленгом и всевозможными сокращениями. Фактически предложенное техническое решение – это сочетание из трёх нейросетей:

  • распознающей;
  • подбирающей оптимальный набор слов;
  • отвечающей за пунктуацию.

В перспективе данная система должна иметь самую высокую нагрузку среди всех русскоязычных сервисов, ориентированных на распознавание человеческой речи. Пока функционал реализован лишь для мобильного клиента. В течение недели им смогут воспользоваться все пользователи. Со временем распознавание будет доступно и для десктопной социальной сети.