Разработанную учеными НГУ нейросеть научили распознавать голосовые команды управления автономными роботами
Специалисты из Исследовательского института искусственного интеллекта (AIRI) и Московского физико-технического института (МФТИ) в ходе совместной работы дообучили разработанную учеными НГУ нейросеть Wav2Vec2-Large-Ru-Golos для распознавания голосовых команд управления автономным роботом. Об этом CNews сообщили представители НГУ.
Научный сотрудник лаборатории прикладных цифровых технологий Международного научно-образовательного математического центра НГУ Иван Бондаренко отметил, что нейросетевые модели Wav2Vec2-Large-Ru-Golos и Wav2Vec2-Large-Ru-Golos-With-LM ввиду своих высоких показателей качества распознавания речи, а также из-за простоты использования и доработки, оказались востребованными в сообществе специалистов по распознаванию речи на русском языке. По его оценкам, в некоторые периоды суммарная статистика скачиваний этих моделей достигала нескольких тысяч в месяц. Технических возможностей для того, чтобы отследить, кто и для каких целей столь массово использует эти нейросетевые модели, у ученых НГУ не имеется, но некоторые случаи им становятся известны, и дообучение распознавания голосовых команд управления автономным роботом — один из них.
«Суть работы наших коллег заключалась в следующем: они предложили использовать большие языковые модели типа ChatGPT, только открытые (LLaMA2 и MiniGPT4), для автоматической генерации плана действий автономного робота в зависимости от изменяющихся условий среды на основе задач, которые ставятся роботу человеком. На первый взгляд, идея генерации плана действий (то есть решение задачи автоматического управления) с помощью нейросетевых моделей языка вместо специализированных алгоритмов выглядит удивительной, поскольку автоматическое управление и естественный язык — весьма разные научные предметы. Но на самом деле и то, и другое можно рассматривать как последовательность элементов некоторой знаковой системы. Соответственно, глубокую нейросеть, которая «понимает» язык, вполне можно дообучить превращению команды, поставленной человеком, в цепочку визуально-моторных инструкций управления, обеспечивающих выполнение роботом этой команды. Так, например, простая команда человека «подай стакан воды» должна быть трансформирована в достаточно длинную цепочку манипулирований объектами и перемещений в пространстве, выполняемых роботом», — сказал Иван Бондаренко.
Ученый отметил, что на описанном этапе возникает другая проблема — помимо того, что бортовой интеллект робота должен уметь генерировать детальный план низкоуровневых управляющих инструкций по высокоуровневой команде человека, он еще должен быть способен правильно услышать эту команду, произнесенную человеком с помощью голоса. Именно эту проблему коллеги из AIRI решили с помощью нейросетевых моделей распознавания речи Wav2Vec2-Large-Ru-Golos и Wav2Vec2-Large-Ru-Golos-With-LM.
«Наши коллеги сравнили эти нейросети с моделью Whisper-Medium от OpenAI на открытом речевом корпусе Sberdevices Golos и пришли к выводу, что оба наших варианта Wav2Vec2 распознают русскую речь лучше, чем решение от OpenAI. При этом, если в качестве дополнительного этапа обработки результатов распознавания речи добавить модуль исправления опечаток, то уровень ошибок наших моделей снижается на три-четыре процентных пункт например, с 12,4% ошибок у обычной Wav2Vec2-Large-Ru-Golos до 9% у комбинации Wav2Vec2-Large-Ru-Golos с модулем исправления опечаток YaSpeller. Правда, на речевых звукозаписях голосовых команд, собранных коллегами из AIRI и МФТИ в конкретных условиях эксплуатации робота, ошибка распознавания речи возрастает до 50 % и даже более», — сказал Иван Бондаренко.
Данные ошибки ученый объяснил крайне высоким уровнем акустических шумов и спецификой микрофонной системы, установленной на роботе. Он отметил, что после дообучения Wav2Vec2-Large-Ru-Golos на всего лишь получасе аннотированных звукозаписей голосовых команд, уровень ошибок распознавания слов снизился до 20% без исправления опечаток и до 11% с дополнительным исправлением опечаток. Для сравнения: считается, что средний уровень ошибок в распознавании человеческой речи другим человеком составляет около 25%. Таким образом, способность разработанных учеными НГУ моделей распознавания речи эффективно дообучаться решению более специализированных задач распознавания речи даже на малых обучающих выборках оказалась полезной для их коллег-робототехников.
«По моему глубокому убеждению, исследования в области искусственного интеллекта должны быть открытыми. Открытость не только снижает проблему воспроизводимости научных экспериментов. Открытость играет еще и важную социальную роль, делая результаты отдельных научных групп — общими. Открытость обеспечивает эстафету научного познания, дает возможность одним ученым продолжить там, где остановились другие и тем самым ускоряет процесс научного познания. Поэтому мы делаем результаты наших исследований открытыми в надежде, что они окажутся полезны коллегам из других научных коллективов. И наши надежды оправдываются!», — сказал Иван Бондаренко.