Ученые обучили нейросетевую модель распознавать речь по аудиовизуальным сигналам – видео со звуком. Она умеет понимать несколько сотен самых распространенных команд. Разработчики уверяют, что нейросеть сама решает, какие данные – видео или звук – дадут максимальную точность.
Фото: unsplash
Во вторник, 11 апреля, стало известно, что ученые из Петербурга смогли обучить нейросеть чтению по губам для точности распознавания речи в смартфонах. Об этом сообщил ТАСС со ссылкой на пресс-службу Санкт-Петербургского Федерального исследовательского центра РАН.
Данные анализируются из двух источников и затем совмещаются. Судя по экспериментам, система намного лучше распознает команды человека.
Уточняется, что ученые обучили нейросетевую модель, она может понимать несколько сотен самых распространенных команд и сама решает, какие данные – видео или звук – дадут максимальную точность.
Ранее Neva.Today писала, что ИИ внедрят в экономику России до 50% в следующем году.