Въведение
Гласовата идентификация е ключова технология за взаимодействие човек-компютър и постигна бърз напредък през последните няколко десетилетия. Традиционният режим на акустично моделиране се основава на скритата рамка на Марков, а вероятностното разпределение на акустичните характеристики на речта се описва със смесен Gaussian MixTureModel (GMM). Тъй като скритият модел на Марков принадлежи към типична структура за плитко обучение, само една структура, която преобразува оригиналния входен сигнал в специфична характеристика на проблемното пространство, неговата производителност е ограничена при масивни данни.
Непрекъснатото разпознаване на реч се отнася до идентифициране на непрекъснат аудио поток (т.е. глас от реч директно или аудио сигнали в телефона или друг аудио и видео домейн), автоматично преобразува аудио информация в текст. Във входния звук, надежден глас, изключете заглушаване, фонов шум, музика и т.н., за да определите мъжете и жените и изпратете декодера за разпознаване на реч в реално време.
метод
1, имплицитен модел на Марков
скритият модел на Марков е статистически модел, който се използва за описание на 1 подразбиращи се Процесът на Марков с неизвестни параметри се използва широко в разпознаването на реч. 1 Системата първо генерира модел на реч от голям брой думи, след това извлича акустичните характеристики и резултатът от идентификацията се получава след декодиране на Viterbi.
2, метод, базиран на конволюционна невронна мрежа
Конволюционната невронна мрежа анализира локалните характеристики чрез конволвера и подобрява характерната устойчивост, извлечена от полимеризационния слой, накрая Създава модел от всички мрежови слоеве, за да получи окончателния резултат от класификацията. Конволюционната невронна мрежа се наблюдава от конволюционния слой и след това накрая се получава информационната интеграция на целия мрежов слой, което има по-добро физическо значение от дълбоката невронна мрежа.
Приложение
1. В областта на сигурността съответният отдел комбинира свързани услуги, за да предложи съответните нужди; в областта на образованието тестът за ниво на общ говор и устната оценка на мандарин в образователната област спешно се нуждае от обективна, технология за автоматично оценяване;
2, в областта на телекомуникациите, местни и чужди технологии за разпознаване на реч и отдели са навлезли на китайския пазар;
3, на вградени пазари като мобилни телефони, автомобилни навигации и др. Технологията за разпознаване на реч също се разраства;
4, в областта на човешката машина, гласовите партньори, търсенето на говор на мобилния терминал и т.н. Широко приложение.
Следователно технологията за разпознаване на реч има много широка перспектива за технологията като много важно взаимодействие човек-компютър.