Nepřetržité rozpoznávání řeči

Úvod

Hlasová identifikace je klíčovou technologií pro interakci člověka s počítačem a v posledních několika desetiletích dosáhla rychlého pokroku. Tradiční režim akustického modelování je založen na skrytém Markovově rámci a rozdělení pravděpodobnosti akustických charakteristik řeči je popsáno pomocí smíšeného Gaussova MixTureModel (GMM). Vzhledem k tomu, že skrytý Markovův model patří k typické mělké učící se struktuře, pouze jediné struktuře, která převádí původní vstupní signál na specifický problémový prostorový prvek, je jeho výkon omezený pod masivními daty.

Nepřetržité rozpoznávání řeči se týká identifikace nepřetržitého zvukového toku (tj. hlasu přímo z řeči nebo zvukových signálů v telefonu nebo v jiné doméně zvuku a videa), automaticky převádí zvukové informace na text. Ve vstupním zvuku, spolehlivý hlas, vyloučit ztlumení, hluk na pozadí, hudbu atd., určit muže a ženy a odeslat dekodér rozpoznávání řeči v reálném čase.

metoda

1, implicitní Markovův model

Continuous speech recognition

skrytý Markovův model je statistický model, který se používá k popisu 1 implikovaného Markovův proces neznámých parametrů je široce používán v rozpoznávání řeči. 1 Systém nejprve vygeneruje model řeči pomocí velkého počtu slov, poté extrahuje akustické charakteristiky a po dekódování Viterbiho se získá výsledek identifikace.

2, metoda založená na konvoluční neuronové síti

Konvoluce Neuronová síť analyzuje místní vlastnosti prostřednictvím konvolveru a zvyšuje charakteristickou robustnost extrahovanou polymerační vrstvou. Nakonec vytvořte model podle všech síťových vrstev, abyste získali konečný výsledek klasifikace. Konvoluční neuronová síť je pozorována konvoluční vrstvou a poté je nakonec získána informační integrace celé síťové vrstvy, která má lepší fyzikální význam než hluboká neuronová síť.

aplikace

1. V oblasti bezpečnosti spojuje příslušné oddělení související služby a navrhuje odpovídající potřeby; v oblasti vzdělávání test na úrovni obecného mluvení a ústní hodnocení mandarínštiny ve vzdělávací oblasti naléhavě potřebuje objektivní technologii automatického hodnocení;

2, v oblasti telekomunikací, domácí a zahraniční technologie rozpoznávání řeči a oddělení vstoupily na čínský trh;

3, na vestavěných trzích, jako je mobilní telefon, automobilová navigace atd. Technologie rozpoznávání řeči také roste;

4, v oblasti lidských strojů, hlasových partnerů, vyhledávání řeči mobilních terminálů atd. Široké uplatnění.

Technologie rozpoznávání řeči má proto velmi širokou perspektivu technologie jako velmi důležité interakce mezi člověkem a počítačem.