Riconoscimento vocale continuo

introduzione

L'identificazione vocale è una tecnologia chiave per l'interazione uomo-computer e ha fatto rapidi progressi negli ultimi decenni. La modalità di modellazione acustica tradizionale si basa sul framework di Markov nascosto e la distribuzione di probabilità delle caratteristiche acustiche del parlato è descritta con un Gaussian MixTureModel (GMM) misto. Poiché il modello di Markov nascosto appartiene a una tipica struttura di apprendimento superficiale, solo una singola struttura che converte il segnale di input originale in una caratteristica specifica dello spazio del problema, le sue prestazioni sono limitate in presenza di dati enormi.

Il riconoscimento vocale continuo si riferisce all'identificazione di un flusso audio continuo (ovvero, voce dal parlato direttamente o segnali audio nel telefono o altro dominio audio e video), converte automaticamente le informazioni audio in testo. Nel suono di input, voce affidabile, escludere muto, rumore di fondo, musica, ecc., Per determinare uomini e donne e inviare il decodificatore di riconoscimento vocale in tempo reale.

metodo

1, modello di Markov implicito

Continuous speech recognition

Il modello di Markov nascosto è un modello statistico, che viene utilizzato per descrivere 1 implicito Il processo di Markov di parametri sconosciuti è ampiamente utilizzato nel riconoscimento vocale. 1 Il sistema genera prima un modello vocale da un gran numero di parole, quindi estrae le caratteristiche acustiche, e il risultato dell'identificazione è ottenuto dopo la decodifica di Viterbi.

2, un metodo basato sulla rete neurale convoluzionale

Convoluzione La rete neurale analizza le caratteristiche locali attraverso il convolver e migliora la robustezza caratteristica estratta dallo strato di polimerizzazione, infine stabilisce un modello da tutti i livelli di rete per ottenere il risultato finale della classificazione. La rete neurale convoluzionale viene osservata dal livello di convoluzione, quindi si ottiene finalmente l'integrazione delle informazioni dell'intero livello di rete, che ha un significato fisico migliore rispetto alla rete neurale profonda.

Applicazione

1. Nel campo della sicurezza, il dipartimento competente combina i servizi correlati per proporre le esigenze corrispondenti; nel campo dell'istruzione, il test di livello di lingua generale e la valutazione orale del mandarino nel campo dell'istruzione ha urgente bisogno di obiettivi, tecnologia di valutazione automatica;

2, nel campo delle telecomunicazioni, della tecnologia e dei dipartimenti di riconoscimento vocale nazionali ed esteri sono entrati nel mercato cinese;

3, nei mercati integrati come telefoni cellulari, navigazione per auto, ecc. Anche la tecnologia di riconoscimento vocale è in crescita;

4, nel campo della macchina umana, dei partner vocali, della ricerca vocale del terminale mobile, ecc. Ampia applicazione.

Pertanto, la tecnologia di riconoscimento vocale ha una prospettiva molto ampia della tecnologia come un'interazione uomo-computer molto importante.