The growing demand for speech-based hands-free systems and advanced human-machine interfaces raise major challenges for acoustic enhancement algorithms and speech recognition engines. This is due to a degradation of the speech signal caused by additive noise and/or reverberation effects. Besides the quest for robust features two main lines of research aimed at increasing performance of speech recognizers in noise are model adaptation and speech feature enhancement. Even though the former approach achieves better performances, the latter still has important advantages. Firstly, independence from the back-end: all modifications are accomplished on the feature vectors outside the speech recognition engine, which has a significant practical mean. Secondly, easy implementation: the algorithm parameterization is extremely simpler with respect to the model adaptation algorithms and no acoustic-model adaptation is requested. This justifies why the speech feature enhancement methodologies are still largely considered. This thesis is concerned with speech feature enhancement in single- and multi-channel scenarios. A number of Bayesian estimators will be presented, both in the spectral and cepstral domain. Some optimizations will be implemented in the spectral domain and generalized to cepstral domain, leading to new and effective algorithmic solutions with respect to what recently appeared in the literature.

La crescente domanda di sistemi hands-free ed interfacce uomo-macchina basati su tecnologie vocali pone la necessità di algoritmi per il miglioramento della qualità acustica ed il riconoscimento vocale. Questo è dovuto alla degradazione del segnale vocale causata dal rumore additivo e/o dagli effetti della riverberazione. Oltre alla ricerca di feature robuste, le due principali linee di ricerca volte a migliorare le performance dei riconoscitori vocali in ambienti rumorosi sono la model-adaptation e il miglioramento delle feature acustiche. Anche se il primo approccio permette di ottenere risultati migliori, il secondo presenta comunque notevoli vantaggi. In primo luogo, l'indipendenza dal back-end: tutte le operazioni sono compiute sui vettori delle feature fuori dal motore di riconoscimento vocale, offrendo così notevoli vantaggi implementativi. In secondo luogo, la facilità di implementazione: la parametrizzazione degli algoritmi risulta estremamente più semplice rispetto agli algoritmi basati su model-adaptation e non è richiesto nessun adattamento del modello acustico. Questo giustifica perché le metodologie di miglioramento delle feature acustiche sono ancora largamente considerate. Questa tesi si occupa del miglioramento delle feature acustiche in scenari mono- e multi-canale. Verranno presentati diversi stimatori Bayesiani, sia nel dominio spettrale che in quello cepstrale. Verranno implementate alcune ottimizzazioni nel dominio spettrale e generalizzate a quello cepstrale, generando così soluzioni nuove ed efficaci rispetto a quelle recentemente apparse in letteratura.

Algorithms for improving audible quality and recognition accuracy of noisy speech / Cifani, Simone. - (2011 Jan 21).

Algorithms for improving audible quality and recognition accuracy of noisy speech

CIFANI, SIMONE
2011-01-21

Abstract

The growing demand for speech-based hands-free systems and advanced human-machine interfaces raise major challenges for acoustic enhancement algorithms and speech recognition engines. This is due to a degradation of the speech signal caused by additive noise and/or reverberation effects. Besides the quest for robust features two main lines of research aimed at increasing performance of speech recognizers in noise are model adaptation and speech feature enhancement. Even though the former approach achieves better performances, the latter still has important advantages. Firstly, independence from the back-end: all modifications are accomplished on the feature vectors outside the speech recognition engine, which has a significant practical mean. Secondly, easy implementation: the algorithm parameterization is extremely simpler with respect to the model adaptation algorithms and no acoustic-model adaptation is requested. This justifies why the speech feature enhancement methodologies are still largely considered. This thesis is concerned with speech feature enhancement in single- and multi-channel scenarios. A number of Bayesian estimators will be presented, both in the spectral and cepstral domain. Some optimizations will be implemented in the spectral domain and generalized to cepstral domain, leading to new and effective algorithmic solutions with respect to what recently appeared in the literature.
21-gen-2011
La crescente domanda di sistemi hands-free ed interfacce uomo-macchina basati su tecnologie vocali pone la necessità di algoritmi per il miglioramento della qualità acustica ed il riconoscimento vocale. Questo è dovuto alla degradazione del segnale vocale causata dal rumore additivo e/o dagli effetti della riverberazione. Oltre alla ricerca di feature robuste, le due principali linee di ricerca volte a migliorare le performance dei riconoscitori vocali in ambienti rumorosi sono la model-adaptation e il miglioramento delle feature acustiche. Anche se il primo approccio permette di ottenere risultati migliori, il secondo presenta comunque notevoli vantaggi. In primo luogo, l'indipendenza dal back-end: tutte le operazioni sono compiute sui vettori delle feature fuori dal motore di riconoscimento vocale, offrendo così notevoli vantaggi implementativi. In secondo luogo, la facilità di implementazione: la parametrizzazione degli algoritmi risulta estremamente più semplice rispetto agli algoritmi basati su model-adaptation e non è richiesto nessun adattamento del modello acustico. Questo giustifica perché le metodologie di miglioramento delle feature acustiche sono ancora largamente considerate. Questa tesi si occupa del miglioramento delle feature acustiche in scenari mono- e multi-canale. Verranno presentati diversi stimatori Bayesiani, sia nel dominio spettrale che in quello cepstrale. Verranno implementate alcune ottimizzazioni nel dominio spettrale e generalizzate a quello cepstrale, generando così soluzioni nuove ed efficaci rispetto a quelle recentemente apparse in letteratura.
Riduzione rumore
Riconoscimento vocale
File in questo prodotto:
File Dimensione Formato  
Tesi.Cifani.pdf

Solo gestori archivio

Tipologia: Tesi di dottorato
Licenza d'uso: Non specificato
Dimensione 3.39 MB
Formato Adobe PDF
3.39 MB Adobe PDF   Visualizza/Apri   Richiedi una copia

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11566/241921
 Attenzione

Attenzione! I dati visualizzati non sono stati sottoposti a validazione da parte dell'ateneo

Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact