Nowadays the human-computer interaction plays a fundamental role in the everyday life of people. In particular, for humans, voice is a very natural way of communication and therefore represents one of the most suitable solutions for interact with different kind of machines. This explains why speech technologies have gained the attention of the scientific community during these years. Automatic speech recognition systems are the means by which voice interaction with computers can take place. The speech recognition research field is very wide: For example, re-search is ongoing on efficient search algorithms, as well as on discriminative training techniques. In this work, the focus is on speech processing techniques for increasing robustness against additive noise and reverberation. Particularly, techniques exploiting one microphone (single-channel) or multiple microphones (multi-channel) will be presented. Among single-channel tech-niques, improvements of minimum mean squared error based approaches have been proposed. Techniques for gain function smoothing, and soft-decision originally proposed in the frequency domain have been developed in the cepstral domain as well. In order to obtain a computationally efficient algorithm, a cepstral domain maximum a posteriori estimator has also been proposed. Among multi-channel techniques, two bayesian estimators in the cepstral domain have been pro-posed. Experimental results demonstrated their effectiveness in improving speech recognition accuracy with respect to their single-channel counterpart at the same time reducing the computational load if compared with the frequency domain methods. Besides the bayesian estimators a multi-channel histogram equalization algorithm is advanced where the multiple audio channels are exploited to reduce the noise variance and to obtain a more reliable noisy cumulative density function estimate. In order to alleviate the reverberation problem, blind deconvolution has been taken into account. In particular the theoretical basis of the subband blind channel identification are studied. The application of blind channel identification in the subband framework has not yet deeply investigate and therefore represents a challenging research topic. In this sense this work would be a fist approach to better understand the issues relating to its application in realistic der-everberation problem. With the aim of improving the performance of automatic speech recognition system in meet-ing scenario, a real-time implementation of an existing framework for source separation and speech dereverberation is also presented. The innovation lies in overcoming several limitation of such a framework that does not allow its application in real world application. In particular we propose an iterative inverse filtering technique, which significantly reduce the computational cost, to replace the optimum least square solution used in the reference approach. This allows the in-version of long room impulse responses in real-time applications. We also add a speaker diariza-tion stage to correctly drive all the other stages of the framework thus allowing the identification task to be accomplished directly on the microphone mixture. Research on innovative speech ap-plications scenarios brought the development of a speech interfaced tabletop display which ex-ploits the proposed algorithms. The scenario considers the presence of four people sitting around a table and having a chat. The system captures some predefined keywords and shows images and words related to the topic of the conversation on the tabletop display. Such stimuli are useful for supporting or fostering the conversation. In this work, the architecture of the speech interface has been defined and particular attention has been devoted to the keyword spotting stage. In or-der to verify the suitability of the proposed system, experiments on a realistic scenario have been conducted.

Oggigiorno l’interazione uomo-macchina ha un ruolo fondamentale nella vita quotidiana delle persone. In particolare, per l’uomo, la voce rappresenta un modo naturale per comunicare e quindi anche una delle soluzione più adatte per interagire con diversi tipi di macchine. Questo spiega perché tecnologie basate su voce hanno guadagnato l’attenzione della comunità scientifica in questi anni. I sistemi di riconoscimento automatico del parlato sono i mezzi attraverso i quali l’interazione vocale con il computer può avvenire. Il riconoscimento vocale è un campo di ricerca molto am-pio: per esempio, la ricerca è rivolta allo sviluppo di algoritmi di ricerca efficienti, oltre che alle tecniche di addestramento discriminativo. In questo lavoro, l’attenzione è focalizzata sulle tecniche processamento per aumentare la ro-bustezza al rumore additivo ed al riverbero. In particolare vengono presentate tecniche che im-piegano un solo microfono (mono-canale) o più microfoni (multi-canale). Per quanto riguarda le tecniche mono-canale sono state proposte due migliorie di algoritmi basati su minimum mean square error. Tecniche basate sullo smoothing della funzione guadagno e su soft-decision origina-riamente proposte nel dominio della frequenza sono state sviluppate nel dominio cepstrale. Al fi-ne di ottenere un algoritmo computazionalmente efficiente è stato anche proposto uno stimatore nel dominio cepstrale basato sul criterio maximum a posteriori. Per quanto riguarda invece le tecniche multi-canale, sono stati proposti due diversi stimatori bayesiani nel dominio cepstrale. I risultati sperimentali hanno dimostrato l’efficacia delle soluzioni proposte nell’aumentare l’accuratezza del riconoscimento rispetto alla loro controparte mono-canale, evidenziando allo stesso tempo una riduzione del carico computazionale rispetto ai metodi nel dominio della fre-quenza. Oltre agli stimatori bayesiani è stato proposto un algoritmo di histogram equalization multi-canale nel quale la presenza di più canali audio viene sfruttata per ridurre la varianza del rumore ed ottenere una più affidabile stima della cumulative density function del segnale rumoro-so. Al fine di alleviare il problema del riverbero sono state analizzate tecniche di blind deconvolu-tion. In particolare, sono state studiate ed analizzate le basi teoriche dell’identificazione blind di risposte impulsive in sottobande. L’uso dell’identificazione blind di risposte impulsive in un fra-mework a sottobande non è stato ancora investigato in dettaglio e dunque rappresenta un tema di ricerca innovativo. In tal senso questo lavoro vuole essere un primo approccio per poter com-prendere meglio le questioni relative alla sua applicazione in situazioni realistiche. Per aumentare le prestazione di sistemi di riconoscimento automatico del parlato in scenari di tipo meeting viene inoltre presentata un’implementazione real-time di un framework esistente per la separazione e la dereverberazione del segnale vocale. L’innovazione sta nel superamento di di-versi limiti presenti in tale sistema che non consentono la sua applicazione in scenari reali. In par-ticolare, viene proposto un metodo iterativo di inverse filtering che riduce significativamente il costo computazionale, per sostituire la soluzione least square utilizzata nell’approccio di riferi-mento. Questo permette l’inversione di risposte impulsive lunghe anche in applicazioni real-time. È stato aggiunto anche un algoritmo di speaker diarization in modo da poter pilotare corretta-mente tutti gli altri stadi del framework, permettendo così che l’identificazione possa essere diret-tamente eseguita utilizzando le misture microfoniche. Lo studio di scenari innovativi per tecnologie vocali ha portato allo sviluppo di un front-end vocale per applicazioni su schermi da tavolo. Lo scenario applicativo prevede la presenza di quat-tro parlatori seduti attorno al tavolo che discutono tra loro. Il sistema cattura alcune parole chiave predefinite, e mostra sullo schermo immagini o parole legate all’argomento della conversazione. Tali stimoli sono utili a favorire e supportare la conversazione tra gli individui. In questo lavoro, ci si è occupati della definizione dei moduli dell’interfaccia vocale, con attenzione particolare ri-volta allo stadio di cattura delle parole chiave. Al fine di verificare l’adeguatezza del sistema pro-posto, sono stati condotti esperimenti su segnali acquisiti in condizioni realistiche.

Multi-channel algorithms for improving speech recognition accuracy in adverse environments / Rotili, Rudy. - (2012 Feb 10).

Multi-channel algorithms for improving speech recognition accuracy in adverse environments

Rotili, Rudy
2012-02-10

Abstract

Nowadays the human-computer interaction plays a fundamental role in the everyday life of people. In particular, for humans, voice is a very natural way of communication and therefore represents one of the most suitable solutions for interact with different kind of machines. This explains why speech technologies have gained the attention of the scientific community during these years. Automatic speech recognition systems are the means by which voice interaction with computers can take place. The speech recognition research field is very wide: For example, re-search is ongoing on efficient search algorithms, as well as on discriminative training techniques. In this work, the focus is on speech processing techniques for increasing robustness against additive noise and reverberation. Particularly, techniques exploiting one microphone (single-channel) or multiple microphones (multi-channel) will be presented. Among single-channel tech-niques, improvements of minimum mean squared error based approaches have been proposed. Techniques for gain function smoothing, and soft-decision originally proposed in the frequency domain have been developed in the cepstral domain as well. In order to obtain a computationally efficient algorithm, a cepstral domain maximum a posteriori estimator has also been proposed. Among multi-channel techniques, two bayesian estimators in the cepstral domain have been pro-posed. Experimental results demonstrated their effectiveness in improving speech recognition accuracy with respect to their single-channel counterpart at the same time reducing the computational load if compared with the frequency domain methods. Besides the bayesian estimators a multi-channel histogram equalization algorithm is advanced where the multiple audio channels are exploited to reduce the noise variance and to obtain a more reliable noisy cumulative density function estimate. In order to alleviate the reverberation problem, blind deconvolution has been taken into account. In particular the theoretical basis of the subband blind channel identification are studied. The application of blind channel identification in the subband framework has not yet deeply investigate and therefore represents a challenging research topic. In this sense this work would be a fist approach to better understand the issues relating to its application in realistic der-everberation problem. With the aim of improving the performance of automatic speech recognition system in meet-ing scenario, a real-time implementation of an existing framework for source separation and speech dereverberation is also presented. The innovation lies in overcoming several limitation of such a framework that does not allow its application in real world application. In particular we propose an iterative inverse filtering technique, which significantly reduce the computational cost, to replace the optimum least square solution used in the reference approach. This allows the in-version of long room impulse responses in real-time applications. We also add a speaker diariza-tion stage to correctly drive all the other stages of the framework thus allowing the identification task to be accomplished directly on the microphone mixture. Research on innovative speech ap-plications scenarios brought the development of a speech interfaced tabletop display which ex-ploits the proposed algorithms. The scenario considers the presence of four people sitting around a table and having a chat. The system captures some predefined keywords and shows images and words related to the topic of the conversation on the tabletop display. Such stimuli are useful for supporting or fostering the conversation. In this work, the architecture of the speech interface has been defined and particular attention has been devoted to the keyword spotting stage. In or-der to verify the suitability of the proposed system, experiments on a realistic scenario have been conducted.
10-feb-2012
Oggigiorno l’interazione uomo-macchina ha un ruolo fondamentale nella vita quotidiana delle persone. In particolare, per l’uomo, la voce rappresenta un modo naturale per comunicare e quindi anche una delle soluzione più adatte per interagire con diversi tipi di macchine. Questo spiega perché tecnologie basate su voce hanno guadagnato l’attenzione della comunità scientifica in questi anni. I sistemi di riconoscimento automatico del parlato sono i mezzi attraverso i quali l’interazione vocale con il computer può avvenire. Il riconoscimento vocale è un campo di ricerca molto am-pio: per esempio, la ricerca è rivolta allo sviluppo di algoritmi di ricerca efficienti, oltre che alle tecniche di addestramento discriminativo. In questo lavoro, l’attenzione è focalizzata sulle tecniche processamento per aumentare la ro-bustezza al rumore additivo ed al riverbero. In particolare vengono presentate tecniche che im-piegano un solo microfono (mono-canale) o più microfoni (multi-canale). Per quanto riguarda le tecniche mono-canale sono state proposte due migliorie di algoritmi basati su minimum mean square error. Tecniche basate sullo smoothing della funzione guadagno e su soft-decision origina-riamente proposte nel dominio della frequenza sono state sviluppate nel dominio cepstrale. Al fi-ne di ottenere un algoritmo computazionalmente efficiente è stato anche proposto uno stimatore nel dominio cepstrale basato sul criterio maximum a posteriori. Per quanto riguarda invece le tecniche multi-canale, sono stati proposti due diversi stimatori bayesiani nel dominio cepstrale. I risultati sperimentali hanno dimostrato l’efficacia delle soluzioni proposte nell’aumentare l’accuratezza del riconoscimento rispetto alla loro controparte mono-canale, evidenziando allo stesso tempo una riduzione del carico computazionale rispetto ai metodi nel dominio della fre-quenza. Oltre agli stimatori bayesiani è stato proposto un algoritmo di histogram equalization multi-canale nel quale la presenza di più canali audio viene sfruttata per ridurre la varianza del rumore ed ottenere una più affidabile stima della cumulative density function del segnale rumoro-so. Al fine di alleviare il problema del riverbero sono state analizzate tecniche di blind deconvolu-tion. In particolare, sono state studiate ed analizzate le basi teoriche dell’identificazione blind di risposte impulsive in sottobande. L’uso dell’identificazione blind di risposte impulsive in un fra-mework a sottobande non è stato ancora investigato in dettaglio e dunque rappresenta un tema di ricerca innovativo. In tal senso questo lavoro vuole essere un primo approccio per poter com-prendere meglio le questioni relative alla sua applicazione in situazioni realistiche. Per aumentare le prestazione di sistemi di riconoscimento automatico del parlato in scenari di tipo meeting viene inoltre presentata un’implementazione real-time di un framework esistente per la separazione e la dereverberazione del segnale vocale. L’innovazione sta nel superamento di di-versi limiti presenti in tale sistema che non consentono la sua applicazione in scenari reali. In par-ticolare, viene proposto un metodo iterativo di inverse filtering che riduce significativamente il costo computazionale, per sostituire la soluzione least square utilizzata nell’approccio di riferi-mento. Questo permette l’inversione di risposte impulsive lunghe anche in applicazioni real-time. È stato aggiunto anche un algoritmo di speaker diarization in modo da poter pilotare corretta-mente tutti gli altri stadi del framework, permettendo così che l’identificazione possa essere diret-tamente eseguita utilizzando le misture microfoniche. Lo studio di scenari innovativi per tecnologie vocali ha portato allo sviluppo di un front-end vocale per applicazioni su schermi da tavolo. Lo scenario applicativo prevede la presenza di quat-tro parlatori seduti attorno al tavolo che discutono tra loro. Il sistema cattura alcune parole chiave predefinite, e mostra sullo schermo immagini o parole legate all’argomento della conversazione. Tali stimoli sono utili a favorire e supportare la conversazione tra gli individui. In questo lavoro, ci si è occupati della definizione dei moduli dell’interfaccia vocale, con attenzione particolare ri-volta allo stadio di cattura delle parole chiave. Al fine di verificare l’adeguatezza del sistema pro-posto, sono stati condotti esperimenti su segnali acquisiti in condizioni realistiche.
Robust speech recognition
Speech enhancement
Blind channel identification
Noise reduction
Dereverberation
File in questo prodotto:
File Dimensione Formato  
Tesi.Rotili.pdf

Solo gestori archivio

Tipologia: Tesi di dottorato
Licenza d'uso: Non specificato
Dimensione 21.95 MB
Formato Adobe PDF
21.95 MB Adobe PDF   Visualizza/Apri   Richiedi una copia

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11566/242318
 Attenzione

Attenzione! I dati visualizzati non sono stati sottoposti a validazione da parte dell'ateneo

Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact