This thesis addresses the tasks of Voice Activity Detection (VAD) and Speaker LOCalization (SLOC) in reverberant environments. A data-driven approach characterizes this work, where Deep Neural Networks (DNN) are largely employed and investigated. Indeed, although VAD and SLOC have been assessed by classical algorithms for a long time, the new breakthrough of machine learning for audio processing has lead to encouraging results into the addressed tasks. Hence, this thesis proposes several reliable DNN-based strategies for VAD and SLOC, which act more robustly when tested against classical algorithms. Furthermore, DNNs are a powerful tool to develop human-inspired systems and joint VAD and SLOC frameworks, reason why they are the interest of this work. Initially, VAD and SLOC are analysed separately, in order to properly focus on novel approaches for audio processing by means of DNNs. In particular, this work is driven by an extensive employment of Convolutional Neural Networks (CNNs). Indeed, a virtuous exploitation of data captured by multiple microphones and a temporal evolution of the signal is possible by means of CNNs convolutional kernels. A multi-room environment is chosen to assess the performance of the proposed algorithms, since it shows a high degree of similarity with a real world scenario. There issues such as reverberation, cross-talk through multiple rooms and a wide range of background noise must be dealt with. Along with this, studies focus on binaural sound localization, which is addressed by means of models inspired by the human hearing systems. In particular, the tasks of determining the azimuth and the elevation of a speaker are separately addressed. The first case study is solved by means of an end-to-end approach, which learns to localize sounds similarly to human beings. After that, elevation is estimated from the frequency domain amplitude and phase of the signals, outperforming the state-of-the-art models present in literature. Finally, VAD and SLOC are jointly performed by means of a unique framework, whose purpose is to increase the overall performance over the two tasks. Indeed, a CNN-based model capable of virtuously exploiting localization and detection related features, achieves remarkable results in terms of VAD. In addition, a novel data augmentation technique is proposed in this study, where the acoustic scenes of two different rooms are simulated.

In questa tesi vengono affrontate le tematiche del Voice Activity Detection (VAD) e dello Speaker LOCalization (SLOC) in ambiente riverberante. Un approccio data-driven caratterizza questo lavoro, e per questo motivo reti neurali deep vengono ampliamente sfruttate e analizzate. Sebbene diversi algoritmi classici siano stati utilizzati per VAD e SLOC per lungo tempo, le recenti scoperte nel campo del machine learning applicato all’audio hanno portato a risultati incoraggianti per quanto concerne VAD e SLOC. Di conseguenza, questa tesi propone numerose strategie vincenti per VAD e SLOC basate su reti neurali, che si dimostrano piú performanti e piú robuste quando paragonate ad algoritmi classici. In aggiunta, le reti neurali risultano un ottimo strumento per sviluppare modelli matematici ispirati dal sistema uditivo umano, o per studiare approcci capaci di fare rilevamento e localizzazione di un parlatore in modo simultaneo; per questo motivo vengono quindi sfruttate in questo lavoro. Inizialmente le tematiche di VAD e SLOC vengono affrontate separatamente, in modo da potersi focalizzare accuratamente su nuovi approcci basati su reti neurali. In particolare, questa tesi fa affidamento su un impiego estensivo di reti neurali convoluzionali (CNN). Infatti, questa architettura neurale permette uno sfruttamento intensivo di segnali audio catturati da diversi microfoni, insieme alla possibilitá di impiegare un’evoluzione temporale del segnale. Per testare gli algoritmi proposti si sceglie un ambiente caratterizzato da piú stanze, in quanto mostra un alto grado di somiglianza con uno scenario reale. In particolare questo ambiente é soggetto a problematiche come riverbero, individui parlanti contemporaneamente e una grossa varietá di rumore di sottofondo. Insieme a questo viene affrontata la tematica della localizzazione del suono da udito binaurale, tramite modelli neurali ispirati dall’apparato uditivo umano. Nel dettaglio, ci si pone l’obiettivo di stimare separatamente l’azimuth e l’altezza di un parlatore. Nel primo caso, viene proposto un approccio end-to-end per la stima dell’azimuth, il quale si dimostra capace di imparare a localizzare il suono in maniera simile all’essere umano. Dopo di ció, l’altezza del parlatore dal suolo viene stimata per mezzo di un sistema che sfrutta l’ampiezza e la fase del segnale nel dominio della frequenza, il quale ottiene prestazioni migliori dei sistemi presenti in letteratura. Infine viene proposto un sistema capace di eseguire VAD e SLOC allo stesso tempo, il cui obiettivo é di migliorare l’accuratezza del sistema stesso. Per questo motivo si sviluppa un modello basato su CNN capace di sfruttare in maniera virtuosa due diverse features audio mirate al rilevamento e alla localizzazione del parlatore, rispettivamente. Insieme a questo, viene proposta una nuova tecnica di data augmentation, che permette di simulare le scene acustiche di due diverse stanze.

Deep neural networks for speech detection and speaker localization in reverberant environments / Vecchiotti, Paolo. - (2019 Mar 14).

Deep neural networks for speech detection and speaker localization in reverberant environments

VECCHIOTTI, PAOLO
2019-03-14

Abstract

This thesis addresses the tasks of Voice Activity Detection (VAD) and Speaker LOCalization (SLOC) in reverberant environments. A data-driven approach characterizes this work, where Deep Neural Networks (DNN) are largely employed and investigated. Indeed, although VAD and SLOC have been assessed by classical algorithms for a long time, the new breakthrough of machine learning for audio processing has lead to encouraging results into the addressed tasks. Hence, this thesis proposes several reliable DNN-based strategies for VAD and SLOC, which act more robustly when tested against classical algorithms. Furthermore, DNNs are a powerful tool to develop human-inspired systems and joint VAD and SLOC frameworks, reason why they are the interest of this work. Initially, VAD and SLOC are analysed separately, in order to properly focus on novel approaches for audio processing by means of DNNs. In particular, this work is driven by an extensive employment of Convolutional Neural Networks (CNNs). Indeed, a virtuous exploitation of data captured by multiple microphones and a temporal evolution of the signal is possible by means of CNNs convolutional kernels. A multi-room environment is chosen to assess the performance of the proposed algorithms, since it shows a high degree of similarity with a real world scenario. There issues such as reverberation, cross-talk through multiple rooms and a wide range of background noise must be dealt with. Along with this, studies focus on binaural sound localization, which is addressed by means of models inspired by the human hearing systems. In particular, the tasks of determining the azimuth and the elevation of a speaker are separately addressed. The first case study is solved by means of an end-to-end approach, which learns to localize sounds similarly to human beings. After that, elevation is estimated from the frequency domain amplitude and phase of the signals, outperforming the state-of-the-art models present in literature. Finally, VAD and SLOC are jointly performed by means of a unique framework, whose purpose is to increase the overall performance over the two tasks. Indeed, a CNN-based model capable of virtuously exploiting localization and detection related features, achieves remarkable results in terms of VAD. In addition, a novel data augmentation technique is proposed in this study, where the acoustic scenes of two different rooms are simulated.
14-mar-2019
In questa tesi vengono affrontate le tematiche del Voice Activity Detection (VAD) e dello Speaker LOCalization (SLOC) in ambiente riverberante. Un approccio data-driven caratterizza questo lavoro, e per questo motivo reti neurali deep vengono ampliamente sfruttate e analizzate. Sebbene diversi algoritmi classici siano stati utilizzati per VAD e SLOC per lungo tempo, le recenti scoperte nel campo del machine learning applicato all’audio hanno portato a risultati incoraggianti per quanto concerne VAD e SLOC. Di conseguenza, questa tesi propone numerose strategie vincenti per VAD e SLOC basate su reti neurali, che si dimostrano piú performanti e piú robuste quando paragonate ad algoritmi classici. In aggiunta, le reti neurali risultano un ottimo strumento per sviluppare modelli matematici ispirati dal sistema uditivo umano, o per studiare approcci capaci di fare rilevamento e localizzazione di un parlatore in modo simultaneo; per questo motivo vengono quindi sfruttate in questo lavoro. Inizialmente le tematiche di VAD e SLOC vengono affrontate separatamente, in modo da potersi focalizzare accuratamente su nuovi approcci basati su reti neurali. In particolare, questa tesi fa affidamento su un impiego estensivo di reti neurali convoluzionali (CNN). Infatti, questa architettura neurale permette uno sfruttamento intensivo di segnali audio catturati da diversi microfoni, insieme alla possibilitá di impiegare un’evoluzione temporale del segnale. Per testare gli algoritmi proposti si sceglie un ambiente caratterizzato da piú stanze, in quanto mostra un alto grado di somiglianza con uno scenario reale. In particolare questo ambiente é soggetto a problematiche come riverbero, individui parlanti contemporaneamente e una grossa varietá di rumore di sottofondo. Insieme a questo viene affrontata la tematica della localizzazione del suono da udito binaurale, tramite modelli neurali ispirati dall’apparato uditivo umano. Nel dettaglio, ci si pone l’obiettivo di stimare separatamente l’azimuth e l’altezza di un parlatore. Nel primo caso, viene proposto un approccio end-to-end per la stima dell’azimuth, il quale si dimostra capace di imparare a localizzare il suono in maniera simile all’essere umano. Dopo di ció, l’altezza del parlatore dal suolo viene stimata per mezzo di un sistema che sfrutta l’ampiezza e la fase del segnale nel dominio della frequenza, il quale ottiene prestazioni migliori dei sistemi presenti in letteratura. Infine viene proposto un sistema capace di eseguire VAD e SLOC allo stesso tempo, il cui obiettivo é di migliorare l’accuratezza del sistema stesso. Per questo motivo si sviluppa un modello basato su CNN capace di sfruttare in maniera virtuosa due diverse features audio mirate al rilevamento e alla localizzazione del parlatore, rispettivamente. Insieme a questo, viene proposta una nuova tecnica di data augmentation, che permette di simulare le scene acustiche di due diverse stanze.
Voice Activity Detection; Speaker Localization; Deep Neural Networks
File in questo prodotto:
File Dimensione Formato  
Tesi_Vecchiotti.pdf

accesso aperto

Descrizione: Tesi_Vecchiotti.pdf
Tipologia: Tesi di dottorato
Licenza d'uso: Creative commons
Dimensione 73.71 MB
Formato Adobe PDF
73.71 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11566/263049
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact