Front-End Processing for Speech Applications with Deep Learning Techniques

Cornell, Samuele

Front-end speech processing plays a vital role in many everyday applications such as teleconferencing and telephone conversations, hearing aid devices, voice-enabled assistants and more. Such term encompasses a wide variety of tasks and absolves to at least as many tasks as are the potential applications: voice activity detection and keyword spotting, denoising, dereverberation, diarization and so on, each performing an essential pre-processing step for a particular downstream use-case. The goal of this dissertation is to give an overview of front-end speech processing and present different contributions to this important line of research that address many practical problems. More in detail, here we focus especially on the use of deep learning techniques, often supported by classical signal processing techniques, to tackle the front-end tasks of multi-channel speech enhancement, channel selection, keyword spotting, speaker counting and diarization. Emphasis is placed on low computational complexity and/or low-latency approaches as well as integration between different front-end components to achieve one particular goal e.g. voice activity detection together with speech separation to obtain diarization or the use of spatial features to improve speaker counting. Regarding multi-channel speech enhancement we present a study on the use of learnable filterbanks for acoustic beamforming which can open up interesting future research directions towards low-latency applications. We also address the channel selection problem and propose to formulate it as a learning to rank problem. Our proposed MicRank algorithm is lightweight and can achieve performance in some instances close to oracle selection techniques. Low computational requirements are also the primary goal of our implicit acoustic echo cancellation framework, which allows for streamable robust keyword spotting and device-directed speech detection on edge devices. It is also one of the main focuses of our study on overlapped speech detection and speaker counting on real world meeting corpora. Regarding this latter, we show that spatial based features could boost considerably the performance and at the same time keep the computational cost contained. Finally we present a work on speech separation guided diarization for telephone conversations, in which we place special attention on extreme low-latency use-cases. The results are promising in terms of recognition and diarization performance and open up exciting prospects for applications such as live captioning.

L’elaborazione vocale front-end gioca un ruolo fondamentale per varie applicazioni quotidiane come le teleconferenze e le conversazioni telefoniche, apparecchi acustici, assistenti vocali e molto altro. Questo termine incorpora una larga varietà di attività e assolve tante di queste quante sono le possibili applicazioni: attività di riconoscimento vocale e di parole chiave, cancellazione del rumore e del riverbero, diarizzazione e così via, ognuno dei quali ricopre una fase di pre-elaborazione essenziale per un particolare caso d'uso a valle. L’obiettivo di questa tesi è fornire una visione generale dell’elaborazione vocale front end e presentare diversi contributi a questa importante linea di ricerca che fa riferimento a molti problemi pratici. Più in dettaglio, si focalizza in particolare sull’uso delle tecniche di deep learning, spesso supportate dalle tecniche classiche di processing per immagini, per affrontare i compiti front-end di miglioramento del parlato multicanale, selezione dei canali, individuazione delle parole chiave, conteggio degli altoparlanti e diarizzazione. L'accento è posto su approcci a bassa complessità computazionale e/o a bassa latenza, nonché sull'integrazione tra diversi componenti di front-end per raggiungere un obiettivo particolare, ad esempio il rilevamento dell'attività vocale insieme alla separazione del parlato per ottenere la diarizzazione o l'uso di caratteristiche spaziali per migliorare il conteggio dei parlanti. Per quanto riguarda il potenziamento del parlato multicanale, presentiamo uno studio sull'uso di gruppi di filtri apprendibili per la formazione di fasci acustici, che può aprire interessanti direzioni di ricerca future verso applicazioni a bassa latenza. Viene affrontato inoltre il problema della selezione dei canali e si propone di formularlo come un problema di apprendimento per rango. L'algoritmo MicRank proposto è leggero e in alcuni casi può raggiungere prestazioni vicine alle tecniche di selezione con oracolo. I bassi requisiti computazionali sono anche l'obiettivo principale del nostro framework di cancellazione implicita dell'eco acustico, che consente di individuare in modo robusto e in streaming le parole chiave e di rilevare il parlato su dispositivi edge. È anche uno degli obiettivi principali del nostro studio sul rilevamento del parlato sovrapposto e sul conteggio dei parlanti su corpora di riunioni del mondo reale. Per quanto riguarda quest'ultimo aspetto, dimostriamo che le caratteristiche basate sullo spazio possono aumentare notevolmente le prestazioni e allo stesso tempo mantenere il costo computazionale contenuto. Infine, si presenta un lavoro di diarizzazione guidata della separazione del parlato per le conversazioni telefoniche, in cui si pone particolare attenzione ai casi d'uso a bassa latenza. I risultati sono promettenti in termini di prestazioni di riconoscimento e diarizzazione e aprono prospettive interessanti per applicazioni come il live captioning.

Front-End Processing for Speech Applications with Deep Learning Techniques / Cornell, Samuele. - (2023 Jun 19).