Advanced Deep Learning Techniques for Analysis and Reconstruction of Audio Signals

Aironi, Carlo

Recently, there has been a significant increase in the utilization of digital audio-video communication systems, even more due to the altered lifestyle imposed by the recent pandemic, which necessitated minimizing interpersonal interactions. The potential of remote communication has thus been unveiled, opening up futuristic scenarios that go beyond simple audio or video interactions but look toward immersive and interactive experiences. Despite the significant advancements in networking technologies, real-time transmissions continue to face challenges due to the possibility of data loss. Especially in voice communications, this loss not only compromises sound quality but also reduces overall intelligibility. Notably, machine learning and deep neural networks are revolutionizing ever more daily activities, among them, speech enhancement showed remarkable results in improving the speech signals affected by imperfections. The objective of this thesis is twofold: first, to provide a novel perspective for the analysis of audio signals used in deep neural networks, and second, to develop methodologies, based on generative neural networks, for the restoration of transmission errors, potentially occurring in packet-switched networks. In the first study, we propose a novel way to model an audio signal by deriving a graph representation from its spectrogram, and exploiting graph neural network (GNN) learning models for the task of sound event classification (SEC). We then used a graph structure to exploit label co-occurrence information and improve the performance of a standard audio feature-based classifier, in a weakly labeled SEC task. With regard to the restoration of signals that suffer packet losses, we speak of "concealment" of loss meaning that the approach used at the receiving end is to provide a reconstruction that makes the listener unaware of the loss event, thus eliminating listening fatigue. Inspired by the latest proposed solutions for packet loss concealment (PLC), we present several approaches based on generative neural networks, for loss mitigation. Each of these approaches aim at improving with respect to the most critical issues of the problem under consideration, namely the maximum width of addressable lost gaps, and the computational complexity, which may affect the ability to operate in real-time scenarios. Evaluations conducted with simulated losses and traces observed on real VoIP calls, showed state-of-the-art capabilities in modeling either speech and music signals. Finally, GNNs were applied in a different context, to solve a well-known combinatorial optimization problem, the Linear Sum Assignment Problem (LSAP), with the goal of providing a learnable and differentiable framework, potentially useful in tasks where such assignment problems occur.

Negli ultimi tempi si è assistito a un significativo aumento dell'utilizzo di sistemi di comunicazione digitale audio-video, soprattutto a causa del mutato stile di vita imposto dalla recente pandemia, che ha reso necessario ridurre al minimo le interazioni interpersonali. Il potenziale della comunicazione a distanza ha rivelato scenari futuristici che vanno oltre le semplici interazioni audio o video, ma che mirano a esperienze sempre più immersive e interattive. Nonostante i significativi progressi nelle tecnologie di rete, le trasmissioni in tempo reale continuano a risentire dei problemi derivanti dalla possibile perdita di dati. Soprattutto nelle comunicazioni vocali, questa perdita non solo compromette la qualità del suono, ma riduce anche l'intelligibilità del messaggio contenuto. L'apprendimento automatico e le reti neurali profonde stanno rivoluzionando un numero sempre maggiore di attività quotidiane, tra le quali il miglioramento dei segnali vocali ha mostrato risultati sorprendenti. L'obiettivo di questa tesi è duplice: in primo luogo, fornire una prospettiva innovativa per l'analisi dei segnali audio utilizzati nelle reti neurali e, in secondo luogo, sviluppare metodologie, basate su reti neurali generative, per il ripristino degli errori di trasmissione, inevitabilmente presenti nelle reti a commutazione di pacchetto. Nel primo studio, viene proposta una metodologia innovativa per la modellazione di uno spettrogramma sonoro, attraverso una rappresentazione a grafo, e vengono applicati modelli di apprendimento basati su Graph Neural Networks (GNN) per la classificazione di eventi sonori (SEC). Viene inoltre utilizzata una struttura a grafo per estrarre le informazioni di co-occorrenza delle classi e migliorare le prestazioni di un classificatore standard, in un contesto di classificazione di eventi sonori in presenza di dati debolmente etichettati. Per quanto riguarda il ripristino di segnali, si parla di "occultamento della perdita di pacchetti" (packet loss concealment, PLC), intendendo con ciò che l'approccio utilizzato al ricevitore è quello di fornire una ricostruzione tale da rendere la perdita impercettibile all'orecchio dell'ascoltatore. Ispirandoci alle recenti soluzioni proposte per la risoluzione del problema PLC, vengono presentati diversi approcci basati su reti neurali generative, per la mitigazione della perdita. Ognuno di questi approcci mira a migliorare gli aspetti più critici del problema in esame, quali l'ampiezza massima delle ricostruzioni e la complessità computazionale, che può influire sulla capacità di operare la trasmissione in tempo reale. Le valutazioni condotte, sia con perdite simulate che con tracce osservate su reali chiamate VoIP, hanno mostrato performance all'avanguardia nella modellazione di segnali vocali e musicali. Infine, le reti neurali GNN sono state applicate in un contesto diverso, per la risoluzione di un noto problema di ottimizzazione combinatoria, il Linear Sum Assignment Problem (LSAP), con l'obiettivo di fornire una struttura data-driven e differenziabile, potenzialmente utile negli ambiti in cui tali problemi di assegnazione si presentano.

Advanced Deep Learning Techniques for Analysis and Reconstruction of Audio Signals / Aironi, Carlo. - (2024 Jun 24).