Over the last few years, the automotive industry has directed its research toward intelligent vehicles that come with sophisticated driver-assistance technologies to enhance the safety of drivers and passengers. These systems are designed to match the human ability to perceive and react to the surrounding environment in order to help drivers make better decisions, all the way to the ultimate goal of autonomous driving. A central factor in human perception is hearing, and deep learning applied to audio signal processing has developed computational models that can detect and identify sounds in the environment around the car. This research explores the potential of intelligent monitoring systems for advanced human-vehicle interaction solutions, specifically focusing on emergency vehicle detection systems for smart cars. As a first approach, an algorithm is proposed for generating synthetic audio files to reproduce siren sounds in multiple noise contexts, which, balanced with urban traffic noises, are used to train a convolutional neural network for siren/noise classification. Several acoustic features, source separation techniques, and strategies to reduce the computational load of the algorithm are studied to identify siren sounds even in loud background noise. This research also presents a workflow based on few-shot metric learning for emergency siren detection, which uses prototypical networks to recognize ambulance sirens without requiring extensive real-world data collection or domain adaptation strategies. A novel prototype of driver-assistant for emergency-vehicles detection is also proposed. This device uses audio-based deep learning algorithms to detect an emergency vehicle approaching through the sound of its siren and computer vision techniques to monitor the driver's attention through gaze movements. The innovation lies in the alerting based on the driver's awareness, which limits warnings only to situations of actual need. Finally, an audio-visual dataset for driving scene understanding is presented. Data are representative of different types of roads, urbanization contexts, weather and lighting conditions. This dataset is a valuable instrument for developing driver-assistance technologies that rely on audio and video data in single-modality or multimodality and for improving the performance of systems currently in use. This research shows that the topic of emergency siren detection and, in general, ambient intelligence in the automotive field still has great potential for innovation in terms of reliable, customizable, and cost-effective solutions.

Negli ultimi anni, l'industria automobilistica ha indirizzato la sua ricerca verso veicoli intelligenti, dotati di sofisticate tecnologie di assistenza alla guida per migliorare la sicurezza di conducenti e passeggeri. Questi sistemi sono stati progettati per eguagliare la capacità umana di percepire e reagire all'ambiente circostante, al fine di aiutare i conducenti a prendere decisioni migliori, fino all'obiettivo finale della guida autonoma. Un fattore centrale nella percezione umana è l'udito, e l'apprendimento profondo applicato all'elaborazione del segnale audio ha sviluppato modelli computazionali in grado di rilevare e identificare i suoni nell'ambiente circostante l'automobile. Questa ricerca esplora il potenziale dei sistemi di monitoraggio per soluzioni avanzate di interazione uomo-veicolo, concentrandosi in particolare sui sistemi di rilevamento dei veicoli di emergenza per le auto intelligenti. Come primo approccio, viene proposto un algoritmo per la generazione di file audio sintetici per riprodurre i suoni delle sirene in molteplici contesti di rumore, che, bilanciati con rumori del traffico urbano, vengono utilizzati per addestrare una rete neurale convoluzionale per la classificazione sirena/rumore. Sono state studiate diverse rappresentazioni acustiche, tecniche di separazione dei segnali e strategie per ridurre il carico computazionale dell'algoritmo, al fine di identificare i suoni delle sirene anche in presenza di elevati rumori di fondo. Questa ricerca presenta anche un flusso di lavoro basato sull'apprendimento metrico “few-shot” per il rilevamento delle sirene di emergenza, il quale utilizza reti prototipiche per riconoscere le sirene delle ambulanze senza richiedere un'ampia raccolta di dati reali o strategie di adattamento dei domini. Viene proposto anche un nuovo prototipo di assistente alla guida per il rilevamento dei veicoli di emergenza. Questo dispositivo utilizza algoritmi di deep learning basati sull'audio per rilevare un veicolo di emergenza in avvicinamento attraverso il suono della sua sirena e tecniche di computer vision per monitorare l'attenzione del conducente attraverso i movimenti dello sguardo. L'innovazione sta nell’emissione di un segnale di avvertimento basato sulla consapevolezza del conducente, che limita gli avvisi solo alle situazioni di effettiva necessità. Infine, viene presentato un set di dati audiovisivi per la comprensione della scena di guida. I dati sono rappresentativi di diversi tipi di strade, contesti di urbanizzazione, condizioni meteorologiche e di illuminazione. Questo set di dati è uno strumento prezioso per lo sviluppo di tecnologie di assistenza alla guida che si basano su dati audio e video in modalità singola o multimodale e per migliorare le prestazioni dei sistemi attualmente in uso. Questa ricerca dimostra che il tema del rilevamento delle sirene di emergenza e, in generale, dell'intelligenza ambientale nel settore automobilistico ha ancora un grande potenziale di innovazione in termini di soluzioni affidabili, personalizzabili ed economiche.

Deep Learning for Audio Signal Processing in the Automotive Field / Cantarini, Michela. - (2023 Jun 19).

Deep Learning for Audio Signal Processing in the Automotive Field

CANTARINI, MICHELA
2023-06-19

Abstract

Over the last few years, the automotive industry has directed its research toward intelligent vehicles that come with sophisticated driver-assistance technologies to enhance the safety of drivers and passengers. These systems are designed to match the human ability to perceive and react to the surrounding environment in order to help drivers make better decisions, all the way to the ultimate goal of autonomous driving. A central factor in human perception is hearing, and deep learning applied to audio signal processing has developed computational models that can detect and identify sounds in the environment around the car. This research explores the potential of intelligent monitoring systems for advanced human-vehicle interaction solutions, specifically focusing on emergency vehicle detection systems for smart cars. As a first approach, an algorithm is proposed for generating synthetic audio files to reproduce siren sounds in multiple noise contexts, which, balanced with urban traffic noises, are used to train a convolutional neural network for siren/noise classification. Several acoustic features, source separation techniques, and strategies to reduce the computational load of the algorithm are studied to identify siren sounds even in loud background noise. This research also presents a workflow based on few-shot metric learning for emergency siren detection, which uses prototypical networks to recognize ambulance sirens without requiring extensive real-world data collection or domain adaptation strategies. A novel prototype of driver-assistant for emergency-vehicles detection is also proposed. This device uses audio-based deep learning algorithms to detect an emergency vehicle approaching through the sound of its siren and computer vision techniques to monitor the driver's attention through gaze movements. The innovation lies in the alerting based on the driver's awareness, which limits warnings only to situations of actual need. Finally, an audio-visual dataset for driving scene understanding is presented. Data are representative of different types of roads, urbanization contexts, weather and lighting conditions. This dataset is a valuable instrument for developing driver-assistance technologies that rely on audio and video data in single-modality or multimodality and for improving the performance of systems currently in use. This research shows that the topic of emergency siren detection and, in general, ambient intelligence in the automotive field still has great potential for innovation in terms of reliable, customizable, and cost-effective solutions.
19-giu-2023
Negli ultimi anni, l'industria automobilistica ha indirizzato la sua ricerca verso veicoli intelligenti, dotati di sofisticate tecnologie di assistenza alla guida per migliorare la sicurezza di conducenti e passeggeri. Questi sistemi sono stati progettati per eguagliare la capacità umana di percepire e reagire all'ambiente circostante, al fine di aiutare i conducenti a prendere decisioni migliori, fino all'obiettivo finale della guida autonoma. Un fattore centrale nella percezione umana è l'udito, e l'apprendimento profondo applicato all'elaborazione del segnale audio ha sviluppato modelli computazionali in grado di rilevare e identificare i suoni nell'ambiente circostante l'automobile. Questa ricerca esplora il potenziale dei sistemi di monitoraggio per soluzioni avanzate di interazione uomo-veicolo, concentrandosi in particolare sui sistemi di rilevamento dei veicoli di emergenza per le auto intelligenti. Come primo approccio, viene proposto un algoritmo per la generazione di file audio sintetici per riprodurre i suoni delle sirene in molteplici contesti di rumore, che, bilanciati con rumori del traffico urbano, vengono utilizzati per addestrare una rete neurale convoluzionale per la classificazione sirena/rumore. Sono state studiate diverse rappresentazioni acustiche, tecniche di separazione dei segnali e strategie per ridurre il carico computazionale dell'algoritmo, al fine di identificare i suoni delle sirene anche in presenza di elevati rumori di fondo. Questa ricerca presenta anche un flusso di lavoro basato sull'apprendimento metrico “few-shot” per il rilevamento delle sirene di emergenza, il quale utilizza reti prototipiche per riconoscere le sirene delle ambulanze senza richiedere un'ampia raccolta di dati reali o strategie di adattamento dei domini. Viene proposto anche un nuovo prototipo di assistente alla guida per il rilevamento dei veicoli di emergenza. Questo dispositivo utilizza algoritmi di deep learning basati sull'audio per rilevare un veicolo di emergenza in avvicinamento attraverso il suono della sua sirena e tecniche di computer vision per monitorare l'attenzione del conducente attraverso i movimenti dello sguardo. L'innovazione sta nell’emissione di un segnale di avvertimento basato sulla consapevolezza del conducente, che limita gli avvisi solo alle situazioni di effettiva necessità. Infine, viene presentato un set di dati audiovisivi per la comprensione della scena di guida. I dati sono rappresentativi di diversi tipi di strade, contesti di urbanizzazione, condizioni meteorologiche e di illuminazione. Questo set di dati è uno strumento prezioso per lo sviluppo di tecnologie di assistenza alla guida che si basano su dati audio e video in modalità singola o multimodale e per migliorare le prestazioni dei sistemi attualmente in uso. Questa ricerca dimostra che il tema del rilevamento delle sirene di emergenza e, in generale, dell'intelligenza ambientale nel settore automobilistico ha ancora un grande potenziale di innovazione in termini di soluzioni affidabili, personalizzabili ed economiche.
deep learning; audio signal processing; emergency siren detection; automotive
apprendimento profondo; elaborazione del segnale audio; rilevamento delle sirene di emergenza; automobilistico
File in questo prodotto:
File Dimensione Formato  
Tesi_Cantarini.pdf

accesso aperto

Descrizione: Tesi_Cantarini
Tipologia: Tesi di dottorato
Licenza d'uso: Creative commons
Dimensione 11.75 MB
Formato Adobe PDF
11.75 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11566/315352
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact