Nowadays, there is a large interest towards multimedia teleconferencing sys- tems as a consequence of the increasing requirement for efficent communica- tions and the development of advanced digital signal processing techniques. A teleconferencing system should provide a realistic representation of visual and sound fields, allowing a natural communication among participants any- where in the world as they were all in the same room. In this context, a lot of systems have been developed ranging from PC-based applications, thought for single users communications, up to complex systems provided with large video screens playing the remote room as it were a continuum of the local room. In teleconferencing systems the undesired echo due to coupling between the loudspeaker and the microphone can be reduced using an acoustic echo can- celer (AEC). In the presence of more than one participant, multichannel systems have to be taken into consideration for speaker localization. More realistic performance can be already obtained through stereophonic systems since listeners have spatial information that helps to identify the speaker position. Anyway, more adaptive lters have to be used and the linear rela- tionship existing between the two channels generated from the same source brings some additional problems: the solution of the adaptive algorithm is not unique and depends on the speaker position in the transmission room which is not stationary, causing possible convergence problems. Moreover, the choice of the adaptive algorithm becomes extremely important because the performance depends on the condition number of the input signal which is very high in the multichannel scenario. In this thesis novel contributions for stereophonic acoustic echo cancellation are given based on the \missing- fundamental" phenomenon. The novelty of the solutions is related to the great interchannel coherence reduction obtained without a ecting speech quality and stereo perception. Moreover, a solution for improving the con- vergence speed of adaptive lters is discussed based on a variable step-size method: the approach is applied to stereophonic acoustic echo cancellation but, actually, it can be used for generic adaptive algorithms. Contextually, there has been an increasing interest in the design of systems providing a reproduction of sounds as realistic as possible so that the lis- tener does not notice that they have been produced arti cially since he is immersed in the virtual audio scene surrounded by a large number of loud- speakers. Conventional systems are designed to obtain the optimal acoustic sensation in a particular position of the listening environment, i.e., the so called sweet spot. Furthermore, it is impossible to achieve a correct source localization with a limited number of loudspeakers. Hence, several research e orts have been made in the optimization of these systems, focusing on new recording and reproduction techniques, i.e., Wave Field Analysis (WFA) and Wave Field Synthesis (WFS). The former is a sound eld recording tech- nique based on microphone arrays and the latter allows sound eld synthesis through loudspeakers arrays. At the aim of using these techniques in real world applications (e.g., teleconferencing systems, cinemas, home theatres) it is necessary to apply multichannel digital signal processing algorithms, already developed for traditional systems. This led to the introduction of Wave Domain Adaptive Filtering (WDAF), a spatio-temporal generalization of Fast Least Mean Squares adaptive algorithm, allowing a considerable re- duction of the computational complexity. Efficient solutions for real time implementation and possible phase approx- imations of the driving functions used in order to manage the loudspeakers are discussed in this thesis. Furthermore, a Weighted-Overlap-Add-based (WOLA-based) approach for WDAF and a WFS-based digital pointing of line arrays are presented: the objective of these studies is that of apply- ing these concepts in real scenarios, such as a teleconferencing system. In- deed, the aforementioned immersive audio reproduction techniques can be exploited for enhancing the performance of life-sized teleconferencing sys- tems, combining temporal and spatial requirements. Furthermore, audio rendering algorithms are needed to improve the perceived audio quality in order to make the listening environment more pleasant by taking into account some speci c features of the environment. More specifically, equalization represents a powerful tool capable of dealing with the frequency response irregularities: an equalizer can compensates for speaker placement and listening room characteristics and it can be applied in a tele-conferencing system to make the communication the most natural as possible. The evaluation of a multipoint equalizer and a mixed-phase solution with a suitably designed room group delay are discussed in this work.

Al giorno d'oggi si registra un grande interesse verso i sistemi di telecon- ferenza multimediale a seguito della crescente richiesta di comunicazioni effi- cienti e dello sviluppo di tecniche avanzate per il processamento digitale dei segnali. Un sistema di teleconferenza dovrebbe fornire una rappresentazione realistica del campo sonoro e visivo, consentendo una comunicazione natu- rale tra i partecipanti dislocati ovunque nel mondo come fossero nella stessa stanza. In questo contesto, sono stati sviluppati molti sistemi, a partire da applicazioni basate su PC pensate per comunicazioni tra singoli utenti no a sistemi complessi dotati di ampi schermi che riproducono la stanza remota come fosse il proseguimento della stanza locale. Nei sistemi di teleconferenza è possibile ridurre l'eco indesiderata dovuta all'accoppiamento tra l'altoparlante e il microfono usando un cancellatore d'eco acustica (AEC). In presenza di più di un partecipante, per la localizza- zione del parlatore devono essere presi in considerazione sistemi multicanale. Possono essere ottenute prestazioni più realistiche già con sistemi stereofonici, poichè gli ascoltatori hanno a disposizione informazioni spaziali che aiutano ad identi care la posizione del parlatore. Tuttavia, deve essere impiegato un maggior numero di ltri adattativi e la relazione lineare esistente tra i due canali generati dalla stessa sorgente causa problemi aggiuntivi: la soluzione dell'algoritmo adattativo non è unica e dipende dalla posizione del parla- tore nella stanza di trasmissione che non è stazionaria, causando possibili problemi di convergenza. In aggiunta, la scelta dell'algoritmo adattativo di- venta estremamente importante perchè le prestazioni dipendono dal numero di condizionamento del segnale d'ingresso che è molto alto nello scenario multicanale. In questa tesi, vengono presentati contributi innovativi per la cancellazione d'eco acustica stereofonica basati sul fenomeno della \missing- fundamental". L'innovazione delle soluzioni è legata alla grande riduzione della coerenza tra i canali del segnale stereo che si riesce ad ottenere senza al- terare la qualità dell'audio e la percezione stereofonica. Inoltre, viene discussa una soluzione per migliorare la velocità di convergenza dei filtri adattativi basata su un metodo per la variazione del passo d'adattamento: l'approccio è applicato alla cancellazione d'eco acustica stereofonica ma in realtà può essere usato per generici algoritmi adattativi. Contestualmente, si è assistito ad un crescente interesse nel progetto di si- stemi che forniscono una riproduzione dei suoni la più realistica possibile così che l'ascoltatore non si accorge che sono stati prodotti artifi cialmente poichè è immerso nella scena audio virtuale circondato da un elevato numero di altoparlanti. I sistemi convezionali sono progettati per massimizzare la senzazione acustica in una speci ca posizione dell'ambiente d'ascolto, il cosiddetto sweet spot. Inoltre, non è possibile ottenere una corretta localiz- zazione della sorgente con un numero limitato di altoparlanti. Quindi, sono stati condotti diversi studi sull'ottimizzazione di questi sistemi, concentrando l'attenzione su nuove tecniche di registrazione e riproduzione, ovvero la Wave Field Analysis (WFA) e la Wave Field Synthesis (WFS). La prima è una tec- nica di registrazione del campo sonoro basata su array di microfoni e la seconda consente la sintesi del campo sonoro attraverso array di altoparlanti. Per utilizzare queste tecniche in scenari reali (ad esempio, sistemi di telecon- ferenza, cinema, home theatre) è necessario applicare algoritmi multicanale per il processamento digitale dei segnali, già sviluppati per sistemi tradizio- nali. Questo porta all'introduzione della Wave Domain Adaptive Filtering (WDAF), ovvero una generalizzazione spazio-temporale dell'algoritmo adat- tativo Fast Least Mean Squares, consentendo una considerevole riduzione della complessità computazionale. In questa tesi vengono discusse soluzioni efficienti per un'implementazione in tempo reale e possibili approssimazioni di fase delle funzioni guida usate per gestire gli altoparlanti. Inoltre, vengono presentati un approccio per la WDAF basato sulla struttura Weighted-Overlap-Add e una tecnica per il puntamento digitale dei arrays lineari basata sulla WFS: l'obiettivo di questi studi è quello di applicare questi concetti in scenari reali, come nel caso di un sistema di teleconferenza. Infatti, le suddette tecniche per la riproduzione audio immersiva possono essere sfruttate per migliorare le prestazioni di si- stemi di teleconferenza a grandezza naturale, combinando requisiti temporali e spaziali. Inoltre, risultano necessari algoritmi di riproduzione audio per migliorare la qualità audio percepita così da rendere più piacevole l'ambiente d'ascolto tenendo conto di alcune caratteristiche proprie dell'ambiente. Più speci ficata- mente, l'equalizzazione rappresenta uno strumento potente capace di gestire le irregolarità della risposta in frequenza: un equalizzatore può compensare il posizionamento del parlatore e le caratteristiche della stanza d'ascolto e può essere applicato in un sistema di teleconferenza per rendere la comunicazione la più naturale possibile. In questo lavoro vengono discusse la valutazione di un equalizzatore multipunto e una soluzione mixed-phase con un ritardo di gruppo della stanza adeguatamente progettato.

Advanced application for multichannel teleconferencing audio systems / Romoli, Laura. - (2011 Jan 21).

Advanced application for multichannel teleconferencing audio systems

Romoli, Laura
2011-01-21

Abstract

Nowadays, there is a large interest towards multimedia teleconferencing sys- tems as a consequence of the increasing requirement for efficent communica- tions and the development of advanced digital signal processing techniques. A teleconferencing system should provide a realistic representation of visual and sound fields, allowing a natural communication among participants any- where in the world as they were all in the same room. In this context, a lot of systems have been developed ranging from PC-based applications, thought for single users communications, up to complex systems provided with large video screens playing the remote room as it were a continuum of the local room. In teleconferencing systems the undesired echo due to coupling between the loudspeaker and the microphone can be reduced using an acoustic echo can- celer (AEC). In the presence of more than one participant, multichannel systems have to be taken into consideration for speaker localization. More realistic performance can be already obtained through stereophonic systems since listeners have spatial information that helps to identify the speaker position. Anyway, more adaptive lters have to be used and the linear rela- tionship existing between the two channels generated from the same source brings some additional problems: the solution of the adaptive algorithm is not unique and depends on the speaker position in the transmission room which is not stationary, causing possible convergence problems. Moreover, the choice of the adaptive algorithm becomes extremely important because the performance depends on the condition number of the input signal which is very high in the multichannel scenario. In this thesis novel contributions for stereophonic acoustic echo cancellation are given based on the \missing- fundamental" phenomenon. The novelty of the solutions is related to the great interchannel coherence reduction obtained without a ecting speech quality and stereo perception. Moreover, a solution for improving the con- vergence speed of adaptive lters is discussed based on a variable step-size method: the approach is applied to stereophonic acoustic echo cancellation but, actually, it can be used for generic adaptive algorithms. Contextually, there has been an increasing interest in the design of systems providing a reproduction of sounds as realistic as possible so that the lis- tener does not notice that they have been produced arti cially since he is immersed in the virtual audio scene surrounded by a large number of loud- speakers. Conventional systems are designed to obtain the optimal acoustic sensation in a particular position of the listening environment, i.e., the so called sweet spot. Furthermore, it is impossible to achieve a correct source localization with a limited number of loudspeakers. Hence, several research e orts have been made in the optimization of these systems, focusing on new recording and reproduction techniques, i.e., Wave Field Analysis (WFA) and Wave Field Synthesis (WFS). The former is a sound eld recording tech- nique based on microphone arrays and the latter allows sound eld synthesis through loudspeakers arrays. At the aim of using these techniques in real world applications (e.g., teleconferencing systems, cinemas, home theatres) it is necessary to apply multichannel digital signal processing algorithms, already developed for traditional systems. This led to the introduction of Wave Domain Adaptive Filtering (WDAF), a spatio-temporal generalization of Fast Least Mean Squares adaptive algorithm, allowing a considerable re- duction of the computational complexity. Efficient solutions for real time implementation and possible phase approx- imations of the driving functions used in order to manage the loudspeakers are discussed in this thesis. Furthermore, a Weighted-Overlap-Add-based (WOLA-based) approach for WDAF and a WFS-based digital pointing of line arrays are presented: the objective of these studies is that of apply- ing these concepts in real scenarios, such as a teleconferencing system. In- deed, the aforementioned immersive audio reproduction techniques can be exploited for enhancing the performance of life-sized teleconferencing sys- tems, combining temporal and spatial requirements. Furthermore, audio rendering algorithms are needed to improve the perceived audio quality in order to make the listening environment more pleasant by taking into account some speci c features of the environment. More specifically, equalization represents a powerful tool capable of dealing with the frequency response irregularities: an equalizer can compensates for speaker placement and listening room characteristics and it can be applied in a tele-conferencing system to make the communication the most natural as possible. The evaluation of a multipoint equalizer and a mixed-phase solution with a suitably designed room group delay are discussed in this work.
21-gen-2011
Al giorno d'oggi si registra un grande interesse verso i sistemi di telecon- ferenza multimediale a seguito della crescente richiesta di comunicazioni effi- cienti e dello sviluppo di tecniche avanzate per il processamento digitale dei segnali. Un sistema di teleconferenza dovrebbe fornire una rappresentazione realistica del campo sonoro e visivo, consentendo una comunicazione natu- rale tra i partecipanti dislocati ovunque nel mondo come fossero nella stessa stanza. In questo contesto, sono stati sviluppati molti sistemi, a partire da applicazioni basate su PC pensate per comunicazioni tra singoli utenti no a sistemi complessi dotati di ampi schermi che riproducono la stanza remota come fosse il proseguimento della stanza locale. Nei sistemi di teleconferenza è possibile ridurre l'eco indesiderata dovuta all'accoppiamento tra l'altoparlante e il microfono usando un cancellatore d'eco acustica (AEC). In presenza di più di un partecipante, per la localizza- zione del parlatore devono essere presi in considerazione sistemi multicanale. Possono essere ottenute prestazioni più realistiche già con sistemi stereofonici, poichè gli ascoltatori hanno a disposizione informazioni spaziali che aiutano ad identi care la posizione del parlatore. Tuttavia, deve essere impiegato un maggior numero di ltri adattativi e la relazione lineare esistente tra i due canali generati dalla stessa sorgente causa problemi aggiuntivi: la soluzione dell'algoritmo adattativo non è unica e dipende dalla posizione del parla- tore nella stanza di trasmissione che non è stazionaria, causando possibili problemi di convergenza. In aggiunta, la scelta dell'algoritmo adattativo di- venta estremamente importante perchè le prestazioni dipendono dal numero di condizionamento del segnale d'ingresso che è molto alto nello scenario multicanale. In questa tesi, vengono presentati contributi innovativi per la cancellazione d'eco acustica stereofonica basati sul fenomeno della \missing- fundamental". L'innovazione delle soluzioni è legata alla grande riduzione della coerenza tra i canali del segnale stereo che si riesce ad ottenere senza al- terare la qualità dell'audio e la percezione stereofonica. Inoltre, viene discussa una soluzione per migliorare la velocità di convergenza dei filtri adattativi basata su un metodo per la variazione del passo d'adattamento: l'approccio è applicato alla cancellazione d'eco acustica stereofonica ma in realtà può essere usato per generici algoritmi adattativi. Contestualmente, si è assistito ad un crescente interesse nel progetto di si- stemi che forniscono una riproduzione dei suoni la più realistica possibile così che l'ascoltatore non si accorge che sono stati prodotti artifi cialmente poichè è immerso nella scena audio virtuale circondato da un elevato numero di altoparlanti. I sistemi convezionali sono progettati per massimizzare la senzazione acustica in una speci ca posizione dell'ambiente d'ascolto, il cosiddetto sweet spot. Inoltre, non è possibile ottenere una corretta localiz- zazione della sorgente con un numero limitato di altoparlanti. Quindi, sono stati condotti diversi studi sull'ottimizzazione di questi sistemi, concentrando l'attenzione su nuove tecniche di registrazione e riproduzione, ovvero la Wave Field Analysis (WFA) e la Wave Field Synthesis (WFS). La prima è una tec- nica di registrazione del campo sonoro basata su array di microfoni e la seconda consente la sintesi del campo sonoro attraverso array di altoparlanti. Per utilizzare queste tecniche in scenari reali (ad esempio, sistemi di telecon- ferenza, cinema, home theatre) è necessario applicare algoritmi multicanale per il processamento digitale dei segnali, già sviluppati per sistemi tradizio- nali. Questo porta all'introduzione della Wave Domain Adaptive Filtering (WDAF), ovvero una generalizzazione spazio-temporale dell'algoritmo adat- tativo Fast Least Mean Squares, consentendo una considerevole riduzione della complessità computazionale. In questa tesi vengono discusse soluzioni efficienti per un'implementazione in tempo reale e possibili approssimazioni di fase delle funzioni guida usate per gestire gli altoparlanti. Inoltre, vengono presentati un approccio per la WDAF basato sulla struttura Weighted-Overlap-Add e una tecnica per il puntamento digitale dei arrays lineari basata sulla WFS: l'obiettivo di questi studi è quello di applicare questi concetti in scenari reali, come nel caso di un sistema di teleconferenza. Infatti, le suddette tecniche per la riproduzione audio immersiva possono essere sfruttate per migliorare le prestazioni di si- stemi di teleconferenza a grandezza naturale, combinando requisiti temporali e spaziali. Inoltre, risultano necessari algoritmi di riproduzione audio per migliorare la qualità audio percepita così da rendere più piacevole l'ambiente d'ascolto tenendo conto di alcune caratteristiche proprie dell'ambiente. Più speci ficata- mente, l'equalizzazione rappresenta uno strumento potente capace di gestire le irregolarità della risposta in frequenza: un equalizzatore può compensare il posizionamento del parlatore e le caratteristiche della stanza d'ascolto e può essere applicato in un sistema di teleconferenza per rendere la comunicazione la più naturale possibile. In questo lavoro vengono discusse la valutazione di un equalizzatore multipunto e una soluzione mixed-phase con un ritardo di gruppo della stanza adeguatamente progettato.
Multimedia teleconferencing systems
Multichannel acoustic echo cancellation
Immersive audio reproduction
File in questo prodotto:
File Dimensione Formato  
Tesi.Romoli.pdf

Solo gestori archivio

Tipologia: Tesi di dottorato
Licenza d'uso: Non specificato
Dimensione 9.82 MB
Formato Adobe PDF
9.82 MB Adobe PDF   Visualizza/Apri   Richiedi una copia

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11566/242000
 Attenzione

Attenzione! I dati visualizzati non sono stati sottoposti a validazione da parte dell'ateneo

Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact