One of the open questions in home automation is the realization of human-machine interfaces that are not only effective for the control of the available functions, but also easily accessible. The voice is the natural way to communicate requests and commands, in this way speech interface offers considerable advantages over solutions such as touch-screen, switches etc. The proposed thesis is aimed at studying and realizing a speech interaction system for home automation to be able not only to recognize individual commands conveyed by voice signals, but also to customize the services requested through a speaker recognizer and to interact by means of synthesized speech. For each speech interaction mechanism, solutions are suggested to overcome the traditional limitations of previous work. In the first analysis, it is offered a speech distributed recognition system (DSR), for the voice control of a lighting system, that implements strategies and ad-hoc optimizations and is able to solve the typical problems of a real scenario. The DSR system can also be integrated with a speaker identification algorithm in order to obtain a system able to customize the spoken commands on the user specific settings. In the home automation, a speaker identification system must be able to classify the user with sequences of speech frames of a duration less than 5 s. To this goal, an algorithm based on truncated Karhunen-Loève transform able to produce results, with short sequences of speech frames (< 3.5 s), better than those achieved with the Mel-Cepstral coefficients, is suggested. Moreover, this work presents a novel Hidden Markov Models/unit-selection speech synthesis framework based on Modified Discrete Cosine Transform, which guarantees the perfect reconstruction of the speech signal and overcomes the main lacks of Mel-cepstral technique. The algorithms and the proposed system will be applied to signals acquired under realistic conditions, in order to verify its adequacy.

Una delle questioni aperte nell’ambito dell’home automation è la realizzazione di interfacce uomo-macchina che siano non solo efficaci per il controllo di un sistema, ma anche facilmente accessibili. La voce è il mezzo naturale per comunicare richieste e comandi, quindi l’interfaccia vocale presenta notevoli vantaggi rispetto alle soluzioni touch-screen, interruttori ecc. Il lavoro di tesi proposto è finalizzato alla realizzazione di un sistema di interazione vocale per l’home automation, in grado non solo di riconoscere singoli comandi veicolati da segnali vocali, ma anche di personalizzare i servizi richiesti tramite il riconoscimento del parlatore e di interagire mediante il parlato sintetizzato. Per ciascuna tipologia di interazione vocale, verranno proposte soluzioni volte a superare i limiti dell’approccio classico in letteratura. In prima analisi, verrà presentato un sistema di riconoscimento vocale distribuito (DSR) per il controllo delle luci, che implementa ottimizzazioni ad-hoc per operare nell’ambiente in modo non invasivo e risolvere le problematiche di uno scenario reale. Nel sistema DSR sarà integrato un algoritmo di identificazione del parlatore per ottenere un sistema in grado di personalizzare i comandi sulla base dell’utente riconosciuto. Un sistema di identificazione vocale deve essere in grado di classificare l’utente con frasi della durata inferiore a 5 s. A tal fine verrà proposto un algoritmo basato su truncated Karhunen-Loève transform con performance, su brevi sequenze di speech (< 3.5 s), migliori della convenzionale tecnica basata su Mel-Cepstral coefficients. Verrà infine proposto un framework di sintesi vocale Hidden Markov Model/unit-selection basato su Modified Discrete Cosine Transform, che garantisce la perfetta ricostruibilità del segnale e supera i limiti imposti dalla tecnica Mel-cepstral. Gli algoritmi ed il sistema proposto saranno applicati a segnali acquisiti in condizioni realistiche, al fine di verificarne l’adeguatezza.

sistemi di interazione vocale per la domotica / Falaschetti, Laura. - (2017 Mar 24).

sistemi di interazione vocale per la domotica

FALASCHETTI, LAURA
2017-03-24

Abstract

One of the open questions in home automation is the realization of human-machine interfaces that are not only effective for the control of the available functions, but also easily accessible. The voice is the natural way to communicate requests and commands, in this way speech interface offers considerable advantages over solutions such as touch-screen, switches etc. The proposed thesis is aimed at studying and realizing a speech interaction system for home automation to be able not only to recognize individual commands conveyed by voice signals, but also to customize the services requested through a speaker recognizer and to interact by means of synthesized speech. For each speech interaction mechanism, solutions are suggested to overcome the traditional limitations of previous work. In the first analysis, it is offered a speech distributed recognition system (DSR), for the voice control of a lighting system, that implements strategies and ad-hoc optimizations and is able to solve the typical problems of a real scenario. The DSR system can also be integrated with a speaker identification algorithm in order to obtain a system able to customize the spoken commands on the user specific settings. In the home automation, a speaker identification system must be able to classify the user with sequences of speech frames of a duration less than 5 s. To this goal, an algorithm based on truncated Karhunen-Loève transform able to produce results, with short sequences of speech frames (< 3.5 s), better than those achieved with the Mel-Cepstral coefficients, is suggested. Moreover, this work presents a novel Hidden Markov Models/unit-selection speech synthesis framework based on Modified Discrete Cosine Transform, which guarantees the perfect reconstruction of the speech signal and overcomes the main lacks of Mel-cepstral technique. The algorithms and the proposed system will be applied to signals acquired under realistic conditions, in order to verify its adequacy.
24-mar-2017
Una delle questioni aperte nell’ambito dell’home automation è la realizzazione di interfacce uomo-macchina che siano non solo efficaci per il controllo di un sistema, ma anche facilmente accessibili. La voce è il mezzo naturale per comunicare richieste e comandi, quindi l’interfaccia vocale presenta notevoli vantaggi rispetto alle soluzioni touch-screen, interruttori ecc. Il lavoro di tesi proposto è finalizzato alla realizzazione di un sistema di interazione vocale per l’home automation, in grado non solo di riconoscere singoli comandi veicolati da segnali vocali, ma anche di personalizzare i servizi richiesti tramite il riconoscimento del parlatore e di interagire mediante il parlato sintetizzato. Per ciascuna tipologia di interazione vocale, verranno proposte soluzioni volte a superare i limiti dell’approccio classico in letteratura. In prima analisi, verrà presentato un sistema di riconoscimento vocale distribuito (DSR) per il controllo delle luci, che implementa ottimizzazioni ad-hoc per operare nell’ambiente in modo non invasivo e risolvere le problematiche di uno scenario reale. Nel sistema DSR sarà integrato un algoritmo di identificazione del parlatore per ottenere un sistema in grado di personalizzare i comandi sulla base dell’utente riconosciuto. Un sistema di identificazione vocale deve essere in grado di classificare l’utente con frasi della durata inferiore a 5 s. A tal fine verrà proposto un algoritmo basato su truncated Karhunen-Loève transform con performance, su brevi sequenze di speech (< 3.5 s), migliori della convenzionale tecnica basata su Mel-Cepstral coefficients. Verrà infine proposto un framework di sintesi vocale Hidden Markov Model/unit-selection basato su Modified Discrete Cosine Transform, che garantisce la perfetta ricostruibilità del segnale e supera i limiti imposti dalla tecnica Mel-cepstral. Gli algoritmi ed il sistema proposto saranno applicati a segnali acquisiti in condizioni realistiche, al fine di verificarne l’adeguatezza.
Speech Recognition; Speaker Identification; Speech Synthesis
Riconoscimento vocale; Identificazione del parlatore; Sintesi vocale
File in questo prodotto:
File Dimensione Formato  
tesi_falaschetti.pdf

Open Access dal 02/10/2018

Descrizione: tesi_falaschetti
Tipologia: Tesi di dottorato
Licenza d'uso: Creative commons
Dimensione 10.26 MB
Formato Adobe PDF
10.26 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11566/245376
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact