The understanding of a space has always been of great interest to the scientific community, as it is widely used in various fields. The aim of this research is to improve state of the art regarding all the aspects for Space Undertanding, both static and dynamic. Initially, a new deep learning method for Point Cloud Semantic Segmentation of a Space is described. This approach uses additional discriminative features, compared to the state of the art. Experiments were carried out both in cultural heritage field and indoor scenes. Then, generative approaches are proposed as data augmentation technique. The reliability of the methods was evaluated on a novel dataset and the results obtained showed that the methods outperformed the state of the art. The proposed DGCNN-Mod increases the accuracy on the 2 test scenes of ArCH dataset by 26.86% and 4.37%, compared to DGCNN. Handcrafted features allow to achieve 28.44% and 6.21%. Then, a mixed methodology between ML and DL approaches is proposed for the Change Detection task on a dynamic scene. It exploits the extraction of visual and textual features, coming from the acquisition of RGB images of a retail environment. Their union allows to train a final classifier that gives an overall result about the state of a space. The reliability of the proposed methods was investigated using a novel dataset and studying the behaviour of consumers. Finally, an algorithm for Person Re-Identification using RGB-D videos, with a top-view configuration, has been described. It is designed to work both in closed and open world environment. It also integrates visual, spatial and temporal features. This method has been validated by acquiring two new datasets of RGB-D video, for both a retail and a museum environment. Results obtained showed that the methods outperformed the state of the art approaches. In fact, the proposed TVOW improves the accuracy on the new TVPR2 dataset by 2.72% and the accuracy on the TVPR dataset by 0.45%.

La comprensione di uno spazio è sempre stata di grande interesse per la comunità scientifica, poiché è molto utilizzata in vari campi. Lo scopo di questa tesi è di migliorare lo stato dell'arte in tutti gli aspetti dello Space Understanding, sia statici che dinamici. Inizialmente, viene descritto un nuovo metodo di deep learning per la segmentazione semantica di nuvole di punti di uno spazio. Esso utilizza feature aggiuntive più discriminanti, rispetto allo stato dell'arte. Sono stati condotti esperimenti sia nel dominio dei beni culturali che nelle scene indoor. Infine, approcci generativi vengono proposti come tecnica di data augmentation. L'affidabilità dei metodi viene valutata su un nuovo dataset e i risultati ottenuti migliorano lo stato dell'arte. La DGCNN-Mod proposta aumenta di 26,86% e 4,37% l'accuratezza sulle 2 scene di test di ArCH dataset, rispetto alla DGCNN. Feature handcrafted aiutano ad ottenere 28,44% e 6,21% di accuratezza. Poi, viene proposta una metodologia mista tra approcci di ML e DL per il compito di Change Detection su scene dinamice. Essa sfrutta l'estrazione di feature visive e testuali, provenienti da immagini RGB nell’ambito Retail. La loro unione serve per addestrare un classificatore che darà un risultato complessivo sullo stato dello spazio. L'affidabilità dei metodi proposti viene testata utilizzando un nuovo dataset ed analizzando i consumatori. Infine, viene presentato un algoritmo per la re-identificazione delle persone utilizzando video rgb-d, con una configurazione top-view. Esso è progettato per funzionare sia in ambiente chiuso che in un ambiente aperto. Inoltre, integra caratteristiche visive, spaziali e temporali. Questo metodo è stato validato acquisendo due nuovi dataset, sia nell’ambito del Retail che per un ambiente museale. I risultati ottenuti mostrano miglioramenti rispetto agli approcci dello stato dell'arte. La TVOW proposta migliora del 2,72% l'accuratezza sul nuovo dataset TVPR2 e del 0,45% l'accuratezza su TVPR.

Deep Learning based models for Space Understanding / Martini, Massimo. - (2022 Mar 04).

Deep Learning based models for Space Understanding

MARTINI, MASSIMO
2022-03-04

Abstract

The understanding of a space has always been of great interest to the scientific community, as it is widely used in various fields. The aim of this research is to improve state of the art regarding all the aspects for Space Undertanding, both static and dynamic. Initially, a new deep learning method for Point Cloud Semantic Segmentation of a Space is described. This approach uses additional discriminative features, compared to the state of the art. Experiments were carried out both in cultural heritage field and indoor scenes. Then, generative approaches are proposed as data augmentation technique. The reliability of the methods was evaluated on a novel dataset and the results obtained showed that the methods outperformed the state of the art. The proposed DGCNN-Mod increases the accuracy on the 2 test scenes of ArCH dataset by 26.86% and 4.37%, compared to DGCNN. Handcrafted features allow to achieve 28.44% and 6.21%. Then, a mixed methodology between ML and DL approaches is proposed for the Change Detection task on a dynamic scene. It exploits the extraction of visual and textual features, coming from the acquisition of RGB images of a retail environment. Their union allows to train a final classifier that gives an overall result about the state of a space. The reliability of the proposed methods was investigated using a novel dataset and studying the behaviour of consumers. Finally, an algorithm for Person Re-Identification using RGB-D videos, with a top-view configuration, has been described. It is designed to work both in closed and open world environment. It also integrates visual, spatial and temporal features. This method has been validated by acquiring two new datasets of RGB-D video, for both a retail and a museum environment. Results obtained showed that the methods outperformed the state of the art approaches. In fact, the proposed TVOW improves the accuracy on the new TVPR2 dataset by 2.72% and the accuracy on the TVPR dataset by 0.45%.
4-mar-2022
La comprensione di uno spazio è sempre stata di grande interesse per la comunità scientifica, poiché è molto utilizzata in vari campi. Lo scopo di questa tesi è di migliorare lo stato dell'arte in tutti gli aspetti dello Space Understanding, sia statici che dinamici. Inizialmente, viene descritto un nuovo metodo di deep learning per la segmentazione semantica di nuvole di punti di uno spazio. Esso utilizza feature aggiuntive più discriminanti, rispetto allo stato dell'arte. Sono stati condotti esperimenti sia nel dominio dei beni culturali che nelle scene indoor. Infine, approcci generativi vengono proposti come tecnica di data augmentation. L'affidabilità dei metodi viene valutata su un nuovo dataset e i risultati ottenuti migliorano lo stato dell'arte. La DGCNN-Mod proposta aumenta di 26,86% e 4,37% l'accuratezza sulle 2 scene di test di ArCH dataset, rispetto alla DGCNN. Feature handcrafted aiutano ad ottenere 28,44% e 6,21% di accuratezza. Poi, viene proposta una metodologia mista tra approcci di ML e DL per il compito di Change Detection su scene dinamice. Essa sfrutta l'estrazione di feature visive e testuali, provenienti da immagini RGB nell’ambito Retail. La loro unione serve per addestrare un classificatore che darà un risultato complessivo sullo stato dello spazio. L'affidabilità dei metodi proposti viene testata utilizzando un nuovo dataset ed analizzando i consumatori. Infine, viene presentato un algoritmo per la re-identificazione delle persone utilizzando video rgb-d, con una configurazione top-view. Esso è progettato per funzionare sia in ambiente chiuso che in un ambiente aperto. Inoltre, integra caratteristiche visive, spaziali e temporali. Questo metodo è stato validato acquisendo due nuovi dataset, sia nell’ambito del Retail che per un ambiente museale. I risultati ottenuti mostrano miglioramenti rispetto agli approcci dello stato dell'arte. La TVOW proposta migliora del 2,72% l'accuratezza sul nuovo dataset TVPR2 e del 0,45% l'accuratezza su TVPR.
space understanding; re-identification; point clouds semantic segmentation; change detection
comprensione spazi; deep learning; segmentazione; re-identificazione
File in questo prodotto:
File Dimensione Formato  
Tesi_Martini.pdf

accesso aperto

Descrizione: Tesi_Martini
Tipologia: Tesi di dottorato
Licenza d'uso: Creative commons
Dimensione 55.95 MB
Formato Adobe PDF
55.95 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11566/295461
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact