In retail environments, understanding how shoppers move in the store’s spaces and interact with products is very valuable. While the retail environment has several favourable characteristics that support computer vision, such as reasonable lighting, the large number and diversity of products sold, as well as the potential ambiguity of shoppers’ movements, mean that accurately measuring shopper behaviour is still challenging. Over the past years, machine-learning and feature-based tools for people counting as well as interactions analytics and re-identification were developed with the aim of learning shopper behaviors based on occlusion-free RGB-D cameras in a top-view configuration. However,after moving into the era of multimedia big data, machine-learning approaches evolved into deep learning approaches, which are a more powerful and efficient way of dealing with the complexities of human behaviour. Starting from such a premise, this thesis addresses the evolution process of 3 real systems such as: People Counting, Shopper Analytics and Re-Identification. The main goal is to develop Deep Learning architectures especially designed for Retail Environment. For this purpose, a novel VRAI deep learning framework is described. In particular, it uses 3 Convolutional Neural Networks (CNNs) to count the number of people passing or stopping in the camera area, perform top-view re-identification and measure shopper-shelf interactions from a single RGB-D video flow with near real-time performances. The VRAI framework is evaluated on the following 3 new datasets that are publicly available: TVHeads for people counting, HaDa for shopper-shelf interactions and TVPR2 for people re-identification.

In ambienti retail comprendere come il consumatore si muove nello spazio e interagisce con i prodotti risulta essere di notevole interesse. Nonostante l'ambiente retail possegga diverse caratteristiche favorevoli al supporto della computer vision, ad esempio un'illuminazone costante, il vasto numero e la variabilità dei prodotti venduti, così come la potenziale ambiguità dei movimenti del comsumatore, indicano che misurarne il comportamento è tuttora sfidante. Negli anni, tecniche di machine learning e feature-based per il conteggio persone, l'analisi delle interazioni e la re-identificazione sono state sviluppate allo scopo di apprendere il comportamento del consumatore, basandosi su camere RGB-D in configurazione top-view. Tuttavia dall'avvento dei big data gli approcci machine learning sono evoluti verso approcci deep learning, che risultano essere un mezzo più potente ed efficiente per trattare la complessità del comportamento umano. Partendo da questa premessa questa tesi tratta l'evoluzione di 3 sistemi reali quali: People Counting, Shopper Analytics e Re-Identification. L'obbiettivo principale è quello di sviluppare architetture deep learning progettate specificatamente per ambito retail. A questo scopo un nuovo VRAI deep learning framework viene descritto. In particolare utilizza 3 reti neurali convoluzionali (CNN) per contare il numero di persone che passano o si fermano nell'area coperta dalla camera, effettuare una re-identificazione top-view e misurare le interazioni consumatore-scaffale da un singolo flusso RGBD con performance quasi real-time. Il VRAI framework è stato poi valutato su 3 nuovi dataset resi pubblici: TVHeads per il conteggio persone, HaDa per l'analisi delle interazioni consumatore-scaffale e TVPR2 per la re-identificazione.

Deep Understanding of Shopper Behaviours and Interactions in Intelligent Retail Environment / Pietrini, Rocco. - (2020 Mar 20).

Deep Understanding of Shopper Behaviours and Interactions in Intelligent Retail Environment

PIETRINI, ROCCO
2020-03-20

Abstract

In retail environments, understanding how shoppers move in the store’s spaces and interact with products is very valuable. While the retail environment has several favourable characteristics that support computer vision, such as reasonable lighting, the large number and diversity of products sold, as well as the potential ambiguity of shoppers’ movements, mean that accurately measuring shopper behaviour is still challenging. Over the past years, machine-learning and feature-based tools for people counting as well as interactions analytics and re-identification were developed with the aim of learning shopper behaviors based on occlusion-free RGB-D cameras in a top-view configuration. However,after moving into the era of multimedia big data, machine-learning approaches evolved into deep learning approaches, which are a more powerful and efficient way of dealing with the complexities of human behaviour. Starting from such a premise, this thesis addresses the evolution process of 3 real systems such as: People Counting, Shopper Analytics and Re-Identification. The main goal is to develop Deep Learning architectures especially designed for Retail Environment. For this purpose, a novel VRAI deep learning framework is described. In particular, it uses 3 Convolutional Neural Networks (CNNs) to count the number of people passing or stopping in the camera area, perform top-view re-identification and measure shopper-shelf interactions from a single RGB-D video flow with near real-time performances. The VRAI framework is evaluated on the following 3 new datasets that are publicly available: TVHeads for people counting, HaDa for shopper-shelf interactions and TVPR2 for people re-identification.
20-mar-2020
In ambienti retail comprendere come il consumatore si muove nello spazio e interagisce con i prodotti risulta essere di notevole interesse. Nonostante l'ambiente retail possegga diverse caratteristiche favorevoli al supporto della computer vision, ad esempio un'illuminazone costante, il vasto numero e la variabilità dei prodotti venduti, così come la potenziale ambiguità dei movimenti del comsumatore, indicano che misurarne il comportamento è tuttora sfidante. Negli anni, tecniche di machine learning e feature-based per il conteggio persone, l'analisi delle interazioni e la re-identificazione sono state sviluppate allo scopo di apprendere il comportamento del consumatore, basandosi su camere RGB-D in configurazione top-view. Tuttavia dall'avvento dei big data gli approcci machine learning sono evoluti verso approcci deep learning, che risultano essere un mezzo più potente ed efficiente per trattare la complessità del comportamento umano. Partendo da questa premessa questa tesi tratta l'evoluzione di 3 sistemi reali quali: People Counting, Shopper Analytics e Re-Identification. L'obbiettivo principale è quello di sviluppare architetture deep learning progettate specificatamente per ambito retail. A questo scopo un nuovo VRAI deep learning framework viene descritto. In particolare utilizza 3 reti neurali convoluzionali (CNN) per contare il numero di persone che passano o si fermano nell'area coperta dalla camera, effettuare una re-identificazione top-view e misurare le interazioni consumatore-scaffale da un singolo flusso RGBD con performance quasi real-time. Il VRAI framework è stato poi valutato su 3 nuovi dataset resi pubblici: TVHeads per il conteggio persone, HaDa per l'analisi delle interazioni consumatore-scaffale e TVPR2 per la re-identificazione.
human behavior understanding; computer vision; HBA; deep learning; retail
comprensione del comportamento umano; visione computerizzata; HBA; apprendimento approfondito; Al dettaglio
File in questo prodotto:
File Dimensione Formato  
Tesi_Pietrini.pdf

accesso aperto

Descrizione: Tesi_Pietrini
Tipologia: Tesi di dottorato
Licenza d'uso: Creative commons
Dimensione 6.58 MB
Formato Adobe PDF
6.58 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11566/274602
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact