The project was born from a three-year agreement of understanding, started in 2019, between the interdepartmental research center C.A.R.M.E.L.O. and the Italian State Police, renewed and increased with a new topic until 2026 thanks to the positive results obtained. Dactyloscopy 2.0 Objective: to more effectively identify suspects from latent fingerprint fragments found at the crime scene. Computer Vision algorithms were effective on prints acquired in ideal conditions, but unsuccessful on fragments of latent prints. In the remaining time agreed upon, deep learning will be tested directly on the fragments, reducing the obsolescence of current methods as suggested by the ENFSI guides. Photo signaling 2.0 Objective: to save technological resources by improving facial recognition from videos and their 3D reconstruction. In collaboration with the Mechanical Measurements laboratory and AIRTLab, a prototype for multi-perspective photosignalling with a motorized arm was created, equipped with 4 vertically angled cameras and managed by Raspberry 4PI, a video surveillance system with 5 web-cams and one with 3 complete cameras HD. The FRMDB database was produced, unique in its kind, with 28 multi-pose images of the face, fixed and invariable, and footage from the video surveillance system, for 67 subjects. With a deep learning approach, it has been shown that CNNs are effective at recognizing faces from multi-perspective videos, provided that multi-pose photosignaling is available. In line with the objective, all tests showed that the canonical photosignaling with 2 profiles has the worst accuracy, however there is a high improvement from 5 poses and up. In the remaining time agreed upon, the prototype will be equipped with N Kinect cameras for 3D facial modeling. Violence Detection Objective: to train automatic systems to detect violence from video footage, both for the real-time control of large spaces and for the rapid processing of long recordings. The unique AIRTLab dataset was produced with 350 clips of violent and non-violent but confusing scenes. By testing 3 3D models based on deep learning, the dataset proved to be effective for testing the robustness of neural networks on false positives. But given the computational weight, in line with the objective, a CNN, designed for integrated devices, was combined with a recurrent layer obtaining the loss of only 1% AUC and 2% Accuracy for the benefit of lightness and memory. In the remaining time under the agreement, the approach will be replicated on audio files, in order to combat acts of gender violence and the negative effects on indirect victims. ​

Il progetto nasce da un accordo d'Intesa triennale, iniziato nel 2019, fra il centro di ricerca interdipartimentale C.A.R.M.E.L.O. e la Polizia di Stato, rinnovato e incrementato con un nuovo topic fino al 2026 grazie ai positivi risultati ottenuti. Dattiloscopia 2.0 Obiettivo: identificare più efficacemente sospettati dai frammenti d’impronte latenti rinvenute sulla scena del crimine. Gli algoritmi di Computer Vision, sono stati efficaci su impronte acquisite in condizioni ideali, ma fallimentari sui frammenti di impronte latenti. Nel tempo residuo in convenzione, si testerà il deep learning direttamente sui frammenti, riducendo l’obsolescenza dei metodi attuali come suggerito dalle guide ENFSI. Fotosegnalamento 2.0 Obiettivo: risparmiare risorse tecnologiche migliorando il riconoscimento facciale dai video e loro ricostruzione in 3D. In collaborazione con il laboratorio di Misure Meccaniche e AIRTLab, è stato creato un prototipo per fotosegnalamento multiprospettico con braccio motorizzato, attrezzato con 4 fotocamere angolate verticalmente e gestite da Raspberry 4PI, un impianto di videosorveglianza con 5 web-cams e uno con 3 telecamere full HD. È stato prodotto il database FRMDB, unico nel suo genere, con 28 immagini multi posa del volto, fisse e invariabili, e le riprese dell’impianto di videosorveglianza, per 67 soggetti. Con approccio deep learning si è mostrato che le CNN sono efficaci a riconoscere volti da video multi prospettiva, purché si disponga di un fotosegnalamento multi posa. In linea con l’obiettivo, tutti i test hanno mostrato che il fotosegnalamento canonico con 2 profili, ha l’accuratezza peggiore, invece c’è un elevato miglioramento da 5 pose in su. Nel tempo residuo in convenzione, si doterà il prototipo di N telecamere Kinect per la modellazione 3D del volto. Violence Detection Obiettivo: addestrare sistemi automatici al rilevamento di violenza da videoriprese, sia per il controllo real-time di ampi spazi, sia per il processamento rapido di lunghe registrazioni. È stato prodotto l’AIRTLab dataset, unico nel suo genere, con 350 clips di scene violente e non violente ma confondibili. Testando 3 modelli 3D basati su deep learning, il dataset si è confermato efficace per testare la robustezza delle reti neurali sui falsi positivi. Ma dato il peso computazionale, in linea con l’obiettivo, è stata combinata una CNN, progettata per dispositivi integrati, con un layer ricorrente ottenendo la perdita di solo 1%AUC e 2% Accuracy a vantaggio di leggerezza e memoria. Nel tempo residuo in convenzione, si replicherà l’approccio su file audio, al fine di contrastare atti di violenza di genere e gli effetti negativi sulle vittime indirette. ​

Apprendimento Automatico in ambito Forense Applicazioni di reti neurali convoluzionali in dattiloscopia, nel riconoscimento della violenza e nei rilievi segnaletici / Contardo, Paolo. - (2024 Jun 24).

Apprendimento Automatico in ambito Forense Applicazioni di reti neurali convoluzionali in dattiloscopia, nel riconoscimento della violenza e nei rilievi segnaletici

CONTARDO, PAOLO
2024-06-24

Abstract

The project was born from a three-year agreement of understanding, started in 2019, between the interdepartmental research center C.A.R.M.E.L.O. and the Italian State Police, renewed and increased with a new topic until 2026 thanks to the positive results obtained. Dactyloscopy 2.0 Objective: to more effectively identify suspects from latent fingerprint fragments found at the crime scene. Computer Vision algorithms were effective on prints acquired in ideal conditions, but unsuccessful on fragments of latent prints. In the remaining time agreed upon, deep learning will be tested directly on the fragments, reducing the obsolescence of current methods as suggested by the ENFSI guides. Photo signaling 2.0 Objective: to save technological resources by improving facial recognition from videos and their 3D reconstruction. In collaboration with the Mechanical Measurements laboratory and AIRTLab, a prototype for multi-perspective photosignalling with a motorized arm was created, equipped with 4 vertically angled cameras and managed by Raspberry 4PI, a video surveillance system with 5 web-cams and one with 3 complete cameras HD. The FRMDB database was produced, unique in its kind, with 28 multi-pose images of the face, fixed and invariable, and footage from the video surveillance system, for 67 subjects. With a deep learning approach, it has been shown that CNNs are effective at recognizing faces from multi-perspective videos, provided that multi-pose photosignaling is available. In line with the objective, all tests showed that the canonical photosignaling with 2 profiles has the worst accuracy, however there is a high improvement from 5 poses and up. In the remaining time agreed upon, the prototype will be equipped with N Kinect cameras for 3D facial modeling. Violence Detection Objective: to train automatic systems to detect violence from video footage, both for the real-time control of large spaces and for the rapid processing of long recordings. The unique AIRTLab dataset was produced with 350 clips of violent and non-violent but confusing scenes. By testing 3 3D models based on deep learning, the dataset proved to be effective for testing the robustness of neural networks on false positives. But given the computational weight, in line with the objective, a CNN, designed for integrated devices, was combined with a recurrent layer obtaining the loss of only 1% AUC and 2% Accuracy for the benefit of lightness and memory. In the remaining time under the agreement, the approach will be replicated on audio files, in order to combat acts of gender violence and the negative effects on indirect victims. ​
24-giu-2024
Il progetto nasce da un accordo d'Intesa triennale, iniziato nel 2019, fra il centro di ricerca interdipartimentale C.A.R.M.E.L.O. e la Polizia di Stato, rinnovato e incrementato con un nuovo topic fino al 2026 grazie ai positivi risultati ottenuti. Dattiloscopia 2.0 Obiettivo: identificare più efficacemente sospettati dai frammenti d’impronte latenti rinvenute sulla scena del crimine. Gli algoritmi di Computer Vision, sono stati efficaci su impronte acquisite in condizioni ideali, ma fallimentari sui frammenti di impronte latenti. Nel tempo residuo in convenzione, si testerà il deep learning direttamente sui frammenti, riducendo l’obsolescenza dei metodi attuali come suggerito dalle guide ENFSI. Fotosegnalamento 2.0 Obiettivo: risparmiare risorse tecnologiche migliorando il riconoscimento facciale dai video e loro ricostruzione in 3D. In collaborazione con il laboratorio di Misure Meccaniche e AIRTLab, è stato creato un prototipo per fotosegnalamento multiprospettico con braccio motorizzato, attrezzato con 4 fotocamere angolate verticalmente e gestite da Raspberry 4PI, un impianto di videosorveglianza con 5 web-cams e uno con 3 telecamere full HD. È stato prodotto il database FRMDB, unico nel suo genere, con 28 immagini multi posa del volto, fisse e invariabili, e le riprese dell’impianto di videosorveglianza, per 67 soggetti. Con approccio deep learning si è mostrato che le CNN sono efficaci a riconoscere volti da video multi prospettiva, purché si disponga di un fotosegnalamento multi posa. In linea con l’obiettivo, tutti i test hanno mostrato che il fotosegnalamento canonico con 2 profili, ha l’accuratezza peggiore, invece c’è un elevato miglioramento da 5 pose in su. Nel tempo residuo in convenzione, si doterà il prototipo di N telecamere Kinect per la modellazione 3D del volto. Violence Detection Obiettivo: addestrare sistemi automatici al rilevamento di violenza da videoriprese, sia per il controllo real-time di ampi spazi, sia per il processamento rapido di lunghe registrazioni. È stato prodotto l’AIRTLab dataset, unico nel suo genere, con 350 clips di scene violente e non violente ma confondibili. Testando 3 modelli 3D basati su deep learning, il dataset si è confermato efficace per testare la robustezza delle reti neurali sui falsi positivi. Ma dato il peso computazionale, in linea con l’obiettivo, è stata combinata una CNN, progettata per dispositivi integrati, con un layer ricorrente ottenendo la perdita di solo 1%AUC e 2% Accuracy a vantaggio di leggerezza e memoria. Nel tempo residuo in convenzione, si replicherà l’approccio su file audio, al fine di contrastare atti di violenza di genere e gli effetti negativi sulle vittime indirette. ​
dactyloscopy; mugshots; violence detection; forensic
dattiloscopia; foto segnaletiche; rilevamento violenza; forense
File in questo prodotto:
File Dimensione Formato  
Tesi_Contardo.pdf

accesso aperto

Tipologia: Tesi di dottorato
Licenza d'uso: Creative commons
Dimensione 18.82 MB
Formato Adobe PDF
18.82 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11566/329832
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact