Videosorveglianza per eventi di massa, un concreto aiuto alle forze dell’ordine

30/06/18

Negli ultimi anni l'Europa è stata teatro di fatti di cronaca che hanno causato numerose vittime, disagi e insicurezza nel tessuto sociale. Attacchi terroristici e altre azioni criminose verificatesi durante eventi pubblici e in luoghi affollati sono improvvisamente diventati una priorità da fronteggiare per l'Unione Europea e per le forze dell'ordine degli Stati membri. Si tratta di uno scenario dai tratti eterogenei, da affrontare con il giusto equilibrio tra aumento delle misure di sicurezza e mantenimento delle libertà individuali.

Oggigiorno esistono diverse tecnologie, dette di “visione artificiale” (computer vision), che in un futuro molto prossimo potranno fornire un concreto supporto alle forze dell'ordine nell'uso dei sistemi di videosorveglianza. Tecnologie sviluppate prendendo spunto dalle attività che il gruppo di ricerca Pattern Recognition and Applications Lab (PRA Lab - http://pralab.diee.unica.it) dell'Università di Cagliari sta svolgendo all’interno del progetto LETSCROWD (Law Enforcement agencies human factor methods and Toolkit for the Security and protection of CROWDs in mass gatherings), partito a maggio 2017 e finanziato dalla Commissione Europea nell'ambito del programma HORIZON 2020.

L'obiettivo generale di LETSCROWD riguarda lo sviluppo di metodologie e soluzioni strategiche e operative per il monitoraggio e la protezione delle folle durante raduni e assembramenti in luoghi pubblici, come concreto supporto legislativo/esecutivo nella definizione di un Modello di Sicurezza Europeo (European Security Model) nell'ambito di raduni di massa.

Proprio a beneficio delle forze dell'ordine verranno sviluppati diversi strumenti tecnologici per il supporto delle loro attività nei raduni di massa, strumenti dei quali saranno anche tester attraverso dimostrazioni pratiche; saranno inoltre erogate attività di formazione e training a loro destinate.

È questo infatti uno dei ruoli principali del laboratorio di ricerca cagliaritano, peraltro coinvolto nel progetto anche in altri ambiti (analisi delle politiche di sicurezza, analisi delle sorgenti informative come i social network, divulgazione e disseminazione dei risultati del progetto).

I sistemi di videosorveglianza sono ormai una realtà diffusa per il monitoraggio di luoghi pubblici e privati (banche, stadi, parcheggi, ferrovie, aeroporti, ecc.), aree industriali, e infrastrutture viarie urbane ed extraurbane. Come naturale conseguenza, per gli operatori addetti al monitoraggio diventa sempre più difficile, se non impossibile, tenere sotto controllo in tempo reale i video prodotti da tali sistemi; questo ha una diretta ripercussione su una eventuale pronta reazione ad eventi o azioni potenzialmente “rilevanti o sospette”; in modo analogo, nel corso di un'indagine fatta ex post, l'analisi di tutte le registrazioni video disponibili, al fine di recuperare frame rilevanti, può richiedere una quantità di tempo eccessiva. L'introduzione di tecnologie avanzate di visione artificiale per automatizzare almeno in parte le attività di monitoraggio e analisi dei video diventa di fatto una necessità. Questa è infatti la direzione nella quale si stanno attualmente muovendo i maggiori produttori di soluzioni per la videosorveglianza, con l'introduzione di funzionalità come la rilevazione e il tracciamento automatico di veicoli e persone, e il riconoscimento delle targhe degli autoveicoli.

Consideriamo ora lo scenario di interesse per LETSCROWD, cioè il monitoraggio di eventi di massa come per esempio manifestazioni, concerti ed eventi sportivi, da parte delle forze dell'ordine. In tali eventi, il numero delle videocamere aumenta esponenzialmente (decine di dispositivi in alcuni casi, e questo valore aumenta durante eventi “critici”). Le videocamere possono essere installate appositamente dalle forze dell’ordine, incluse quelle montate su velivoli (elicotteri e sistemi a pilotaggio remoto, più comunemente noti come "droni"), oppure possono appartenere a sistemi di videosorveglianza preesistenti installati in luoghi pubblici, anche da parte di soggetti privati (ad esempio nelle banche e negli stadi). I video prodotti da ciascuna videocamera vengono tipicamente osservati da uno o più operatori e ufficiali delle forze dell'ordine in una sala di controllo. Dato l'alto numero di tali video, ciascun operatore dovrà tenere sotto controllo, in tempo reale, immagini provenienti da più videocamere, comunicare con gli agenti sul campo, ed eventualmente decidere come modificare le impostazioni delle videocamere PTZ (pan-tilt-zoom) in funzione delle esigenze operative (per esempio cambiando l'inquadratura o lo zoom). Tutti i video vengono inoltre registrati (per un tempo definito dalle norme di legge), e possono successivamente essere visionati nel corso di eventuali indagini su fatti accaduti durante l'evento.

Vediamo più da vicino alcuni esempi delle attività di analisi dei video che gli operatori delle forze dell'ordine possono aver necessità di svolgere durante un evento di massa o dopo il suo svolgimento. Un operatore che osservi su uno dei video un comportamento sospetto da parte di un individuo, potrebbe voler recuperare, possibilmente in tempo reale, tutti i video nei quali compare la stessa persona per poterne analizzarne gli spostamenti e le azioni, e poter poi dare indicazioni agli agenti sul campo, per esempio per rintracciare tale persona. In modo analogo durante un’indagine, un investigatore forense potrebbe voler recuperare tutti i video che mostrano un soggetto descritto da uno o più testimoni oculari (che possono anche essere agenti sul campo) di un incidente o di un crimine accaduto durante l'evento. È evidente che l'analisi "manuale" di tutti i video disponibili può richiedere una quantità di tempo troppo grande.

Se l'operatore ha a disposizione un'immagine delle persone da ricercare (come nello scenario descritto sopra), può essere possibile utilizzare tecnologie biometriche di riconoscimento del volto (face recognition) per eseguire una ricerca automatica sui video disponibili. Tuttavia, tali tecnologie sono efficaci solo se il volto è ben visibile e se si trova in posa quasi frontale. Ciò si verifica raramente in contesti applicativi come quelli di interesse per LETSCROWD: nelle immagini riprese da sistemi di videosorveglianza in aree relativamente estese (per esempio strade, piazze, sedi di concerti) i volti potrebbero non essere visibili, o potrebbero non essere riconoscibili a causa di vari fattori come distanza eccessiva dalla videocamera, occlusioni da parte di altre persone o oggetti nella scena (oltre alla già citata posa non frontale). In questi casi gli operatori, al fine di finalizzare l’identificazione e il riconoscimento, si basano su caratteristiche ausiliarie come il genere, l’aspetto dei vestiti, la presenza di accessori come cappelli o zaini; tali caratteristiche sono utili principalmente per brevi archi temporali (poche ore, o comunque all’interno di una stessa giornata), nei quali è ragionevole che una persona non cambi il proprio abbigliamento; per questo motivo sono anche dette "biometrie deboli", in contrapposizione a una "biometria forte" come il volto. Da alcuni anni nel campo della visione artificiale si stanno studiando tecniche di re-identificazione basate sull'aspetto di una persona invece che sul volto (appearance-based person re-identification), che hanno proprio lo scopo di recuperare automaticamente i filmati acquisiti da sistemi di videosorveglianza nei quali compaia una persona di cui si abbia a disposizione un'immagine, tipicamente fornita da un operatore. In modo analogo, per il caso in cui si abbia a disposizione solo la descrizione dell'aspetto di una persona, sono allo studio tecniche di ricerca di immagini di persone il cui aspetto corrisponda a una descrizione fornita da un operatore in termini di un insieme predefinito di "attributi" relativi alle caratteristiche dell'abbigliamento (ad esempio, il colore), al genere, e ad accessori come quelli sopra citati; tali tecniche sono dette attribute-based people search.

In che modo gli strumenti di appearance-based person re-identification e attribute-based people search possono concretamente supportare gli operatori delle forze dell'ordine e gli investigatori? Torniamo all'esempio di un operatore che osservi una persona sospetta in un video, e voglia recuperare altri video nei quali questa compaia. L’operatore potrebbe fermare il video, “ritagliare” l’immagine di tale persona a partire da un fotogramma, e avviare il software di person re-identification. Tale software confronterà l'immagine ricevuta in ingresso con tutte le immagini di persone che lo stesso software avrà estratto automaticamente, operando "dietro le quinte" (in background) in tempo reale su tutti i video disponibili; al termine del confronto, restituirà all’operatore la sequenza di tali immagini, ordinate in base alla somiglianza con l'immagine della persona da ricercare. L’operatore avrà quindi la possibilità di scorrere tale sequenza, di accedere alle informazioni “di contesto” su ogni immagine (per esempio la posizione della corrispondente videocamera e l'istante di tempo nel quale tale immagine è stata ripresa), e di visualizzare la corrispondente traccia video.

Un software di attribute-based people search ha una funzionalità analoga. Riprendendo l'esempio della descrizione di un individuo fornita da un testimone, un investigatore potrà inserire, attraverso un'opportuna interfaccia, gli elementi di tale descrizione che corrispondano agli attributi predefiniti forniti dal software (per esempio, un uomo con una maglietta rossa e calzoni neri); il software recupererà quindi tutte le immagini di persone precedentemente estratte (in modo automatico) da tutti i video disponibili, e mostrerà all’utente la sequenza di tali immagini ordinata in base al grado di corrispondenza con la descrizione fornita. Anche in questo caso l’utente potrà accedere alle informazioni di contesto e alla traccia video di ciascuna immagine recuperata.

I due strumenti sopra descritti rendono quindi possibile ridurre il tempo di ricerca manuale sui video disponibili, e possono anche recuperare immagini delle persone d'interesse che sarebbero sfuggite a un operatore. Una delle attività del PRA Lab in LETSCROWD consiste proprio nello sviluppo di prototipi di tali strumenti, e nella loro validazione in casi d'uso realistici da parte delle forze dell'ordine coinvolte nel progetto.

Un altro insieme di attività svolte dalle forze dell'ordine durante eventi di massa riguarda il monitoraggio di una folla; esempi tipici sono la stima del numero di persone presenti in una data area e la rilevazione di comportamenti potenzialmente pericolosi o sospetti, come per esempio la presenza di una o più persone che corrono in mezzo a una folla che si muove lentamente. Lo sviluppo di tecniche in grado di monitorare automaticamente una folla è un obiettivo perseguito nel campo della ricerca nella visione artificiale da ormai più di vent'anni; tuttavia ciò richiede una capacità di analisi e interpretazione del contenuto di immagini e video che non è ancora alla portata delle tecnologie attuali, se non tramite soluzioni ad hoc in contesti applicativi molto limitati e ben definiti. In quest'ambito, l'obiettivo del PRA Lab in LETSCROWD consiste nell'analisi dello stato dell'arte delle tecnologie di visione artificiale per il monitoraggio delle folle, e nello sviluppo di prototipi di sistemi in grado di supportare gli operatori nei seguenti compiti:

stima della densità o del numero di persone in una certa area ripresa da una videocamera;
rilevazione delle direzioni principali e delle velocità di movimento all'interno di una folla;
rilevazione di comportamenti "anomali" in una folla, dovuti a:

variazioni repentine della densità (per esempio a causa di una fuga indotta da panico);
superamento di un valore massimo predefinito della densità o del numero di persone in una certa area;
persone o gruppi che si muovono in direzioni o velocità diverse da quelle "normali" in un dato contesto.

In particolare, tenendo conto della difficoltà nell'automatizzare tali compiti, i prototipi sviluppati dal PRA Lab saranno di tipo semi-automatico: dovranno cioè interagire con gli operatori riducendone il carico di lavoro, ma lasciando a loro la decisione finale sull'interpretazione di una data scena. Per fare un esempio concreto, lo strumento dedicato alla rilevazione di comportamenti anomali potrà richiamare l'attenzione dell'operatore su una certa scena nella quale abbia rilevato una diminuzione repentina della densità di persone, lasciando però che sia l'operatore a valutare se il comportamento della folla sia tale da richiedere azioni come un intervento da parte degli operatori sul campo, o se si tratti di una situazione che non comporta nessun reale pericolo, evitando in tal modo potenziali falsi allarmi.

Il progetto LETSCROWD è coordinato da ETRA Investigación y Desarrollo SA (Spagna) e coinvolge sedici partner provenienti da otto paesi UE (istituti di ricerca privati e pubblici, università, forze dell'ordine e pubbliche autorità) operanti nelle aree critiche di governo, sicurezza, energia, finanza, trasporti e servizi. Oltre al PRA Lab, i partner italiani comprendono: la società di consulenza Deep Blue, la spin-off accademica del PRA Lab, Pluribus One, operante nel settore della sicurezza informatica, e il Ministero dell'Interno - Polizia di Stato, Dipartimento di Pubblica Sicurezza. Le altre forze dell'ordine Europee coinvolte nel consorzio annoverano corpi di primo livello: Policía Municipal de Madrid - Ayuntamiento de Madrid (Spagna), University of Applied Sciences - Police Affairs (Germania), Local Police Voorkempen (LEA-Belgio), Ministerio da Administracao Interna - Polícia de Segurança Pública (Portogallo) e Ministry of Internal Affairs (Romania).

Il progetto dunque si pone obiettivi ambiziosi, di notevole impatto sulla vita dei cittadini Europei e sul lavoro delle autorità di pubblica sicurezza. Ulteriori dettagli sul progetto sono reperibili sul sito https://letscrowd.eu (dal sito sono poi accessibili i canali social Twitter e Linkedin dedicati alle attività di progetto). Il cammino di LETSCROWD è iniziato da un anno, con soddisfacenti risultati parziali, e si concluderà ad ottobre 2019, lasciando sicuramente un’eredità interessante ad istituti di ricerca e strutture operative.

Autori/coautori

Prof. Giorgio Fumera, Professore associato di Sistemi di Elaborazione delle Informazioni, presso il Dipartimento di Ingegneria Elettrica ed Elettronica dell'Università di Cagliari.

Dott. Rita Delussu, studentessa di dottorato, Dipartimento di Ingegneria Elettrica ed Elettronica dell'Università di Cagliari.

Dott. Matteo Mauri, responsabile della disseminazione scientifica, Pattern Recognition and Applications Lab, Dipartimento di Ingegneria Elettrica ed Elettronica dell'Università di Cagliari.