1. Università degli studi di Firenze
Corso di Laurea Magistrale in Ingegneria Informatica
Basi di Dati Multimediali
Prof. Alberto Del Bimbo
Re-Identification Bag of Words
Marco Di Lorenzo - Lorenzo Mazzi - Leonardo Sequi
Andy Bagdanov
Lamberto Ballan
Andrea Grifoni
Giuseppe Lisanti
Iacopo Masi
Lorenzo Seidenari
Giuseppe Serra
Anno Accademico 2010/2011
2. Scenario
• Visita da parte di un individuo ad un museo. Durante la visita
Contesto l'individuo andrà a creare un proprio percorso che evidenzierà i suoi
personali interessi verso le opere esposte.
• Creazione di un sistema informatico in grado di monitorare tramite
Obiettivo videocamere gli spostamenti dei visitatori per poter fornire in un
finale secondo momento informazioni relative al percorso e ai punti di
interesse su cui i vari soggetti si sono soffermati maggiormente.
Re-identification Bag of Words – Di Lorenzo, Mazzi, Sequi 2
3. Processo di analisi del problema
Creazione di un dataset di • Registrazione video
persone • Applicazione del detector di Dalal-Triggs alla sequenza video
Estrazione di features • Per ogni patch sono estratte le features relative ad alcuni tipi di
dalle immagini del dataset descrittori
Creazione di un dizionario • K-means
Visual Word
Rappresentazione delle • Istogramma di Visual Word
patch
• Calcolo della distanza tra query e patch del dataset
Ranking • Ordinamento delle patch in base alle distanze calcolate
Re-identification Bag of Words – Di Lorenzo, Mazzi, Sequi 3
4. Creazione del dataset
Query eDetector di
People Train-Set
Registrazione video
• Realizzazione del
Dalal-Triggs
• Utilizzo di una telecamera
•
groundtruth: sulla
PTZ (Pan,basatoZoom)
Algoritmo Tilt,
– Classificazione manuale
valutazione di istogrammi
• delle patch.
Caratteristiche del video:
normalizzati locali delle
– Scelta di 9’14’’
orientazionidi un’immagine full
– Durata del gradiente in una
body come query per
griglia densa di un'immagine
• –versione di OpenCV:
Riproduzione di 25
La ciascun individuo
• fotogrammi/secondo
A–ciascuna immagine
Lavora su singole immagini
– Risoluzione detection
Visualizza la di 704x576
vengono associati due file
di metadati: originale
sull’immagine
• La versione riadattata:
– <image_file_name>.<descri
– Lavora direttamente su un
ptor_name>: features
video
estratte da ciascuna in
– Filtraggio delle detetction
immagine
base all'area
– <image_file_name>.desc:
– Re-cropping delle patch
– file precedente ottimizzato
Scaling delle patch ad una
per l’elaborazione di 70x280
risoluzione canonica dei dati
• pixel
Caratteristiche del dataset:
– Salvataggio delle detection:
– Numero di soggetti: 11
crop_Frame_6539_FeetX_346_F
– Numero di patch: 3.669
eetY_490.jpg
Re-identification Bag of Words – Di Lorenzo, Mazzi, Sequi 4
7. Creazione vocabolario: K-Means
Permette di suddividere i descrittori trovati in K
partizioni, ognuna rappresentante una visual word
del vocabolario.
Si sceglie in anticipo il numero di cluster che si vogliono ottenere.
Si scelgono (in modo casuale) i punti che rappresentano i centroidi
iniziali dei cluster.
Si calcola la distanza di ciascun oggetto dai centroidi e si assegnano
gli oggetti ai cluster.
Si ricalcolano i centroidi (punti medi) dei cluster trovati.
Si ripetono i punti 3 e 4 fino a che gli assegnamenti non cambiano (o
cambiano poco).
Si sceglie di terminare l’algoritmo al raggiungimento di un ottimo
(locale)
Re-identification Bag of Words – Di Lorenzo, Mazzi, Sequi 7
8. Rappresentazione delle patch
Patch Bag of Features Istogramma di Visual Word
Codebook Codebook
Visual Word 16 Visual Word 17
Re-identification Bag of Words – Di Lorenzo, Mazzi, Sequi 8
9. Ranking
La distanza Chi-Squared enfatizza maggiormente la
• Ordinamento di tutte le immagini del differenza tra due immagini.
Obiettivo dataset in funzione della somiglianza
alla query image.
dove v* e w* sono i vettori normalizzati con norma L1.
• Somiglianza valutata in termini di Chi-
Approccio Squared distance tra istogrammi.
• Creazione classifica in base alla
distanza calcolata
Query image Dataset images
Re-identification Bag of Words – Di Lorenzo, Mazzi, Sequi 9
10. Test effettuati
• Descrittori utilizzati:
C-SIFT Hue SIFT Transformed Color SIFT
Parametri Rg SIFT Opponent SIFT RGB Sift
dei test • Numero di features (D), prese per la costruzione del vocabolario.
• Numero di visual words (N), contenute nel vocabolario.
Precision e Recall Best-Worst Exclusion
• Effettuato per tutti i • Eseguito sul • Valutazione della
descrittori con vocabolario migliore Average Precision di
diversi valori D e N per i descrittori hue- un individuo le cui
• Valutazione sift e c-sift features sono
dell’Average • Studio dell’Average escluse durante la
Precision. Precision delle query creazione del
con le migliori e vocabolario.
peggiori
performance in
funzione del numero
di individui nel
dataset.
Re-identification Bag of Words – Di Lorenzo, Mazzi, Sequi 10
11. C-Sift: Precision-Recall Test
• Sono state eseguite un totale di 7 prove, variando i valori
Prove assunti dai parametri N e D.
72
TEST MEDIA (%) 70.33
69.37 69.24
70 68.63
N=50 D=20.000 61
68 67.22
N=100 D=20.000 64,36
66
64.36
N=100 D=80.000 68,63 64
N=150 D=60.000 69,37 62 61
N=175 D=60.000 69,24 60
N=200 D=60.000 67,22 58
56
N=250 D=80.000 70,33 N=50 N=100 N=100 N=150 N=175 N=200 N=250
D=20000 D=20000 D=80000 D=60000 D=60000 D=60000 D=80000
Re-identification Bag of Words – Di Lorenzo, Mazzi, Sequi 11
14. C-Sift: Matrice di confusione
Caso BEST
Re-identification Bag of Words – Di Lorenzo, Mazzi, Sequi 14
15. C-Sift: Best & Worst
70 Caso
65.61 WORST
60 52.69 51.67 52.48
50
Andamento della AP dei 45.79
50.31 49.99 48.55 40.44
40
soggetti 4 e 11
30
all’aumentare del numero 30.03
20
di individui considerati.
10
0
Ind. 1 Ind. 2 Ind. 3 Ind. 4 Ind. 5 Ind. 6 Ind. 7 Ind. 8 Ind. 9 Ind. 10
Caso BEST
100
99.66
Caso
BEST
Caso WORST (ind. 11)
99.51
99.5 99.69 99.21
Graduale decremento della AP
99 99.24 all’aumentare del numero di
98.65
98.77
98.64 98.4 soggetti.
98.5
98 98.2 Caso BEST (ind. 4)
97.5 Minime oscillazioni del valore
97
di AP.
Ind. 1 Ind. 2 Ind. 3 Ind. 5 Ind. 6 Ind. 7 Ind. 8 Ind. 9 Ind. 10 Ind. 11
Re-identification Bag of Words – Di Lorenzo, Mazzi, Sequi 15
16. C-Sift: Exclusion Test
Risultati mediamente di poco inferiori ai risultati
# Test effettuati: 4 originali.
Soggetti esclusi : 4 – 8 – 9 – 11 L’esclusione di un soggetto non compromette
significativamente le performance di AP globali.
100
QUERY AP Orig. AP Exclusion 4 AP Exclusion 8 AP Exclusion 9 AP Exclusion 11
90
1 86,16 77,89 85,74 84,15 63,22
80
2 66,37 55,56 61,37 48,9 48,38
70
3 76,06 79,08 71,77 80,27 75,53
60
4 97,81 94,16 98,36 98,94 99,09
50
5 67,18 61,1 69,48 64,07 59,77
40
6 81,59 82,19 86,38 87,39 82,7
30
7 58,37 63,55 51,43 53,59 61,68
20
8 63,69 68,66 77,16 61,54 67,81
10
9 54,16 46,34 47,26 58,56 54,19
0
1
10 2
85,443
76,93
4 5
62,71
6 7
89,23
8 9
84,93
10 11
11 41,48 29,38 33,63 36,8 42,59
A.P. Originale A.P. Exclusion 4 A.P. Exclusion 8 A.P. Exclusion 9 A.P. Exclusion 11
Re-identification Bag of Words – Di Lorenzo, Mazzi, Sequi 16
17. Hue-Sift: Precision-Recall Test
• Sono state eseguite un totale di 5 prove, variando i valori
Prove assunti dai parametri N e D.
84 83.02
82.44
82.63
TEST MEDIA (%) 83
81.78
82
N=100 D=40.000 81,78
81
N=150 D=60.000 77,68 80
N=200 D=60.000 82,63 79
77.68
78
N=350 D=80.000 83,02
77
N=600 D=80.000 82,44 76
75
N=150 N=100 N=200 N=350 N=600
D=60000 D=40000 D=60000 D=80000 D=80000
Re-identification Bag of Words – Di Lorenzo, Mazzi, Sequi 17
20. Hue-Sift: Matrice di confusione
Caso BEST
Re-identification Bag of Words – Di Lorenzo, Mazzi, Sequi 20
21. Hue-Sift: Best & Worst
80 Caso
WORST
70 70.73 65.12
Andamento della AP dei 60
soggetti 5 e 11 50
50.92
39.08 40.44
36.82
all’aumentare del numero 40 42.6
37.24 34.97
30
di individui considerati. 34.15
20
10
0
Ind. 1 Ind. 2 Ind. 3 Ind. 4 Ind. 5 Ind. 6 Ind. 7 Ind. 8 Ind. 9 Ind. 10
Caso BEST
100 Caso Caso WORST (ind. 11)
99.38 99.5 BEST
99.5 99.68 99.04 Significativo decremento della
99
98.71 98.65 AP all’aumentare del numero
98.44 99.09
98.5 di soggetti.
98 98.27
97.5 97.88 Caso BEST (ind. 4)
97
Minime oscillazioni del valore
96.5
di AP.
Ind. 1 Ind. 2 Ind. 3 Ind. 4 Ind. 6 Ind. 7 Ind. 8 Ind. 9 Ind. 10 Ind. 11
Re-identification Bag of Words – Di Lorenzo, Mazzi, Sequi 21
22. Hue-Sift: Exclusion Test
Risultati mediamente di poco inferiori ai risultati
# Test effettuati: 4
originali.
Soggetti esclusi : 4 – 8 – 9 – 11 L’esclusione di un soggetto non compromette
significativamente le performance di AP globali.
100
QUERY AP Orig. AP Exclusion 4 AP Exclusion 8 AP Exclusion 9 AP Exclusion 11
90
1 99,89 99,7 99,7 99,52 99,08
80
2 89,97 84,02 88,3 86,12 81,36
70
3 76,4 75,66 74,09 75,36 76,35
60
4 99,13 98,42 99,06 99,35 99,04
50
5 99,57 99,76 99,87 99,77 99,79
40
6 90,31 86,54 85,83 90,39 84,87
30
7 75,51 59,74 63,18 70,66 67,08
20
8 88,76 84,37 84,47 83,69 91,01
10
9 76,69 68,41 72,3 61,94 70,32
0
10 97,8 98,89 96,23 97,79 96,59
1 2 3 4 5 6 7 8 9 10 11
11 30,3 34,96 40,83 33,89 27,1
A.P. Originale A.P. Exclusion 4 A.P. Exclusion 8 A.P. Exclusion 9 A.P. Exclusion 11
Re-identification Bag of Words – Di Lorenzo, Mazzi, Sequi 22
30. Rg-Sift: Matrice di confusione
Caso BEST
Re-identification Bag of Words – Di Lorenzo, Mazzi, Sequi 30
31. Conclusioni: descrittori a confronto
Migliori average precision di ogni descrittore calcolate per ciascun individuo
100
90
80
70
60
50
40
30
20
10
0
1 2 3 4 5 6 7 8 9 10 11
C-Sift Opponent-Sift Rg-Sift Hue-Sift TransformedColor-Sift Rgb-Sift
Re-identification Bag of Words – Di Lorenzo, Mazzi, Sequi 31
32. Conclusioni: descrittori a confronto
Migliori average precision di ogni descrittore calcolate per ciascun individuo
100
Soggetto con peggiori
90 performance: individuo 11
• Average Precision media inferiore al
80
50%.
70 • Tra i risultati ottenuti figurano patch di
altri soggetti (1,7,9)
60 • Il soggetto è ritratto frontalmente
nella query mentre nella maggior
50
parte del dataset esso compare di
40
spalle.
• Utilizzando come query lo stesso
30 individuo preso di spalle si registra un
AP del 99% con Hue-SIFT
20
10
Soggetto con migliori performance:
individuo 4
0
• Average Precision media prossima al
1 2 3 4 5 6 7 8 9 10 11
99%.
C-Sift Opponent-Sift Rg-Sift Hue-Sift TransformedColor-Sift Rgb-Sift
Re-identification Bag of Words – Di Lorenzo, Mazzi, Sequi 32
33. Conclusioni: descrittori a confronto
Migliori average precision registrate per ogni descrittore
Rgb-Sift 59.77
Best Descriptor: HUE-SIFT
TransformedColor-Sift 72.45
• AP pari a 83,02%
Hue-Sift 83.02
Rg-Sift 68.58
Worst Descriptor: RGB-SIFT
Opponent-Sift 66
• AP pari al 59.77%
C-Sift 70.33
0 10 20 30 40 50 60 70 80 90
Re-identification Bag of Words – Di Lorenzo, Mazzi, Sequi 33
34. Sviluppi futuri: Re-ranking
Situazione • Il ranking stila una classifica di patch secondo la similarità alla query.
attuale • I risultati possono essere affetti da falsi positivi.
1° 2° 3° 4° 5° 6° 7° 8° 9° 10°
Query
Re-identification Bag of Words – Di Lorenzo, Mazzi, Sequi 34
35. Sviluppi futuri: Re-ranking
Situazione • Il ranking stila una classifica di patch secondo la similarità alla query.
attuale • I risultati possono essere affetti da falsi positivi.
• Utilizzo delle informazioni spazio-temporali che sono associate a ciascuna patch per ottenere risultati
migliori.
Idea • Data la detection con coordinate (x, y, t) è probabile che altre detection dello stesso soggetto si trovino
in un intorno (x±Δx, y±Δy, t±Δt).
t-1 t+1
t
Re-identification Bag of Words – Di Lorenzo, Mazzi, Sequi 35
36. Sviluppi futuri: Re-ranking
• Per migliorare i risultati si va a prendere un insieme iniziale e lo si espande
Idea di base aggiungendovi altre patch.
• Si deve quindi prendere in considerazioni alcuni problemi.
Scelta dello • Quanti elementi considerare inizialmente?
start-set • Con quale criterio individuare tale numero?
Metodo A
Scegliere una soglia di distanza dalla query entro la quale le patch sono considerate affidabili.
ll valore di soglia opportuno può variare notevolmente a seconda del dataset e della query.
Metodo B
Selezionare le prime N patch date dal ranking con N prefissato.
Non è possibile sapere a priori quante patch vi siano per ciascun individuo all'interno del dataset e
quindi tale numero potrebbe risultare inadeguato.
Re-identification Bag of Words – Di Lorenzo, Mazzi, Sequi 36
37. Sviluppi futuri: Re-ranking
• Utilizzo della somiglianza alle patch dello start-set.
• Utilizzo delle coordinate spazio-temporali e della somiglianza
Espansione
alla query.
dello start-set
• Utilizzo delle coordinate spazio-temporali e della somiglianza
alle patch dello start-set.
Intervallo
• Tutto l’intervallo temporale con le sue patch.
temporale su
• Suddivisione dell’intervallo temporale in sotto-intervalli su cui
cui fare effettuare l’operazione in modo indipendente l’una dall’altra.
l’espansione
Re-identification Bag of Words – Di Lorenzo, Mazzi, Sequi 37
38. Sviluppi futuri: Re-ranking
Soluzione 1
1. Selezionare un insieme ristretto di immagini con distanza dalla query minore di una soglia S1.
2. Aggiungere all’insieme di partenza ulteriori patch correlate spazio-temporalmente a quelle già
presenti e con distanza dalla query minore di una soglia S2 (S1 < S2).
3. Ripetere il punto 2 fino a che l’insieme non viene più espanso.
Problematiche
Molte patch valide possono essere scartate.
Rischio di considerare corrette patch di individui che si sono incrociati con il soggetto interessato
durante la visita e hanno distanza minore di S2.
Una patch errata può causare l’espansione dell’insieme in direzioni errate.
Se le patch migliori appartengono ad un breve arco temporale è probabile che l’algoritmo di
espansione produca un insieme di patch appartenenti ad un arco temporale limitato.
Re-identification Bag of Words – Di Lorenzo, Mazzi, Sequi 38
39. Sviluppi futuri: Re-ranking
Soluzione 2
1. Suddividere l'intervallo temporale (individuato utilizzando i primi N risultati del ranking) in cui è
presente il soggetto.
2. Ad ogni sotto-intervallo si associa tutte le patch del dataset che rientrano in quest’ultimo.
3. Si esegue l’algoritmo di espansione della soluzione 1 per ogni sotto-intervallo.
4. Verificare la consistenza delle informazioni spaziali agli estremi di tali sotto-intervalli.
Problematiche
L’intervallo temporale considerato potrebbe non corrispondere a quello effettivo. Uscita
?
soggetto
da scena
Espansione Espansione Espansione Espansione Espansione Espansione
?
Ingresso
soggetto
in scena
Verifica della consistenza
Re-identification Bag of Words – Di Lorenzo, Mazzi, Sequi 39
40. Sviluppi futuri: Re-ranking
Soluzione 3
1) Considerare la distanza spazio-temporale fra le patch per individuare una sequenza di traiettorie.
2) Con un sistema di votazione a maggioranza si valuta quali tra queste traiettorie possono essere
associate alla query, basandosi sulla distanza chi-squared fra istogrammi.
3) Ricostruzione del percorso ordinando temporalmente le traiettorie individuate.
Problematiche
L’individuazione delle traiettorie real-time potrebbe essere onerosa, soprattutto nel caso in cui ci
siano molti soggetti.
Re-identification Bag of Words – Di Lorenzo, Mazzi, Sequi 40
41. Università degli studi di Firenze
Corso di Laurea Magistrale in Ingegneria Informatica
Basi di Dati Multimediali
Prof. Alberto Del Bimbo
Re-Identification Bag of Words
Marco Di Lorenzo - Lorenzo Mazzi - Leonardo Sequi
Andy Bagdanov
Lamberto Ballan
Andrea Grifoni
Giuseppe Lisanti
Iacopo Masi
Lorenzo Seidenari
Giuseppe Serra
Anno Accademico 2010/2011
42. Università degli studi di Firenze
Corso di Laurea Magistrale in Ingegneria Informatica
Basi di Dati Multimediali
Prof. Alberto Del Bimbo
Re-Identification Bag of Words
Marco Di Lorenzo - Lorenzo Mazzi - Leonardo Sequi
Andy Bagdanov
Lamberto Ballan
Andrea Grifoni
Giuseppe Lisanti
Iacopo Masi
Lorenzo Seidenari
Giuseppe Serra
Anno Accademico 2010/2011
43. Università degli studi di Firenze
Corso di Laurea Magistrale in Ingegneria Informatica
Basi di Dati Multimediali
Prof. Alberto Del Bimbo
Re-Identification Bag of Words
Marco Di Lorenzo - Lorenzo Mazzi - Leonardo Sequi
Andy Bagdanov
Lamberto Ballan
Andrea Grifoni
Giuseppe Lisanti
Iacopo Masi
Lorenzo Seidenari
Giuseppe Serra
Anno Accademico 2010/2011
44. Appendice 1
Descrittori di colore
Color Histograms Color Moments SIFT Descriptors
• Rappresentano con • Rappresentano i • Descrivono la forma
uno o più istogrammi momenti di colore di locale di una regione
la distribuzione di un’immagine usando istogrammi di
colori di un’immagine orientamento dei
• Contengono
margini
• Non contengono informazioni locali
informazioni spaziali fotometriche spaziali • Contengono
locali derivate dai valori dei informazioni locali
pixel spaziali
• Sono derivative
based
Re-identification Bag of Words – Di Lorenzo, Mazzi, Sequi 44
45. Appendice 2
Color SIFT Descriptors
Hue-Sift RGB SIFT
Hue
• IConcatenazione sono calcolati per ciascun canale R
descrittori SIFT dello hue histogram con il
G e B in modo indipendente
descrittore SIFT
Opponent-Sift
• IL'istogramma tonalità è reso robusto pesando ogni
valori che assume sono uguali a quelli del
transformed color SIFT la sua saturazione
campione di colore con
C-Sift • Il•descrittore HueSIFT opera solo su derivate, la
Il descrittore SIFT è scale-invariant e shift-
invariant rispetto alla intensità della luce
sottrazione dei valori medi nel transformed
color model è ridondante, dato che questo
Rg-Sift
offset viene annullato
• La divisione per la deviazione standard è già
Transformed Color-Sift implicitamente ottenuta tramite la
normalizzazione per la lunghezza del vettore
dei descrittori SIFT
RGB-Sift
Re-identification Bag of Words – Di Lorenzo, Mazzi, Sequi 45