Reidentification bow con note

Università degli studi di Firenze
Corso di Laurea Magistrale in Ingegneria Informatica
Basi di Dati Multimediali
Prof. Alberto Del Bimbo

Re-Identification Bag of Words
Marco Di Lorenzo - Lorenzo Mazzi - Leonardo Sequi

Andy Bagdanov
Lamberto Ballan
Andrea Grifoni
Giuseppe Lisanti
Iacopo Masi
Lorenzo Seidenari
Giuseppe Serra

Anno Accademico 2010/2011

Scenario

• Visita da parte di un individuo ad un museo. Durante la visita
Contesto l'individuo andrà a creare un proprio percorso che evidenzierà i suoi
personali interessi verso le opere esposte.

• Creazione di un sistema informatico in grado di monitorare tramite
Obiettivo videocamere gli spostamenti dei visitatori per poter fornire in un
finale secondo momento informazioni relative al percorso e ai punti di
interesse su cui i vari soggetti si sono soffermati maggiormente.

Re-identification Bag of Words – Di Lorenzo, Mazzi, Sequi 2

Processo di analisi del problema
Creazione di un dataset di • Registrazione video
persone • Applicazione del detector di Dalal-Triggs alla sequenza video

Estrazione di features • Per ogni patch sono estratte le features relative ad alcuni tipi di
dalle immagini del dataset descrittori

Creazione di un dizionario • K-means
Visual Word

Rappresentazione delle • Istogramma di Visual Word
patch

• Calcolo della distanza tra query e patch del dataset
Ranking • Ordinamento delle patch in base alle distanze calcolate


Creazione del dataset
Query eDetector di
People Train-Set
Registrazione video
• Realizzazione del
Dalal-Triggs
• Utilizzo di una telecamera
•
groundtruth: sulla
PTZ (Pan,basatoZoom)
Algoritmo Tilt,
– Classificazione manuale
valutazione di istogrammi
• delle patch.
Caratteristiche del video:
normalizzati locali delle
– Scelta di 9’14’’
orientazionidi un’immagine full
– Durata del gradiente in una
body come query per
griglia densa di un'immagine
• –versione di OpenCV:
Riproduzione di 25
La ciascun individuo
• fotogrammi/secondo
A–ciascuna immagine
Lavora su singole immagini
– Risoluzione detection
Visualizza la di 704x576
vengono associati due file
di metadati: originale
sull’immagine
• La versione riadattata:
– <image_file_name>.<descri
– Lavora direttamente su un
ptor_name>: features
video
estratte da ciascuna in
– Filtraggio delle detetction
immagine
base all'area
– <image_file_name>.desc:
– Re-cropping delle patch
– file precedente ottimizzato
Scaling delle patch ad una
per l’elaborazione di 70x280
risoluzione canonica dei dati
• pixel
Caratteristiche del dataset:
– Salvataggio delle detection:
– Numero di soggetti: 11
crop_Frame_6539_FeetX_346_F
– Numero di patch: 3.669
eetY_490.jpg


Dataset
585
600 548

500
398 389
400 283
314
261 276
300 250
223
200 142
#Patch

100

0
1 2 3 4 5 6 7 8 9 10 11


Estrazione features
Patch Color Descriptor Software BINDESC1
Dense File binario prodotto:
sampling
Descrittori estratti
KOEN1
10
4
<CIRCLE 91 186 16.9706 0 0>; 28 45 4 0 0 0 9 14 10 11 9;
<CIRCLE 156 179 16.9706 0 0>; 7 82 80 62 23 2 15 6 21 23;
<CIRCLE 242 108 12 0 0>; 50 67 10 0 0 0 69 44 31 23 0 1;
<CIRCLE 277 105 14.2705 0 0>; 21 12 0 0 8 18 127 50 2 0 0;

Struttura Desc Esecuzione script Matlab

Creazione
vocabolario


Creazione vocabolario: K-Means
Permette di suddividere i descrittori trovati in K
partizioni, ognuna rappresentante una visual word
del vocabolario.
Si sceglie in anticipo il numero di cluster che si vogliono ottenere.

Si scelgono (in modo casuale) i punti che rappresentano i centroidi
iniziali dei cluster.

Si calcola la distanza di ciascun oggetto dai centroidi e si assegnano
gli oggetti ai cluster.

Si ricalcolano i centroidi (punti medi) dei cluster trovati.

Si ripetono i punti 3 e 4 fino a che gli assegnamenti non cambiano (o
cambiano poco).

Si sceglie di terminare l’algoritmo al raggiungimento di un ottimo
(locale)

Rappresentazione delle patch
Patch Bag of Features Istogramma di Visual Word

Codebook Codebook

Visual Word 16 Visual Word 17


Ranking
La distanza Chi-Squared enfatizza maggiormente la
• Ordinamento di tutte le immagini del differenza tra due immagini.
Obiettivo dataset in funzione della somiglianza
alla query image.

dove v* e w* sono i vettori normalizzati con norma L1.
• Somiglianza valutata in termini di Chi-
Approccio Squared distance tra istogrammi.
• Creazione classifica in base alla
distanza calcolata

Query image Dataset images


Test effettuati
• Descrittori utilizzati:
C-SIFT Hue SIFT Transformed Color SIFT
Parametri Rg SIFT Opponent SIFT RGB Sift
dei test • Numero di features (D), prese per la costruzione del vocabolario.
• Numero di visual words (N), contenute nel vocabolario.

Precision e Recall Best-Worst Exclusion
• Effettuato per tutti i • Eseguito sul • Valutazione della
descrittori con vocabolario migliore Average Precision di
diversi valori D e N per i descrittori hue- un individuo le cui
• Valutazione sift e c-sift features sono
dell’Average • Studio dell’Average escluse durante la
Precision. Precision delle query creazione del
con le migliori e vocabolario.
peggiori
performance in
funzione del numero
di individui nel
dataset.


C-Sift: Precision-Recall Test
• Sono state eseguite un totale di 7 prove, variando i valori
Prove assunti dai parametri N e D.

72
TEST MEDIA (%) 70.33
69.37 69.24
70 68.63
N=50 D=20.000 61
68 67.22

N=100 D=20.000 64,36
66
64.36
N=100 D=80.000 68,63 64

N=150 D=60.000 69,37 62 61

N=175 D=60.000 69,24 60

N=200 D=60.000 67,22 58

56
N=250 D=80.000 70,33 N=50 N=100 N=100 N=150 N=175 N=200 N=250
D=20000 D=20000 D=80000 D=60000 D=60000 D=60000 D=80000


C-Sift: Caso Migliore
N=250 • Best: query 4
D=80.000 • Worst: query 11

98.92
QUERY AP (%) 100
90 85.53 86.44 86.84
1 85,53
80 75.04 69.51
2 57,57 70 63.24 62.93
57.57
3 75,04 60 53.78

50
4 98,92 33.86
40
5 53,78 30
20
6 86,44
10
7 63,24 0
1 2 3 4 5 6 7 8 9 10 11
8 69,51
9 62,93
10 86,84
AP Media = 70,33%
11 33,86


C-Sift: Precision-Recall Test


C-Sift: Matrice di confusione

Caso BEST


C-Sift: Best & Worst
70 Caso
65.61 WORST
60 52.69 51.67 52.48
50
Andamento della AP dei 45.79
50.31 49.99 48.55 40.44
40
soggetti 4 e 11
30
all’aumentare del numero 30.03
20
di individui considerati.
10

0
Ind. 1 Ind. 2 Ind. 3 Ind. 4 Ind. 5 Ind. 6 Ind. 7 Ind. 8 Ind. 9 Ind. 10

Caso BEST
100
99.66
Caso
BEST
Caso WORST (ind. 11)
99.51
99.5 99.69 99.21
Graduale decremento della AP
99 99.24 all’aumentare del numero di
98.65
98.77
98.64 98.4 soggetti.
98.5

98 98.2 Caso BEST (ind. 4)
97.5 Minime oscillazioni del valore
97
di AP.


C-Sift: Exclusion Test
Risultati mediamente di poco inferiori ai risultati
# Test effettuati: 4 originali.
Soggetti esclusi : 4 – 8 – 9 – 11 L’esclusione di un soggetto non compromette
significativamente le performance di AP globali.
100
QUERY AP Orig. AP Exclusion 4 AP Exclusion 8 AP Exclusion 9 AP Exclusion 11
90
1 86,16 77,89 85,74 84,15 63,22
80
2 66,37 55,56 61,37 48,9 48,38
70
3 76,06 79,08 71,77 80,27 75,53
60
4 97,81 94,16 98,36 98,94 99,09
50
5 67,18 61,1 69,48 64,07 59,77
40
6 81,59 82,19 86,38 87,39 82,7
30
7 58,37 63,55 51,43 53,59 61,68
20
8 63,69 68,66 77,16 61,54 67,81
10
9 54,16 46,34 47,26 58,56 54,19
0
1
10 2
85,443
76,93
4 5
62,71
6 7
89,23
8 9
84,93
10 11
11 41,48 29,38 33,63 36,8 42,59
A.P. Originale A.P. Exclusion 4 A.P. Exclusion 8 A.P. Exclusion 9 A.P. Exclusion 11


Hue-Sift: Precision-Recall Test

• Sono state eseguite un totale di 5 prove, variando i valori
Prove assunti dai parametri N e D.

84 83.02
82.44
82.63
TEST MEDIA (%) 83
81.78
82
N=100 D=40.000 81,78
81
N=150 D=60.000 77,68 80

N=200 D=60.000 82,63 79
77.68
78
N=350 D=80.000 83,02
77
N=600 D=80.000 82,44 76

75
N=150 N=100 N=200 N=350 N=600
D=60000 D=40000 D=60000 D=80000 D=80000


Hue-Sift: Caso Migliore

98.9 99.18 99.73 99.25
QUERY AP (%) 100 91.24
87.37
90
79.07 79.51 80.49
1 98,9 80
65.36
2 91,24 70
60
3 79,07
50
4 99,18 40 33.13
30
5 99,73
20
6 87,37 10

7 79,51 0
1 2 3 4 5 6 7 8 9 10 11
8 80,49
9 65,36
AP Media = 83,02%
10 99,25
11 33,13


Hue-Sift: Precision-Recall Test


Hue-Sift: Matrice di confusione

Caso BEST


Hue-Sift: Best & Worst
80 Caso
WORST
70 70.73 65.12

Andamento della AP dei 60

soggetti 5 e 11 50
50.92
39.08 40.44
36.82
all’aumentare del numero 40 42.6
37.24 34.97
30
di individui considerati. 34.15
20
10
0
Caso BEST
100 Caso Caso WORST (ind. 11)
99.38 99.5 BEST
99.5 99.68 99.04 Significativo decremento della
99
98.71 98.65 AP all’aumentare del numero
98.44 99.09
98.5 di soggetti.
98 98.27

97.5 97.88 Caso BEST (ind. 4)
97
Minime oscillazioni del valore
96.5
di AP.


Hue-Sift: Exclusion Test
Risultati mediamente di poco inferiori ai risultati
# Test effettuati: 4
originali.
Soggetti esclusi : 4 – 8 – 9 – 11 L’esclusione di un soggetto non compromette
significativamente le performance di AP globali.
100
QUERY AP Orig. AP Exclusion 4 AP Exclusion 8 AP Exclusion 9 AP Exclusion 11
90
1 99,89 99,7 99,7 99,52 99,08
80
2 89,97 84,02 88,3 86,12 81,36
70
3 76,4 75,66 74,09 75,36 76,35
60
4 99,13 98,42 99,06 99,35 99,04
50
5 99,57 99,76 99,87 99,77 99,79
40
6 90,31 86,54 85,83 90,39 84,87
30
7 75,51 59,74 63,18 70,66 67,08
20
8 88,76 84,37 84,47 83,69 91,01
10
9 76,69 68,41 72,3 61,94 70,32
0
10 97,8 98,89 96,23 97,79 96,59
1 2 3 4 5 6 7 8 9 10 11
11 30,3 34,96 40,83 33,89 27,1
A.P. Originale A.P. Exclusion 4 A.P. Exclusion 8 A.P. Exclusion 9 A.P. Exclusion 11


Opponent-Sift: Caso Migliore

97.93
QUERY AP (%) 100 90.32
90
1 35,34 76.85
78.4 79.27
80 71.4
2 54,43 70
60 54.43 53.56
3 76,85 49.28
50
39.22
4 97,93 40 35.34

30
5 90,32
20
6 78,4 10
0
7 39,22 1 2 3 4 5 6 7 8 9 10 11
8 71,4
9 53,56
10 79,27
AP Media = 66,00%
11 49,28


Opponent-Sift: Matrice di confusione

Caso BEST


Transformed Color-Sift: Caso Migliore


QUERY AP (%) 100 97.29
87.71
1 58,08 90 76.77 83.19 85.72

80
2 76,77 69.27
63.85 64.58
67.79
70 58.08
3 87,71 60
50 42.71
4 97,29
40
5 69,27 30
20
6 83,19
10
7 63,85 0
1 2 3 4 5 6 7 8 9 10 11
8 64,58
9 67,79
10 85,72 AP Media = 72,45%
11 42,71


Transformed Color-Sift: Matrice di confusione

Caso BEST


Rgb-Sift: Caso Migliore

97.61
QUERY AP (%) 100
90
1 25,7 76.93
80 70.69 69.41
2 40,25 70 63.61
60.37 61.54
60 54.97
3 63,61
50 40.25
36.41
4 97,61 40
25.7
30
5 54,97
20
6 70,69 10
0
7 36,41 1 2 3 4 5 6 7 8 9 10 11
8 69,41
9 60,37
AP Media = 59,77%
10 76,93
11 61,54


Rgb-Sift: Matrice di confusione

Caso BEST


Rg-Sift: Caso Migliore

99.26
QUERY AP (%) 100
89.27
87.57
90 80.72
1 87,57 75.59
80
2 47,68 70
59 61.67
55.86
60 52.58
3 80,72 47.68 45.26
50
4 99,26 40
30
5 52,58
20
6 75,59 10
0
7 59
1 2 3 4 5 6 7 8 9 10 11
8 61,67
9 55,86
AP Media = 68,58%
10 89,27
11 45,26


Rg-Sift: Matrice di confusione

Caso BEST


Conclusioni: descrittori a confronto
Migliori average precision di ogni descrittore calcolate per ciascun individuo

100

90

80

70

60

50

40

30

20

10

0
1 2 3 4 5 6 7 8 9 10 11

C-Sift Opponent-Sift Rg-Sift Hue-Sift TransformedColor-Sift Rgb-Sift


Migliori average precision di ogni descrittore calcolate per ciascun individuo

100
Soggetto con peggiori
90 performance: individuo 11
• Average Precision media inferiore al
80
50%.
70 • Tra i risultati ottenuti figurano patch di
altri soggetti (1,7,9)
60 • Il soggetto è ritratto frontalmente
nella query mentre nella maggior
50
parte del dataset esso compare di
40
spalle.
• Utilizzando come query lo stesso
30 individuo preso di spalle si registra un
AP del 99% con Hue-SIFT
20

10
Soggetto con migliori performance:
individuo 4
0
• Average Precision media prossima al
1 2 3 4 5 6 7 8 9 10 11
99%.
C-Sift Opponent-Sift Rg-Sift Hue-Sift TransformedColor-Sift Rgb-Sift


Migliori average precision registrate per ogni descrittore

Rgb-Sift 59.77

Best Descriptor: HUE-SIFT
TransformedColor-Sift 72.45
• AP pari a 83,02%

Hue-Sift 83.02

Rg-Sift 68.58

Worst Descriptor: RGB-SIFT
Opponent-Sift 66
• AP pari al 59.77%

C-Sift 70.33

0 10 20 30 40 50 60 70 80 90


Sviluppi futuri: Re-ranking
Situazione • Il ranking stila una classifica di patch secondo la similarità alla query.
attuale • I risultati possono essere affetti da falsi positivi.

1° 2° 3° 4° 5° 6° 7° 8° 9° 10°

Query

Situazione • Il ranking stila una classifica di patch secondo la similarità alla query.
attuale • I risultati possono essere affetti da falsi positivi.

• Utilizzo delle informazioni spazio-temporali che sono associate a ciascuna patch per ottenere risultati
migliori.
Idea • Data la detection con coordinate (x, y, t) è probabile che altre detection dello stesso soggetto si trovino
in un intorno (x±Δx, y±Δy, t±Δt).

t-1 t+1
t


• Per migliorare i risultati si va a prendere un insieme iniziale e lo si espande
Idea di base aggiungendovi altre patch.
• Si deve quindi prendere in considerazioni alcuni problemi.

Scelta dello • Quanti elementi considerare inizialmente?
start-set • Con quale criterio individuare tale numero?

Metodo A
Scegliere una soglia di distanza dalla query entro la quale le patch sono considerate affidabili.
ll valore di soglia opportuno può variare notevolmente a seconda del dataset e della query.
Metodo B
Selezionare le prime N patch date dal ranking con N prefissato.
Non è possibile sapere a priori quante patch vi siano per ciascun individuo all'interno del dataset e
quindi tale numero potrebbe risultare inadeguato.



• Utilizzo della somiglianza alle patch dello start-set.
• Utilizzo delle coordinate spazio-temporali e della somiglianza
Espansione
alla query.
dello start-set
• Utilizzo delle coordinate spazio-temporali e della somiglianza
alle patch dello start-set.

Intervallo
• Tutto l’intervallo temporale con le sue patch.
temporale su
• Suddivisione dell’intervallo temporale in sotto-intervalli su cui
cui fare effettuare l’operazione in modo indipendente l’una dall’altra.
l’espansione


Soluzione 1
1. Selezionare un insieme ristretto di immagini con distanza dalla query minore di una soglia S1.
2. Aggiungere all’insieme di partenza ulteriori patch correlate spazio-temporalmente a quelle già
presenti e con distanza dalla query minore di una soglia S2 (S1 < S2).
3. Ripetere il punto 2 fino a che l’insieme non viene più espanso.

Problematiche
Molte patch valide possono essere scartate.
Rischio di considerare corrette patch di individui che si sono incrociati con il soggetto interessato
durante la visita e hanno distanza minore di S2.
Una patch errata può causare l’espansione dell’insieme in direzioni errate.
Se le patch migliori appartengono ad un breve arco temporale è probabile che l’algoritmo di
espansione produca un insieme di patch appartenenti ad un arco temporale limitato.


Soluzione 2
1. Suddividere l'intervallo temporale (individuato utilizzando i primi N risultati del ranking) in cui è
presente il soggetto.
2. Ad ogni sotto-intervallo si associa tutte le patch del dataset che rientrano in quest’ultimo.
3. Si esegue l’algoritmo di espansione della soluzione 1 per ogni sotto-intervallo.
4. Verificare la consistenza delle informazioni spaziali agli estremi di tali sotto-intervalli.

Problematiche
L’intervallo temporale considerato potrebbe non corrispondere a quello effettivo. Uscita

?
soggetto
da scena

Espansione Espansione Espansione Espansione Espansione Espansione

?
Ingresso
soggetto
in scena
Verifica della consistenza


Soluzione 3
1) Considerare la distanza spazio-temporale fra le patch per individuare una sequenza di traiettorie.
2) Con un sistema di votazione a maggioranza si valuta quali tra queste traiettorie possono essere
associate alla query, basandosi sulla distanza chi-squared fra istogrammi.
3) Ricostruzione del percorso ordinando temporalmente le traiettorie individuate.

Problematiche
L’individuazione delle traiettorie real-time potrebbe essere onerosa, soprattutto nel caso in cui ci
siano molti soggetti.


Appendice 1
Descrittori di colore

Color Histograms Color Moments SIFT Descriptors

• Rappresentano con • Rappresentano i • Descrivono la forma
uno o più istogrammi momenti di colore di locale di una regione
la distribuzione di un’immagine usando istogrammi di
colori di un’immagine orientamento dei
• Contengono
margini
• Non contengono informazioni locali
informazioni spaziali fotometriche spaziali • Contengono
locali derivate dai valori dei informazioni locali
pixel spaziali
• Sono derivative
based


Appendice 2
Color SIFT Descriptors
Hue-Sift RGB SIFT
Hue
• IConcatenazione sono calcolati per ciascun canale R
descrittori SIFT dello hue histogram con il
G e B in modo indipendente
descrittore SIFT
Opponent-Sift
• IL'istogramma tonalità è reso robusto pesando ogni
valori che assume sono uguali a quelli del
transformed color SIFT la sua saturazione
campione di colore con
C-Sift • Il•descrittore HueSIFT opera solo su derivate, la
Il descrittore SIFT è scale-invariant e shift-
invariant rispetto alla intensità della luce
sottrazione dei valori medi nel transformed
color model è ridondante, dato che questo
Rg-Sift
offset viene annullato
• La divisione per la deviazione standard è già
Transformed Color-Sift implicitamente ottenuta tramite la
normalizzazione per la lunghezza del vettore
dei descrittori SIFT
RGB-Sift


Reidentification bow con note

Recomendados

Recomendados

Más contenido relacionado

Similar a Reidentification bow con note

Similar a Reidentification bow con note (15)

Reidentification bow con note