SlideShare una empresa de Scribd logo
1 de 38
Descargar para leer sin conexión
Interfície web per l’annotació semi-automàtica de plans semàntics
Elisabet Carcel
Tutoritzat per : Xavier Giró i Xavier Vives
Índex

Introducció
Requeriments

Classificador de plans

Interfície Gràfica d’Usuari

Estat de l’art

Desenvolupament

Disseny

Demostració

Desenvolupament
Evaluació
Treball futur
Conclusions
Índex

Introducció
Requeriments

Classificador de plans

Interfície Gràfica d’Usuari

Estat de l’art

Desenvolupament

Disseny

Demostració

Desenvolupament
Evaluació
Treball futur
Conclusions
Introducció

1

Continguts digitals:
Els continguts audiovisuals s’han
d’indexar per tal de permetre la seva
recuperació

Producció AV
Grabació de vídeo en
format digital

Ingesta

Recuperació

Emmagatzemament i
indexació dels vídeos a la
base de dades

Cerca de les metadades
de la base de dades per
obtenir el vídeo
Introducció

2

DIGITION
Media Asset Management

Asset

02_14_20
Introducció

3

Ingesta i recuperació
400.000

Repositori

Ingesta

Ingesta
Emmagatzemades

320.000

Recuperació
240.000

25.000
0,056%

160.000

80.000

25.000
25.000

135.000

160.000

185.000

99,944%
Hores sense recuperar
75h recuperades
Recuperació diària 2010

0

2010

2011

Hores de vídeo anuals

2012
Introducció
Solució actual

4
Proposta del projecte

vídeos sense
annotar

Metadades per estrats
• Codi de temps inici
• Codi de temps final
• Descripció del contingut
- Descripció de l’acció
-Tipus de plans
- Persones

Interfície Gràfica
d’annotació
semi-automàtica

vídeos annotats
Índex

Introducció
Requeriments

Classificador de plans

Interfície Gràfica d’Usuari

Estat de l’art

Desenvolupament

Disseny

Demostració

Desenvolupament
Evaluació
Treball futur
Conclusions
Requeriments

5

UPC
Detector de plans semàntics
• Detecció a nivell de keyframes
Tipus de Pla

Concepte semàntic

Pla semàntic

Pla curt
+
jugador

Pla curt
+
llotja
Requeriments

6

Futbol

Parlament
• Cromo PP

• PC president

• Cromo

• PC

• Cromo beauty

• PM

• Public

• PG mesa

• Pancarta

• PG hemicicle

• Llotja
Requeriments
CCMA
Interfície gràfica d’usuari
• Integrable al Digition
• Flexibilitat per l’usuari
• Interfície genèrica
• Aprofitament de les anotacions fetes per l’usuari

7
Índex

Introducció
Requeriments

Classificador de plans

Interfície Gràfica d’Usuari

Estat de l’art

Desenvolupament

Disseny

Demostració

Desenvolupament
Evaluació
Treball futur
Conclusions
Estat de l’art

8

Entrenament

Reconeixement de patrons

Detecció
?

?

Decisió
0.23

=
????
?

?

>llindar
0.98

Sí

No
Índex

Introducció
Requeriments

Classificador de plans

Interfície Gràfica d’Usuari

Estat de l’art

Desenvolupament

Disseny

Demostració

Desenvolupament
Evaluació
Treball futur
Conclusions
Disseny

9

Arquitectura del sistema
Entrenament:
Entrenador 1

Entrenador 2

?

Detector1

Detector 2

Model
classe N

valor de
confiança 1
valor de
confiança 2

Model
classe 2

Entrenador N

Detecció:

Model
classe 1

Detector N

valor de
confiança N

Model
domini

Decisió

màx valor
de confiança

>llindar

No

Sí

Classe màx

Cap Pla
Índex

Introducció
Requeriments

Classificador de plans

Interfície Gràfica d’Usuari

Estat de l’art

Desenvolupament

Disseny

Demostració

Desenvolupament
Evaluació
Treball futur
Conclusions
Desenvolupament
Entorn de desenvolupament

10
Desenvolupament

11

Anotació
Ontologia Futbol
Classe 1
Classe 2
Classe 3
Classe 4
Classe 5
Classe 6
Classe 7

Cromo
Cromo PP
Cromo Beauty
Public
Pancarta
Llotja
Cap Pla

116
87
4
19
4
6
278
514

Ontologia Parlament
Classe 1
Classe 2
Classe 3
Classe 4
Classe 5
Classe 6

PC President
PC
PM
PG Mesa
PG Hemicicle
Cap Pla

16
63
68
13
23
84
276
Desenvolupament

12

Entrenador

Detector

B_TRAINER

B_DETECTOR

Definició de clusters:
-Mínim nombre d’elements
-Màxim radi

-Puntuació mínima

Decisió

Valor de confiança

>llindar
Sí

No

Cap Pla
Índex

Introducció
Requeriments

Classificador de plans

Interfície Gràfica d’Usuari

Estat de l’art

Desenvolupament

Disseny

Demostració

Desenvolupament
Evaluació
Treball futur
Conclusions
Evaluació
n or specificity is a measure of the ability of a system to present only relevant
Precision and Recall
s. It measures the exactness or fidelity of 4.3.3. F1 and Fß measure
the system.

13

n or specificity isempreades the ability of a system to present only relevant
Mesures a measure of
a
and
es. It P recisi´ = quantitat dor fidelity ofdetectades correctament precision(4.1) recall providing a single mea
measures the exactness inst`ncies F-measure considers both
the system.
o
quantitat total d inst`ncies having two independent measures.
a
avoiding detectades

quantitat d inst`ncies detectades correctament
a
sensitivity is a measure of the ability of a system to present all relevant instances,
P recisi´ =
o
(4.1)
 inst`ncies detectades
quantitat total d
a
precisi´ · record
o
sed for evaluating the completeness of results.
F 1 = 2·
precisi´ + record
o
r sensitivity is a measure of the ability of a system to present all relevant instances,
quantitat d inst`ncies detectades correctament
a
used for evaluating the completeness of results.
Record =
In order to give different weights (4.2)
to precision and recall, the F-m
 inst`ncies a la col.lecci´
quantitat d
a
o
that Fß measures the effectiveness of retrieval with respect to a user
amount of correct instances detected
Recall row and two column as much importance to recall as precision[8].
(4.2)
ctive analysis a two=
confusion table is commonly used for
amount of instances in the collection
ng binary classifiers. It reports the number of true negatives, false positives, false
ictive true positives. True negatives andconfusion
s, and analysis a two row and two columnAutomàtic table are properly classified
true positives is commonly used for
precisi´ · record
o
2
Fß = (1 false
ng false classifiers. It reports the number ofwhen obtained false positives,+ ß ) ·
true
hilebinarypositives and false negatives occurClasse2 negatives, classification do not (ß2 · precisi´) + record
o
Classe1
Classe3
es, and true positives. True negatives in table positives are properly classified
orrect classification. This is illustrated and true4.3.
while false positives and false negatives occur when obtained0classification do not
Classe1
4
1
Automatic
correct classification. This is illustrated in table 4.3.
M
a
positive
negative
Classe2
0
3
0
n
Automatic positive
u
positive true positive
false

a
l Manual
Classe3

positive
negative
tp
fp 3
0
positive true
false positive
negative false positive
negative true negative
Manual
tp
fp
fn
tn
negative false negative true negative
2
Evaluació
n or specificity is a measure of the ability of a system to present only relevant
Precision and Recall
s. It measures the exactness or fidelity of 4.3.3. F1 and Fß measure
the system.

13

n or specificity isempreades the ability of a system to present only relevant
Mesures a measure of
a
and
es. It P recisi´ = quantitat dor fidelity ofdetectades correctament precision(4.1) recall providing a single mea
measures the exactness inst`ncies F-measure considers both
the system.
o
quantitat total d inst`ncies having two independent measures.
a
avoiding detectades

quantitat d inst`ncies detectades correctament
a
sensitivity is a measure of the ability of a system to present all relevant instances,
P recisi´ =
o
(4.1)
 inst`ncies detectades
quantitat total d
a
precisi´ · record
o
sed for evaluating the completeness of results.
F 1 = 2·
precisi´ + record
o
r sensitivity is a measure of the ability of a system to present all relevant instances,
quantitat d inst`ncies detectades correctament
a
used for evaluating the completeness of results.
Record =
In order to give different weights (4.2)
to precision and recall, the F-m
 inst`ncies a la col.lecci´
quantitat d
a
o
that Fß measures the effectiveness of retrieval with respect to a user
amount of correct instances detected
Recall row and two column as much importance to recall as precision[8].
(4.2)
ctive analysis a two=
confusion table is commonly used for
amount of instances in the collection
ng binary classifiers. It reports the number of true negatives, false positives, false
ictive true positives. True negatives andconfusion
s, and analysis a two row and two columnAutomàtic table are properly classified
true positives is commonly used for
precisi´ · record
o
2
Fß = (1 false
ng false classifiers. It reports the number ofwhen obtained false positives,+ ß ) ·
true
hilebinarypositives and false negatives occurClasse2 negatives, classification do not (ß2 · precisi´) + record
o
Classe1
Classe3
es, and true positives. True negatives in table positives are properly classified
orrect classification. This is illustrated and true4.3.
while false positives and false negatives occur when obtained0classification do not
Classe1
4
1
Automatic
correct classification. This is illustrated in table 4.3.
M
a
positive
negative
Classe2
0
3
0
n
Automatic positive
u
positive true positive
false

a
l Manual
Classe3

positive
negative
tp
fp 3
0
positive true
false positive
negative false positive
negative true negative
Manual
tp
fp
fn
tn
negative false negative true negative
2
Evaluació

14

Partició de dades
• Entrenament
- 80% de les instàncies (+)
- Totes les instàncies positives de les altres
classes com a negatives (-)
- Eliminació d’instàncies de cap tipus de pla

• Detecció
- 20% de les instàncies (+)
Evaluació

15

Variables del classificador:

mesura F1

• Màx distància del clúster
• Min elements dins d'un clúster
• Puntuació mínima
Màx dist. (0.1 - 1.0)

Min elem. (0 - 5)

Iteracions (3)

Llindar (0.0 - 1.0)
Evaluació

16

Resultats parlament
• Paràmetres òptims
– Puntuació mínima: 0.9
– Mínim nombre d’elements: 3
– Màxima distància: 0.8

Min

Max radius

elements

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

1

0.718

0.962

0.952

0.949

0.958

0.970

0.957

0.957

0.949

0.946

2

0.715

0.962

0.955

0.952

0.952

0.962

0.951

0.951

0.966

0.965

3

0.769

0.948

0.968

0.960

0.960

0.957

0.959

0.972

0.944

0.958

4

0.763

0.955

0.965

0.962

0.956

0.963

0.968

0.966

0.954

0.964

5

0.719

0.970

0.966

0.947

0.958

0.959

0.958

0.961

0.953

0.967

Figure 7.4.: Catalan Parliament F1 measures for 0.9 minimum score
Evaluació

17
• Cap pla identificat com Pla curt: 7.73% error

Automàtic
PC Presi.

M
a
n
u
a
l

PC
PG
PC
PM
Crom Crom Classe Mesa
Presi
o
o PP
3
93
0
0
0

PG
Hemi

Cap
pla

0

3

PC

0

376

0

0

0

2

PM

0

0

405

0

0

3

PG Mesa

0

0

0

75

0

3

PG Hemi.

0

0

0

0

135

3

Cap pla

0

39

0

0

0

465

• Classes identificades com Cap pla: 1.27% error

Mesura F1
•
•
•
•
•
•

PC president: 0.98
PC: 0.95
PM: 0.99
PG Mesa: 0.98
PG Hemicicle: 0.99
Cap pla: 0.94
Evaluació

18

Resultats Futbol
• Paràmetres òptims
– Puntuació mínima: 0.7
– Mínim nombre d’elements: 1
– Màxima distància: 0.8

Min

Max radius

elements

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

1

0.385

0.616

0.691

0.703

0.822

0.734

0.771

0.860

0.829

0.714

2

0

0

0.838

0.546

0.858

0.827

0.828

0.816

0.832

0.659

3

0

0

0.853

0.784

0.764

0.785

0.770

0.818

0.833

0.727

4

0

0

0

0

0

0

0

0

0

0

5

0

0

0

0

0

0

0

0

0

0

Figure 7.1.: Soccer match F1 measures for 0.7 minimum score
class that causes that problem and the percentage error of the confusion.

Evaluació

19

Automatic
Class1

Class2

Class3

Class4

Class5

Class6

Class7

Class1

652

11

0

0

0

0

33

Class2

4

482

Class3

1

0

Class4

0

a Pancarta
Table 7.3.: Best soccer match confusion matrix instances
0
0
0
0
l

% Error

Cromo PP

Cromo

0.76%

Cromo

Cromo PP

1.58%

Cromo Beauty

Cromo

4.16%

Cromo PP

2.77%

Cap pla

Cromo

27.63%

Cap pla

Cromo PP

0.17%

Totes les classes

0
0
0
0
36
Cromo Cromo Public Panc. Llotja
Cromo
20
0
0
0
3
PP
Cromo Cromo Beauty
Classe
0
94
0
20
PP
3 0
629
1
0
0
0
0
0
0
18
0
6
4
482
0
0
0
0
0
0
0
21
14
1
0
20
0
0
0
0
0
0
0
1204
0
0
0
94
0
0

Automatic

Llotja

0
Cromo
Class5
0
0
Cromo PP
M0
Class6
1
a C.Beauty
Class7 n461
3
Public
u

Automàtic

Manual

Cap pla

7.9%

Cap
Pla
3
33
36
3
20

18

0

6

Llotja

0

1

0

0

0

21

14

Cap pla

461

3

0

0

0

0

1204

Mesura F1

•
•
•
•
•
•
•

Class1

Class2

Class3

Class4

Class5

Class6

Class7

Cromo: 0.72
CromoPP: 0.95
C.Beauty: 0.91
Public: 0.90
Pancarta: 0.86
Llotja: 0.74
Cap Pla: 0.81
Índex

Introducció
Requeriments

Classificador de plans

Interfície Gràfica d’Usuari

Estat de l’art

Desenvolupament

Disseny

Demostració

Desenvolupament
Evaluació
Treball futur
Conclusions
Interfície Gràfica d’Usuari

20
Interfície Gràfica d’Usuari
Configuració de la xarxa

21
Serveis web UPC:
• Llistat de keyframes donat un asset
Asset 1257

00_00_09_24

00_00_39_25

00_00_54_48

00_00_59_41

• Detecció donat un keyframe

Intercanvi de dades

00_00_09_24
Futbol
Mín elements
Màx distància

Classe 3
Score: 0.83

00_00_54_48
Futbol
Mín elements
Màx distància

Class 5
Score 0.46

Class 3
Score 0.75

00_00_59_41
Futbol
Mín elements
Màx distància

Class 2
Score 0.98

• Format: JSON
00_00_39_25
Futbol
Mín elements
Màx distància
Índex

Introducció
Requeriments

Classificador de plans

Interfície Gràfica d’Usuari

Estat de l’art

Desenvolupament

Disseny

Demostració

Desenvolupament
Evaluació
Treball futur
Conclusions
Interfície Gràfica d’Usuari

22
Índex

Introducció
Requeriments

Classificador de plans

Interfície Gràfica d’Usuari

Estat de l’art

Desenvolupament

Disseny

Demostració

Desenvolupament
Evaluació
Treball futur
Conclusions
Treball futur

23

Tasques pendents

!#$%'()$*+$*($%(,

• Web service entrenament

!#$%%'()#*%#%+

• Velocitat del procés de detecció
• Problemes SQL Fedora (Asset / PID)
• Integració al Digition

!#$%%'()#$%#*%+#,-#./#0%1#23$.#120%2%/4#%/#%#51611(/#0%

4#$1/-#$7./4#1246%8#97.-.4)1#%-'.#./#!#$%'#1#$%24/4#%#%+#:.%#%-

;()242%/ # % # %+ # %- # )(=4 # 4- #4-# %%/('1%- # 1 # ?$%(- #$7%-0()- #'(
7%+%20%#$%#4#@16.)4#AB8#!-#)%-.4-#%-#2(-)%/#?1-.41C4/#4#1246%#
4#-(=)%#$%#%+#)(=4#1#4#4#-%?4#$)%4#%#%+#%-')1#%/#./#%$1()#$%#%+8

Futures línies de treball
• Proposta: indexació intel.ligent (presa de decisions)
- Pancarta -- Reconeixement de text
- Plans curts / PP -- Reconeixement facial
- Pla mig parlament -- Veu a text

!#$%'()*'+,-,.-/%'0,'-,1-
Índex

Introducció
Requeriments

Classificador de plans

Interfície Gràfica d’Usuari

Estat de l’art

Desenvolupament

Disseny

Demostració

Desenvolupament
Evaluació
Treball futur
Conclusions
Conclusions

Classificador semàntic

24

Interfície Gràfica d’Usuari
• Interfície integrable al digition

• Classificació multiclasse a partir de classificació binaria
- Annotació optimitzada (només + )
- Evaluació per sistemes multiclasse
- Mètriques a partri de la matriu de confusió
- Cercador automàtic de paràmetres òptims
- Nou mètode de partició de dades

• Interfície flexible, fàcil d’utilitzar, optimitzada:
- Ordenació per puntuació mínima
- Canvi de la puntuació mínima
- Drag and drop
- Validació pàgina /pla semàntic

• Creació dels dos models
• Bons resultats

• Aprofitament de l’anotació:
- Entrenament
- Destacat de keyframes
Gràcies per la vostra atenció
Preguntes ?

Más contenido relacionado

Más de Universitat Politècnica de Catalunya

Generation of Synthetic Referring Expressions for Object Segmentation in Videos
Generation of Synthetic Referring Expressions for Object Segmentation in VideosGeneration of Synthetic Referring Expressions for Object Segmentation in Videos
Generation of Synthetic Referring Expressions for Object Segmentation in Videos
Universitat Politècnica de Catalunya
 

Más de Universitat Politècnica de Catalunya (20)

The Transformer in Vision | Xavier Giro | Master in Computer Vision Barcelona...
The Transformer in Vision | Xavier Giro | Master in Computer Vision Barcelona...The Transformer in Vision | Xavier Giro | Master in Computer Vision Barcelona...
The Transformer in Vision | Xavier Giro | Master in Computer Vision Barcelona...
 
Towards Sign Language Translation & Production | Xavier Giro-i-Nieto
Towards Sign Language Translation & Production | Xavier Giro-i-NietoTowards Sign Language Translation & Production | Xavier Giro-i-Nieto
Towards Sign Language Translation & Production | Xavier Giro-i-Nieto
 
The Transformer - Xavier Giró - UPC Barcelona 2021
The Transformer - Xavier Giró - UPC Barcelona 2021The Transformer - Xavier Giró - UPC Barcelona 2021
The Transformer - Xavier Giró - UPC Barcelona 2021
 
Learning Representations for Sign Language Videos - Xavier Giro - NIST TRECVI...
Learning Representations for Sign Language Videos - Xavier Giro - NIST TRECVI...Learning Representations for Sign Language Videos - Xavier Giro - NIST TRECVI...
Learning Representations for Sign Language Videos - Xavier Giro - NIST TRECVI...
 
Open challenges in sign language translation and production
Open challenges in sign language translation and productionOpen challenges in sign language translation and production
Open challenges in sign language translation and production
 
Generation of Synthetic Referring Expressions for Object Segmentation in Videos
Generation of Synthetic Referring Expressions for Object Segmentation in VideosGeneration of Synthetic Referring Expressions for Object Segmentation in Videos
Generation of Synthetic Referring Expressions for Object Segmentation in Videos
 
Discovery and Learning of Navigation Goals from Pixels in Minecraft
Discovery and Learning of Navigation Goals from Pixels in MinecraftDiscovery and Learning of Navigation Goals from Pixels in Minecraft
Discovery and Learning of Navigation Goals from Pixels in Minecraft
 
Learn2Sign : Sign language recognition and translation using human keypoint e...
Learn2Sign : Sign language recognition and translation using human keypoint e...Learn2Sign : Sign language recognition and translation using human keypoint e...
Learn2Sign : Sign language recognition and translation using human keypoint e...
 
Intepretability / Explainable AI for Deep Neural Networks
Intepretability / Explainable AI for Deep Neural NetworksIntepretability / Explainable AI for Deep Neural Networks
Intepretability / Explainable AI for Deep Neural Networks
 
Convolutional Neural Networks - Xavier Giro - UPC TelecomBCN Barcelona 2020
Convolutional Neural Networks - Xavier Giro - UPC TelecomBCN Barcelona 2020Convolutional Neural Networks - Xavier Giro - UPC TelecomBCN Barcelona 2020
Convolutional Neural Networks - Xavier Giro - UPC TelecomBCN Barcelona 2020
 
Self-Supervised Audio-Visual Learning - Xavier Giro - UPC TelecomBCN Barcelon...
Self-Supervised Audio-Visual Learning - Xavier Giro - UPC TelecomBCN Barcelon...Self-Supervised Audio-Visual Learning - Xavier Giro - UPC TelecomBCN Barcelon...
Self-Supervised Audio-Visual Learning - Xavier Giro - UPC TelecomBCN Barcelon...
 
Attention for Deep Learning - Xavier Giro - UPC TelecomBCN Barcelona 2020
Attention for Deep Learning - Xavier Giro - UPC TelecomBCN Barcelona 2020Attention for Deep Learning - Xavier Giro - UPC TelecomBCN Barcelona 2020
Attention for Deep Learning - Xavier Giro - UPC TelecomBCN Barcelona 2020
 
Generative Adversarial Networks GAN - Xavier Giro - UPC TelecomBCN Barcelona ...
Generative Adversarial Networks GAN - Xavier Giro - UPC TelecomBCN Barcelona ...Generative Adversarial Networks GAN - Xavier Giro - UPC TelecomBCN Barcelona ...
Generative Adversarial Networks GAN - Xavier Giro - UPC TelecomBCN Barcelona ...
 
Q-Learning with a Neural Network - Xavier Giró - UPC Barcelona 2020
Q-Learning with a Neural Network - Xavier Giró - UPC Barcelona 2020Q-Learning with a Neural Network - Xavier Giró - UPC Barcelona 2020
Q-Learning with a Neural Network - Xavier Giró - UPC Barcelona 2020
 
Language and Vision with Deep Learning - Xavier Giró - ACM ICMR 2020 (Tutorial)
Language and Vision with Deep Learning - Xavier Giró - ACM ICMR 2020 (Tutorial)Language and Vision with Deep Learning - Xavier Giró - ACM ICMR 2020 (Tutorial)
Language and Vision with Deep Learning - Xavier Giró - ACM ICMR 2020 (Tutorial)
 
Image Segmentation with Deep Learning - Xavier Giro & Carles Ventura - ISSonD...
Image Segmentation with Deep Learning - Xavier Giro & Carles Ventura - ISSonD...Image Segmentation with Deep Learning - Xavier Giro & Carles Ventura - ISSonD...
Image Segmentation with Deep Learning - Xavier Giro & Carles Ventura - ISSonD...
 
Curriculum Learning for Recurrent Video Object Segmentation
Curriculum Learning for Recurrent Video Object SegmentationCurriculum Learning for Recurrent Video Object Segmentation
Curriculum Learning for Recurrent Video Object Segmentation
 
Deep Self-supervised Learning for All - Xavier Giro - X-Europe 2020
Deep Self-supervised Learning for All - Xavier Giro - X-Europe 2020Deep Self-supervised Learning for All - Xavier Giro - X-Europe 2020
Deep Self-supervised Learning for All - Xavier Giro - X-Europe 2020
 
Deep Learning Representations for All - Xavier Giro-i-Nieto - IRI Barcelona 2020
Deep Learning Representations for All - Xavier Giro-i-Nieto - IRI Barcelona 2020Deep Learning Representations for All - Xavier Giro-i-Nieto - IRI Barcelona 2020
Deep Learning Representations for All - Xavier Giro-i-Nieto - IRI Barcelona 2020
 
Transcription-Enriched Joint Embeddings for Spoken Descriptions of Images and...
Transcription-Enriched Joint Embeddings for Spoken Descriptions of Images and...Transcription-Enriched Joint Embeddings for Spoken Descriptions of Images and...
Transcription-Enriched Joint Embeddings for Spoken Descriptions of Images and...
 

Interfície web per l’annotació semi-automàtica de plans semàntics

  • 1. Interfície web per l’annotació semi-automàtica de plans semàntics Elisabet Carcel Tutoritzat per : Xavier Giró i Xavier Vives
  • 2. Índex Introducció Requeriments Classificador de plans Interfície Gràfica d’Usuari Estat de l’art Desenvolupament Disseny Demostració Desenvolupament Evaluació Treball futur Conclusions
  • 3. Índex Introducció Requeriments Classificador de plans Interfície Gràfica d’Usuari Estat de l’art Desenvolupament Disseny Demostració Desenvolupament Evaluació Treball futur Conclusions
  • 4. Introducció 1 Continguts digitals: Els continguts audiovisuals s’han d’indexar per tal de permetre la seva recuperació Producció AV Grabació de vídeo en format digital Ingesta Recuperació Emmagatzemament i indexació dels vídeos a la base de dades Cerca de les metadades de la base de dades per obtenir el vídeo
  • 7. Introducció Solució actual 4 Proposta del projecte vídeos sense annotar Metadades per estrats • Codi de temps inici • Codi de temps final • Descripció del contingut - Descripció de l’acció -Tipus de plans - Persones Interfície Gràfica d’annotació semi-automàtica vídeos annotats
  • 8. Índex Introducció Requeriments Classificador de plans Interfície Gràfica d’Usuari Estat de l’art Desenvolupament Disseny Demostració Desenvolupament Evaluació Treball futur Conclusions
  • 9. Requeriments 5 UPC Detector de plans semàntics • Detecció a nivell de keyframes Tipus de Pla Concepte semàntic Pla semàntic Pla curt + jugador Pla curt + llotja
  • 10. Requeriments 6 Futbol Parlament • Cromo PP • PC president • Cromo • PC • Cromo beauty • PM • Public • PG mesa • Pancarta • PG hemicicle • Llotja
  • 11. Requeriments CCMA Interfície gràfica d’usuari • Integrable al Digition • Flexibilitat per l’usuari • Interfície genèrica • Aprofitament de les anotacions fetes per l’usuari 7
  • 12. Índex Introducció Requeriments Classificador de plans Interfície Gràfica d’Usuari Estat de l’art Desenvolupament Disseny Demostració Desenvolupament Evaluació Treball futur Conclusions
  • 13. Estat de l’art 8 Entrenament Reconeixement de patrons Detecció ? ? Decisió 0.23 = ???? ? ? >llindar 0.98 Sí No
  • 14. Índex Introducció Requeriments Classificador de plans Interfície Gràfica d’Usuari Estat de l’art Desenvolupament Disseny Demostració Desenvolupament Evaluació Treball futur Conclusions
  • 15. Disseny 9 Arquitectura del sistema Entrenament: Entrenador 1 Entrenador 2 ? Detector1 Detector 2 Model classe N valor de confiança 1 valor de confiança 2 Model classe 2 Entrenador N Detecció: Model classe 1 Detector N valor de confiança N Model domini Decisió màx valor de confiança >llindar No Sí Classe màx Cap Pla
  • 16. Índex Introducció Requeriments Classificador de plans Interfície Gràfica d’Usuari Estat de l’art Desenvolupament Disseny Demostració Desenvolupament Evaluació Treball futur Conclusions
  • 18. Desenvolupament 11 Anotació Ontologia Futbol Classe 1 Classe 2 Classe 3 Classe 4 Classe 5 Classe 6 Classe 7 Cromo Cromo PP Cromo Beauty Public Pancarta Llotja Cap Pla 116 87 4 19 4 6 278 514 Ontologia Parlament Classe 1 Classe 2 Classe 3 Classe 4 Classe 5 Classe 6 PC President PC PM PG Mesa PG Hemicicle Cap Pla 16 63 68 13 23 84 276
  • 19. Desenvolupament 12 Entrenador Detector B_TRAINER B_DETECTOR Definició de clusters: -Mínim nombre d’elements -Màxim radi -Puntuació mínima Decisió Valor de confiança >llindar Sí No Cap Pla
  • 20. Índex Introducció Requeriments Classificador de plans Interfície Gràfica d’Usuari Estat de l’art Desenvolupament Disseny Demostració Desenvolupament Evaluació Treball futur Conclusions
  • 21. Evaluació n or specificity is a measure of the ability of a system to present only relevant Precision and Recall s. It measures the exactness or fidelity of 4.3.3. F1 and Fß measure the system. 13 n or specificity isempreades the ability of a system to present only relevant Mesures a measure of a and es. It P recisi´ = quantitat dor fidelity ofdetectades correctament precision(4.1) recall providing a single mea measures the exactness inst`ncies F-measure considers both the system. o quantitat total d inst`ncies having two independent measures. a avoiding detectades quantitat d inst`ncies detectades correctament a sensitivity is a measure of the ability of a system to present all relevant instances, P recisi´ = o (4.1) inst`ncies detectades quantitat total d a precisi´ · record o sed for evaluating the completeness of results. F 1 = 2· precisi´ + record o r sensitivity is a measure of the ability of a system to present all relevant instances, quantitat d inst`ncies detectades correctament a used for evaluating the completeness of results. Record = In order to give different weights (4.2) to precision and recall, the F-m inst`ncies a la col.lecci´ quantitat d a o that Fß measures the effectiveness of retrieval with respect to a user amount of correct instances detected Recall row and two column as much importance to recall as precision[8]. (4.2) ctive analysis a two= confusion table is commonly used for amount of instances in the collection ng binary classifiers. It reports the number of true negatives, false positives, false ictive true positives. True negatives andconfusion s, and analysis a two row and two columnAutomàtic table are properly classified true positives is commonly used for precisi´ · record o 2 Fß = (1 false ng false classifiers. It reports the number ofwhen obtained false positives,+ ß ) · true hilebinarypositives and false negatives occurClasse2 negatives, classification do not (ß2 · precisi´) + record o Classe1 Classe3 es, and true positives. True negatives in table positives are properly classified orrect classification. This is illustrated and true4.3. while false positives and false negatives occur when obtained0classification do not Classe1 4 1 Automatic correct classification. This is illustrated in table 4.3. M a positive negative Classe2 0 3 0 n Automatic positive u positive true positive false a l Manual Classe3 positive negative tp fp 3 0 positive true false positive negative false positive negative true negative Manual tp fp fn tn negative false negative true negative 2
  • 22. Evaluació n or specificity is a measure of the ability of a system to present only relevant Precision and Recall s. It measures the exactness or fidelity of 4.3.3. F1 and Fß measure the system. 13 n or specificity isempreades the ability of a system to present only relevant Mesures a measure of a and es. It P recisi´ = quantitat dor fidelity ofdetectades correctament precision(4.1) recall providing a single mea measures the exactness inst`ncies F-measure considers both the system. o quantitat total d inst`ncies having two independent measures. a avoiding detectades quantitat d inst`ncies detectades correctament a sensitivity is a measure of the ability of a system to present all relevant instances, P recisi´ = o (4.1) inst`ncies detectades quantitat total d a precisi´ · record o sed for evaluating the completeness of results. F 1 = 2· precisi´ + record o r sensitivity is a measure of the ability of a system to present all relevant instances, quantitat d inst`ncies detectades correctament a used for evaluating the completeness of results. Record = In order to give different weights (4.2) to precision and recall, the F-m inst`ncies a la col.lecci´ quantitat d a o that Fß measures the effectiveness of retrieval with respect to a user amount of correct instances detected Recall row and two column as much importance to recall as precision[8]. (4.2) ctive analysis a two= confusion table is commonly used for amount of instances in the collection ng binary classifiers. It reports the number of true negatives, false positives, false ictive true positives. True negatives andconfusion s, and analysis a two row and two columnAutomàtic table are properly classified true positives is commonly used for precisi´ · record o 2 Fß = (1 false ng false classifiers. It reports the number ofwhen obtained false positives,+ ß ) · true hilebinarypositives and false negatives occurClasse2 negatives, classification do not (ß2 · precisi´) + record o Classe1 Classe3 es, and true positives. True negatives in table positives are properly classified orrect classification. This is illustrated and true4.3. while false positives and false negatives occur when obtained0classification do not Classe1 4 1 Automatic correct classification. This is illustrated in table 4.3. M a positive negative Classe2 0 3 0 n Automatic positive u positive true positive false a l Manual Classe3 positive negative tp fp 3 0 positive true false positive negative false positive negative true negative Manual tp fp fn tn negative false negative true negative 2
  • 23. Evaluació 14 Partició de dades • Entrenament - 80% de les instàncies (+) - Totes les instàncies positives de les altres classes com a negatives (-) - Eliminació d’instàncies de cap tipus de pla • Detecció - 20% de les instàncies (+)
  • 24. Evaluació 15 Variables del classificador: mesura F1 • Màx distància del clúster • Min elements dins d'un clúster • Puntuació mínima Màx dist. (0.1 - 1.0) Min elem. (0 - 5) Iteracions (3) Llindar (0.0 - 1.0)
  • 25. Evaluació 16 Resultats parlament • Paràmetres òptims – Puntuació mínima: 0.9 – Mínim nombre d’elements: 3 – Màxima distància: 0.8 Min Max radius elements 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1 0.718 0.962 0.952 0.949 0.958 0.970 0.957 0.957 0.949 0.946 2 0.715 0.962 0.955 0.952 0.952 0.962 0.951 0.951 0.966 0.965 3 0.769 0.948 0.968 0.960 0.960 0.957 0.959 0.972 0.944 0.958 4 0.763 0.955 0.965 0.962 0.956 0.963 0.968 0.966 0.954 0.964 5 0.719 0.970 0.966 0.947 0.958 0.959 0.958 0.961 0.953 0.967 Figure 7.4.: Catalan Parliament F1 measures for 0.9 minimum score
  • 26. Evaluació 17 • Cap pla identificat com Pla curt: 7.73% error Automàtic PC Presi. M a n u a l PC PG PC PM Crom Crom Classe Mesa Presi o o PP 3 93 0 0 0 PG Hemi Cap pla 0 3 PC 0 376 0 0 0 2 PM 0 0 405 0 0 3 PG Mesa 0 0 0 75 0 3 PG Hemi. 0 0 0 0 135 3 Cap pla 0 39 0 0 0 465 • Classes identificades com Cap pla: 1.27% error Mesura F1 • • • • • • PC president: 0.98 PC: 0.95 PM: 0.99 PG Mesa: 0.98 PG Hemicicle: 0.99 Cap pla: 0.94
  • 27. Evaluació 18 Resultats Futbol • Paràmetres òptims – Puntuació mínima: 0.7 – Mínim nombre d’elements: 1 – Màxima distància: 0.8 Min Max radius elements 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1 0.385 0.616 0.691 0.703 0.822 0.734 0.771 0.860 0.829 0.714 2 0 0 0.838 0.546 0.858 0.827 0.828 0.816 0.832 0.659 3 0 0 0.853 0.784 0.764 0.785 0.770 0.818 0.833 0.727 4 0 0 0 0 0 0 0 0 0 0 5 0 0 0 0 0 0 0 0 0 0 Figure 7.1.: Soccer match F1 measures for 0.7 minimum score
  • 28. class that causes that problem and the percentage error of the confusion. Evaluació 19 Automatic Class1 Class2 Class3 Class4 Class5 Class6 Class7 Class1 652 11 0 0 0 0 33 Class2 4 482 Class3 1 0 Class4 0 a Pancarta Table 7.3.: Best soccer match confusion matrix instances 0 0 0 0 l % Error Cromo PP Cromo 0.76% Cromo Cromo PP 1.58% Cromo Beauty Cromo 4.16% Cromo PP 2.77% Cap pla Cromo 27.63% Cap pla Cromo PP 0.17% Totes les classes 0 0 0 0 36 Cromo Cromo Public Panc. Llotja Cromo 20 0 0 0 3 PP Cromo Cromo Beauty Classe 0 94 0 20 PP 3 0 629 1 0 0 0 0 0 0 18 0 6 4 482 0 0 0 0 0 0 0 21 14 1 0 20 0 0 0 0 0 0 0 1204 0 0 0 94 0 0 Automatic Llotja 0 Cromo Class5 0 0 Cromo PP M0 Class6 1 a C.Beauty Class7 n461 3 Public u Automàtic Manual Cap pla 7.9% Cap Pla 3 33 36 3 20 18 0 6 Llotja 0 1 0 0 0 21 14 Cap pla 461 3 0 0 0 0 1204 Mesura F1 • • • • • • • Class1 Class2 Class3 Class4 Class5 Class6 Class7 Cromo: 0.72 CromoPP: 0.95 C.Beauty: 0.91 Public: 0.90 Pancarta: 0.86 Llotja: 0.74 Cap Pla: 0.81
  • 29. Índex Introducció Requeriments Classificador de plans Interfície Gràfica d’Usuari Estat de l’art Desenvolupament Disseny Demostració Desenvolupament Evaluació Treball futur Conclusions
  • 31. Interfície Gràfica d’Usuari Configuració de la xarxa 21 Serveis web UPC: • Llistat de keyframes donat un asset Asset 1257 00_00_09_24 00_00_39_25 00_00_54_48 00_00_59_41 • Detecció donat un keyframe Intercanvi de dades 00_00_09_24 Futbol Mín elements Màx distància Classe 3 Score: 0.83 00_00_54_48 Futbol Mín elements Màx distància Class 5 Score 0.46 Class 3 Score 0.75 00_00_59_41 Futbol Mín elements Màx distància Class 2 Score 0.98 • Format: JSON 00_00_39_25 Futbol Mín elements Màx distància
  • 32. Índex Introducció Requeriments Classificador de plans Interfície Gràfica d’Usuari Estat de l’art Desenvolupament Disseny Demostració Desenvolupament Evaluació Treball futur Conclusions
  • 34. Índex Introducció Requeriments Classificador de plans Interfície Gràfica d’Usuari Estat de l’art Desenvolupament Disseny Demostració Desenvolupament Evaluació Treball futur Conclusions
  • 35. Treball futur 23 Tasques pendents !#$%'()$*+$*($%(, • Web service entrenament !#$%%'()#*%#%+ • Velocitat del procés de detecció • Problemes SQL Fedora (Asset / PID) • Integració al Digition !#$%%'()#$%#*%+#,-#./#0%1#23$.#120%2%/4#%/#%#51611(/#0% 4#$1/-#$7./4#1246%8#97.-.4)1#%-'.#./#!#$%'#1#$%24/4#%#%+#:.%#%- ;()242%/ # % # %+ # %- # )(=4 # 4- #4-# %%/('1%- # 1 # ?$%(- #$7%-0()- #'( 7%+%20%#$%#4#@16.)4#AB8#!-#)%-.4-#%-#2(-)%/#?1-.41C4/#4#1246%# 4#-(=)%#$%#%+#)(=4#1#4#4#-%?4#$)%4#%#%+#%-')1#%/#./#%$1()#$%#%+8 Futures línies de treball • Proposta: indexació intel.ligent (presa de decisions) - Pancarta -- Reconeixement de text - Plans curts / PP -- Reconeixement facial - Pla mig parlament -- Veu a text !#$%'()*'+,-,.-/%'0,'-,1-
  • 36. Índex Introducció Requeriments Classificador de plans Interfície Gràfica d’Usuari Estat de l’art Desenvolupament Disseny Demostració Desenvolupament Evaluació Treball futur Conclusions
  • 37. Conclusions Classificador semàntic 24 Interfície Gràfica d’Usuari • Interfície integrable al digition • Classificació multiclasse a partir de classificació binaria - Annotació optimitzada (només + ) - Evaluació per sistemes multiclasse - Mètriques a partri de la matriu de confusió - Cercador automàtic de paràmetres òptims - Nou mètode de partició de dades • Interfície flexible, fàcil d’utilitzar, optimitzada: - Ordenació per puntuació mínima - Canvi de la puntuació mínima - Drag and drop - Validació pàgina /pla semàntic • Creació dels dos models • Bons resultats • Aprofitament de l’anotació: - Entrenament - Destacat de keyframes
  • 38. Gràcies per la vostra atenció Preguntes ?