TUD at MediaEval 2012 genre tagging task: Multi-modality video categorization with one-vs-all classifiers & MediaEval 2012 Tagging Task: Prediction based on One Best List and Confusion Networks

•

0 recomendaciones•750 vistas

MediaEval2012

TUD-MM:Multi-modality video
categorization with one-vs-all
classifiers
Peng Xu, Yangyang Shi, Martha A. Larson
05-10-2012

Delft
University of
Technology

Challenge the future

Introduction
•  Features from different modalities
•  Visual feature
•  Visual Words based representation & Global video representation

•  Text features
•  ASR, Metadata

•  Term-frequency, LDA

•  Classification and Fusion
•  One-vs-all linear SVMs
•  Reciprocal Rank Fusion
•  Post-processing procedure to assign one category label for each video

TUD MediaEval 2012 Tagging Task
Visual similarity measures for semantic video retrieval
4

Visual representations
•  Visual words based video representation
•  SIFT features are extracted from each key-frame
•  Visual vocabulary is build by hierarchical k-means clustering
•  The normalized term-frequency of the entire video

•  Global video representation
•  Edit features
•  Content features

TUD MediaEval 2012 Tagging Task
Visual similarity measures for semantic video retrieval
5

Classification and Fusion

•  One-vs-all linear SVM
•  C is determined by the 5-folder cross-validation

•  Reciprocal Rank Fusion (RRF)*

•  K=60 is to balance the importance of the lower ranked items
•  The weights w(r) are determined by the cross-validation errors
from each modalities

•  Post-processing procedure
* G. V. Cormack, C. L. A. Clarke, and S. Buettcher. Reciprocal rank fusion outperforms
Condorcet and individual rank learning methods. SIGIR '09, pages 758-759..
• 

TUD MediaEval 2012 Tagging Task
Visual similarity measures for semantic video retrieval
6

Result analysis
•  MAP of different runs

Run_1 Run_2 Run_3 Run_4 Run_5 *Run_6 *Run_7

MAP 0.0061 0.3127 0.2279 0.3675 0.2157 0.0577 0.0047

•  Run_1 to Run_5 are official runs
•  Run_6 is the visual-only run without post-processing
•  Run_7 is the visual-only run with global feature

TUD MediaEval 2012 Tagging Task
Visual similarity measures for semantic video retrieval
7

Performance of visual features

Random basline VW Global
0,025

0,02

0,015

0,01

0,005

0

TUD MediaEval 2012 Tagging Task
Visual similarity measures for semantic video retrieval
8

MediaEval 2012 Tagging Task:
Prediction based on One Best List and
Confusion Networks
Yangyang Shi, Martha A. Larson, Catholijn M. Jonker
05-10-2012

Delft
University of
Technology

Challenge the future

Models for One-best list and
Confusion Networks

Dynamic
Bayesian
Networks
Support Conditional
vector random
machine fields

ASR

TUD MediaEval 2012 Tagging Task
Visual similarity measures for semantic video retrieval
10

One-best List SVM

Linear
Cut-off 3 kernel multi-
TF-IDF
vocabulary class SVM
(c=0.5)

TUD MediaEval 2012 Tagging Task
Visual similarity measures for semantic video retrieval
11

One-best List DBN
E1 E2 E3

T1 T2 T3

W1 W2 W3

TUD MediaEval 2012 Tagging Task
Visual similarity measures for semantic video retrieval
12

One-best List DBN

• 

TUD MediaEval 2012 Tagging Task
Visual similarity measures for semantic video retrieval
13

Results on Only ASR Run
Models MAP
Run2-one-best SVM 0.23
Run2-one-best DBN 0.25
Run2-one-best CRF 0.10
Run2-CN-CRF 0.09

TUD MediaEval 2012 Tagging Task
Visual similarity measures for semantic video retrieval
14

Average Precision on Each Genre
0,8
0,7
0,6
0,5
0,4
DBN
0,3
0,2 SVM
0,1
0

TUD MediaEval 2012 Tagging Task
Visual similarity measures for semantic video retrieval
15

Discussion and Future work
•  Discussion
•  Visual only methods can be improved in several ways
•  Features selection or dimensional reduction methods can be applied.
•  Genre-level video representation

•  CRF failure
•  A document is treated as a item rather than one word.
•  Feature size is too big to converge.

• DBN outperforms SVM: The sequence order information probably helps
prediction

•  Potentials
•  Generate clear and useful labels
Visual similarity measures MediaEval 2012 Tagging Task
Video Search Reranking for Genre retrieval
TUD for semantic video Tagging
16

Thank you!

Visual similarity measures for semantic Genre retrieval
Video Search Reranking for video Tagging
17

Más contenido relacionado

La actualidad más candente

Introduction to OSLC and Linked Dataopenservices

Bitstream and hybrid-based video quality assessment for IPTV monitoringFörderverein Technische Fakultät

GY-HM750EAVNed

Introduction to OSLCopenservices

D25014017IJERA Editor

Introducing LCS to Digital Design VerificationDaniele Loiacono

LifecyclePetros Maragkoudakis

eArtius HMGE Algorithm Applied to Optimization Tasks with 10,000 Design Varia...eArtius, Inc.

3D User Experience3Dominick Maino

+15 team v3drewz lin

OSGi Applications Clustering using Distributed Shared MemoryAnthony Gelibert

Innovation voucher overviewJim Crocco

HddkdsKrishan Jagtiani

Jagannath Basu July 2016Jagannath Basu

Project by Koushikmrkoushikmondal

La actualidad más candente (15)

Introduction to OSLC and Linked Data

Bitstream and hybrid-based video quality assessment for IPTV monitoring

GY-HM750E

Introduction to OSLC

D25014017

Introducing LCS to Digital Design Verification

Lifecycle

eArtius HMGE Algorithm Applied to Optimization Tasks with 10,000 Design Varia...

3D User Experience3

+15 team v3

OSGi Applications Clustering using Distributed Shared Memory

Innovation voucher overview

Hddkds

Jagannath Basu July 2016

Project by Koushik

Destacado

GTTS System for the Spoken Web Search Task at MediaEval 2012MediaEval2012

The TUM Cumulative DTW Approach for the Mediaeval 2012 Spoken Web Search TaskMediaEval2012

The Shanghai-Hongkong Team at MediaEval2012: Violent Scene Detection Using Tr...MediaEval2012

Como hacer una pagina web en wix sharonSharon Jimenez

Brave New Task: User Account MatchingMediaEval2012

14 10 21_презентация стуStanislav Litvinenko

The L2F Spoken Web Search system for Mediaeval 2012MediaEval2012

KIT at MediaEval 2012 – Content–based Genre Classification with Visual CuesMediaEval2012

Intro totransportphenomenanewilovepurin

How Spatial Segmentation improves the Multimodal Geo-TaggingMediaEval2012

Activities for journalistic skillsJNavarro0321

MediaEval 2012 Visual Privacy Task: Applying Transform-domain Scrambling to A...MediaEval2012

TUB @ MediaEval 2012 Tagging Task: Feature Selection Methods for Bag-of-(visu...MediaEval2012

ARF @ MediaEval 2012: An Uninformed Approach to Violence Detection in Hollywo...MediaEval2012

Ghent and Cardiff University at the 2012 Placing TaskMediaEval2012

2010 Marketing PlanJPemberton15

TUKE MediaEval 2012: Spoken Web Search using DTW and Unsupervised SVMMediaEval2012

6dicas– veda 4souzadea1

Papiloma humanoalexitolindoo

Designinteração– veda 3souzadea1

Destacado (20)

GTTS System for the Spoken Web Search Task at MediaEval 2012

The TUM Cumulative DTW Approach for the Mediaeval 2012 Spoken Web Search Task

The Shanghai-Hongkong Team at MediaEval2012: Violent Scene Detection Using Tr...

Como hacer una pagina web en wix sharon

Brave New Task: User Account Matching

14 10 21_презентация сту

The L2F Spoken Web Search system for Mediaeval 2012

KIT at MediaEval 2012 – Content–based Genre Classification with Visual Cues

Intro totransportphenomenanew

How Spatial Segmentation improves the Multimodal Geo-Tagging

Activities for journalistic skills

MediaEval 2012 Visual Privacy Task: Applying Transform-domain Scrambling to A...

TUB @ MediaEval 2012 Tagging Task: Feature Selection Methods for Bag-of-(visu...

ARF @ MediaEval 2012: An Uninformed Approach to Violence Detection in Hollywo...

Ghent and Cardiff University at the 2012 Placing Task

2010 Marketing Plan

TUKE MediaEval 2012: Spoken Web Search using DTW and Unsupervised SVM

6dicas– veda 4

Papiloma humano

Designinteração– veda 3

Similar a TUD at MediaEval 2012 genre tagging task: Multi-modality video categorization with one-vs-all classifiers & MediaEval 2012 Tagging Task: Prediction based on One Best List and Confusion Networks

最终版Top100summit 耿晓倩-automation test framework continue improvementdrewz lin

Towards Using Semantic Features for Near-Duplicate Video DetectionWesley De Neve

ICSM12.pptPtidej Team

Icsm12.pptYann-Gaël Guéhéneuc

Workshop APM in a Cloud & Virtualized environmentPerformanceVision (previously SecurActive)

Top100summit christinaChristina Geng

A Multimodal Approach for Video Geocoding MediaEval2012

Developing and-benchmarking-native-linux-applications-on-androidElvis Jon Freddy Sitinjak

Bdd for legacy systemSpin Lai

Debugging TV Frame 0x10Dmitry Vostokov

Евгений Варфоломеев "Hibernate vs my batis vs jdbc: is there a silver bullet?"Anna Shymchenko

Unit03: Process and Business ModelsDSBW 2011/2002 - Carles Farré - Barcelona Tech

CCDE ExperienceHimawan Nugroho

Estimating packaged software - Eric van der Vliet - NESMA najaarsbijeenkomst ...Nesma

MediaEval 2017 - Satellite Task: Visual and textual analysis of social media ...multimediaeval

Automated BI Modernizationsdlautzenheiser

RTF - Prasad bhattRoopa Nadkarni

A study of the characteristics of Behaviour Driven DevelopmentCarlos Solís

Do Workflow-Based Systems Satisfy the Demands of the Agile Enterprise of the ...Ilia Bider

Novidades natural e adabasSoftware AG

Similar a TUD at MediaEval 2012 genre tagging task: Multi-modality video categorization with one-vs-all classifiers & MediaEval 2012 Tagging Task: Prediction based on One Best List and Confusion Networks (20)

最终版Top100summit 耿晓倩-automation test framework continue improvement

Towards Using Semantic Features for Near-Duplicate Video Detection

ICSM12.ppt

Icsm12.ppt

Workshop APM in a Cloud & Virtualized environment

Top100summit christina

A Multimodal Approach for Video Geocoding

Developing and-benchmarking-native-linux-applications-on-android

Bdd for legacy system

Debugging TV Frame 0x10

Евгений Варфоломеев "Hibernate vs my batis vs jdbc: is there a silver bullet?"

Unit03: Process and Business Models

CCDE Experience

Estimating packaged software - Eric van der Vliet - NESMA najaarsbijeenkomst ...

MediaEval 2017 - Satellite Task: Visual and textual analysis of social media ...

Automated BI Modernizations

RTF - Prasad bhatt

A study of the characteristics of Behaviour Driven Development

Do Workflow-Based Systems Satisfy the Demands of the Agile Enterprise of the ...

Novidades natural e adabas

Más de MediaEval2012

MediaEval 2012 OpeningMediaEval2012

ClosingMediaEval2012

Brave New Task: Musiclef Multimodal Music TaggingMediaEval2012

Search and Hyperlinking Task at MediaEval 2012MediaEval2012

CUNI at MediaEval 2012: Search and Hyperlinking TaskMediaEval2012

DCU Search Runs at MediaEval 2012: Search and Hyperlinking TaskMediaEval2012

Ghent University-IBBT at MediaEval 2012 Search and Hyperlinking: Semantic Sim...MediaEval2012

The CLEF Initiative From 2010 to 2012 and OnwardsMediaEval2012

Overview of MediaEval 2012 Visual Privacy TaskMediaEval2012

MediaEval 2012 Visual Privacy Task: Privacy and Intelligibility through Pixel...MediaEval2012

Violent Scenes Detection with Large, Brute-forced Acoustic and Visual Feature...MediaEval2012

mevd2012 esra_MediaEval2012

Technicolor/INRIA/Imperial College London at the MediaEval 2012 Violent Scene...MediaEval2012

The MediaEval 2012 Affect Task: Violent Scenes DetectioMediaEval2012

NII, Japan at MediaEval 2012 Violent Scenes Detection Affect TaskMediaEval2012

LIG at MediaEval 2012 affect task: use of a generic methodMediaEval2012

Violence Detection in Video by Large Scale Multi-Scale Local Binary Pattern D...MediaEval2012

UNICAMP-UFMG at MediaEval 2012: Genre Tagging TaskMediaEval2012

ARF @ MediaEval 2012: Multimodal Video ClassificationMediaEval2012

Overview of the MediaEval 2012 Tagging TaskMediaEval2012

Más de MediaEval2012 (20)

MediaEval 2012 Opening

Closing

Brave New Task: Musiclef Multimodal Music Tagging

Search and Hyperlinking Task at MediaEval 2012

CUNI at MediaEval 2012: Search and Hyperlinking Task

DCU Search Runs at MediaEval 2012: Search and Hyperlinking Task

Ghent University-IBBT at MediaEval 2012 Search and Hyperlinking: Semantic Sim...

The CLEF Initiative From 2010 to 2012 and Onwards

Overview of MediaEval 2012 Visual Privacy Task

MediaEval 2012 Visual Privacy Task: Privacy and Intelligibility through Pixel...

Violent Scenes Detection with Large, Brute-forced Acoustic and Visual Feature...

mevd2012 esra_

Technicolor/INRIA/Imperial College London at the MediaEval 2012 Violent Scene...

The MediaEval 2012 Affect Task: Violent Scenes Detectio

NII, Japan at MediaEval 2012 Violent Scenes Detection Affect Task

LIG at MediaEval 2012 affect task: use of a generic method

Violence Detection in Video by Large Scale Multi-Scale Local Binary Pattern D...

UNICAMP-UFMG at MediaEval 2012: Genre Tagging Task

ARF @ MediaEval 2012: Multimodal Video Classification

Overview of the MediaEval 2012 Tagging Task

TUD at MediaEval 2012 genre tagging task: Multi-modality video categorization with one-vs-all classifiers & MediaEval 2012 Tagging Task: Prediction based on One Best List and Confusion Networks

1. TUD MediaEval 2012 Tagging Task Reporter: Martha A. Larson Multimedia Information Retrieval Lab Delft University of Technology 05-10-2012 Delft University of Technology Challenge the future

2. Outline •  TUD-MM: Multi-modality video categorization with one- vs-all classifiers •  Peng Xu, Yangyang Shi, Martha A. Larson •  MediaEval 2012 Tagging Task: Prediction based on One Best List and Confusion Networks •  Yangyang Shi, Martha A. Larson, Catholijn M. Jonker TUD MediaEval 2012 Tagging Task Visual similarity measures for semantic video retrieval 2

3. TUD-MM:Multi-modality video categorization with one-vs-all classifiers Peng Xu, Yangyang Shi, Martha A. Larson 05-10-2012 Delft University of Technology Challenge the future

4. Introduction •  Features from different modalities •  Visual feature •  Visual Words based representation & Global video representation •  Text features •  ASR, Metadata •  Term-frequency, LDA •  Classification and Fusion •  One-vs-all linear SVMs •  Reciprocal Rank Fusion •  Post-processing procedure to assign one category label for each video TUD MediaEval 2012 Tagging Task Visual similarity measures for semantic video retrieval 4

5. Visual representations •  Visual words based video representation •  SIFT features are extracted from each key-frame •  Visual vocabulary is build by hierarchical k-means clustering •  The normalized term-frequency of the entire video •  Global video representation •  Edit features •  Content features TUD MediaEval 2012 Tagging Task Visual similarity measures for semantic video retrieval 5

6. Classification and Fusion •  One-vs-all linear SVM •  C is determined by the 5-folder cross-validation •  Reciprocal Rank Fusion (RRF)* •  K=60 is to balance the importance of the lower ranked items •  The weights w(r) are determined by the cross-validation errors from each modalities •  Post-processing procedure * G. V. Cormack, C. L. A. Clarke, and S. Buettcher. Reciprocal rank fusion outperforms Condorcet and individual rank learning methods. SIGIR '09, pages 758-759.. •  TUD MediaEval 2012 Tagging Task Visual similarity measures for semantic video retrieval 6

7. Result analysis •  MAP of different runs Run_1 Run_2 Run_3 Run_4 Run_5 *Run_6 *Run_7 MAP 0.0061 0.3127 0.2279 0.3675 0.2157 0.0577 0.0047 •  Run_1 to Run_5 are official runs •  Run_6 is the visual-only run without post-processing •  Run_7 is the visual-only run with global feature TUD MediaEval 2012 Tagging Task Visual similarity measures for semantic video retrieval 7

8. Performance of visual features Random basline VW Global 0,025 0,02 0,015 0,01 0,005 0 TUD MediaEval 2012 Tagging Task Visual similarity measures for semantic video retrieval 8

9. MediaEval 2012 Tagging Task: Prediction based on One Best List and Confusion Networks Yangyang Shi, Martha A. Larson, Catholijn M. Jonker 05-10-2012 Delft University of Technology Challenge the future

10. Models for One-best list and Confusion Networks Dynamic Bayesian Networks Support Conditional vector random machine fields ASR TUD MediaEval 2012 Tagging Task Visual similarity measures for semantic video retrieval 10

11. One-best List SVM Linear Cut-off 3 kernel multi- TF-IDF vocabulary class SVM (c=0.5) TUD MediaEval 2012 Tagging Task Visual similarity measures for semantic video retrieval 11

12. One-best List DBN E1 E2 E3 T1 T2 T3 W1 W2 W3 TUD MediaEval 2012 Tagging Task Visual similarity measures for semantic video retrieval 12

13. One-best List DBN •  TUD MediaEval 2012 Tagging Task Visual similarity measures for semantic video retrieval 13

14. Results on Only ASR Run Models MAP Run2-one-best SVM 0.23 Run2-one-best DBN 0.25 Run2-one-best CRF 0.10 Run2-CN-CRF 0.09 TUD MediaEval 2012 Tagging Task Visual similarity measures for semantic video retrieval 14

15. Average Precision on Each Genre 0,8 0,7 0,6 0,5 0,4 DBN 0,3 0,2 SVM 0,1 0 TUD MediaEval 2012 Tagging Task Visual similarity measures for semantic video retrieval 15

16. Discussion and Future work •  Discussion •  Visual only methods can be improved in several ways •  Features selection or dimensional reduction methods can be applied. •  Genre-level video representation •  CRF failure •  A document is treated as a item rather than one word. •  Feature size is too big to converge. • DBN outperforms SVM: The sequence order information probably helps prediction •  Potentials •  Generate clear and useful labels Visual similarity measures MediaEval 2012 Tagging Task Video Search Reranking for Genre retrieval TUD for semantic video Tagging 16

17. Thank you! Visual similarity measures for semantic Genre retrieval Video Search Reranking for video Tagging 17

TUD at MediaEval 2012 genre tagging task: Multi-modality video categorization with one-vs-all classifiers & MediaEval 2012 Tagging Task: Prediction based on One Best List and Confusion Networks

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (15)

Destacado

Destacado (20)

Similar a TUD at MediaEval 2012 genre tagging task: Multi-modality video categorization with one-vs-all classifiers & MediaEval 2012 Tagging Task: Prediction based on One Best List and Confusion Networks

Similar a TUD at MediaEval 2012 genre tagging task: Multi-modality video categorization with one-vs-all classifiers & MediaEval 2012 Tagging Task: Prediction based on One Best List and Confusion Networks (20)

Más de MediaEval2012

Más de MediaEval2012 (20)

TUD at MediaEval 2012 genre tagging task: Multi-modality video categorization with one-vs-all classifiers & MediaEval 2012 Tagging Task: Prediction based on One Best List and Confusion Networks