SlideShare una empresa de Scribd logo
1 de 17
Descargar para leer sin conexión
Vrije Universiteit Amsterdam
Harnessing the Power of Machines &
Crowds for Event Extraction
what can we learn from the crowd?
Oana Inel March 9, 2015
1
Vrije Universiteit Amsterdam
My research is about: Event extraction from different data types
My goal is: A generic machine-human workflow for event extraction
My research question is: Can diversity-driven crowdsourcing of
events improve the machine extraction of events and their role
fillers?
Why is it relevant to you: Events play an important role in
understanding of context, influence human interpretation, and thus
impact everyday interaction with applications
<MY PRESENTATION>
2
Vrije Universiteit Amsterdam
● Events play an important role in understanding of context,
influence human interpretation, and thus impact everyday
interaction with applications
● NLP tools are a very bad in detecting events
○ events are vague
○ events carry different perspectives for their interpretation
○ events have diverse level of granularity
○ there is a lack of training data
■ in different domains
Problem Statement
3
Vrije Universiteit Amsterdam
● Event Extraction in Video Descriptions:
○ videos from Sound and Vision
○ goal: to enrich video descriptions with event info
● Event Extraction from Tweets:
○ selection of tweets from 2014 on 8 events
○ goal: to identify tweets, which bring salient info on given
event
● Event Extraction from news:
○ news articles from 2004-2013 WikiNews collection
○ goal: to identify news articles that bring salient info on a given
event
Use Cases & Datasets
4
Vrije Universiteit Amsterdam
Video Description - Workflow Overview
5
Machine Annotation
Crowd Annotation
through CrowdTruth.org
Vrije Universiteit Amsterdam
Video Description - Example
6
Polygoon 1000ste Hollands Nieuws speech door de
heer Van Staveren
Toespraak van D. van Staveren,
voorzitter van de Centrale
Commissie Filmkeuring, vanachter
zijn bureau te Den Haag. In zijn
toespraak kondigt hij de
duizendste aflevering van
Polygoons "Hollands Nieuws" aan
en spreekt hij over de
uitzonderlijke kwaliteiten,
actualiteit en betrouwbaarheid van
het Polygoon-journaal.
Aantekening : Locatie volgens
titellijst: Haarlem.
Vrije Universiteit Amsterdam
Video Description - Example
7
1000th Polygoon Dutch News speech by mr.
Van Staveren
D. van Staveren, chairman of the
Central Film Censorship Board,
gives a speech from behind his
desk in The Hague. In his speech
he announces the one thousandth
episode of Polygoon's "Dutch
News" and praises the exceptional
quality, topicality and reliability of
the Polygoon newsreels. Note :
Location according to title list:
Haarlem.
Vrije Universiteit Amsterdam
Different span confidence
8
Toespraak van D. van Staveren,
voorzitter van de Centrale
Commissie Filmkeuring, vanachter
zijn bureau te Den Haag. In zijn
toespraak kondigt hij de
duizendste aflevering van
Polygoons "Hollands Nieuws" aan
en spreekt hij over de
uitzonderlijke kwaliteiten,
actualiteit en betrouwbaarheid van
het Polygoon-journaal.
Aantekening : Locatie volgens
titellijst: Haarlem.
Toespraak van D. van Staveren,
voorzitter van de Centrale
Commissie Filmkeuring, vanachter
zijn bureau te Den Haag. In zijn
toespraak kondigt hij de
duizendste aflevering van
Polygoons "Hollands Nieuws" aan
en spreekt hij over de
uitzonderlijke kwaliteiten,
actualiteit en betrouwbaarheid van
het Polygoon-journaal.
Aantekening : Locatie volgens
titellijst: Haarlem.
confidence:
0.09
confidence:
0.12
Vrije Universiteit Amsterdam
Different span confidence
9
Toespraak van D. van Staveren,
voorzitter van de Centrale
Commissie Filmkeuring, vanachter
zijn bureau te Den Haag. In zijn
toespraak kondigt hij de
duizendste aflevering van
Polygoons "Hollands Nieuws" aan
en spreekt hij over de
uitzonderlijke kwaliteiten,
actualiteit en betrouwbaarheid van
het Polygoon-journaal.
Aantekening : Locatie volgens
titellijst: Haarlem.
Toespraak van D. van Staveren,
voorzitter van de Centrale
Commissie Filmkeuring, vanachter
zijn bureau te Den Haag. In zijn
toespraak kondigt hij de
duizendste aflevering van
Polygoons "Hollands Nieuws" aan
en spreekt hij over de
uitzonderlijke kwaliteiten,
actualiteit en betrouwbaarheid van
het Polygoon-journaal.
Aantekening : Locatie volgens
titellijst: Haarlem.
confidence:
0.11 THD
confidence:
null
Vrije Universiteit Amsterdam
Missed entities
10
Toespraak van D. van Staveren,
voorzitter van de Centrale
Commissie Filmkeuring, vanachter
zijn bureau te Den Haag. In zijn
toespraak kondigt hij de
duizendste aflevering van
Polygoons "Hollands Nieuws" aan
en spreekt hij over de
uitzonderlijke kwaliteiten,
actualiteit en betrouwbaarheid van
het Polygoon-journaal.
Aantekening : Locatie volgens
titellijst: Haarlem.
Toespraak van D. van Staveren,
voorzitter van de Centrale
Commissie Filmkeuring, vanachter
zijn bureau te Den Haag. In zijn
toespraak kondigt hij de
duizendste aflevering van
Polygoons "Hollands Nieuws" aan
en spreekt hij over de
uitzonderlijke kwaliteiten,
actualiteit en betrouwbaarheid van
het Polygoon-journaal.
Aantekening : Locatie volgens
titellijst: Haarlem.
Vrije Universiteit Amsterdam
type:
Location
Different / Misidentified Types (1)
11
Toespraak van D. van Staveren,
voorzitter van de Centrale
Commissie Filmkeuring, vanachter
zijn bureau te Den Haag. In zijn
toespraak kondigt hij de
duizendste aflevering van
Polygoons "Hollands Nieuws" aan
en spreekt hij over de
uitzonderlijke kwaliteiten,
actualiteit en betrouwbaarheid van
het Polygoon-journaal.
Aantekening : Locatie volgens
titellijst: Haarlem.
Toespraak van D. van Staveren,
voorzitter van de Centrale
Commissie Filmkeuring, vanachter
zijn bureau te Den Haag. In zijn
toespraak kondigt hij de
duizendste aflevering van
Polygoons "Hollands Nieuws" aan
en spreekt hij over de
uitzonderlijke kwaliteiten,
actualiteit en betrouwbaarheid van
het Polygoon-journaal.
Aantekening : Locatie volgens
titellijst: Haarlem.
TH
D
type:
NULL
Vrije Universiteit Amsterdam
Different / Misidentified Types (2)
12
Toespraak van D. van Staveren,
voorzitter van de Centrale
Commissie Filmkeuring, vanachter
zijn bureau te Den Haag. In zijn
toespraak kondigt hij de
duizendste aflevering van
Polygoons "Hollands Nieuws" aan
en spreekt hij over de
uitzonderlijke kwaliteiten,
actualiteit en betrouwbaarheid van
het Polygoon-journaal.
Aantekening : Locatie volgens
titellijst: Haarlem.
Toespraak van D. van Staveren,
voorzitter van de Centrale
Commissie Filmkeuring, vanachter
zijn bureau te Den Haag. In zijn
toespraak kondigt hij de
duizendste aflevering van
Polygoons "Hollands Nieuws" aan
en spreekt hij over de
uitzonderlijke kwaliteiten,
actualiteit en betrouwbaarheid van
het Polygoon-journaal.
Aantekening : Locatie volgens
titellijst: Haarlem.
type:
NULL
type:
DBPedia::Place
Vrije Universiteit Amsterdam
Crowd - Determine Primary Label
● Input: entities / labels with different span alternatives
● Task: for a label with multiple span alternatives, choose the primary ones
● Template:
● Result: ranked span alternatives for label
13
Vrije Universiteit Amsterdam
Crowd - Determine Label Relevance
● Input: list of labels
● Task: for a given label, determine whether the label is relevant for the
synopsis
● Template:
● Result: ranked entities based on their relevance and completeness
14
Vrije Universiteit Amsterdam
Crowd - Determine Label Type
● Input: labels with no type or type - disagreement among machines
● Task: choose the type of each highlighted label
● Template:
● Result: label type
15
Vrije Universiteit Amsterdam
Crowd - Extracting Events (1)
● Input: one video description
● Task: highlight all the events from the video description
● Template:
● Result: list of possible events
16
Vrije Universiteit Amsterdam
Conclusions
● difficult to find one NER tool that performs well
● combining the output of several NER tools results in disagreement
● by applying CrowdTruth to machine disagreement we were able to
identify possible problems of the machine output
● by applying CrowdTruth on the information gathered from the crowd
we were able to identify:
○ the entity span
○ the entity type
○ the entity relevance score
○ possible events in the video description
17

Más contenido relacionado

Destacado

Semantics for visual resources: use cases from e-culture
Semantics for visual resources: use cases from e-cultureSemantics for visual resources: use cases from e-culture
Semantics for visual resources: use cases from e-cultureGuus Schreiber
 
Principles and pragmatics of a Semantic Culture Web
 Principles and pragmatics of a Semantic Culture Web Principles and pragmatics of a Semantic Culture Web
Principles and pragmatics of a Semantic Culture WebGuus Schreiber
 
Linking historical ship records to a newspaper archive
Linking historical ship records to a newspaper archiveLinking historical ship records to a newspaper archive
Linking historical ship records to a newspaper archiveGuus Schreiber
 
Boosting Named Entity Extraction through Crowdsourcing
Boosting Named Entity Extraction through CrowdsourcingBoosting Named Entity Extraction through Crowdsourcing
Boosting Named Entity Extraction through Crowdsourcingoanainel
 
Semantics and the Humanities: some lessons from my journey 2000-2012
Semantics and the Humanities: some lessons from my journey 2000-2012Semantics and the Humanities: some lessons from my journey 2000-2012
Semantics and the Humanities: some lessons from my journey 2000-2012Guus Schreiber
 
Knowledge engineering and the Web
Knowledge engineering and the WebKnowledge engineering and the Web
Knowledge engineering and the WebGuus Schreiber
 
Principles for knowledge engineering on the Web
Principles for knowledge engineering on the WebPrinciples for knowledge engineering on the Web
Principles for knowledge engineering on the WebGuus Schreiber
 
The artof of knowledge engineering, or: knowledge engineering of art
The artof of knowledge engineering, or: knowledge engineering of artThe artof of knowledge engineering, or: knowledge engineering of art
The artof of knowledge engineering, or: knowledge engineering of artGuus Schreiber
 
PiLOD talk: Dutch Ships and Sailors
PiLOD talk: Dutch Ships and Sailors PiLOD talk: Dutch Ships and Sailors
PiLOD talk: Dutch Ships and Sailors Victor de Boer
 
Exploiting disagreement through open ended tasks for capturing interpretation...
Exploiting disagreement through open ended tasks for capturing interpretation...Exploiting disagreement through open ended tasks for capturing interpretation...
Exploiting disagreement through open ended tasks for capturing interpretation...Benjamin Timmermans
 
Talk of Europe – Linking European Parliament Proceedings
Talk of Europe – Linking European Parliament ProceedingsTalk of Europe – Linking European Parliament Proceedings
Talk of Europe – Linking European Parliament ProceedingsAstrid van Aggelen
 
Dive exploring history presentation
Dive exploring history presentationDive exploring history presentation
Dive exploring history presentationVictor de Boer
 
LPWAN London Meetup: All Things Talk
LPWAN London Meetup: All Things TalkLPWAN London Meetup: All Things Talk
LPWAN London Meetup: All Things TalkDigital Catapult
 
DIVE Semantic Web Challenge Presentation
DIVE Semantic Web Challenge Presentation DIVE Semantic Web Challenge Presentation
DIVE Semantic Web Challenge Presentation Victor de Boer
 
Future TV is Now: Personalized & Social
Future TV is Now: Personalized & SocialFuture TV is Now: Personalized & Social
Future TV is Now: Personalized & SocialLora Aroyo
 
Community-led IoT projects
Community-led IoT projectsCommunity-led IoT projects
Community-led IoT projectsDigital Catapult
 
BigDataEurope - Big Data & Health
BigDataEurope - Big Data & HealthBigDataEurope - Big Data & Health
BigDataEurope - Big Data & HealthBigData_Europe
 
Truth is a Lie: 7 Myths about Human Annotation @CogComputing Forum 2014
Truth is a Lie: 7 Myths about Human Annotation @CogComputing Forum 2014Truth is a Lie: 7 Myths about Human Annotation @CogComputing Forum 2014
Truth is a Lie: 7 Myths about Human Annotation @CogComputing Forum 2014Lora Aroyo
 
SXSW2017 @NewDutchMedia Talk: Exploration is the New Search
SXSW2017 @NewDutchMedia Talk: Exploration is the New SearchSXSW2017 @NewDutchMedia Talk: Exploration is the New Search
SXSW2017 @NewDutchMedia Talk: Exploration is the New SearchLora Aroyo
 
UX, ethnography and possibilities: for Libraries, Museums and Archives
UX, ethnography and possibilities: for Libraries, Museums and ArchivesUX, ethnography and possibilities: for Libraries, Museums and Archives
UX, ethnography and possibilities: for Libraries, Museums and ArchivesNed Potter
 

Destacado (20)

Semantics for visual resources: use cases from e-culture
Semantics for visual resources: use cases from e-cultureSemantics for visual resources: use cases from e-culture
Semantics for visual resources: use cases from e-culture
 
Principles and pragmatics of a Semantic Culture Web
 Principles and pragmatics of a Semantic Culture Web Principles and pragmatics of a Semantic Culture Web
Principles and pragmatics of a Semantic Culture Web
 
Linking historical ship records to a newspaper archive
Linking historical ship records to a newspaper archiveLinking historical ship records to a newspaper archive
Linking historical ship records to a newspaper archive
 
Boosting Named Entity Extraction through Crowdsourcing
Boosting Named Entity Extraction through CrowdsourcingBoosting Named Entity Extraction through Crowdsourcing
Boosting Named Entity Extraction through Crowdsourcing
 
Semantics and the Humanities: some lessons from my journey 2000-2012
Semantics and the Humanities: some lessons from my journey 2000-2012Semantics and the Humanities: some lessons from my journey 2000-2012
Semantics and the Humanities: some lessons from my journey 2000-2012
 
Knowledge engineering and the Web
Knowledge engineering and the WebKnowledge engineering and the Web
Knowledge engineering and the Web
 
Principles for knowledge engineering on the Web
Principles for knowledge engineering on the WebPrinciples for knowledge engineering on the Web
Principles for knowledge engineering on the Web
 
The artof of knowledge engineering, or: knowledge engineering of art
The artof of knowledge engineering, or: knowledge engineering of artThe artof of knowledge engineering, or: knowledge engineering of art
The artof of knowledge engineering, or: knowledge engineering of art
 
PiLOD talk: Dutch Ships and Sailors
PiLOD talk: Dutch Ships and Sailors PiLOD talk: Dutch Ships and Sailors
PiLOD talk: Dutch Ships and Sailors
 
Exploiting disagreement through open ended tasks for capturing interpretation...
Exploiting disagreement through open ended tasks for capturing interpretation...Exploiting disagreement through open ended tasks for capturing interpretation...
Exploiting disagreement through open ended tasks for capturing interpretation...
 
Talk of Europe – Linking European Parliament Proceedings
Talk of Europe – Linking European Parliament ProceedingsTalk of Europe – Linking European Parliament Proceedings
Talk of Europe – Linking European Parliament Proceedings
 
Dive exploring history presentation
Dive exploring history presentationDive exploring history presentation
Dive exploring history presentation
 
LPWAN London Meetup: All Things Talk
LPWAN London Meetup: All Things TalkLPWAN London Meetup: All Things Talk
LPWAN London Meetup: All Things Talk
 
DIVE Semantic Web Challenge Presentation
DIVE Semantic Web Challenge Presentation DIVE Semantic Web Challenge Presentation
DIVE Semantic Web Challenge Presentation
 
Future TV is Now: Personalized & Social
Future TV is Now: Personalized & SocialFuture TV is Now: Personalized & Social
Future TV is Now: Personalized & Social
 
Community-led IoT projects
Community-led IoT projectsCommunity-led IoT projects
Community-led IoT projects
 
BigDataEurope - Big Data & Health
BigDataEurope - Big Data & HealthBigDataEurope - Big Data & Health
BigDataEurope - Big Data & Health
 
Truth is a Lie: 7 Myths about Human Annotation @CogComputing Forum 2014
Truth is a Lie: 7 Myths about Human Annotation @CogComputing Forum 2014Truth is a Lie: 7 Myths about Human Annotation @CogComputing Forum 2014
Truth is a Lie: 7 Myths about Human Annotation @CogComputing Forum 2014
 
SXSW2017 @NewDutchMedia Talk: Exploration is the New Search
SXSW2017 @NewDutchMedia Talk: Exploration is the New SearchSXSW2017 @NewDutchMedia Talk: Exploration is the New Search
SXSW2017 @NewDutchMedia Talk: Exploration is the New Search
 
UX, ethnography and possibilities: for Libraries, Museums and Archives
UX, ethnography and possibilities: for Libraries, Museums and ArchivesUX, ethnography and possibilities: for Libraries, Museums and Archives
UX, ethnography and possibilities: for Libraries, Museums and Archives
 

Harnessing the Power of Machines & Crowds for Event Extraction

  • 1. Vrije Universiteit Amsterdam Harnessing the Power of Machines & Crowds for Event Extraction what can we learn from the crowd? Oana Inel March 9, 2015 1
  • 2. Vrije Universiteit Amsterdam My research is about: Event extraction from different data types My goal is: A generic machine-human workflow for event extraction My research question is: Can diversity-driven crowdsourcing of events improve the machine extraction of events and their role fillers? Why is it relevant to you: Events play an important role in understanding of context, influence human interpretation, and thus impact everyday interaction with applications <MY PRESENTATION> 2
  • 3. Vrije Universiteit Amsterdam ● Events play an important role in understanding of context, influence human interpretation, and thus impact everyday interaction with applications ● NLP tools are a very bad in detecting events ○ events are vague ○ events carry different perspectives for their interpretation ○ events have diverse level of granularity ○ there is a lack of training data ■ in different domains Problem Statement 3
  • 4. Vrije Universiteit Amsterdam ● Event Extraction in Video Descriptions: ○ videos from Sound and Vision ○ goal: to enrich video descriptions with event info ● Event Extraction from Tweets: ○ selection of tweets from 2014 on 8 events ○ goal: to identify tweets, which bring salient info on given event ● Event Extraction from news: ○ news articles from 2004-2013 WikiNews collection ○ goal: to identify news articles that bring salient info on a given event Use Cases & Datasets 4
  • 5. Vrije Universiteit Amsterdam Video Description - Workflow Overview 5 Machine Annotation Crowd Annotation through CrowdTruth.org
  • 6. Vrije Universiteit Amsterdam Video Description - Example 6 Polygoon 1000ste Hollands Nieuws speech door de heer Van Staveren Toespraak van D. van Staveren, voorzitter van de Centrale Commissie Filmkeuring, vanachter zijn bureau te Den Haag. In zijn toespraak kondigt hij de duizendste aflevering van Polygoons "Hollands Nieuws" aan en spreekt hij over de uitzonderlijke kwaliteiten, actualiteit en betrouwbaarheid van het Polygoon-journaal. Aantekening : Locatie volgens titellijst: Haarlem.
  • 7. Vrije Universiteit Amsterdam Video Description - Example 7 1000th Polygoon Dutch News speech by mr. Van Staveren D. van Staveren, chairman of the Central Film Censorship Board, gives a speech from behind his desk in The Hague. In his speech he announces the one thousandth episode of Polygoon's "Dutch News" and praises the exceptional quality, topicality and reliability of the Polygoon newsreels. Note : Location according to title list: Haarlem.
  • 8. Vrije Universiteit Amsterdam Different span confidence 8 Toespraak van D. van Staveren, voorzitter van de Centrale Commissie Filmkeuring, vanachter zijn bureau te Den Haag. In zijn toespraak kondigt hij de duizendste aflevering van Polygoons "Hollands Nieuws" aan en spreekt hij over de uitzonderlijke kwaliteiten, actualiteit en betrouwbaarheid van het Polygoon-journaal. Aantekening : Locatie volgens titellijst: Haarlem. Toespraak van D. van Staveren, voorzitter van de Centrale Commissie Filmkeuring, vanachter zijn bureau te Den Haag. In zijn toespraak kondigt hij de duizendste aflevering van Polygoons "Hollands Nieuws" aan en spreekt hij over de uitzonderlijke kwaliteiten, actualiteit en betrouwbaarheid van het Polygoon-journaal. Aantekening : Locatie volgens titellijst: Haarlem. confidence: 0.09 confidence: 0.12
  • 9. Vrije Universiteit Amsterdam Different span confidence 9 Toespraak van D. van Staveren, voorzitter van de Centrale Commissie Filmkeuring, vanachter zijn bureau te Den Haag. In zijn toespraak kondigt hij de duizendste aflevering van Polygoons "Hollands Nieuws" aan en spreekt hij over de uitzonderlijke kwaliteiten, actualiteit en betrouwbaarheid van het Polygoon-journaal. Aantekening : Locatie volgens titellijst: Haarlem. Toespraak van D. van Staveren, voorzitter van de Centrale Commissie Filmkeuring, vanachter zijn bureau te Den Haag. In zijn toespraak kondigt hij de duizendste aflevering van Polygoons "Hollands Nieuws" aan en spreekt hij over de uitzonderlijke kwaliteiten, actualiteit en betrouwbaarheid van het Polygoon-journaal. Aantekening : Locatie volgens titellijst: Haarlem. confidence: 0.11 THD confidence: null
  • 10. Vrije Universiteit Amsterdam Missed entities 10 Toespraak van D. van Staveren, voorzitter van de Centrale Commissie Filmkeuring, vanachter zijn bureau te Den Haag. In zijn toespraak kondigt hij de duizendste aflevering van Polygoons "Hollands Nieuws" aan en spreekt hij over de uitzonderlijke kwaliteiten, actualiteit en betrouwbaarheid van het Polygoon-journaal. Aantekening : Locatie volgens titellijst: Haarlem. Toespraak van D. van Staveren, voorzitter van de Centrale Commissie Filmkeuring, vanachter zijn bureau te Den Haag. In zijn toespraak kondigt hij de duizendste aflevering van Polygoons "Hollands Nieuws" aan en spreekt hij over de uitzonderlijke kwaliteiten, actualiteit en betrouwbaarheid van het Polygoon-journaal. Aantekening : Locatie volgens titellijst: Haarlem.
  • 11. Vrije Universiteit Amsterdam type: Location Different / Misidentified Types (1) 11 Toespraak van D. van Staveren, voorzitter van de Centrale Commissie Filmkeuring, vanachter zijn bureau te Den Haag. In zijn toespraak kondigt hij de duizendste aflevering van Polygoons "Hollands Nieuws" aan en spreekt hij over de uitzonderlijke kwaliteiten, actualiteit en betrouwbaarheid van het Polygoon-journaal. Aantekening : Locatie volgens titellijst: Haarlem. Toespraak van D. van Staveren, voorzitter van de Centrale Commissie Filmkeuring, vanachter zijn bureau te Den Haag. In zijn toespraak kondigt hij de duizendste aflevering van Polygoons "Hollands Nieuws" aan en spreekt hij over de uitzonderlijke kwaliteiten, actualiteit en betrouwbaarheid van het Polygoon-journaal. Aantekening : Locatie volgens titellijst: Haarlem. TH D type: NULL
  • 12. Vrije Universiteit Amsterdam Different / Misidentified Types (2) 12 Toespraak van D. van Staveren, voorzitter van de Centrale Commissie Filmkeuring, vanachter zijn bureau te Den Haag. In zijn toespraak kondigt hij de duizendste aflevering van Polygoons "Hollands Nieuws" aan en spreekt hij over de uitzonderlijke kwaliteiten, actualiteit en betrouwbaarheid van het Polygoon-journaal. Aantekening : Locatie volgens titellijst: Haarlem. Toespraak van D. van Staveren, voorzitter van de Centrale Commissie Filmkeuring, vanachter zijn bureau te Den Haag. In zijn toespraak kondigt hij de duizendste aflevering van Polygoons "Hollands Nieuws" aan en spreekt hij over de uitzonderlijke kwaliteiten, actualiteit en betrouwbaarheid van het Polygoon-journaal. Aantekening : Locatie volgens titellijst: Haarlem. type: NULL type: DBPedia::Place
  • 13. Vrije Universiteit Amsterdam Crowd - Determine Primary Label ● Input: entities / labels with different span alternatives ● Task: for a label with multiple span alternatives, choose the primary ones ● Template: ● Result: ranked span alternatives for label 13
  • 14. Vrije Universiteit Amsterdam Crowd - Determine Label Relevance ● Input: list of labels ● Task: for a given label, determine whether the label is relevant for the synopsis ● Template: ● Result: ranked entities based on their relevance and completeness 14
  • 15. Vrije Universiteit Amsterdam Crowd - Determine Label Type ● Input: labels with no type or type - disagreement among machines ● Task: choose the type of each highlighted label ● Template: ● Result: label type 15
  • 16. Vrije Universiteit Amsterdam Crowd - Extracting Events (1) ● Input: one video description ● Task: highlight all the events from the video description ● Template: ● Result: list of possible events 16
  • 17. Vrije Universiteit Amsterdam Conclusions ● difficult to find one NER tool that performs well ● combining the output of several NER tools results in disagreement ● by applying CrowdTruth to machine disagreement we were able to identify possible problems of the machine output ● by applying CrowdTruth on the information gathered from the crowd we were able to identify: ○ the entity span ○ the entity type ○ the entity relevance score ○ possible events in the video description 17

Notas del editor

  1. we start by exemplifying the complex use case, extracting events from video descriptions the results have problems, a lot of events were not extracted etc. the last two use cases use a different approach which is easier -&amp;gt; how to change the workflow for video description based on these observations