CHORAL

Taal- en Spraaktechnologie voor het ontsluiten van gesproken archieven Peter van der Maas NIOD, Amsterdam Willemijn Heeren & Arjan van Hessen Human Media Interaction Universiteit Twente

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Inhoud Achtergrond Probleemstelling Oplossingen Voorbeelden Conclusie Inhoud

Kennis Autom. spraakherkenning Concept -> Spraak Semantische netwerken Intelligent zoeken Dialoogvoering Vraag & Antwoord systemen Beeldherkenning … … Toepassing Omroepen Archieven Gezondheidszorg Onderwijs Justitie Projecten DRUID ECHO CHORAL MultimediaN IMIX StoryTeller SAFIR MESH MediaCampaign AMIDA Inhoud Achtergrond Probleemstelling Oplossingen Voorbeelden Conclusie Achtergrond

[object Object],[object Object],[object Object],[object Object],Buchenwald ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Achtergrond

Groningen Maastricht ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Gedistribueerde verzamelingen

Buchenwald ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Buchenwald Gedigitaliseerde (historische) collecties H.M. Koningin Wilhelmina Digitaal opgenomen collecties Probleemstelling

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Probleemstelling

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Probleemstelling

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Oplossingen vanuit taal- & spraaktechnologie

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Oplossingen vanuit taal- & spraaktechnologie

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Inhoud Achtergrond Probleem Oplossingen - Ontsluiting - Toegang Voorbeelden Conclusie Oplossingen vanuit taal- & spraaktechnologie

Ontsluiten van collecties: genereren van metadata/index Toegang tot collecties: Zoeken - Information Retrieval Toegang tot collecties: User interface Inhoud Achtergrond Probleem Oplossingen Voorbeelden Conclusie Geïntegreerd multimedia-zoeksysteem: ontsluiting + toegang Oplossingen vanuit taal- & spraaktechnologie onderzoekers archivarissen doorsnee gebruiker producenten van nieuwe content multimediale “index” zoeken - data mining automatische metadata-extractie robuuste spraak herkenning muziek/spraak detectie spreker segmentatie multimedia archief metadata gebruikers groepen

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Voorbeeldproject ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],CHoral

Online toegankelijk en doorzoekbaar maken van toespraken van H.M. Koningin Wilhelmina, gericht aan het Nederlandse volk tijdens de Tweede Wereldoorlog en uitgezonden vanuit Londen, Engeland. Zowel de audio als de teksten zijn bewaard gebleven, én gedigitaliseerd (door het Nederlands Instituut voor Oorlogsdocumentatie in samenwerking met het Nederlands Instituut voor Beeld en Geluid). ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Radio Oranje

Index genereren door “Oplijning” Index: wat wordt waar gezegd ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Radio Oranje beginframe eindframe uiting 00000 54400 -stilte- 54400 65280 wonende 65280 69120 in 69120 73600 alle 73600 79520 deelen 79520 81280 van 81280 84800 het 84800 90560 rijk 90560 96800 -stilte- Getypte tekst: Landgenooten waar ik enkele Optical Landgenooten waar ik enkele G2P l A n t x@n o t @ n w a r I k ENk@l@ Akoestisch Model Spraak

User Interface: zoeken ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Zoeken op term(en) (+datum) of alle toespraken tonen Radio Oranje

[object Object],[object Object],[object Object],[object Object],[object Object],Semi-automatisch geselecteerd uit NIOD fotodatabase (> 120.000 foto’s) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Radio Oranje

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Materiaal: 37 gefilmde interviews (60 uur) van mannen die in Buchenwald gezeten hebben. Korte samenvattingen per interview zijn beschikbaar Ieder interview duurt minimaal één uur: veel te lang dus! Combineren van onderdelen van de interviews die min of meer over dezelfde informatie gaan (zelfde clusters) maakt het thematisch “aanbieden van” en “zoeken naar” eenvoudig mogelijk. Buchenwald

Akoestisch model Taal-model Transcript Uitspraak-woordenboek Index genereren door “Spraakherkenning” Feature extractie Spraakherkenning 60 uur audio 250-500 M woorden Buchenwald Het transcript hoeft niet perfect te zijn om als index te dienen

Index genereren door “Spraakherkenning” Akoestisch model Taal-model Uitspraak-woordenboek Transcript Opname-condities Spontane spraak ,[object Object],[object Object],[object Object],Verschuiving in uitspraak Buchenwald Feature extractie Spraakherkenning

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Erfgoed van de Oorlog In Nederland is veel erfgoedmateriaal aanwezig uit de Tweede Wereldoorlog en materiaal dat betrekking heeft op deze periode. Dit erfgoed bestaat bijvoorbeeld uit archieven, foto’s, film en geluidsopnamen, voorwerpen en sporen in het landschap. Het programma Erfgoed van de Oorlog is erop gericht dit erfgoedmateriaal te traceren en te inventariseren. VWS zorgt ervoor dat eigenaars en beheerders van erfgoed deze materialen goed kunnen bewaren en zo veel mogelijk toegankelijk kunnen maken. De Tweede Wereldoorlog is een belangrijke periode in de Nederlandse geschiedenis. Nederland bevindt zich in een nieuwe fase in de naoorlogse geschiedenis. Er zijn steeds minder mensen die de oorlog zelf hebben meegemaakt. Het levend houden van de herinnering aan de oorlog en de betekenis ervan voor onze samenleving is een belangrijk onderdeel van het programma Erfgoed van de Oorlog. Het is de ambitie van VWS deze periode meer te laten zijn dan een passage in een geschiedenisboek. Het is daarom belangrijk dat de jaren '40-45' en de nasleep ervan goed wordt gedocumenteerd. Het actief gebruiken van erfgoedmateriaal draagt hieraan bij.

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Inhoud Achtergrond Probleem Oplossingen Voorbeelden Conclusie Conclusie

CHORAL

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (9)

Similar to CHORAL

Similar to CHORAL (10)

More from FARO

More from FARO (20)

CHORAL