SlideShare una empresa de Scribd logo
1 de 46
GIVE metadata
Infosessie - partnerevent - 11 mei 2023
Matthias Priem
Manager Archivering
✉ matthias.priem@meemoo.be
Hallo!
Sam Legrand
Ordina
Over deze presentatie
● Hoe werken we samen met jullie?
● Wat hebben we tot nu toe gerealiseerd
○ inzicht in wat we doen met jullie materiaal
○ inzicht in de technieken die we hiervoor gebruiken
○ inzicht in wat de resultaten kunnen zijn
● Wat gebeurt er met de resultaten en hoe kan je zelf aan de data
● En hopelijk ook veel vragen :-)
GIVE metadata
GIVE metadata - context
● Grote hoeveelheden digitaal materiaal gearchiveerd
○ digitaliseringsprojecten afgelopen jaren
○ digitaal geboren content wordt in hoge volumes geproduceerd
● Manuele metadatering is duur en tijdrovend
● Tegelijkertijd: tooling op basis van AI wordt matuur
Relance middelen - GIVE metadata
● Wat willen we doen?
○ Spraakherkenning op Nederlandse spraak (audio/video)
○ Entiteit herkenning op tekst uit spraakherkenning (Personen, locaties)
○ Gezichtsdetectie op video; gezichtsherkenning op een beperkte set publieke
personen
● Linken aan authentieke bronnen
○ Bvb. Wikidata ID van gezichten en termen uit entiteit herkenning
○ Bvb. Lokale ID's van personen in gezichtsherkenning
● Op welke collecties?
○ Alle reeds gearchiveerde AV-collecties (behalve die van landelijke en
regionale omroepen)
Volumes
● cultuur- + overheidspartners
● 120 contentpartners
● audiovisueel materiaal (AV)
● per activiteit
○ Spraakherkenning & entiteitsherkenning:
■ 150.000 gearchiveerde stuks
■ of 165.000 uur media
○ Gezichtsdetectie en -herkenning:
■ 100.000 gearchiveerde stuks
■ of 120.000 uur media
Betrokkenheid contentpartners
● We werken met materiaal van veel contentpartners
● Veel nieuwe uitdagingen / inzichten
● Informatie via
○ nieuwsbrief en partnerupdate
○ meemoo.be en partnerportaal
○ sociale media (twitter / linkedin)
● Betrokkenheid via werkgroep
○ brede oproep via partnerupdate begin 2022
Werkgroep GIVE - metadata
● Diepgaande informatie over
het project
● Meewerken en beslissen over
○ juridische en ethische aspecten
○ parametrisering
gezichtsherkenning
○ (gedeeld) beheer van de
referentieset personen
Agenda van voorbije sessies via partnerportaal: https://portaal.meemoo.be/nl/give-metadata
Juridische &
ethische aspecten
Juridische aspecten: GDPR
● AI toepassen: het kan volgens GDPR
(taak van algemeen belang)
● Maar DPIA is nodig want:
○ Grootschalige verwerking
■ Aantal betrokkenen
■ Volume van de gegevens
■ Duur van de activiteit
○ Creatie van nieuwe metadata kan linken
leggen tussen personen en lidmaatschap
vakbond/etniciteit/politieke voorkeur…
■ Verwerking van ‘bijzondere categorieën
persoonsgegevens’
DPIA staat voor
Data Protection
Impact
Assessment
Juridische aspecten: advies
● Specifiek voor gezichtsherkenning
● Extra advies
○ Maatregelen rond opslag biometrische data
○ Welke foto's mogen we gebruiken in referentieset?
■ uitsnede gezicht vs. originele foto
■ richtlijnen herkomst fotomateriaal
■ implicaties op softwareontwikkeling (bv. origineel niet bewaren)
○ Referentieset bevat enkel publieke personen
○ Keuze verwerkers: bv. servers binnen de EU
Advies wordt voor het eind van het project gepubliceerd.
Ethische aspecten
● i.s.m. Kenniscentrum Data &
Maatschappij
● meerdere workshops, focus op
gezichtsherkenning
○ breng alle stakeholders samen
■ archivarissen, personen die
herkend zullen worden, technici
○ gedeeld inzichten
○ daarop afgestemde processen en
richtlijnen voor gebruikers van de
diensten
Advies wordt voor het eind van het project gebundeld gepubliceerd.
What's cooking?
● Stand van zaken per taak
○ Spraakherkenning
○ Gezichtsherkenning
○ Entiteitsherkenning
beeld: https://www.industriemuseum.be/nl/collectie-item/verven-van-bobijnen-in-weverij-uco-
uyttendaele
Spraakherkenning
● Relatief mature producten in de markt
● Voorjaar 2022 : marktstudie
○ Wat is mogelijk op dit moment, hoe snel kan de verwerking (snel!), …
○ Informele gesprekken die ons inzicht leverden in wat kan
● Najaar 2022: aanbesteding
● Criteria
○ Prijs (om 1 uur te transcriberen)
○ Kwaliteit via benchmarking (zie volgende slides)
● 5 deelnemers:
○ Azure, Speechmatics, Scriptix, Amberscript, Notubiz
Spraakherkenning
Spraakherkenning - objectieve kwaliteitsmeting
Dataset
● Handgeselecteerd uit het archief
● 5 hoofdcategorieën: Radio/TV interview, Politiek debat/interview, Spontaan commentaar
(sport/event), Reportage/Documentaire, Nieuwsbulletin
● Nevencategorieën: podiumkunsten, dialect, oud materiaal, andere taal
● 165 bestanden, > 3 uur audio
Data Annotatie (extern bureau)
● Ground Truth transcripties (letterlijk)
● Annotaties: locatie, persoon, organisatie, belangrijke kernwoorden
Spraakherkenning - kwaliteitsmeting
STT solutions
● SaaS: Speechmatics, Amberscript, Notubiz, Scriptix, Azure
● Whisper: OpenSource multi-language STT model (Open AI)
Benchmark tool
● Gebaseerd op EBU benchmark-stt
● WER (Word Error Rate): hoe lager, hoe minder fouten in de transcriptie
● 4 kwaliteitsklasses: Excellent (0-0.1), Good (0.1, 0.2), Average (0.2-0.3), Poor (>0.3)
● Totale kwaliteitsscore: gebaseerd op hoeveel bestanden onder welke
kwaliteitsklasse vallen
STT Benchmark - results
Conclusie:
● Speechmatics enchanced
heeft de beste
transcriptiekwaliteit
● Amberscript identieke scores
(zelfde technologie)
● Microsoft Azure goeie runner-
up.
Ook geleerd: evoluties gaan snel: duidelijk
meetbare verbetering op enkele maanden tijd
(bvb. Azure) alsook opkomst Whisper en
Open AI
Spraakherkenning
● Voorjaar 2023:
○ Integratie van Speechmatics in de AI pipeline
○ Opslag van procesinformatie (herkomst van de AI data)
■ welk model werd gebruikt (welke versie)
■ wanneer werd de transcriptie uitgevoerd
● Extra's die we kunnen meenemen
○ Automatische taalherkenning
○ Transcriptie van andere talen
○ Indien taal onbekend: we forceren op NL.
● Laatste controles deze maand, start eind mei.
Het gaat dus snel, nieuwe features
sinds de aankoop Speechmatics.
Voorbeeld output
Gezichtsherkenning
Bekende personen herkennen in
video
Vaak voorkomende personen
identificeren
beeld : https://www.industriemuseum.be/nl/collectie-
item/binnenzicht-textiellabo-in-een-spinnerij
● Gezichten identificeren en herkennen in video
● Referentieset: te herkennen gezichten
○ Hoe gaan we die samenstellen?
○ Hoe beheren?
○ Gedeelde referentieset?
● Vaak voorkomende gezichten, niet gelinkt aan referentieset
○ Bv. top X meest voorkomende gezichten in je collectie
○ Opportuniteit om referentieset uit te breiden
○ Opportuniteit: kan cross-contentpartner!
Gezichtsherkenning - Wat willen we?
Gezichtsherkenning - kopen vs. bouwen
● Kopen
○ Marktbevraging
■ AWS
■ Azure
■ Vicarvision
○ Kosten
■ Operationele kost
■ Relatief duur
○ Meer geavanceerde cases zijn
moeilijker te realiseren
○ Privacy & ethiek
● Bouwen
○ Meer vrijheden
○ Meer op maat van onze use cases
/ contentpartners
○ Technische uitdagingen
■ Kan het überhaupt?
■ Welke modellen zijn nodig?
■ Zijn ze open source?
○ Wat zou de kost zijn om dit te
bouwen?
Uiteindelijk gekozen om dit te bouwen, vertrekkende van FAME
Gezichtsherkenning - bouwen op FAME
● FAME
○ Voornamelijk foto
○ Referentieset samengesteld
○ Basisflow uitgewerkt
○ Heel wat privacy aspecten
onderzocht
● Uitdagingen
○ Schaal (foto vs. video)
○ Geen validatie mogelijk
○ Gedeelde referentieset
○ GIVE = geen research (bv. gebruik
modellen zoals insightface)
Gezichtsherkenning - Video Pipeline
Face Detection Face Tracking Face Clustering
Face Embedding Face Identification
Video pipeline
Detecteer gezichten in 1 frame
Gezichtsherkenning - Video Pipeline
Face Detection Face Tracking Face Clustering
Face Embedding Face Identification
Video pipeline
Bereken fingerprint van elke face
Gezichtsherkenning - Video Pipeline
Face Detection Face Tracking Face Clustering
Face Embedding Face Identification
Video pipeline
Volg een gezicht van een persoon over meerdere frames binnen 1 shot tot trackers
Tracker Tracker
Gezichtsherkenning - Video Pipeline
Face Detection Face Tracking Face Clustering
Face Embedding Face Identification
Video pipeline
Cluster groepen van gevolgde gezichten (trackers) bij elkaar tot personen
Tracker 1
Tracker 0
Persoon 0
Gezichtsherkenning - Video Pipeline
Face Detection Face Tracking Face Clustering
Face Embedding Face Identification
Video pipeline
Faces Persoon 0
Goede gelijkenis
Zelfde persoon
Subset o.b.v.
kwaliteit
Gezichtsherkenning - parameters
Gezichtskwaliteit
● Resolutie
● Kijkhoek
● Belichting
● Occlusie
● Onscherpte
● Detectie confidence
Schermtijd
● Duur van gezicht binnen 1 shot (tracker)
● Aantal keer dat gezicht terugkomt (aantal
trackers per persoon)
● Totale schermtijd van 1 persoon in video
Doel: maximaal
gezichten herkennen EN
zo weinig mogelijk
fouten introduceren
manuele validatie
vermijden (wegens de
schaal)
Nu: parametrisering met werkgroep
Oranje gezichten komen te kort voor (bv. kort shot binnen reportage); gezichten in de achtergrond leveren
vaak geen metadata op omdat ze te klein zijn
05:48
http://give-face-
qas.private.cloud.meemoo.be/task_results/baba7b5ef1d2459180c2ea8fffa49d02cf2aed7b29ba41758f43c7e1eae
457a1b6a6377d6b4d4e2c8b032c69a4597bbc_af862059c93c6475d5320919c7c48b7d
2:00 http://give-face-
qas.private.cloud.meemoo.be/task_results/99496d03b4904e1fa23c6b0a203d36db8651dc32f64049bb995ffd93d
bc395c28cb9a1f48db84a5c9b10192aba6e9d2c_af862059c93c6475d5320919c7c48b7d
Referentieset - Gebruik
● Een referentieset is
○ Lijst van personen die we willen benoemen
○ Een aantal foto's van een persoon
○ Eén of meerdere links naar
■ lokale thesauri
■ publiek beschikbare thesauri
● Gebruik: bepalen of
een gedetecteerd
gezicht een bekend
gezicht is
Referentieset - aanpak voor het beheer
● Startpunt FAME referentieset
○ Foto's te herkennen personen
○ Identifiers met link naar publieke bronnen waar mogelijk (bv. wikidata)
● Interviews + sessie werkgroep leden
○ Gedeeld beheer of niet?
○ Welke functies moeten content partners kunnen doen?
○ Wie mag deze acties uitvoeren?
● Doel: gedeelde visie
○ Gebruiksprocessen in kaart brengen
○ Daaruit: ontwerp van de software + wireframes
Referentieset - belangrijkste conclusies
● Gedeeld beheer door contentpartners
○ Geen ownership van de data
○ Gebruikers met voldoende permissies kunnen beheren (anonieme users niet)
○ Wel gedetailleerd inzicht in historiek en aanpassingen
● Links naar zowel publieke als private bronnen
○ Bv. wikidata
○ Bv. interne identifiers
● Begeleiding van de beheerders (ethiek, techniek)
○ Richtlijnen / checks op fotokwaliteit
Gezichtsherkenning - functionele analyse
Beperkte
descriptieve
metadata (het is
geen thesaurus)
Links naar lokale
ID's en naar
publieke bronnen.
Gezichtsherkenning - functionele analyse
Gedetailleerde historiek
van de acties
Entiteitsherkenning
Haal entiteiten uit tekst
beeld https://www.industriemuseum.be/nl/collectie-item/een-vormgever-aan-het-werk-
op-de-redactie-van-het-laatste-nieuws-te-brussel
Entiteitsherkenning op tekst
● Analyse loopt op dit moment
○ Welke entiteiten willen we minimaal herkennen?
■ Personen
■ Locaties
■ Organisaties
○ Additionele functies
■ Links naar thesauri (wikidata)
■ Andere entiteiten
● Open source : spacy, mBert, Flair
● Commercieel : textrazor, zeticon, amazon, azure, google
Resultaten GIVE
Hoe gaan we om met de
resultaten?
● Afspraken bij opslag
○ We markeren ze als 'door meemoo gegenereerd'
○ We houden de herkomst bij:
■ dit is door een machine gemaakt
■ op welk moment
■ met welke software
■ door welk project / welke partij
● Ontsluiting van de gegenereerde metadata
○ In eerste instantie doen we dit niet
○ Dit project focust op creatie
Wat met de aangemaakte metadata?
● Data wordt initieel in de 'GIVE tooling'
opgeslagen
● Geldt als tijdelijke oplossing, heel basis
als functionaliteit, geen editering
● We bekijken nog of het mogelijk is om
alle projectpartners toegang te
geven tot eigen data via deze tooling
Toegang tot de aangemaakte metadata
● Data moet duurzaam bewaard worden
○ gelinkt aan de objecten
○ inclusief herkomstgegevens
○ inclusief links naar authentieke bronnen
● Duurzame opslag wordt mogelijk in de knowledge graph
○ proces migratie wordt tijdens het project uitgewerkt
○ data wordt eind 2023 daar beschikbaar
● Najaar 2023:
○ samen met werkgroep metadata toegang
contentpartners tot data bekijken
○ meer nieuws op volgend partnerevent
Metadata op lange termijn
Dit project wordt gerealiseerd met de steun van het Europees Fonds voor Regionale Ontwikkeling
en kadert binnen het relanceplan Vlaamse Veerkracht van de Vlaamse overheid
Vragen?
Bedankt!

Más contenido relacionado

Similar a Infosessie GIVE-metadata - partnerevent 11 mei 2023

Begroten van agile projecten, technical meeting Sogeti 2013-09
Begroten van agile projecten, technical meeting Sogeti 2013-09Begroten van agile projecten, technical meeting Sogeti 2013-09
Begroten van agile projecten, technical meeting Sogeti 2013-09Harold van Heeringen
 
Koffiesessie Mazars van Menno Both en Jan Jaap Bats 27 november 2012
Koffiesessie Mazars van Menno Both en Jan Jaap Bats 27 november 2012Koffiesessie Mazars van Menno Both en Jan Jaap Bats 27 november 2012
Koffiesessie Mazars van Menno Both en Jan Jaap Bats 27 november 2012Both Social
 
Deloitte Webwinkel Vakdagen
Deloitte Webwinkel VakdagenDeloitte Webwinkel Vakdagen
Deloitte Webwinkel Vakdagenwebwinkelvakdag
 
Werken aan je (digitale) toekomst ?
Werken aan je (digitale) toekomst ? Werken aan je (digitale) toekomst ?
Werken aan je (digitale) toekomst ? B.A.
 
Website conversie optimalisatie
Website conversie optimalisatieWebsite conversie optimalisatie
Website conversie optimalisatieGuido X Jansen
 
Workshop logeion 1004 webversie
Workshop logeion 1004 webversieWorkshop logeion 1004 webversie
Workshop logeion 1004 webversieSjef Kerkhofs
 
GoDataDriven weer op de hogeschool van Amsterdam: gastcollege door Ivo Everts
GoDataDriven weer op de hogeschool van Amsterdam: gastcollege door Ivo EvertsGoDataDriven weer op de hogeschool van Amsterdam: gastcollege door Ivo Everts
GoDataDriven weer op de hogeschool van Amsterdam: gastcollege door Ivo EvertsIvo Everts
 
Van brandweerman tot brandpreventieadviseur
Van brandweerman tot brandpreventieadviseurVan brandweerman tot brandpreventieadviseur
Van brandweerman tot brandpreventieadviseurB.A.
 
Eduvision - Webinar Hoe Word Ik Big Data Professional?
Eduvision - Webinar Hoe Word Ik Big Data Professional?Eduvision - Webinar Hoe Word Ik Big Data Professional?
Eduvision - Webinar Hoe Word Ik Big Data Professional?Eduvision Opleidingen
 
App development step by step
App development   step by stepApp development   step by step
App development step by stepPhilippe De Pauw
 
IATI at Partos ICT Plaza
IATI at Partos ICT PlazaIATI at Partos ICT Plaza
IATI at Partos ICT PlazaRolf Kleef
 
Het nieuwe corresponderen v1.0
Het nieuwe corresponderen v1.0Het nieuwe corresponderen v1.0
Het nieuwe corresponderen v1.0Peter van der Klis
 
Doe ik het goed? Certificering van e-depots, Kees Waterman
Doe ik het goed? Certificering van e-depots, Kees WatermanDoe ik het goed? Certificering van e-depots, Kees Waterman
Doe ik het goed? Certificering van e-depots, Kees WatermanNetwerk Digitaal Erfgoed
 
Thesis graphic design
Thesis graphic designThesis graphic design
Thesis graphic designstereographic
 
Business Continuity & Disaster Recovery introductie
Business Continuity & Disaster Recovery introductieBusiness Continuity & Disaster Recovery introductie
Business Continuity & Disaster Recovery introductieB.A.
 
Asl bi sl metrics themasessie 2013 devops sogeti
Asl bi sl metrics themasessie 2013   devops sogetiAsl bi sl metrics themasessie 2013   devops sogeti
Asl bi sl metrics themasessie 2013 devops sogetiHarold van Heeringen
 
0708 IAD1 Q4 Hoorcollege 1
0708 IAD1 Q4 Hoorcollege 10708 IAD1 Q4 Hoorcollege 1
0708 IAD1 Q4 Hoorcollege 1Hans Kemp
 

Similar a Infosessie GIVE-metadata - partnerevent 11 mei 2023 (20)

69736_CDPO_web
69736_CDPO_web69736_CDPO_web
69736_CDPO_web
 
Bas de Vos - SKO - FOAM
Bas de Vos - SKO - FOAMBas de Vos - SKO - FOAM
Bas de Vos - SKO - FOAM
 
Begroten van agile projecten, technical meeting Sogeti 2013-09
Begroten van agile projecten, technical meeting Sogeti 2013-09Begroten van agile projecten, technical meeting Sogeti 2013-09
Begroten van agile projecten, technical meeting Sogeti 2013-09
 
Koffiesessie Mazars van Menno Both en Jan Jaap Bats 27 november 2012
Koffiesessie Mazars van Menno Both en Jan Jaap Bats 27 november 2012Koffiesessie Mazars van Menno Both en Jan Jaap Bats 27 november 2012
Koffiesessie Mazars van Menno Both en Jan Jaap Bats 27 november 2012
 
Deloitte Webwinkel Vakdagen
Deloitte Webwinkel VakdagenDeloitte Webwinkel Vakdagen
Deloitte Webwinkel Vakdagen
 
Werken aan je (digitale) toekomst ?
Werken aan je (digitale) toekomst ? Werken aan je (digitale) toekomst ?
Werken aan je (digitale) toekomst ?
 
Website conversie optimalisatie
Website conversie optimalisatieWebsite conversie optimalisatie
Website conversie optimalisatie
 
Workshop logeion 1004 webversie
Workshop logeion 1004 webversieWorkshop logeion 1004 webversie
Workshop logeion 1004 webversie
 
GoDataDriven weer op de hogeschool van Amsterdam: gastcollege door Ivo Everts
GoDataDriven weer op de hogeschool van Amsterdam: gastcollege door Ivo EvertsGoDataDriven weer op de hogeschool van Amsterdam: gastcollege door Ivo Everts
GoDataDriven weer op de hogeschool van Amsterdam: gastcollege door Ivo Everts
 
Van brandweerman tot brandpreventieadviseur
Van brandweerman tot brandpreventieadviseurVan brandweerman tot brandpreventieadviseur
Van brandweerman tot brandpreventieadviseur
 
Eduvision - Webinar Hoe Word Ik Big Data Professional?
Eduvision - Webinar Hoe Word Ik Big Data Professional?Eduvision - Webinar Hoe Word Ik Big Data Professional?
Eduvision - Webinar Hoe Word Ik Big Data Professional?
 
App development step by step
App development   step by stepApp development   step by step
App development step by step
 
IATI at Partos ICT Plaza
IATI at Partos ICT PlazaIATI at Partos ICT Plaza
IATI at Partos ICT Plaza
 
Het nieuwe corresponderen v1.0
Het nieuwe corresponderen v1.0Het nieuwe corresponderen v1.0
Het nieuwe corresponderen v1.0
 
Doe ik het goed? Certificering van e-depots, Kees Waterman
Doe ik het goed? Certificering van e-depots, Kees WatermanDoe ik het goed? Certificering van e-depots, Kees Waterman
Doe ik het goed? Certificering van e-depots, Kees Waterman
 
Thesis graphic design
Thesis graphic designThesis graphic design
Thesis graphic design
 
Duurzaam digitaliseren: praktijk
Duurzaam digitaliseren: praktijkDuurzaam digitaliseren: praktijk
Duurzaam digitaliseren: praktijk
 
Business Continuity & Disaster Recovery introductie
Business Continuity & Disaster Recovery introductieBusiness Continuity & Disaster Recovery introductie
Business Continuity & Disaster Recovery introductie
 
Asl bi sl metrics themasessie 2013 devops sogeti
Asl bi sl metrics themasessie 2013   devops sogetiAsl bi sl metrics themasessie 2013   devops sogeti
Asl bi sl metrics themasessie 2013 devops sogeti
 
0708 IAD1 Q4 Hoorcollege 1
0708 IAD1 Q4 Hoorcollege 10708 IAD1 Q4 Hoorcollege 1
0708 IAD1 Q4 Hoorcollege 1
 

Más de meemoo, Vlaams instituut voor het archief

GIVE or take_het nut van kwaliteitscontrole bij digitalisering - 30 nov 2023
GIVE or take_het nut van kwaliteitscontrole bij digitalisering - 30 nov 2023GIVE or take_het nut van kwaliteitscontrole bij digitalisering - 30 nov 2023
GIVE or take_het nut van kwaliteitscontrole bij digitalisering - 30 nov 2023meemoo, Vlaams instituut voor het archief
 

Más de meemoo, Vlaams instituut voor het archief (20)

20240425 Sectormoment podiumkunstenorganisaties meemoo
20240425 Sectormoment podiumkunstenorganisaties meemoo20240425 Sectormoment podiumkunstenorganisaties meemoo
20240425 Sectormoment podiumkunstenorganisaties meemoo
 
Publiek domein - namiddagsessie partnerevent 30 nov 2023
Publiek domein - namiddagsessie partnerevent 30 nov 2023Publiek domein - namiddagsessie partnerevent 30 nov 2023
Publiek domein - namiddagsessie partnerevent 30 nov 2023
 
Uitwisselplatform 30 november 2023
Uitwisselplatform 30 november 2023Uitwisselplatform 30 november 2023
Uitwisselplatform 30 november 2023
 
Inspiratiesessie hetarchief.be - 30 nov 2023
Inspiratiesessie hetarchief.be - 30 nov 2023Inspiratiesessie hetarchief.be - 30 nov 2023
Inspiratiesessie hetarchief.be - 30 nov 2023
 
GIVE or take_het nut van kwaliteitscontrole bij digitalisering - 30 nov 2023
GIVE or take_het nut van kwaliteitscontrole bij digitalisering - 30 nov 2023GIVE or take_het nut van kwaliteitscontrole bij digitalisering - 30 nov 2023
GIVE or take_het nut van kwaliteitscontrole bij digitalisering - 30 nov 2023
 
Presentatie partnerevent 30 nov 2023 - plenaire sessie
Presentatie partnerevent 30 nov 2023 - plenaire sessiePresentatie partnerevent 30 nov 2023 - plenaire sessie
Presentatie partnerevent 30 nov 2023 - plenaire sessie
 
Presentatie online partnerevent plenaire sessie 11 mei 2023
Presentatie online partnerevent plenaire sessie 11 mei 2023Presentatie online partnerevent plenaire sessie 11 mei 2023
Presentatie online partnerevent plenaire sessie 11 mei 2023
 
GIVE-Topstukkenproject 3D-scanning
GIVE-Topstukkenproject 3D-scanningGIVE-Topstukkenproject 3D-scanning
GIVE-Topstukkenproject 3D-scanning
 
Invulboeken voor Objecten en Publicaties
Invulboeken voor Objecten en PublicatiesInvulboeken voor Objecten en Publicaties
Invulboeken voor Objecten en Publicaties
 
Vlaamse erfgoeddatabanken
Vlaamse erfgoeddatabankenVlaamse erfgoeddatabanken
Vlaamse erfgoeddatabanken
 
Publiekdomeindag 2023 - Rechtenworkshop
Publiekdomeindag 2023 - RechtenworkshopPubliekdomeindag 2023 - Rechtenworkshop
Publiekdomeindag 2023 - Rechtenworkshop
 
Publiekdomeindag 2023
Publiekdomeindag 2023Publiekdomeindag 2023
Publiekdomeindag 2023
 
Inspiratiesessie: het groeipad sociale media
Inspiratiesessie: het groeipad sociale mediaInspiratiesessie: het groeipad sociale media
Inspiratiesessie: het groeipad sociale media
 
Presentatie online partnerevent 1 december 2022.pdf
Presentatie online partnerevent 1 december 2022.pdfPresentatie online partnerevent 1 december 2022.pdf
Presentatie online partnerevent 1 december 2022.pdf
 
20221110_PRESENTATIE Sectordag musea.pptx
20221110_PRESENTATIE Sectordag musea.pptx20221110_PRESENTATIE Sectordag musea.pptx
20221110_PRESENTATIE Sectordag musea.pptx
 
20220610_Info-sessie CP's.pptx
20220610_Info-sessie CP's.pptx20220610_Info-sessie CP's.pptx
20220610_Info-sessie CP's.pptx
 
Partnerevent 9 juni 2022 - plenair - voormiddag.pdf
Partnerevent 9 juni 2022 - plenair - voormiddag.pdfPartnerevent 9 juni 2022 - plenair - voormiddag.pdf
Partnerevent 9 juni 2022 - plenair - voormiddag.pdf
 
20220217 rechtenworkshop publiekdomeindag (1)
20220217 rechtenworkshop publiekdomeindag (1)20220217 rechtenworkshop publiekdomeindag (1)
20220217 rechtenworkshop publiekdomeindag (1)
 
Public Domain Day Belgium 2022
Public Domain Day Belgium 2022Public Domain Day Belgium 2022
Public Domain Day Belgium 2022
 
Archivering sociale media
Archivering sociale mediaArchivering sociale media
Archivering sociale media
 

Infosessie GIVE-metadata - partnerevent 11 mei 2023

  • 1. GIVE metadata Infosessie - partnerevent - 11 mei 2023
  • 2. Matthias Priem Manager Archivering ✉ matthias.priem@meemoo.be Hallo! Sam Legrand Ordina
  • 3. Over deze presentatie ● Hoe werken we samen met jullie? ● Wat hebben we tot nu toe gerealiseerd ○ inzicht in wat we doen met jullie materiaal ○ inzicht in de technieken die we hiervoor gebruiken ○ inzicht in wat de resultaten kunnen zijn ● Wat gebeurt er met de resultaten en hoe kan je zelf aan de data ● En hopelijk ook veel vragen :-)
  • 5. GIVE metadata - context ● Grote hoeveelheden digitaal materiaal gearchiveerd ○ digitaliseringsprojecten afgelopen jaren ○ digitaal geboren content wordt in hoge volumes geproduceerd ● Manuele metadatering is duur en tijdrovend ● Tegelijkertijd: tooling op basis van AI wordt matuur
  • 6. Relance middelen - GIVE metadata ● Wat willen we doen? ○ Spraakherkenning op Nederlandse spraak (audio/video) ○ Entiteit herkenning op tekst uit spraakherkenning (Personen, locaties) ○ Gezichtsdetectie op video; gezichtsherkenning op een beperkte set publieke personen ● Linken aan authentieke bronnen ○ Bvb. Wikidata ID van gezichten en termen uit entiteit herkenning ○ Bvb. Lokale ID's van personen in gezichtsherkenning ● Op welke collecties? ○ Alle reeds gearchiveerde AV-collecties (behalve die van landelijke en regionale omroepen)
  • 7. Volumes ● cultuur- + overheidspartners ● 120 contentpartners ● audiovisueel materiaal (AV) ● per activiteit ○ Spraakherkenning & entiteitsherkenning: ■ 150.000 gearchiveerde stuks ■ of 165.000 uur media ○ Gezichtsdetectie en -herkenning: ■ 100.000 gearchiveerde stuks ■ of 120.000 uur media
  • 8. Betrokkenheid contentpartners ● We werken met materiaal van veel contentpartners ● Veel nieuwe uitdagingen / inzichten ● Informatie via ○ nieuwsbrief en partnerupdate ○ meemoo.be en partnerportaal ○ sociale media (twitter / linkedin) ● Betrokkenheid via werkgroep ○ brede oproep via partnerupdate begin 2022
  • 9. Werkgroep GIVE - metadata ● Diepgaande informatie over het project ● Meewerken en beslissen over ○ juridische en ethische aspecten ○ parametrisering gezichtsherkenning ○ (gedeeld) beheer van de referentieset personen Agenda van voorbije sessies via partnerportaal: https://portaal.meemoo.be/nl/give-metadata
  • 11. Juridische aspecten: GDPR ● AI toepassen: het kan volgens GDPR (taak van algemeen belang) ● Maar DPIA is nodig want: ○ Grootschalige verwerking ■ Aantal betrokkenen ■ Volume van de gegevens ■ Duur van de activiteit ○ Creatie van nieuwe metadata kan linken leggen tussen personen en lidmaatschap vakbond/etniciteit/politieke voorkeur… ■ Verwerking van ‘bijzondere categorieën persoonsgegevens’ DPIA staat voor Data Protection Impact Assessment
  • 12. Juridische aspecten: advies ● Specifiek voor gezichtsherkenning ● Extra advies ○ Maatregelen rond opslag biometrische data ○ Welke foto's mogen we gebruiken in referentieset? ■ uitsnede gezicht vs. originele foto ■ richtlijnen herkomst fotomateriaal ■ implicaties op softwareontwikkeling (bv. origineel niet bewaren) ○ Referentieset bevat enkel publieke personen ○ Keuze verwerkers: bv. servers binnen de EU Advies wordt voor het eind van het project gepubliceerd.
  • 13. Ethische aspecten ● i.s.m. Kenniscentrum Data & Maatschappij ● meerdere workshops, focus op gezichtsherkenning ○ breng alle stakeholders samen ■ archivarissen, personen die herkend zullen worden, technici ○ gedeeld inzichten ○ daarop afgestemde processen en richtlijnen voor gebruikers van de diensten Advies wordt voor het eind van het project gebundeld gepubliceerd.
  • 14. What's cooking? ● Stand van zaken per taak ○ Spraakherkenning ○ Gezichtsherkenning ○ Entiteitsherkenning beeld: https://www.industriemuseum.be/nl/collectie-item/verven-van-bobijnen-in-weverij-uco- uyttendaele
  • 16. ● Relatief mature producten in de markt ● Voorjaar 2022 : marktstudie ○ Wat is mogelijk op dit moment, hoe snel kan de verwerking (snel!), … ○ Informele gesprekken die ons inzicht leverden in wat kan ● Najaar 2022: aanbesteding ● Criteria ○ Prijs (om 1 uur te transcriberen) ○ Kwaliteit via benchmarking (zie volgende slides) ● 5 deelnemers: ○ Azure, Speechmatics, Scriptix, Amberscript, Notubiz Spraakherkenning
  • 17. Spraakherkenning - objectieve kwaliteitsmeting Dataset ● Handgeselecteerd uit het archief ● 5 hoofdcategorieën: Radio/TV interview, Politiek debat/interview, Spontaan commentaar (sport/event), Reportage/Documentaire, Nieuwsbulletin ● Nevencategorieën: podiumkunsten, dialect, oud materiaal, andere taal ● 165 bestanden, > 3 uur audio Data Annotatie (extern bureau) ● Ground Truth transcripties (letterlijk) ● Annotaties: locatie, persoon, organisatie, belangrijke kernwoorden
  • 18. Spraakherkenning - kwaliteitsmeting STT solutions ● SaaS: Speechmatics, Amberscript, Notubiz, Scriptix, Azure ● Whisper: OpenSource multi-language STT model (Open AI) Benchmark tool ● Gebaseerd op EBU benchmark-stt ● WER (Word Error Rate): hoe lager, hoe minder fouten in de transcriptie ● 4 kwaliteitsklasses: Excellent (0-0.1), Good (0.1, 0.2), Average (0.2-0.3), Poor (>0.3) ● Totale kwaliteitsscore: gebaseerd op hoeveel bestanden onder welke kwaliteitsklasse vallen
  • 19. STT Benchmark - results Conclusie: ● Speechmatics enchanced heeft de beste transcriptiekwaliteit ● Amberscript identieke scores (zelfde technologie) ● Microsoft Azure goeie runner- up. Ook geleerd: evoluties gaan snel: duidelijk meetbare verbetering op enkele maanden tijd (bvb. Azure) alsook opkomst Whisper en Open AI
  • 20. Spraakherkenning ● Voorjaar 2023: ○ Integratie van Speechmatics in de AI pipeline ○ Opslag van procesinformatie (herkomst van de AI data) ■ welk model werd gebruikt (welke versie) ■ wanneer werd de transcriptie uitgevoerd ● Extra's die we kunnen meenemen ○ Automatische taalherkenning ○ Transcriptie van andere talen ○ Indien taal onbekend: we forceren op NL. ● Laatste controles deze maand, start eind mei. Het gaat dus snel, nieuwe features sinds de aankoop Speechmatics.
  • 22. Gezichtsherkenning Bekende personen herkennen in video Vaak voorkomende personen identificeren beeld : https://www.industriemuseum.be/nl/collectie- item/binnenzicht-textiellabo-in-een-spinnerij
  • 23. ● Gezichten identificeren en herkennen in video ● Referentieset: te herkennen gezichten ○ Hoe gaan we die samenstellen? ○ Hoe beheren? ○ Gedeelde referentieset? ● Vaak voorkomende gezichten, niet gelinkt aan referentieset ○ Bv. top X meest voorkomende gezichten in je collectie ○ Opportuniteit om referentieset uit te breiden ○ Opportuniteit: kan cross-contentpartner! Gezichtsherkenning - Wat willen we?
  • 24. Gezichtsherkenning - kopen vs. bouwen ● Kopen ○ Marktbevraging ■ AWS ■ Azure ■ Vicarvision ○ Kosten ■ Operationele kost ■ Relatief duur ○ Meer geavanceerde cases zijn moeilijker te realiseren ○ Privacy & ethiek ● Bouwen ○ Meer vrijheden ○ Meer op maat van onze use cases / contentpartners ○ Technische uitdagingen ■ Kan het überhaupt? ■ Welke modellen zijn nodig? ■ Zijn ze open source? ○ Wat zou de kost zijn om dit te bouwen? Uiteindelijk gekozen om dit te bouwen, vertrekkende van FAME
  • 25. Gezichtsherkenning - bouwen op FAME ● FAME ○ Voornamelijk foto ○ Referentieset samengesteld ○ Basisflow uitgewerkt ○ Heel wat privacy aspecten onderzocht ● Uitdagingen ○ Schaal (foto vs. video) ○ Geen validatie mogelijk ○ Gedeelde referentieset ○ GIVE = geen research (bv. gebruik modellen zoals insightface)
  • 26. Gezichtsherkenning - Video Pipeline Face Detection Face Tracking Face Clustering Face Embedding Face Identification Video pipeline Detecteer gezichten in 1 frame
  • 27. Gezichtsherkenning - Video Pipeline Face Detection Face Tracking Face Clustering Face Embedding Face Identification Video pipeline Bereken fingerprint van elke face
  • 28. Gezichtsherkenning - Video Pipeline Face Detection Face Tracking Face Clustering Face Embedding Face Identification Video pipeline Volg een gezicht van een persoon over meerdere frames binnen 1 shot tot trackers Tracker Tracker
  • 29. Gezichtsherkenning - Video Pipeline Face Detection Face Tracking Face Clustering Face Embedding Face Identification Video pipeline Cluster groepen van gevolgde gezichten (trackers) bij elkaar tot personen Tracker 1 Tracker 0 Persoon 0
  • 30. Gezichtsherkenning - Video Pipeline Face Detection Face Tracking Face Clustering Face Embedding Face Identification Video pipeline Faces Persoon 0 Goede gelijkenis Zelfde persoon Subset o.b.v. kwaliteit
  • 31. Gezichtsherkenning - parameters Gezichtskwaliteit ● Resolutie ● Kijkhoek ● Belichting ● Occlusie ● Onscherpte ● Detectie confidence Schermtijd ● Duur van gezicht binnen 1 shot (tracker) ● Aantal keer dat gezicht terugkomt (aantal trackers per persoon) ● Totale schermtijd van 1 persoon in video Doel: maximaal gezichten herkennen EN zo weinig mogelijk fouten introduceren manuele validatie vermijden (wegens de schaal)
  • 32. Nu: parametrisering met werkgroep Oranje gezichten komen te kort voor (bv. kort shot binnen reportage); gezichten in de achtergrond leveren vaak geen metadata op omdat ze te klein zijn 05:48 http://give-face- qas.private.cloud.meemoo.be/task_results/baba7b5ef1d2459180c2ea8fffa49d02cf2aed7b29ba41758f43c7e1eae 457a1b6a6377d6b4d4e2c8b032c69a4597bbc_af862059c93c6475d5320919c7c48b7d 2:00 http://give-face- qas.private.cloud.meemoo.be/task_results/99496d03b4904e1fa23c6b0a203d36db8651dc32f64049bb995ffd93d bc395c28cb9a1f48db84a5c9b10192aba6e9d2c_af862059c93c6475d5320919c7c48b7d
  • 33. Referentieset - Gebruik ● Een referentieset is ○ Lijst van personen die we willen benoemen ○ Een aantal foto's van een persoon ○ Eén of meerdere links naar ■ lokale thesauri ■ publiek beschikbare thesauri ● Gebruik: bepalen of een gedetecteerd gezicht een bekend gezicht is
  • 34. Referentieset - aanpak voor het beheer ● Startpunt FAME referentieset ○ Foto's te herkennen personen ○ Identifiers met link naar publieke bronnen waar mogelijk (bv. wikidata) ● Interviews + sessie werkgroep leden ○ Gedeeld beheer of niet? ○ Welke functies moeten content partners kunnen doen? ○ Wie mag deze acties uitvoeren? ● Doel: gedeelde visie ○ Gebruiksprocessen in kaart brengen ○ Daaruit: ontwerp van de software + wireframes
  • 35. Referentieset - belangrijkste conclusies ● Gedeeld beheer door contentpartners ○ Geen ownership van de data ○ Gebruikers met voldoende permissies kunnen beheren (anonieme users niet) ○ Wel gedetailleerd inzicht in historiek en aanpassingen ● Links naar zowel publieke als private bronnen ○ Bv. wikidata ○ Bv. interne identifiers ● Begeleiding van de beheerders (ethiek, techniek) ○ Richtlijnen / checks op fotokwaliteit
  • 36. Gezichtsherkenning - functionele analyse Beperkte descriptieve metadata (het is geen thesaurus) Links naar lokale ID's en naar publieke bronnen.
  • 37. Gezichtsherkenning - functionele analyse Gedetailleerde historiek van de acties
  • 38. Entiteitsherkenning Haal entiteiten uit tekst beeld https://www.industriemuseum.be/nl/collectie-item/een-vormgever-aan-het-werk- op-de-redactie-van-het-laatste-nieuws-te-brussel
  • 39. Entiteitsherkenning op tekst ● Analyse loopt op dit moment ○ Welke entiteiten willen we minimaal herkennen? ■ Personen ■ Locaties ■ Organisaties ○ Additionele functies ■ Links naar thesauri (wikidata) ■ Andere entiteiten ● Open source : spacy, mBert, Flair ● Commercieel : textrazor, zeticon, amazon, azure, google
  • 40. Resultaten GIVE Hoe gaan we om met de resultaten?
  • 41. ● Afspraken bij opslag ○ We markeren ze als 'door meemoo gegenereerd' ○ We houden de herkomst bij: ■ dit is door een machine gemaakt ■ op welk moment ■ met welke software ■ door welk project / welke partij ● Ontsluiting van de gegenereerde metadata ○ In eerste instantie doen we dit niet ○ Dit project focust op creatie Wat met de aangemaakte metadata?
  • 42. ● Data wordt initieel in de 'GIVE tooling' opgeslagen ● Geldt als tijdelijke oplossing, heel basis als functionaliteit, geen editering ● We bekijken nog of het mogelijk is om alle projectpartners toegang te geven tot eigen data via deze tooling Toegang tot de aangemaakte metadata
  • 43. ● Data moet duurzaam bewaard worden ○ gelinkt aan de objecten ○ inclusief herkomstgegevens ○ inclusief links naar authentieke bronnen ● Duurzame opslag wordt mogelijk in de knowledge graph ○ proces migratie wordt tijdens het project uitgewerkt ○ data wordt eind 2023 daar beschikbaar ● Najaar 2023: ○ samen met werkgroep metadata toegang contentpartners tot data bekijken ○ meer nieuws op volgend partnerevent Metadata op lange termijn
  • 44. Dit project wordt gerealiseerd met de steun van het Europees Fonds voor Regionale Ontwikkeling en kadert binnen het relanceplan Vlaamse Veerkracht van de Vlaamse overheid