3. Over deze presentatie
● Hoe werken we samen met jullie?
● Wat hebben we tot nu toe gerealiseerd
○ inzicht in wat we doen met jullie materiaal
○ inzicht in de technieken die we hiervoor gebruiken
○ inzicht in wat de resultaten kunnen zijn
● Wat gebeurt er met de resultaten en hoe kan je zelf aan de data
● En hopelijk ook veel vragen :-)
5. GIVE metadata - context
● Grote hoeveelheden digitaal materiaal gearchiveerd
○ digitaliseringsprojecten afgelopen jaren
○ digitaal geboren content wordt in hoge volumes geproduceerd
● Manuele metadatering is duur en tijdrovend
● Tegelijkertijd: tooling op basis van AI wordt matuur
6. Relance middelen - GIVE metadata
● Wat willen we doen?
○ Spraakherkenning op Nederlandse spraak (audio/video)
○ Entiteit herkenning op tekst uit spraakherkenning (Personen, locaties)
○ Gezichtsdetectie op video; gezichtsherkenning op een beperkte set publieke
personen
● Linken aan authentieke bronnen
○ Bvb. Wikidata ID van gezichten en termen uit entiteit herkenning
○ Bvb. Lokale ID's van personen in gezichtsherkenning
● Op welke collecties?
○ Alle reeds gearchiveerde AV-collecties (behalve die van landelijke en
regionale omroepen)
7. Volumes
● cultuur- + overheidspartners
● 120 contentpartners
● audiovisueel materiaal (AV)
● per activiteit
○ Spraakherkenning & entiteitsherkenning:
■ 150.000 gearchiveerde stuks
■ of 165.000 uur media
○ Gezichtsdetectie en -herkenning:
■ 100.000 gearchiveerde stuks
■ of 120.000 uur media
8. Betrokkenheid contentpartners
● We werken met materiaal van veel contentpartners
● Veel nieuwe uitdagingen / inzichten
● Informatie via
○ nieuwsbrief en partnerupdate
○ meemoo.be en partnerportaal
○ sociale media (twitter / linkedin)
● Betrokkenheid via werkgroep
○ brede oproep via partnerupdate begin 2022
9. Werkgroep GIVE - metadata
● Diepgaande informatie over
het project
● Meewerken en beslissen over
○ juridische en ethische aspecten
○ parametrisering
gezichtsherkenning
○ (gedeeld) beheer van de
referentieset personen
Agenda van voorbije sessies via partnerportaal: https://portaal.meemoo.be/nl/give-metadata
11. Juridische aspecten: GDPR
● AI toepassen: het kan volgens GDPR
(taak van algemeen belang)
● Maar DPIA is nodig want:
○ Grootschalige verwerking
■ Aantal betrokkenen
■ Volume van de gegevens
■ Duur van de activiteit
○ Creatie van nieuwe metadata kan linken
leggen tussen personen en lidmaatschap
vakbond/etniciteit/politieke voorkeur…
■ Verwerking van ‘bijzondere categorieën
persoonsgegevens’
DPIA staat voor
Data Protection
Impact
Assessment
12. Juridische aspecten: advies
● Specifiek voor gezichtsherkenning
● Extra advies
○ Maatregelen rond opslag biometrische data
○ Welke foto's mogen we gebruiken in referentieset?
■ uitsnede gezicht vs. originele foto
■ richtlijnen herkomst fotomateriaal
■ implicaties op softwareontwikkeling (bv. origineel niet bewaren)
○ Referentieset bevat enkel publieke personen
○ Keuze verwerkers: bv. servers binnen de EU
Advies wordt voor het eind van het project gepubliceerd.
13. Ethische aspecten
● i.s.m. Kenniscentrum Data &
Maatschappij
● meerdere workshops, focus op
gezichtsherkenning
○ breng alle stakeholders samen
■ archivarissen, personen die
herkend zullen worden, technici
○ gedeeld inzichten
○ daarop afgestemde processen en
richtlijnen voor gebruikers van de
diensten
Advies wordt voor het eind van het project gebundeld gepubliceerd.
14. What's cooking?
● Stand van zaken per taak
○ Spraakherkenning
○ Gezichtsherkenning
○ Entiteitsherkenning
beeld: https://www.industriemuseum.be/nl/collectie-item/verven-van-bobijnen-in-weverij-uco-
uyttendaele
16. ● Relatief mature producten in de markt
● Voorjaar 2022 : marktstudie
○ Wat is mogelijk op dit moment, hoe snel kan de verwerking (snel!), …
○ Informele gesprekken die ons inzicht leverden in wat kan
● Najaar 2022: aanbesteding
● Criteria
○ Prijs (om 1 uur te transcriberen)
○ Kwaliteit via benchmarking (zie volgende slides)
● 5 deelnemers:
○ Azure, Speechmatics, Scriptix, Amberscript, Notubiz
Spraakherkenning
17. Spraakherkenning - objectieve kwaliteitsmeting
Dataset
● Handgeselecteerd uit het archief
● 5 hoofdcategorieën: Radio/TV interview, Politiek debat/interview, Spontaan commentaar
(sport/event), Reportage/Documentaire, Nieuwsbulletin
● Nevencategorieën: podiumkunsten, dialect, oud materiaal, andere taal
● 165 bestanden, > 3 uur audio
Data Annotatie (extern bureau)
● Ground Truth transcripties (letterlijk)
● Annotaties: locatie, persoon, organisatie, belangrijke kernwoorden
18. Spraakherkenning - kwaliteitsmeting
STT solutions
● SaaS: Speechmatics, Amberscript, Notubiz, Scriptix, Azure
● Whisper: OpenSource multi-language STT model (Open AI)
Benchmark tool
● Gebaseerd op EBU benchmark-stt
● WER (Word Error Rate): hoe lager, hoe minder fouten in de transcriptie
● 4 kwaliteitsklasses: Excellent (0-0.1), Good (0.1, 0.2), Average (0.2-0.3), Poor (>0.3)
● Totale kwaliteitsscore: gebaseerd op hoeveel bestanden onder welke
kwaliteitsklasse vallen
19. STT Benchmark - results
Conclusie:
● Speechmatics enchanced
heeft de beste
transcriptiekwaliteit
● Amberscript identieke scores
(zelfde technologie)
● Microsoft Azure goeie runner-
up.
Ook geleerd: evoluties gaan snel: duidelijk
meetbare verbetering op enkele maanden tijd
(bvb. Azure) alsook opkomst Whisper en
Open AI
20. Spraakherkenning
● Voorjaar 2023:
○ Integratie van Speechmatics in de AI pipeline
○ Opslag van procesinformatie (herkomst van de AI data)
■ welk model werd gebruikt (welke versie)
■ wanneer werd de transcriptie uitgevoerd
● Extra's die we kunnen meenemen
○ Automatische taalherkenning
○ Transcriptie van andere talen
○ Indien taal onbekend: we forceren op NL.
● Laatste controles deze maand, start eind mei.
Het gaat dus snel, nieuwe features
sinds de aankoop Speechmatics.
22. Gezichtsherkenning
Bekende personen herkennen in
video
Vaak voorkomende personen
identificeren
beeld : https://www.industriemuseum.be/nl/collectie-
item/binnenzicht-textiellabo-in-een-spinnerij
23. ● Gezichten identificeren en herkennen in video
● Referentieset: te herkennen gezichten
○ Hoe gaan we die samenstellen?
○ Hoe beheren?
○ Gedeelde referentieset?
● Vaak voorkomende gezichten, niet gelinkt aan referentieset
○ Bv. top X meest voorkomende gezichten in je collectie
○ Opportuniteit om referentieset uit te breiden
○ Opportuniteit: kan cross-contentpartner!
Gezichtsherkenning - Wat willen we?
24. Gezichtsherkenning - kopen vs. bouwen
● Kopen
○ Marktbevraging
■ AWS
■ Azure
■ Vicarvision
○ Kosten
■ Operationele kost
■ Relatief duur
○ Meer geavanceerde cases zijn
moeilijker te realiseren
○ Privacy & ethiek
● Bouwen
○ Meer vrijheden
○ Meer op maat van onze use cases
/ contentpartners
○ Technische uitdagingen
■ Kan het überhaupt?
■ Welke modellen zijn nodig?
■ Zijn ze open source?
○ Wat zou de kost zijn om dit te
bouwen?
Uiteindelijk gekozen om dit te bouwen, vertrekkende van FAME
25. Gezichtsherkenning - bouwen op FAME
● FAME
○ Voornamelijk foto
○ Referentieset samengesteld
○ Basisflow uitgewerkt
○ Heel wat privacy aspecten
onderzocht
● Uitdagingen
○ Schaal (foto vs. video)
○ Geen validatie mogelijk
○ Gedeelde referentieset
○ GIVE = geen research (bv. gebruik
modellen zoals insightface)
26. Gezichtsherkenning - Video Pipeline
Face Detection Face Tracking Face Clustering
Face Embedding Face Identification
Video pipeline
Detecteer gezichten in 1 frame
27. Gezichtsherkenning - Video Pipeline
Face Detection Face Tracking Face Clustering
Face Embedding Face Identification
Video pipeline
Bereken fingerprint van elke face
28. Gezichtsherkenning - Video Pipeline
Face Detection Face Tracking Face Clustering
Face Embedding Face Identification
Video pipeline
Volg een gezicht van een persoon over meerdere frames binnen 1 shot tot trackers
Tracker Tracker
29. Gezichtsherkenning - Video Pipeline
Face Detection Face Tracking Face Clustering
Face Embedding Face Identification
Video pipeline
Cluster groepen van gevolgde gezichten (trackers) bij elkaar tot personen
Tracker 1
Tracker 0
Persoon 0
30. Gezichtsherkenning - Video Pipeline
Face Detection Face Tracking Face Clustering
Face Embedding Face Identification
Video pipeline
Faces Persoon 0
Goede gelijkenis
Zelfde persoon
Subset o.b.v.
kwaliteit
31. Gezichtsherkenning - parameters
Gezichtskwaliteit
● Resolutie
● Kijkhoek
● Belichting
● Occlusie
● Onscherpte
● Detectie confidence
Schermtijd
● Duur van gezicht binnen 1 shot (tracker)
● Aantal keer dat gezicht terugkomt (aantal
trackers per persoon)
● Totale schermtijd van 1 persoon in video
Doel: maximaal
gezichten herkennen EN
zo weinig mogelijk
fouten introduceren
manuele validatie
vermijden (wegens de
schaal)
32. Nu: parametrisering met werkgroep
Oranje gezichten komen te kort voor (bv. kort shot binnen reportage); gezichten in de achtergrond leveren
vaak geen metadata op omdat ze te klein zijn
05:48
http://give-face-
qas.private.cloud.meemoo.be/task_results/baba7b5ef1d2459180c2ea8fffa49d02cf2aed7b29ba41758f43c7e1eae
457a1b6a6377d6b4d4e2c8b032c69a4597bbc_af862059c93c6475d5320919c7c48b7d
2:00 http://give-face-
qas.private.cloud.meemoo.be/task_results/99496d03b4904e1fa23c6b0a203d36db8651dc32f64049bb995ffd93d
bc395c28cb9a1f48db84a5c9b10192aba6e9d2c_af862059c93c6475d5320919c7c48b7d
33. Referentieset - Gebruik
● Een referentieset is
○ Lijst van personen die we willen benoemen
○ Een aantal foto's van een persoon
○ Eén of meerdere links naar
■ lokale thesauri
■ publiek beschikbare thesauri
● Gebruik: bepalen of
een gedetecteerd
gezicht een bekend
gezicht is
34. Referentieset - aanpak voor het beheer
● Startpunt FAME referentieset
○ Foto's te herkennen personen
○ Identifiers met link naar publieke bronnen waar mogelijk (bv. wikidata)
● Interviews + sessie werkgroep leden
○ Gedeeld beheer of niet?
○ Welke functies moeten content partners kunnen doen?
○ Wie mag deze acties uitvoeren?
● Doel: gedeelde visie
○ Gebruiksprocessen in kaart brengen
○ Daaruit: ontwerp van de software + wireframes
35. Referentieset - belangrijkste conclusies
● Gedeeld beheer door contentpartners
○ Geen ownership van de data
○ Gebruikers met voldoende permissies kunnen beheren (anonieme users niet)
○ Wel gedetailleerd inzicht in historiek en aanpassingen
● Links naar zowel publieke als private bronnen
○ Bv. wikidata
○ Bv. interne identifiers
● Begeleiding van de beheerders (ethiek, techniek)
○ Richtlijnen / checks op fotokwaliteit
36. Gezichtsherkenning - functionele analyse
Beperkte
descriptieve
metadata (het is
geen thesaurus)
Links naar lokale
ID's en naar
publieke bronnen.
38. Entiteitsherkenning
Haal entiteiten uit tekst
beeld https://www.industriemuseum.be/nl/collectie-item/een-vormgever-aan-het-werk-
op-de-redactie-van-het-laatste-nieuws-te-brussel
39. Entiteitsherkenning op tekst
● Analyse loopt op dit moment
○ Welke entiteiten willen we minimaal herkennen?
■ Personen
■ Locaties
■ Organisaties
○ Additionele functies
■ Links naar thesauri (wikidata)
■ Andere entiteiten
● Open source : spacy, mBert, Flair
● Commercieel : textrazor, zeticon, amazon, azure, google
41. ● Afspraken bij opslag
○ We markeren ze als 'door meemoo gegenereerd'
○ We houden de herkomst bij:
■ dit is door een machine gemaakt
■ op welk moment
■ met welke software
■ door welk project / welke partij
● Ontsluiting van de gegenereerde metadata
○ In eerste instantie doen we dit niet
○ Dit project focust op creatie
Wat met de aangemaakte metadata?
42. ● Data wordt initieel in de 'GIVE tooling'
opgeslagen
● Geldt als tijdelijke oplossing, heel basis
als functionaliteit, geen editering
● We bekijken nog of het mogelijk is om
alle projectpartners toegang te
geven tot eigen data via deze tooling
Toegang tot de aangemaakte metadata
43. ● Data moet duurzaam bewaard worden
○ gelinkt aan de objecten
○ inclusief herkomstgegevens
○ inclusief links naar authentieke bronnen
● Duurzame opslag wordt mogelijk in de knowledge graph
○ proces migratie wordt tijdens het project uitgewerkt
○ data wordt eind 2023 daar beschikbaar
● Najaar 2023:
○ samen met werkgroep metadata toegang
contentpartners tot data bekijken
○ meer nieuws op volgend partnerevent
Metadata op lange termijn
44. Dit project wordt gerealiseerd met de steun van het Europees Fonds voor Regionale Ontwikkeling
en kadert binnen het relanceplan Vlaamse Veerkracht van de Vlaamse overheid