LIT (Lexicon of the Italian Television) is a project conceived by the Accademia della Crusca, the leading research institution on the Italian language, in collaboration with CLIEO (Center for theoretical and historical Linguistics: Italian, European and Oriental languages), with the aim of studying frequencies of the Italian lexicon used in television content and targets the specific sector of web applications for linguistic research. The corpus of transcriptions is constituted approximately by 170 hours of random television recordings transmitted by the national broadcaster RAI (Italian Radio Television) during the year 2006.
Accurate Evaluation of HER-2 Amplication in FISH Images Poster at Internatio...
Lexicon of the Italian Television
1. Arneb-TEI: annotazione e consultazione
di video annotato
Media Integration and Communication Center
Università degli Studi di Firenze
Thomas M. Alisi - Alberto Del Bimbo - Andrea Ferracani
alisi@micc.unifi.it - delbimbo@dsi.unifi.it - andrea.ferracani@unifi.it
16.06.09 - “Lessico Televisivo” - Università di Milano
Monday, October 5, 2009
2. MICC background
• Media Integration and Communication Center
centro di eccellenza riconosciuto dal Ministero dell’Università
e della Ricerca
• 4 laboratori: ingegneria del software, aspetti legali dei media,
telecomunicazione, analisi dell’informazione visuale
• Nel nostro gruppo: 5 professori e ricercatori, 13 post-doc e
PhD students, 5 tech. assistants
• Insegnamento
programmi di dottorato e Master in Multimedia Content
Design (attualmente ed. XI)
• Ricerca EU
2 progetti attualmente attivi:VidiVideo e IM3I (IMmersive
MultiMedia Interfaces)
• Trasferimento tecnologico
collaborazioni e progetti di ricerca in collaborazione con
aziende italiane e multinazionali
MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.unifi.it
Monday, October 5, 2009
3. La ricerca sul web: sempre e solo testo
• Siamo abituati a cercare usando semplici keyword testuali
• miliardi di pagine di testo, esistono sempre dei risultati, esempio:
Results 1 - 10 of about 1,020,000,000 for car [definition]. (0.15 seconds)
• Siamo abituati a ottenere interi documenti
• all’interno di un’intera pagina web, non è un problema ricercare
l’occorrenza del termine che ci interessa veramente
MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.unifi.it
Monday, October 5, 2009
4. I professionisti del multimedia
• Come e cosa vuole cercare un professionista del multimedia?
• Vuole fare ricerche usando un vocabolario controllato, definito con
standard interni per avere annotazioni coerenti
• Vuole ottenere solo la parte di video che mostra il termine cercato:
basta fast forward/rewind!
MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.unifi.it
Monday, October 5, 2009
5. Cosa si può fare per migliorare la ricerca nel
multimedia ?
• L’annotazione di oggetti multimediali è molto costosa e lenta, sia che si usino
tecniche manuali che automatiche
• Si possono annotare pochi concetti, se poi cerchiamo con una keyword
diversa da quella usata per l’annotazione non otteniamo niente...
• Risolviamo il problema con le strutture semantiche
• Usiamo lo streaming per mostrare subito la parte di video che interessa:
• basta mandare email con scritto: “guarda il video XXX, aspetta il 12°
minuto per vedere la parte interessante”
MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.unifi.it
Monday, October 5, 2009
6. Ontologie? Si, ontologie!
• Un’ontologia è una rappresentazione formale di un insieme di concetti di un
dominio
• Ci consente di usare gerarchie e relazioni tra concetti invece di semplici
keywords
• Usa logiche soggetto - predicato - oggetto per descrivere il mondo in un
modo interpretabile da una macchina
• Usiamo tecnologie standard nate nel Semantic Web: OWL e RDF
• Strumenti specifici possono facilmente usare formati di interscambio per
convertire le proprie strutture dati: MPEG-7, TEI
MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.unifi.it
Monday, October 5, 2009
7. Arneb-TEI: requisiti
• il sistema deve essere veloce e semplice da usare
• accessibile via internet attraverso standard intercambiabili
• è necessario produrre documenti XML-TEI e MPEG7 a partire da video
• collegamento di ogni singola battuta all’intervallo video dove viene
pronunciata
• ogni battuta viene associata ad alcune proprietà contestuali (parlante,
tipologia comunicativa...)
MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.unifi.it
Monday, October 5, 2009
8. Interfaccia di annotazione
Le interazioni nell’interfaccia di annotazione sono molteplici:
MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.unifi.it
Monday, October 5, 2009
9. Interfaccia di annotazione
Le interazioni nell’interfaccia di annotazione sono molteplici:
Azioni per le Azioni
trasmissioni condivise
Azioni per Azioni per la
gli attori trascrizione
MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.unifi.it
Monday, October 5, 2009
10. Interface design: UXD
gestione video in
streaming le informazioni definite
(intervallo video,
metadati, battuta della
trascrizione) sono tre
contesti diversi da unire
metadati della singola sotto un’unica azione
battuta
si isolano i tre contesti,
obbligando l’utente ad
eseguire un’azione alla
volta.
trascrizione completa del testo
parlato e gestione delle battute
MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.unifi.it
Monday, October 5, 2009
11. Implementazione
Quale tecnologia web utilizzare?
Flex/Flash Java AJAX
Supporto Video Nativo
Disegno dell’interfaccia
intuitivo
Complete su Internet Explorer, Complete su Internet Explorer,
Funzionalità Firefox, Safari, Opera, AOL, Firefox, Safari, Opera, AOL, Dipendente dal browser
Seamonkey Seamonkey
99% >= versione 9 80% totale: 90% subset base
Diffusione 60% = versione 10 50% 1.6, 30% 1.5 40% completo
Gratis la versione SDK
In base al framework utilizzato.
Costo 214€ versione Standard Builder Gratis
Generalmente gratuito.
598€ versione Professional
Velocità di sviluppo Alta (RAD) Media Bassa
MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.unifi.it
Monday, October 5, 2009
13. Specs
• Rich Internet Application (in Adobe Flex), ma può essere anche eseguita
come applicazione standalone
• Adobe Flash Media Server o Red5 per lo streaming video
• Testato da annotatori professionisti di Sound & Vision (archivio nazionale
radio-televisivo, Olanda) per annotare 23 video con circa 25.000 concetti
audio-visuali (indicando i timecode di inizio e fine)
• Ontologies dataflow: da XML a MPEG-7 a OWL
MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.unifi.it
Monday, October 5, 2009
14. Applicazioni
• Broadcaster e altri produttori video (es. agenzie pubblicitarie, giornali e
riviste)
• possono usare il sistema per indicizzare e ricercare nei loro archivi
• riuso dei materiali per nuove produzioni
• Servizi di sharing video professionale
• per vendere video e multimedia su internet
• annotazioni di tipo professionale con vocabolari controllati per i vari tipi
di video
• Gestione di archivi video speciali, es. videosorveglianza o sport
• sempre maggiori quantità di video da gestire
MICC Università di Firenze - L.go de Gasperi 1, Firenze - +39 055 4237 408 - alisi@micc.unifi.it
Monday, October 5, 2009