Tecniche fuzzy per l'elaborazione del linguaggio naturale
1. Michele Filannino
Università degli Studi di Bari “A.Moro”
Dipartimento di Informatica
Research: http://www.di.uniba.it/~swap/ Working Capital - BarCamp
Twitter: @bronko85
Bari, 13 luglio 2010
2. Chi sono
Informazioni
• Età: 24 anni;
• Laureato in Informatica e tecnologie per la
produzione del software in meno di 3 anni, cum
laude;
• Laureando magistrale in Informatica;
• Membro del SWAP Research Group (Semantic
Web Access & Personalization);
• Blogger per melablog.it.
2 /15
3. Motivazioni
Quantità di dati in Internet
155 milioni di siti web
5 milioni di Tb* di dati
Un uomo impiegherebbe 57000 anni per leggerli.
1,8 miliardi di utenti (crescita esponenziale)
* Google ne ha indicizzato solo lo 0,004% ;)
Dati forniti da Eric Shmidt, CEO di Google, durante una conferenza del 2005 | Fonte: SoftPedia 3 /15
4. “It’s not information overload.
It’s filter failure”
Clay Shirky (al Web2.0 Expo del 2008)
5. Information filtering
Motori di ricerca
• non differenziano i risultati in base agli utenti;
• richiedono all’utente una parziale
conoscenza dei documenti cercati;
• offrono risultati errati o banali* poiché non
comprendono il linguaggio naturale.
* L. Iaquinta, M. de Gemmis, P. Lops, G. Semeraro, M. Filannino, and P. Molino. Introducing Serendipity in a Content-based Recommender System. In
F. Xhafa, F. Herrera, A. Abraham, M. Koppen, and J. M. Benitez, editors, Proceedings of the Eighth International Conference on Hybrid Intelligent
Systems HIS-2008 , pages 168-173. IEEE Computer Society Press, Los Alamitos, California, 2008. ISBN 978-0-7695-3326-1. 5 /15
6. Il presente
Semantica, Web3.0, etc...
• Ontologie -> Logiche descrittive;
• Realizzazione from scratch molto onerosa;
• Utilizzo limitato a domini molto
specifici;
• bassa precisione, risultati poco
pertinenti, complessità computazionale
elevata.
6 /15
7. “Nella misura in cui le leggi della matematica si riferiscono alla realtà non sono certe.
E nella misura in cui sono certe, non si riferiscono alla realtà.”
Albert Einstein
8. Idea
!
• Utilizzare logica fuzzy per restituire
risultati più intelligenti.
• Ridimensionare l’uso di algoritmi basati su
logica classica;
• Rifiutare di formalizzare i meccanismi sottesi al
linguaggio naturale umano;
8 /15
9. Logica fuzzy
Lotfi Zadeh, 1965*
• Logica del ragionamento
approssimato;
• Esprime incertezza;
• Estende la classica teoria
degli insiemi;
• Consente di profilare le
interpretazioni degli utenti.
• Fuzzy-relazioni tra concetti
ontologici
L. A. Zadeh. Fuzzy sets. Information and Control, 8(3):338–353, June 1965
9 /15
10. Il sistema software
Capacità
• Interpreterà il linguaggio
naturale (italiano ed inglese);
• Eliciterà i concetti
ontologici presenti nel
testo;
• Sarà facilmente integrabile in
sistemi terzi.
10 /15
11. Funzionamento
Input, output
INPUT OUTPUT
Concetti ontologici
Testo semplice pertinenti (anche nascosti)
Concetti ontologici
Pagina social network significativi per il profilo
Concetti ontologici correlati
Pagina web (anche nascosti)
11 /15
12. Scenario applicativo
Integrazione in un motore di ricerca classico
Query
arricchita
Query Query
Motore di
Utente ricerca
<<
Documenti pertinenti Documenti restituiti
restituiti da un sistema classico
12 /15
13. Scenario applicativo
Integrazione in un sistema di raccomandazioni
Concetti
pertinenti
Profilo,
Sistema di Posizione
Utente raccomandazioni geografica,
Data
Prodotti/servizi pertinenti
restituiti
13 /15
14. Progetti
In corso...
• Studio sui concetti di gradualità e vaghezza
nella ingegneria della conoscenza;
• Membro del progetto SWOP (Semantic
Web-service Opened Platform);
• Realizzazione di un algoritmo per il calcolo
della similarità semantica tra frasi (SAWA);
• Sogno di diventare un ricercatore.
14 /15
Conosco la definizione di un concetto ma non come si chiama. In tal caso Google non mi serve a niente.
Il problema &#xE8; nella teoria degli insiemi classica. La volont&#xE0; tacita di assiomatizzare realt&#xE0; delle quali ancora non conosciamo tutta la complessit&#xE0;.