Plone4 ur coach un nlp framework per plone may 20 2010 1
1. COACH: Un workbenchper NLP, l'analisi dei testi e l'estrazione di termini COACH: unWorkbench per NLP S.LaricciaSapienzaUniversità di Roma – Digilabstefano.lariccia@uniroma1.it Giovanni Toffoli [Link srl] toffoli@uni.net
2. 1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini Open Knowledge Open Learning Web Science
3. 1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini Si descrive un work-in-progress consistente nell’adattamento, estensione e integrazione in Plone di un set di strumenti per l’elaborazione testi (NLP). Ci siamo proposti di aggregare le principali risorse disponibili per la elaborazione della lingua italiana e di renderle accessibili attraverso un CMS per consentirne una utilizzazione più estesa, cioè allargata a tutti coloro che pur interessati all’uso degli strumenti NLP non avrebbero le risorse per configurare il proprio workbench più documentata, per garantire anche ad utenti “sporadici” una utilizzazione rapida ed efficace più flessibile d) più adatta all’insegnamento e alla creazione di ambienti di didattica (non esclusivamente Abbiamo scelto il linguaggio Python, il toolkit NLTK e l’ambiente CMS Plone. ABSTRACT 1.1
4. 1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini L'attività descritta intende anche essere un elemento di aggregazione per iniziative su cui richiedere un contributo di finanziamento pubblico, nell'ambito di programmi di ricerca nazionali ed europei, e di collaborazioni con enti che diffondono la cultura italiana nel mondo. Una domanda di finanziamento europeo COACH sarà presentata a luglio 2010 ABSTRACT 1.1
5. 1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini Con COACH, un set di strumenti accessibili trough-the-web, un workbench, per l’analisi dei testi e l’estrazione di termini da corpus linguistici pre-esistenti in italiano, inglese e spagnolo intendiamo presentare un “manifesto” per la costituzione di una comunità di ricerca attorno ad uno strumento, un workbench appunto, che ci consenta di aggregare le migliori risorse disponibili attorno ad alcune linee guida della ricerca in area umanistica. 1.2
6. 1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini Il presente lavoro è proposto come un work-in-progress, consistente nell'adattamento, nell'estensione e nell'integrazione attorno all’ambiente Plone di strumenti per l'elaborazione di testi (NLP), per il tagging, il crunching e sullo sfondo l’inferenza semantica a partire corporapre-elaboraticontro cui confrontare testi singoli, e raccolte ulteriori di testi. Il focus del lavoro sarà per ora limitato (per quanto riguarda la sperimentazione iniziale) sulla lingua italiana. 1.3
7. 1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini 1.4 Il primo obbiettivo è infatti quello di disporre anche per l'italiano di una suite di tool che consentano di effettuare una migliore indicizzazione full-text dei documenti e di estrarre da essi i "termini" rappresentativi candidati ad essere usati per il "tagging" dei contenuti stessi (nel contesto di blog, digitallibrary, ecc.). In seguito vorremmo supportare costruzione semi-automatica di glossari e ontologie, web mining, ecc. Il secondo obbiettivo è quello di far tesoro delle risorse generate – in maniera più o meno consapevole nel workbench comune – dalle attività autonome di ciascuno degli stakeholders, da ciascuno dei membri della comunità di utenti.
8. 1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini 1.5 Il terzo obbiettivo è quello di costituire corpus specializzati nell’esame di testi non contemporanei, introducendo variabili e modelli che consentano l’identificazione su una scala diacronica dei testi sottoposti a indagine.
9. 1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini 1.5 I principali componenti che intendiamo integrare in Plone sono: - NLTK (NaturalLanguageToolKit), una libreria Python e un insieme di risorse linguistiche, soprattutto corpora, risultato della più interessante iniziativa open-source nel campo della linguistica computazionale; si tratta di divulgazione ad alto livello - un paio di risorse linguistiche di libero dominio e di ottima qualità disponibili per l'italiano: costituiscono un'eccezione in un panorama desolante, tenuto conto anche degli ingenti finanziamenti pubblici italiani ed europei che sono stati dedicati a questo settore nel periodo 1990-2010.
10. 1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini 1.5 A parte PERL, che è un linguaggio di scripting specialistico e dalla sintassi criptica, crediamo che Python sia il linguaggio di programmazione general-purpose che meglio supporta la sperimentazione nel campo dell'analisi dei testi.
11. 1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini 1.5 Plone di per sé non aggiunge un contributo essenziale, ma un sito Plone potrà beneficiare del package in corso di sviluppo la piattaforma Zope/Plone è comunque un'ottima base di partenza per qualsiasi applicazione che deve essere accessibile su web; e le funzionalità di content management e di user management di Plone faciliteranno la gestione di risorse linguistiche personalizzate (es: basi di documenti e file di parametri) nell'ottica di installazioni che forniscano un servizio aperto.
12. 2 COACH: Obbiettivi funzionali COACH, ambientecollaborativodi NLP 2.3 Nell’implementare COACH, l’ambiente collaborativo d di NLP, abbiamo definito alcuni obbiettivi funzionaliche ci sembrano abbastanza innovativi e che allo stesso tempo costituiscono un primo step realistico per “innestare” COACH nell’utilizzazione pratica di un numero consistente di apprendisti e di ricercatori. Gli obbiettivi elencati in ordine non gerarchico di importanza, sono in prima approssimazione i seguenti:
13. 2 COACH: Obbiettivi funzionali WordPress, Joomla, Drupal and Plone 2.4 Effetto Wikinomics: Integrare tramite un CMS – a partire dal progetto NLTK – la capacità di feedback intelligente sugli algoritmi di apprendimento basati sul confronto con un corpus standard - ad una comunità di studenti in linguistica computazionale, in modo da usufruire del supporto di un numero di operatori umani superiore di 1 o più ordini di grandezza rispetto agli attuali ristretti gruppi di ricerca (da 100 a 10.000, da 100 a 100.000)
14. 2 COACH: Obbiettivi funzionali 2.5 Rendere accessibile a linguisti, filologi, studiosi del testo, storici della lingua italiana e storici uno strumento che sia in grado di fornire un servizio valutabile per un ampio numero di ricercatori, rendendo così appetibile il suo utilizzo e creando in questo modo un feedback positivo sia per il perfezionamento di un corpus e delle regole di campionamento del corpus, sia per il perfezionamento degli algoritmi di analisi ed estrazione termini
15. 2 COACH: Obbiettivi funzionali WordPress, Joomla, Drupal and Plone 2.6 Mettere a test la necessità di potenza di calcolo, sperimentando diverse soluzioni per rendere disponibili potenze di elaborazione crescenti on-demand, rendendo possibile la profilazione, la rendicontazione ed il pagamento del computingpower richiesto da ciascuna ricerca. .
16. 2 COACH: Obbiettivi funzionali WordPress, Joomla, Drupal and Plone 2.7 Identificazione di uno standard identificativo unico per i termini di una lingua (sull’esempio del DOI? Dei riferimenti bibliografici? Etc.) che renda possibile la referenziazione dinamica, basata su una autorità formale, di un termine, di un concetto, di un significato in uno spazio linguistico definito da una sorgente – autoritativa (Webservices DNS?); provvedere ad un meccanismo di classificazione diacronica di tale lista
17. 2 COACH: un Workbenchcoopearativo per NLP Obbiettivi applicativi innovativi di COACH all’interno del progetto Sapienza Emozioni 2.8 abbiamo individuato obbiettivi applicativi che ci sembravano sufficientemente realistici (ciò che linguisti e filologi si attendono da uno strumento reale ed esistente) e allo stesso tempo potenzialmente innovativi. Gli obbiettivi elencati in ordine non gerarchico di importanza, sono in prima approssimazione i seguenti:
18. 2 COACH: un Workbenchcoopearativo per NLP Obbiettivi applicativi innovativi di COACH all’interno del progetto Sapienza Emozioni 2.8 Essere in grado di identificare le probabilità di occorrenza e co-occorrenza di termini dati in un contesto specifico dato, a fronte di analoghi valori generali dell’Italiano (classificazione degli ambiti della langue); significa avere meccanismi automatici di pre-identificazione di un numero limitato di contesti linguistici; crono-localizzazione
19. 2 COACH: un Workbenchcoopearativo per NLP Obbiettivi applicativi innovativi di COACH all’interno del progetto Sapienza Emozioni 2.8 Mettere un ampio numero di utenti proattivi in grado di sperimentare algoritmi per l’associazione di stili autorali con testi dall’autore non identificato e di fornire feedback per il perfezionamento degli algoritmi stessi; ipso-identificazione
20. 2 COACH: un Workbenchcoopearativo per NLP Obbiettivi applicativi innovativi di COACH all’interno del progetto Sapienza Emozioni 2.8 Mettere un ampio numero di utenti proattivi in grado di sperimentare algoritmi per l’associazione di stili regionali e di altre comunità locali e di fornire feedback per il perfezionamento degli algoritmi stessi; geo –localizzazione
21. 2 COACH: un Workbenchcoopearativo per NLP Obbiettivi applicativi innovativi di COACH all’interno del progetto Sapienza Emozioni 2.8 Preparare la piattaforma collettiva per il successivo ampliamento funzionale che estenda le funzionalità di analisi al dominio della semantica e delle ontologie, mediante la predisposizione di un impianto architetturale software APERTO, MODULARE, DOCUMENTATO e facilmente documentabile attraverso l’attività dello stesso utente.
22. 2 CMS come aggregatori di modelli per la Web Science Casi d’ uso concreti nel progetto “Il linguaggio delle emozioni” 2.9 Come primo caso d’uso, all'interno del progetto PRIN “Il Linguaggio delle emozioni” ci proponiamo di costituire un ambiente di “sperimentazione linguistica” (LinguisticWorkbench) con il quale mettere alla prova i seguenti procedimenti e i seguenti framework di riferimento per una analisi semantica di corpora letterari:
23. 2 CMS come aggregatori di modelli per la Web Science individuazione dei radicali caratterizzanti di uso più frequente del corpus SapienzaEmozioni descrizione del loro inserimento all'interno dell'ontologia Wordnet per creare una topografia specifica, verificarne il coinvolgimento di altri campi, e la discendenza relativa (facendo emergere proprietà specifiche come funzioni metaforiche e alti usi) fare emergere dal contrasto tra corpus testuale (corpus oggetto di indagine) e corpus di riferimento le proprietà specifiche di ciascun dominio indagabile (autore, epoca, lingue, genere, linee stilistiche, “scuole”, etc. esser pronti a individuare tramite il feedback tra corpus di riferimento e corpus di studio nuove strategie di studio e nuovi possibili domini Casi d’ uso concreti nel progetto “Il linguaggio delle emozioni” 2.1
24. 3 COACH: casi d’uso Possibili casi d’ uso di COACH in altri ambiti di ricerca 3.1 Dato un dominio o una sottorete, si chiede al software di analizzare le pagine pubblicate sotto le URI appartenenti al dominio specificato estraendone sintagmi, termini e coppie di termini statisticamente rilevanti; Il “corpus delle emozioni” un’ analisi attraverso NLTK su un corpus preparato per il gruppo di lavoro Un corpus delle leggi costituzionali di alcuni paesi europei
25. 3 COACH: Riferimenti Riferimenti bibliografici 3.2 Pecheux, M. 1982, Language, Semantics, and Ideology, {PalgraveMacmillan}. Pecheux, M. AutomaticDiscourseAnalysis (Utrecht Studies in Language and Communication, No 5), RodopiBvEditions. Fuksas, A. 2002, Etimologia e geografia nella lirica dei trovatori, Roma. .
26. 3 COACH: Riferimenti Riferimenti elettronici (DOI) 3.2 Nicola Simonetti, Filosofia della mente e neuroscienze: il caso dei neuroni specchio, giovedì, novembre 19, 2009, Relazione SFI, Novara, 28.10.2009 .
27. 8 Web Semantico e “intelligence” per le comunità della scienza
29. 9 Riferimenti Books and papers 9.1 1. Sherman, Chris.Partner & Executive Editor. London : Search Engine Land, 2008. paper. 2. Berners-Lee, T., et al.A framework for Web Science. s.l. : NOW, 2006. 1-933019-33-6. 3. Towards a Semantic Web. Lariccia, S. Toffoli, G. Ferrara : s.n., 2004. 4. Simon, Herbert A.The Science of artificial. Cambridge : The MIT Press, 1996. 0262691914.
30.
31. According to the Academic Ranking of World Universities published by the Institute of Higher Education of Shanghai Jiao Tong University,