5. www.voicesfromtheblogs.com | we capture the sentiment of the net
Perché analizzare i Big Data
1. Una crescente mole di dati disponibili su prodotti, temi,
preferenze. Perché ignorarli?
2. La possibilità di una analisi real-time
3. La possibilità di geolocalizzare l’analisi
4. La possibilità di analizzare diverse lingue
5. La capacità di catturare dinamiche prima degli altri:
nowcasting e forecasting
6. Il passaparola elettronico funziona!
7. Non si possono fare domande…
8. Il costo di queste analisi è decisamente più contenuto
rispetto alle alternative
6. www.voicesfromtheblogs.com | we capture the sentiment of the net
Come analizzare i Big Data
Due grandi approcci:
1. The Volume
2. The Analytics
7. www.voicesfromtheblogs.com | we capture the sentiment of the net
The Volume
1. Conteggiare: numero di menzioni, numero di likes,
numero di followers, ecc.
• Utile soprattutto ai grandi brand (in senso ampio)
9. 40.68
40.70
40.72
40.74
-74.050 -74.025 -74.000 -73.975
lon
lat
*Fonte: VfB. Periodo sett-nov, 2013.
Post geolocalizzati: 900K
Il brand Martini
www.voicesfromtheblogs.com | we capture the sentiment of the net
20
30
40
50
-120
-110
-100
-90
-80
-70
lon
lat
40
50
60
-10
0
10
20
30
40
lon
lat
10. www.voicesfromtheblogs.com | we capture the sentiment of the net
The Volume
2. Identificare gli «influencer»
• Cercare di «influenzare» chi conta quando parla
di te
11. www.voicesfromtheblogs.com | we capture the sentiment of the net
I limiti del Volume
• Il conteggio dice però qualche cosa solo sulla
notorietà di un prodotto, personaggio, tema, nulla
però sulla popolarità/valutazione di tale prodotto,
personaggio, tema
• Ma generalmente a una impresa/istituzione,
interessa non solo sapere quanto si parli, ma
come si parli di me o di qualche evento o di
qualche prodotto
12. www.voicesfromtheblogs.com | we capture the sentiment of the net
Fare analytics
• Due dimensioni per fare analytics:
• Prima dimensione: una analisi puramente
automatizzata vs. una analisi supervisionata
• Seconda dimensione: una analisi individuale
[quasi tutti] vs. una analisi aggregata [pochi…]
13. www.voicesfromtheblogs.com | we capture the sentiment of the net
Come fare una analisi automatizzata
• Fare affidamento su dizionari ontologici costruiti
sulla base di qualche regola semantica più o meno
complessa per produrre un «sentiment»
15. www.voicesfromtheblogs.com | we capture the sentiment of the net
I problemi dei dizionari ontologici
• I dizionari sono statici per definizione (mentre il
linguaggio evolve continuamente e cambia da
soggetto a tema a lingua utilizzata)
16. www.voicesfromtheblogs.com | we capture the sentiment of the net
I problemi dei dizionari ontologici
• I dizionari non colgono i doppi sensi, l’humor, i
giochi di parole
17. “Questo film promette bene. Sembra avere una bellissima trama, un cast
d’eccezione e attori di primo piano e Stallone dà il massimo di sé stesso.
Ma non regge”
"Ibis redibis numquam peribis in bello", che si può tradurre sia come
"andrai, ritornerai, non morirai in guerra", ma anche all’opposto,
"andrai, non ritornerai, morirai in guerra"
“ragazza stufa scappa di casa… i genitori muoiono di freddo”
“non esiste un vento favorevole per il marinaio che non sa dove andare” (Seneca)
I problemi dei dizionari ontologici
18. www.voicesfromtheblogs.com | we capture the sentiment of the net
I problemi dei dizionari ontologici
• E inoltre…
…a me interessa capire le opinioni dietro al
sentiment!!! E con un dizionario ontologico, a
differenza di una codifica manuale, questo non è
possibile…
19. www.voicesfromtheblogs.com | we capture the sentiment of the net
Stima individuale vs. stima aggregata
• Immaginiamo allora di aver codificato
manualmente (e quindi senza i problemi dei
dizionari ontologici…) un certo numero di post su
un certo argomento
• Possiamo fermarci a questo punto?
• NO!!! i campioni rappresentativi di opinioni sui Big
Data hanno poco senso, ma l’universo è
disponibile!
20. www.voicesfromtheblogs.com | we capture the sentiment of the net
Stima individuale vs. stima aggregata
• Come passare allora da questo sotto-insieme (che
possiamo capire train-set) all’intero universo dei
post (ovvero, al test-set)?
21. www.voicesfromtheblogs.com | we capture the sentiment of the net
Come arrivare ad un stima aggregata?
per sapere quanto mangime
consumano i pesci, è meglio
contare quanto ne mangia
ciascun pesce e poi
aggregare il dato…
…oppure guardare direttamente
quanto mangime è rimasto nel
barattolo?
22. www.voicesfromtheblogs.com | we capture the sentiment of the net
Stima individuale vs. stima aggregata
• La maggior parte dei metodi cerca di stimare a quale
categoria appartiene ciascun singolo post
appartenente al test-set, utilizzando le informazioni del
train-set
• Il problema è che così facendo ogni post è predetto
appartenere a una certa categoria con una qualche
probabilità < 1
• Quindi, quando si aggrega per arrivare alla stima
aggregata, anche l’errore di classificazione individuale è
aggregato producendo un errore complessivo che può
arrivare al 15/20%
23. www.voicesfromtheblogs.com | we capture the sentiment of the net
L’innovazione iSA®
• La tecnologia iSA® sviluppata da Voices from the
Blogs (VfB) risolve questo problema stimando
direttamente la distribuzione aggregata delle
opinioni del test-set, invece che i singoli post da
aggregare poi successivamente
25. www.voicesfromtheblogs.com | we capture the sentiment of the net
Step-by-Step iSA®
• Ogni singolo post nel train-set è classificato da
codificatori umani
• L’algoritmo apprende dalla classificazione umana
l’associazione tra linguaggio e contenuto semantico
ed estende all’intero universo tale associazione
• La distribuzione finale dell’intero universo è stimata
poi direttamente con un errore di classificazione
inferiore al 3%
• Tutto ciò rende possibile analizzare i Big Data con
la profondità di una analisi qualitativa
26. 26
Cosa dicono; cosa piace, cosa non piace (e
perchè) quando parlano di me, del mio prodotto
specifico o in generale
Cosa gli piacerebbe
Come si sentono su un certo tema
La mia campagna sta funzionando?
Analizzare i miei competitors
Scoprire nuovi mercati
Analytics: applicazioni
29. Alitalia Brand Reputation
Prima e dopo il volo atterato fuori pista (2 feb 2013)
*Fonte: Analisi interna, 26 Mag 2013. Blog analizzati: 2122 (1130 prima e 992 dopo l’incidente).
Sentiment
Aspetti positivi Aspetti negativi
Positivo
26.0%
Neutro
14.3%
Negativo
59.7%
economico
iniziative
ottimi servizi
serio
tratte
9.7%
22.7%
20.6%
14.9%
32.0%
12.0%
53.5%
8.2%
15.1%
11.2%
prima dopo
bilanciopassivo
costoso
errori
monopolio
pocachiarezza
pocosicuro
voli cancellati
13.0%
8.6%
25.6%
3.1%
14.3%
9.8%
25.5%
7.7%
11.8%
11.9%
12.8%
12.1%
9.7%
33.9%
prima dopo
prima
dopo
Positivo
7.4%
Neutro
2.7%
Negativo
89.9%
www.voicesfromtheblogs.com | we capture the sentiment of the net
30. Milano Fashion Week
*Fonte: VfB, 25 Set 2012. (http://sentimeter.corriere.it/2012/09/25/milano-fashion-week-gucci-e-armani-i-piu-acclamati-su-twitter/ )
www.voicesfromtheblogs.com | we capture the sentiment of the net
31. Il nuovo iPad
*Fonte: VfB in esclusiva per Sole24Ore, 08 Mar 2012. Tweet analizzati: 40.000.
(http://www.ilsole24ore.com/art/tecnologie/2012-03-10/nuovo-ipad-cosa-dice-093953.shtml?uuid=AbvOGa5E )
sì
76.3%
no
23.7%
Lo compreresti?
Cosa piace di più?
Cosa manca o non
convince?
www.voicesfromtheblogs.com | we capture the sentiment of the net
batteria
4G/LTE
fotocamera
dettatura vocale
prezzo
nuoveapp
retina display
processore 22.6%
19.7%
14.4%
11.3%
8.9%
8.0%
7.8%
7.3%
porta USBdock nome
72.8%
18.7%
8.5%
32. download
ecologico
economico
efficiente
pratico
sempre con me
18.6%
61.2%
0%
0%
0%
20.2%
17.8%
11.5%
59.0%
10.1%
1.0%
0.7%
Ita Eng
Libro o ebook?
*Fonte: VfB, 30 Mar 2012. (http://voicesfromtheblogs.com/2012/03/30/book-o-ebook/ ).
Tweet analizzati: 13.500 in italiano e 70.000 in inglese
ebook
34.8%
indifferente
28.4%
librodi carta
36.9%
ebook
58.6%
indifferente
21.2%
librodi carta
20.2%
Tweet in italiano Tweet in inglese Quali vantaggi dell’ebook?
profumodella carta
si conserva meglio
ètangibile
80.7%
0%
19.3%
42.9%
44.0%
31.3%
Ita Eng
Quali vantaggi del libro di carta?
13.500
tweet in
italiano
70.000
tweet in
inglese
Analizzati:
Marzo,2012
www.voicesfromtheblogs.com | we capture the sentiment of the net
33. Gradimento di Mario Monti
22/11/12:
Il giudizio della rete
sul Monti bis
*Fonte: VfB in esclusiva per il Corriere della Sera, 22 Nov 2012.
(http://sentimeter.corriere.it/2012/11/22/quante-chance-per-monti-bis-secondo-la-rete/ ). Tweet analizzati: 31.000
Contrario
58.6% nonso
11.1%
Favorevole
30.3%
Cosa nepensi
di unMonti-bis?
www.voicesfromtheblogs.com | we capture the sentiment of the net
bene complessivamente
bene ineconomia
bene ma ancora poco
male complessivamente
male ineconomia
troppa austeritye pocowelfare
troppe tasse 24.9%
7.0%
17.7%
13.2%
7.1%
19.2%
10.6%
Come giudichi l’azione del governoMonti?
bravoma autoreferenziale
competente e credibile
onestoe buonpolitico
dannosoper il paese
noneletto
nonincisivo
pocoequoe democratico
troppovicinoalla finanza 22.8%
6.8%
11.6%
5.3%
13.5%
10.0%
26.4%
3.5%
Che ne pensi di Monti come uomopolitico?
34. Expo 2015
*Fonte: VfB, in esclusiva per Camera di Commercio di Milano.
Post analizzati in Rete: oltre 13 mila pubblicati in lingua diversa dall’italiano e fuori dall’Italia
(http://voicesfromtheblogs.com/2013/12/10/expo2015-vista-nel-mondo-piace-ma-se-ne-parla-ancora-poco/)
www.voicesfromtheblogs.com | we capture the sentiment of the net
35. La 55.Biennale d’arte di
Venezia
*Fonte: VfB.
(http://voicesfromtheblogs.com/2014/02/04/la-55-biennale-darte-di-venezia-e-la-rete-tra-plausi-e-perplessita/#more-6495).
www.voicesfromtheblogs.com | we capture the sentiment of the net
36. La Pubblica Amministrazione
*Fonte: VfB in esclusiva per Repubblica
(http://www.repubblica.it/economia/2014/02/10/news/pa_e_agenda_digitale_la_rete_rimpiange_la_coda_allo_sportello-
78232391/).
www.voicesfromtheblogs.com | we capture the sentiment of the net
40. *Fonte: VfB in esclusiva per Juventus FC, 08 Mag 2013.
(http://www.juventus.com/juve/it/news/Juve+la+ricetta+della+felicita ). Tweet analizzati: 430.000
iHappy Pre Scudetto
(fino a 05/05/2013 ore 16.00)
iHappy Post Scudetto
(da 05/05/2013 ore 16.00 fino a
06/05/2013 ore 08.00)
La felicità in Italia
dopo lo Scudetto Juventus
felice
infelice
felice
infelice
www.voicesfromtheblogs.com | we capture the sentiment of the net
41. www.voicesfromtheblogs.com | we capture the sentiment of the net
Il Wired Next Index
Uno dei primi esperimenti in Italia che si propone di unire
indicatori freddi con indicatori caldi. Il WNI è infatti un indice
econometrico che tiene assieme…
5 indicatori freddi: numero imprese, tasso di disoccupazione,
export, aspettative ISTAT dei consumatori, aspettative ISTAT
delle imprese
3 indicatori caldi basati su una analisi di Twitter: fiducia su
ripresa economica, su proprie condizioni personali, su politica.
Tra 2013 e 2014 circa 60M di post
50. Il Giappone e l’olio di oliva
www.voicesfromtheblogs.com | we capture the sentiment of the net
51. 51
1. Coverage! Coverage! And even more
Coverage!
• Questo è un problema tecnologico e/o
finanziario
Cosa conta nell’Analytics
52. 52
2. Il metodo che si utilizza per analizzare i social
media do matter!
• Questo è un problema statistico
• L’esempio delle elezioni: uno dei pochi
eventi sociali che presenta una misura
indipendente di ciò che si vuole prevedere
(ovvero, i risultati elettorali medesimi)
Cosa conta nell’Analytics
53. 53
Abbiamo analizzato 80 previsioni elettorali
basate sull’analisi dei social media pubblicate in
questi ultimi anni
Diversi paesi: Stati Uniti, Italia, Francia, Spagna,
Germania, Singapore, ecc.
54. 54
Le tecniche supervisionate a livello aggregato
aumentano l’accuratezza delle previsioni del 5%
se confrontate con le previsioni che si basano
solo sul volume dei dati o su metodi di Sentiment
Analysis completamente automatizzati
55. #US2012
Monitoraggio in tempo reale
*Fonte: VfB in esclusiva per il Corriere della Sera, 06 Nov 2012.
(http://sentimeter.corriere.it/2012/11/06/twitter-lancia-lultima-volata-ai-due-candidati/ ). Tweet analizzati: 50M+ (2M/ giorno)
www.voicesfromtheblogs.com | we capture the sentiment of the net
Obama 16,9 M di followers su Twitter,
Romney 0,6…eppure…
61. Voices from the Blogs nasce nell’ottobre 2010 come
osservatorio scientifico sulle opinioni espresse in rete (social
media, blog, forum, web)
Il 12/12/12 diventa uno Spin-Off dell’Università degli Studi di
Milano (Srl iscritta nel Registro delle Startup Innovative)
A maggio 2014, Voices from the Blogs ha analizzato oltre
300 milioni di post scritti in italiano, inglese, francese,
spagnolo, tedesco, russo e giapponese
Voices from the Blogs, oltre che in Italia, opera al momento
sul mercato statunitense, canadese, svizzero e spagnolo
Chi siamo
www.voicesfromtheblogs.com | we capture the sentiment of the net