Prezentace ze čtvrtého ročníku konference New Media Inspiration (http://nminspiration.cz), který se konal 21. 2. 2015 v hlavní budově FF UK pod vedením @petrkou, @simindr a @josefslerka.
Objem nestrukturovaných dat stále roste, rozvoj Webu 2.0 přináší množství textů generovaných samotnými uživateli Internetu. Jejich příspěvky nezřídka obsahují subjektivní názory, emoce, hodnocení… K čemu a jak můžeme tato data použít? Je možné emoce v textu spolehlivě strojově třídit? Příspěvek z oblasti sentiment analysis představí metody a úspěchy automatické extrakce emocí z textu s důrazem na česká data a aplikace pro byznys.
7. K čemu je to dobré?
• hodnocení produktů
• průzkum veřejného mínění
• monitoring sociálních sítí
• intenční analýza
• forenzní lingvistika
• predikace trendů v marketingu
• predikace výsledků voleb
8. K čemu je to dobré?
• potenciální zákazník – názory a komentáře jiných
• uživatel – sdílení zkušeností
• obchodník – zpětná vazba
9. Jak se to dělá?
Nerezový vejcovar Steba má vyměnitelné pláty
pro volská oka.
vs.
[Krásný nerezový vejcovar Steba je i u netrpělivých
zákazníků velmi oblíben.]+
= hlasování prostou většinou
11. Czech Sublex 1.0
• překlad části MPQA korpusu přes paralelní korpus
CzEng
1954 substantiv
1698 sloves
819 adjektiv
465 adverbií
4936 hodnotících slov
přístupný ze stránek www.ufal.cz/sentiment
12. Jak se to dělá?
• metody kvantitativní lingvistiky (tematická koncentrace)
• unsupervised learning
- Turneyův třístupňový algoritmus (využití PMI)
• supervised learning
- support vector machines
- maximální entropie
- slovníkové klasifikátory
- Naivní Bayesův klasifikátor
13. Naivní Bayes
• velké množství trénovacích dat (csfd.cz, mall.cz…)
• preprocessing: spell-checking
lemmatizace
desambiguace
morfologie
parsing…
14. Naivní Bayes
• feature: přítomnost lemmatu v daném segmentu
• odhaduje predikační sílu lemmatu vzhledem k polaritě
• trénování = budování slovníku všech přítomných
lemmat a jejich predikačních sil
15. Naivní Bayes
• filtrování
- podle slovních druhů
- na základě frekvence
- zohlednění jazyka emocí
emocí v jazyce
20. Jazyk emocí
• augmentativa (barabizna)
• deminutiva (mimísek)
• eufemismy (okrasný tukový prstenec x špek)
• vulgarismy (@#%$!!)
• evaluativní frazémy a idiomy
• pojmenované entity
21. Jazyk emocí
za málo peněz hodně muziky
mít se jako prase v žitě
cítit se jako nahý v trní
stát za houby
být příjemný jako osina v zadku
jít jako po másle
být šťastný jako blecha
tvářil se, jako by mu uletěly včely
má to své mouchy
lepší než drátem do oka…
22. Emoce v jazyce
moderátorka Jolka Krásná
obec Krásná
karpatský hřeben Krásná polonina
zemědělské družstvo Krásná Hora nad Vltavou
bar/pořad Krásný ztráty
časopis Krásná a zdravá
lunární kalendář Krásné paní
píseň Krásná je Neapol
poéma Krásná Poldi
román Cizinec a krásná paní
film Život je krásný
soutěž Věda je krásná
23. Jazyk emocí
„Jeho styl mi nic neříká, neoslovuje mě. Poezii (já) miluju, ale
Šrámek ani náhodou. Ve škole na něj češtinářka pěla ódy, tak
mě to zajímalo, jestli je (on) fakt tak dobrej, chtěla jsem přečíst
i něco jinýho než Splav, ale neshledala jsem (já) v jeho díle nic
obdivuhodného, takže (já) fakt nechápu tu všeobecnou
glorifikaci.“
→ zdroj
Zdroj: http://www.zpovednice.cz – diskuse k básni Splav
24. Jazyk emocí
„Jeho styl mi nic neříká, neoslovuje mě. Poezii (já) miluju, ale
Šrámek ani náhodou. Ve škole na něj češtinářka pěla ódy, tak
mě to zajímalo, jestli je (on) fakt tak dobrej, chtěla jsem přečíst i
něco jinýho než Splav, ale neshledala jsem (já) v jeho díle nic
obdivuhodného, takže (já) fakt nechápu tu všeobecnou
glorifikaci.“
→ zdroj
→ cíl
Zdroj: http://www.zpovednice.cz – diskuse k básni Splav
25. Jazyk emocí
„Jeho styl mi nic neříká, neoslovuje mě. Poezii (já) miluju, ale
Šrámek ani náhodou. Ve škole na něj češtinářka pěla ódy, tak mě
to zajímalo, jestli je (on) fakt tak dobrej, chtěla jsem přečíst i něco
jinýho než Splav, ale neshledala jsem (já) v jeho díle nic
obdivuhodného, takže (já) fakt nechápu tu všeobecnou
glorifikaci.“
→ zdroj
→ cíl
→ hodnocení
Zdroj: http://www.zpovednice.cz – diskuse k básni Splav
26. Emoce v jazyce
• plnovýznamové slovní druhy s výjimkou zájmen a
číslovek
• evaluativní částice
• citoslovce
27. Emoce v jazyce
• důležitost desambiguace
Dobře, já to udělám.
Zachoval se dobře.
28. Emoce v jazyce
• důležitost slovesa
zdroj – hodnocení – cíl
agens – predikát – patiens
29. Emoce v jazyce
• slovesa osobního mínění
myslet, domnívat se, předpokládat, pohlížet na…
30. Emoce v jazyce
• explicitní hodnocení – vyjádření citového stavu
nesouhlasit s, nesnášet, chválit, zbožňovat…
[Toho hrdopýška všichni nesnášejí.] –
[Toho hrdopýška všichni chválí.] +
→ hodnotící sloveso má větší indikační sílu
než hodnotící substantivum
31. Emoce v jazyce
• důležitost částic
[Bohudík toho hrdopýška všichni nesnášejí.] +
[Bohužel toho hrdopýška všichni chválí.] -
→ emocionální částice má větší indikační sílu
než evaluativní sloveso
- chválabohu, naštěstí, zaplať pánbůh…
32. Emoce v jazyce
• důležitost adjektiv
[Bylo to příjemné nedorozumění.] +
→ hodnotící adjektivum má větší indikační sílu
než hodnotící substantivum
33. Emoce v jazyce
• pragmatická odbočka: ironie
Byl to hrdinný chlípník.
Byl to chlípný hrdina.
34. Emoce v jazyce
• intenzifikátory
[Ještě si pamatuju, že to kafe bylo strašně dobrý.] +
35. Emoce v jazyce
• důležitost negace
- obrací větnou polaritu
[Jídlo nebylo dobré.] –
36. Emoce v jazyce
• důležitost spojky ale ‒ adverzativní koordinace
[Pláž byla hrozná]- , ale [v hotelu se nám líbilo.]+
37. Emoce v jazyce
• přípustkové spojky
přestože, ačkoliv, jakkoliv, byť, i když…
Přestože příjezd nesplnil všechna jeho očekávání,
leccos ho potěšilo.
38. Emoce v jazyce
• hodnocení je často závislé na doméně:
• chytrý telefon x chytrý zásah litvínovského útočníka
• tichý vysavač x tichý detektor kouře
• „Go read the book!“
40. Jakou to má úspěšnost?
• nejlepší dosažená přesnost: 89% (trénovací data z
Mall.cz)
41. Jaké to má aplikace?
Customer churn analysis:
„Blahopřeju vám k anti-péči o zákazníka. Jsem u vás od
roku 2002 a jediné co mi umíte nabídnout jsou běžné −
a stále dost nevýhodné − tarify. Člověk si aspoň
uvědomí, jak moc potřebujeme Evropskou unii (jejíž
instituce jako jediná z relevantních subjektů tlačí ceny
dolů). Po špatných zkušenostech hodlám přejít ke
konkurenci.“
42. Jaké to má aplikace?
Customer loyalty analysis
„Produkt této společnosti používám na několika PC už
několik let a zatím jsem neobjevil žádné vady.
Vzhledem k mé naprosté spokojenosti ani do budoucna
nehodlám nic měnit.“
43. Jaké to má aplikace?
Customer risk analysis
• detekce lži:
kratší věty, krátká slova, více výrazů vyjadřujících
pozitivní emoce… (+ další dimenze)
• detekce spamu, detekce falešných profilů,
výhružných e-mailů aj.
44. Jaké to má aplikace?
Customer feedback analysis
„Koupit si tento fotoaparát a spoléhat na jméno firmy se
mi vůbec nevyplatilo. Např. proti mému stařičkému
fotoaparátu je toto naprostý propadák. Průměrný telefon
s fotoaparátem udělá stejné, ne-li lepší fotografie. Ani
komunikace s centrem podpory nestojí za nic. Výrobek
mě zklamal a víckrát už si žádný produkt této firmy
bezpochyby nekoupím.“
cílený marketing
45. Jaké to má aplikace?
personalizovaný marketing, individuální interakce