Rozvoj Webu 2.0 přinesl množství textů generovaných samotnými uživateli Internetu. Jejich příspěvky nezřídka obsahují subjektivní názory, emoce, hodnocení… K čemu a jak můžeme tato data použít? Je možné emoce v textu spolehlivě automaticky třídit? Příspěvek z oblasti postojové analýzy představí metody a úspěchy automatické extrakce emocí z textu s důrazem na využití detailní lingvistické analýzy – a možná vyřeší i otázku, jak vybrat ten správný vejcovar.
1. Kateřina Veselovská
Ústav formální a aplikované lingvistiky MFF UK
veselovska@ufal.mff.cuni.cz
Sobotecký BarCamp
29. června 2013
Jazyk emocí – emoce v jazyce
2. Informace v textu
• objektivní fakta
• subjektivní názory
• pocity
• domněnky
• pozitivní či negativní
hodnocení atd.
3. Informace v textu
• objektivní fakta
• subjektivní názory
• pocity
• domněnky
• pozitivní či negativní
hodnocení atd.
4. Informace v textu
• rozvoj Webu 2.0 → obsah generovaný uživateli
→ potřeba automatického
třídění informací
5. K čemu je to dobré?
Postojová analýza (sentiment analysis)
• automatická extrakce názorů a postojů
z textu a řeči
= co si vlastně lidé myslí
8. K čemu je to dobré?
• hodnocení produktů
• průzkum veřejného mínění
• monitoring sociálních sítí
• intenční analýza
• predikace trendů v marketingu, výsledků voleb
atp.
9. K čemu je to dobré?
• potenciální zákazník – názory a komentáře jiných
• uživatel – sdílení zkušeností
• obchodník – zpětná vazba
10. Jak se to dělá?
• statistické metody – hlasování s prostou
většinou
11. Jak se to dělá?
• statistické metody – hlasování s prostou
většinou
Nerezový vejcovar Steba má vyměnitelné pláty
pro volská oka.
12. Jak se to dělá?
• statistické metody – hlasování s prostou
většinou
Nerezový vejcovar Steba má vyměnitelné pláty
pro volská oka.
[Krásný nerezový vejcovar Steba je i u netrpělivých
zákazníků velmi oblíben.]+
13. Jak se to dělá?
• statistické metody – hlasování s prostou
většinou
Nerezový vejcovar Steba má vyměnitelné pláty
pro volská oka.
[Krásný nerezový vejcovar Steba je i u netrpělivých
zákazníků velmi oblíben.]+
15. SubLex1.0 (Veselovská & Bojar 2012)
• překlad části MPQA korpusu (Wiebe et al. 2004)
přes paralelní korpus CzEng (Bojar & Žabokrtský 2006)
• 1954 substantiv
• 1698 sloves
• 819 adjektiv
• 465 adverbií
=> 4936 hodnotících slov
16. Jak se to dělá?
Strojové učení:
• supervised learning
- support vector machines
- maximální entropie
- slovníkové klasifikátory
- Naivní Bayesův klasifikátor
17. Naivní Bayesův klasifikátor
• základní algoritmus
• filtrování
- podle slovních druhů
- na základě frekvence
- zohlednění jazyka emocí
emocí v jazyce
18. Splav
Trápím se, trápím, myslím si,
kde bych tě nejraděj potkal.
Ulice střídám, parky a nábřeží,
bojím se krásných lží.
Bojím se lesa. V poledním lese
kdo miluje, srdce své neunese.
Na můj práh kdyby jsi vstoupila,
snad bys mne tím zabila.
Chtěl bych tě potkati v lukách.
...
28. Jazyk emocí
Zdroj: http://www.zpovednice.cz – diskuse k básni Splav
„Jeho styl mi nic neříká, neoslovuje mě. Poezii (já) miluju, ale
Šrámek ani náhodou. Ve škole na něj češtinářka pěla ódy, tak mě to
zajímalo, jestli je (on) fakt tak dobrej, chtěla jsem přečíst i něco
jinýho než Splav, ale neshledala jsem (já) v jeho díle nic
obdivuhodného, takže (já) fakt nechápu tu všeobecnou glorifikaci.“
→ zdroj
29. Jazyk emocí
Zdroj: http://www.zpovednice.cz – diskuse k básni Splav
„Jeho styl mi nic neříká, neoslovuje mě. Poezii (já) miluju, ale
Šrámek ani náhodou. Ve škole na něj češtinářka pěla ódy, tak mě to
zajímalo, jestli je (on) fakt tak dobrej, chtěla jsem přečíst i něco
jinýho než Splav, ale neshledala jsem (já) v jeho díle nic
obdivuhodného, takže (já) fakt nechápu tu všeobecnou glorifikaci.“
→ zdroj
→ cíl
30. Jazyk emocí
Zdroj: http://www.zpovednice.cz – diskuse k básni Splav
„Jeho styl mi nic neříká, neoslovuje mě. Poezii (já) miluju, ale
Šrámek ani náhodou. Ve škole na něj češtinářka pěla ódy, tak mě to
zajímalo, jestli je (on) fakt tak dobrej, chtěla jsem přečíst i něco
jinýho než Splav, ale neshledala jsem (já) v jeho díle nic
obdivuhodného, takže (já) fakt nechápu tu všeobecnou glorifikaci.“
→ zdroj
→ cíl
→ hodnocení
31. Emoce v jazyce
• The language of morals (Hare)
• Appraisal theory (Martin & White)
• The stance triangle (DuBois)
• Units of meaning (Sinclair)
• Flavours of corpus (Hunston)
32. Emoce v jazyce
• plnovýznamové slovní druhy s výjimkou zájmen
a číslovek
• evaluativní částice
• citoslovce
33. Emoce v jazyce
• důležitost desambiguace
Dobře, já to udělám.
Zachoval se dobře.
34. Emoce v jazyce
• důležitost slovesa
zdroj – hodnocení – cíl
agens – predikát – patiens
35. Emoce v jazyce
• slovesa osobního mínění
myslet, domnívat se, předpokládat, pohlížet
na…
36. Emoce v jazyce
• explicitní hodnocení – vyjádření citového stavu
nesouhlasit s, nesnášet, chválit, zbožňovat…
37. Emoce v jazyce
• explicitní hodnocení – vyjádření citového stavu
nesouhlasit s, nesnášet, chválit, zbožňovat…
[Toho hrdopýška všichni nesnášejí.] –
[Toho hrdopýška všichni chválí.] +
38. Emoce v jazyce
• explicitní hodnocení – vyjádření citového stavu
nesouhlasit s, nesnášet, chválit, zbožňovat…
[Toho hrdopýška všichni nesnášejí.] –
[Toho hrdopýška všichni chválí.] +
39. Emoce v jazyce
• explicitní hodnocení – vyjádření citového stavu
nesouhlasit s, nesnášet, chválit, zbožňovat…
[Toho hrdopýška všichni nesnášejí.] –
[Toho hrdopýška všichni chválí.] +
→ hodnotící sloveso má větší indikační sílu
než hodnotící substantivum
40. Emoce v jazyce
• důležitost částic
[Bohudík toho hrdopýška všichni nesnášejí.] +
[Bohužel toho hrdopýška všichni chválí.] -
41. Emoce v jazyce
• důležitost částic
[Bohudík toho hrdopýška všichni nesnášejí.] +
[Bohužel toho hrdopýška všichni chválí.] -
→ emocionální částice má větší indikační sílu
než evaluativní sloveso
- chválabohu, naštěstí, zaplať pánbůh…
43. Emoce v jazyce
• důležitost adjektiv
[Bylo příjemné nedorozumění.] +
→ hodnotící adjektivum má větší indikační sílu
než hodnotící substantivum
44. Emoce v jazyce
• ironie
Byl to hrdinný chlípník.
Byl to chlípný hrdina.
45. Emoce v jazyce
• intenzifikátory
[Ještě si pamatuju, že to kafe bylo strašně dobrý.] +
46. Emoce v jazyce
• důležitost negace
- obrací větnou polaritu
[Jídlo nebylo dobré.] –
Pravidlo: vše napravo od negace má opačnou
polaritu.
pozor! členská negace (Veselovská 2011)
47. Emoce v jazyce
• důležitost spojky „ale“ - adverzativní koordinace
[Pláž byla hrozná]- , ale [v hotelu se nám líbilo.]+
Pravidlo: posuzujeme jako samostatné věty
pozor! gradační vztah
48. Emoce v jazyce
• přípustkové spojky
přestože, ačkoliv, jakkoliv, byť, i když…
Přestože příjezd nesplnil všechna jeho očekávání,
leccos ho potěšilo.
49. Emoce v jazyce
• hodnotící idiomy
za málo peněz hodně muziky
mít se jako prase v žitě
cítit se jako nahý v trní
stát za houby
být příjemný jako osina v zadku
jít jako po másle
být šťastný jako blecha
tvářil se, jako by mu uletěly včely
má to své mouchy
lepší než drátem do oka
…
50. Jakou to má úspěšnost?
Model Acc Recall Precision F-score
Baseline 0.630 0.307 0.233 0.286
Sl. k. train 0.960 0.960 0.961 0.960
Sl. k. test 0.889 0.889 0.894 0.890
Bayes train 0.864 0.803 0.879 0.833
Bayes test 0.827 0.745 0.847 0.781
Veselovská et al., 2012
51. Jaké to má aplikace?
http://twittersentiment.appspot.com/
52. Jaké to má aplikace?
http://socialmention.com/
53. Jaké to má aplikace?
Zdroj: http://www.yeseter.com
54. Jaké to má aplikace?
Zdroj: http://www.semantic-visions.com/
57. Jaká to má úskalí?
• hodnocení je často závislé na doméně:
• chytrý telefon x chytrý zásah litvínovského útočníka
• tichý vysavač x tichý detektor kouře
• „Go read the book!“