1. Word Sense Disambiguation
Αποσαφήνιση της έννοιας της λέξης
Ιόνιο Πανεπιστήµιο. Μεταπτυχιακό Πληροφορικής
Προχωρηµένα Θέµατα Γλωσσικής Τεχνολογίας
Μουστάκα Ελένη
Γενάρης 2012
2. Στόχος της σηµερινής διάλεξης είναι:
να ασχοληθούµε µε την εξήγηση της αµφισηµίας των
λέξεων
Να δούµε κάποιες προσεγγίσεις που θα βοηθήσουν
στην άρση της
3. Τι είναι η αµφισηµία;
Υπάρχουν λέξεις που έχουν διαφορετικές έννοιες
παρόλο που γράφονται και προφέρονται µε τον ίδιο
ακριβώς τρόπο παραδείγµατος χάρη :
Καλόγερος: είδος φορητής κρεµάστρας, αυτός
που απαρνείται τα εγκόσµια, είδος πυώδους
φλεγµονής, είδος εντόµου (πασχαλίτσα)
Μήτρα: στο γυναικείο σώµα, το πρότυπο/καλούπι
Κόλλα: µια κόλλα χαρτί, η κόλλα που κολλάµε
Γραφείο: το έπιπλο, ο χώρος
Κερκίδα: το κάθισµα σε γήπεδο, το οστό, η σαΐτα
του αργαλειού
4. Προφανώς η σηµασία, για πολλές από αυτές τις
λέξεις, γίνεται ξεκάθαρη αν τις συναντήσουµε
µέσα σε ένα σώµα κειµένου:
Κρέµασα το παλτό µου στον καλόγερο
Ξεκίνησαν οι συσπάσεις της µήτρας
Θα ζωγραφίσω σε µία λευκή κόλλα
Το γραφείο του βρίσκεται στο δεύτερο όροφο
Έσπασε την κερκίδα του, στο µάθηµα
6. Στοχαστική προσέγγιση-µοντέλο
µονόγραµµου
Μετράµε το πόσες φορές εµφανίζεται µία λέξη (µε
την κάθε δυνατή έννοια) µέσα σε ένα κείµενο:
Ρόκα (χορταρικό) 80 φορές. πχ:
Ρόκα (εργαλείο πλεξίµατος) 25 φορές
Ή
Φακός (που φωτίζει) 63 φορές
Φακός (επαφής) 42 φορές
7. Στοχαστική προσέγγιση – µοντέλο
µονόγραµµου
Χρησιµοποιώντας τα Unigrams θα επιλέγαµε πάντα
i s
τη λέξη που εµφανίζεται τις περισσότερες φορές
(ρόκα-χορταρικό, φακός-που φωτίζει).
Για να βρούµε όµως τη σωστή σηµασία της λέξης θα
πρέπει να λάβουµε υπόψη και τα συµφραζόµενα
Αν si είναι η έννοια (sense) της λέξης i
Bigrams: P(sn| sn-1) πχ: η Μαρία έφαγε ρόκα
Trigrams: P(sn| sn-1, sn-2) πχ: φόρεσε το φακό
8. Στοχαστική προσέγγιση
Υπάρχουν όµως πολλές διαφορετικές σηµασιολογικές
έννοιες και
Ο αριθµός των φορών που εµφανίζεται κάποια λέξη
µπορεί να είναι πολύ µικρός άρα:
Θα πρέπει να επιλέξουµε µεγαλύτερο εύρος παραθύρου
συµφραζοµένων για να εντοπίσουµε την σωστή εξήγηση
της λέξης που µας ενδιαφέρει. Γιατί θα µπορούσε να
είναι:
Αναγκάστηκε να βγάλει το φακό γιατί την πονούσε
πολύ το µάτι της.
- Βλέπουµε πως η λέξη που µας ενδιαφέρει (µάτι)
βρίσκεται 6 λέξεις µακριά από τη λέξη (φακός) που
θέλουµε να αποσαφηνίσουµε
9. Στοχαστική προσέγγιση
Αν ονοµάσουµε:
s = sense (η έννοια της λέξης)
w = word (η λέξη)
c = context (το παράθυρο των λέξεων)
Θεωρούµε ένα παράθυρο λέξεων, όπου η λέξη που
µας ενδιαφέρει να αποσαφηνίσουµε βρίσκεται στη
µέση:
c = w1,…,w5,…,w9
Θέλουµε να βρούµε την έννοια (s) της λέξης (w5)
δηλαδή: (w5/s) που µεγιστοποιεί την πιθανότητα
P((w5/s)|w1…w9)
10. Αλγόριθµος Naïve Bayes
Ο αλγόριθµος του Bayes ανήκει στην κατηγορία των αλγορίθµων
επιβλεπόµενης µάθησης (supervised learning).
Μία πρακτική δυσκολία που αντιµετωπίζεται στη µάθηση κατά Bayes
είναι το γεγονός ότι απαιτείται η γνώση πολλών τιµών πιθανοτήτων.
Όταν αυτές οι τιµές δεν είναι δυνατό να υπολογιστούν επακριβώς,
υπολογίζονται κατ‘ εκτίµηση από παλαιότερες υποθέσεις, εµπειρική
γνώση, κτλ.
Η παραπάνω δυσκολία εφαρµογής έχει δώσει µεγάλη πρακτική αξία
σε µια απλουστευµένη εκδοχή της µάθησης κατά Bayes, τον απλό
ταξινοµητή Bayes, στον οποίο γίνεται η παραδοχή ότι τα
χαρακτηριστικά είναι ανεξάρτητα µεταξύ τους.
11. Αλγόριθµος Naïve Bayes
Bayes Rule: P(s/w5 | c) = P(s/w5)* P(c | s/w5) / P(c) [1]
P(s/w5|c) :πιθανότητα έννοιας της λέξης δεδοµένων των συµφραζοµένων
(posterior),
P(s/w5) : πιθανότητα έννοιας της λέξης ανεξάρτητων των συµφραζοµένων (prior),
δηλαδή η εκ των προτέρων πιθανότητα πχ η λέξη καλόγερος να έχει την έννοια
έπιπλο.
P(c | s/w5) / P(c) : παράγοντας ενσωµάτωσης πληροφορίας συµφραζοµένων
P(c) :Τον όρο P(c) [2] (το κείµενο που εξετάζουµε) επειδή είναι σταθερός για
όλες τις µεταφράσεις και δεν επηρεάζει το αποτέλεσµα, µπορούµε και να τον
παραλείψουµε (για να απλοποιήσουµε τις διαδικασίες αποσαφήνισης)
P(c | s/w5 ) :∆εδοµένου ότι πχ η λέξη καλόγερος είναι έπιπλο όταν
βρίσκεται µέσα στο συγκεκριµένο κείµενο
Έχουµε την παραδοχή της ανεξαρτησίας που µας λέει ότι : η παρουσία µίας
λέξης στα συµφραζόµενα είναι ανεξάρτητη των άλλων λέξεων:
P(c | s/w5 ) Πi=1..9 * P(c | s/w5) [3]
12. Αλγόριθµος Naïve Bayes
Αντικαθιστώντας στον [1] τους [2] και [3]
θα πάρουµε τον τελικό τύπο του Bayes:
P(s/w5 | c) = P(s/w5)* Πi=1..9 * P(c | s/w5)
Όπου : c = w1,…,w5,…,w9
13. Αλγόριθµος Naïve Bayes
Ένα παράδειγµα για να κατανοήσουµε τον αλγόριθµο:
Το παράθυρο συµφραζοµένων που θα εξετάσουµε:
«Καθόταν στην κουνιστή πολυθρόνα µε τη ρόκα της και έγνεφε όλη
τη µέρα »
Η αµφίσηµη λέξη είναι προφανώς η λέξη «ρόκα» και βρίσκεται στο
κέντρο του παραθύρου
Οι λέξεις που συµµετέχουν στον αλγόριθµο είναι αυτές µε τα έντονα
γράµµατα, οι υπόλοιπες (εκτός της λέξης ρόκα που εξετάζουµε)
λέγονται λειτουργικές λέξεις (στην, µε, τη, της, και, τη) και δεν έχουν
σηµασιολογικό ενδιαφέρον.
Γενικά οι λέξεις που έχουν σηµασιολογικό ενδιαφέρον είναι τα
ρήµατα, επίθετα, ουσιαστικά και επιρρήµατα
14. Αλγόριθµος Naïve Bayes
Πιθανότητα ανεξάρτητη των συµφραζοµένων:
P(ρόκα/χορταρικό) = 0.6
P(ρόκα/εργαλείο) = 0.3
Έχουµε βρει την λέξη ρόκα σε ένα σώµα κειµένου 100 φορές, από αυτές, 60 φορές είχε την έννοια
χορταρικό και 30 την έννοια εργαλείο [τις 10 φορές που αποµένουν (για να έχουµε άθροισµα
πιθανοτήτων 1) θεωρούµε ότι πιθανόν να υπάρχει και κάποια άλλη σηµασία της λέξης που µας
διαφεύγει, δηλαδή στο κείµενό µας δεν είχαν ούτε την έννοια χορταρικό ούτε την έννοια εργαλείο]
Πιθανότητα εξαρτηµένη των συµφραζοµένων:
P7 (έγνεφε|ρόκα/χορταρικό) = 0.001
∆εδοµένου ότι η ρόκα είναι χορταρικό, ποια η πιθανότητα να εµφανίζεται στο σώµα κειµένου η
λέξη έγνεφε.
P7 (έγνεφε| ρόκα/εργαλείο) = 0.05
Για να υπολογιστεί κάθε µία από αυτές τις πιθανότητες, για κάθε λέξη του παραθύρου
συµφραζοµένων: ψάχνω µέσα στο παράθυρο συµφραζοµένων της λέξης ρόκα µε την έννοια
χορταρικό, και βρίσκω πόσες φορές εµφανίζεται η λέξη «έγνεφε», διά πόσες φορές εµφανίζεται η
έννοια της λέξης ρόκα σαν χορταρικό σε όλο το κείµενο.
15. Αλγόριθµος Naïve Bayes
«Καθόταν στην κουνιστή πολυθρόνα µε τη ρόκα της και
έγνεφε όλη τη µέρα »
P(s/w4 | c) = P(s/w4)* Πi=1..7 * P(c | s/w4)
Θα βρούµε την πιθανότητα για κάθε µία από τις έννοιες της
λέξης: Ρ1=χορταρικό και Ρ2= εργαλείο
Ρ1 = Ρ(ρόκα/χορταρικό)*Ρ(καθόταν|ρόκα/χορταρικό) *…*
*Ρ(έγνεφε|ρόκα/χορταρικό)*…* Ρ(µέρα|ρόκα/χορταρικό)
Γνωρίζουµε ήδη τις πιθανότητες Ρ(ρόκα/χορταρικό) και
Ρ(έγνεφε|ρόκα/χορταρικό) µας µένει να υπολογίσουµε τις
υπόλοιπες, οι οποίες είναι ανεξάρτητες συµφραζοµένων. Στο
συγκεκριµένο παράδειγµα θα είναι τυχαίες αυτές οι
πιθανότητες
16. Αλγόριθµος Naïve Bayes
Αντικαθιστούµε τις πιθανότητες στη σχέση µας και
θα έχουµε:
Ρ1 = 0,6 * 0,004 * 0,008 * 0,003 * 0,001* 0,006 *
0,009 * 0,002 = 6,2208-18
Κάνοντας ακριβώς τα ίδια βήµατα και για τη δεύτερη
πιθανότητα θα έχουµε
Ρ2 = 0,3 * 0,004 * 0,008 * 0,003 * 0,05* 0,006 *
0,009 * 0,002 = 1,5552-16
Βλέπουµε ότι Ρ1<Ρ2 άρα η ρόκα στην πρότασή µας,
σύµφωνα µε τον Bayes, είναι εργαλείο
17. Επιβλεπόµενη µάθηση
Στην επιβλεπόµενη µάθηση η γενική ιδέα είναι ότι σε
ένα σώµα κειµένου η σωστή έννοια της λέξης έχει
επισηµειωθεί χειρωνακτικά.
Στη συνέχεια εξάγουµε χαρακτηριστικά από το
κείµενο που θα µας βοηθήσουν στο να επιλέξουµε
τη σωστή έννοια της λέξης
Τέλος εκπαιδεύουµε έναν αλγόριθµο µηχανικής
µάθησης στο να δώσει την σωστή απόδοση της
λέξης σε νέα όµως παραδείγµατα, βασιζόµενος στα
δοθέντα χαρακτηριστικά.
18. Λίστες απόφασης
Μια δεύτερη µορφή επιβλεπόµενης µάθησης είναι οι
λίστες απόφασης.
Είναι ένας άλλος τρόπος αποσαφήνισης της έννοιας
των λέξεων
Πάλι δουλεύουµε µε ένα παράθυρο συµφραζοµένων
Ο πρώτος έλεγχος που θα επιτευχθεί, µας
καθορίζει και την έννοια της λέξης που ψάχνουµε
Αν δεν επιτευχθεί έλεγχος, τότε επιλέγεται η πιο
συχνή έννοια της λέξης.
19. Λίστες απόφασης
∆ηµιουργείται µία λίστα, ένα σετ κανόνων, όπου
κάθε στοιχείο είναι ενδεικτικό µιας συγκεκριµένης
έννοιας της λέξης που θέλουµε να αποσαφηνίσουµε
Αυτό σηµαίνει ότι η λίστα µας θα έχει στοιχεία για
όλες τις έννοιες της λέξης.
Κάποιος ειδήµων θα έχει δηµιουργήσει αυτούς τους
κανόνες (ο ειδικός πενολόγος που είχαµε πει)
Στη συνέχεια υπολογίζουµε τις πιθανότητες για κάθε
έναν από τους κανόνες αυτούς
20. Λίστες απόφασης
Παράδειγµα:
Αποσαφήνιση της λέξης : πένα (γραφής, χορδών)
κανόνες
1. «πένα κιθάρας» χορδών
2. «χαρτί» µέσα στο παράθυρο γραφής
3. «παρτιτούρες» µέσα στο παράθυρο χορδών
4. «συγκρότηµα» µέσα στο παράθυρο χορδών
5. «γραφείο» µέσα στο παράθυρο γραφής
21. Λίστες απόφασης
Καθόρισε τις πιθανότητες για όλες τις έννοιες
λέξεων δεδοµένων όλων των ελέγχων.
P(w/s | test)
Πχ «πένα κιθάρας» χορδών : πόσες φορές η λέξη πένα
µε την έννοια της χορδής, ακολουθείται από την λέξη κιθάρα διά τις
φορές που εµφανίζεται η λέξη πένα µε την έννοια χορδή γενικά
Τα αποτελέσµατα ταξινοµούνται σε φθίνουσα σειρά ανάλογα µε την
πιθανότητά τους.
22. Αξιολόγηση συστηµάτων WSD
Τα αποτελέσµατα της αξιολόγησης εξαρτώνται από
τη λίστα των διαφορετικών εννοιών
Γενικά είναι δύσκολο να συγκρίνουµε δύο
συστήµατα που βασίζονται σε λίστες µε διαφορετικό
βαθµό πολυπλοκότητας
Αν µία λέξη έχει δύο ισοπίθανες έννοιες, και αποσαφηνιστεί
σωστά µε πιθανότητα 90%, τότε είναι απόλυτα επιτυχής
Αν όµως, µία λεξη έχει δύο έννοιες µε πιθανότητες 90% για
τη µία και 10% για την άλλη , τότε αν αποσαφηνιστεί σωστά
µε πιθανότητα 90% είναι ασήµαντο επίτευγµα.