SlideShare una empresa de Scribd logo
1 de 22
Descargar para leer sin conexión
Word Sense Disambiguation
  Αποσαφήνιση της έννοιας της λέξης


          Ιόνιο Πανεπιστήµιο. Μεταπτυχιακό Πληροφορικής
             Προχωρηµένα Θέµατα Γλωσσικής Τεχνολογίας
                                        Μουστάκα Ελένη
                                           Γενάρης 2012
Στόχος της σηµερινής διάλεξης είναι:

   να ασχοληθούµε µε την εξήγηση της αµφισηµίας των
  λέξεων
  Να δούµε κάποιες προσεγγίσεις που θα βοηθήσουν
  στην άρση της
Τι είναι η αµφισηµία;
Υπάρχουν λέξεις που έχουν διαφορετικές έννοιες
παρόλο που γράφονται και προφέρονται µε τον ίδιο
ακριβώς τρόπο παραδείγµατος χάρη :
  Καλόγερος: είδος φορητής κρεµάστρας, αυτός
  που απαρνείται τα εγκόσµια, είδος πυώδους
  φλεγµονής, είδος εντόµου (πασχαλίτσα)
  Μήτρα: στο γυναικείο σώµα, το πρότυπο/καλούπι
  Κόλλα: µια κόλλα χαρτί, η κόλλα που κολλάµε
  Γραφείο: το έπιπλο, ο χώρος
  Κερκίδα: το κάθισµα σε γήπεδο, το οστό, η σαΐτα
  του αργαλειού
Προφανώς η σηµασία, για πολλές από αυτές τις
λέξεις, γίνεται ξεκάθαρη αν τις συναντήσουµε
µέσα σε ένα σώµα κειµένου:

 Κρέµασα το παλτό µου στον καλόγερο
 Ξεκίνησαν οι συσπάσεις της µήτρας
 Θα ζωγραφίσω σε µία λευκή κόλλα
 Το γραφείο του βρίσκεται στο δεύτερο όροφο
 Έσπασε την κερκίδα του, στο µάθηµα
Προσεγγίσεις

Στοχαστική προσέγγιση
 Το µοντέλο µονόγραµµου και n-gram
 Επιβλεπόµενη µάθηση
   Αλγόριθµος Naïve Bayes
   Λίστες αποφάσεων
Στοχαστική προσέγγιση-µοντέλο
            µονόγραµµου
Μετράµε το πόσες φορές εµφανίζεται µία λέξη (µε
την κάθε δυνατή έννοια) µέσα σε ένα κείµενο:
  Ρόκα (χορταρικό) 80 φορές. πχ:
  Ρόκα (εργαλείο πλεξίµατος) 25 φορές
Ή
  Φακός (που φωτίζει) 63 φορές
  Φακός (επαφής) 42 φορές
Στοχαστική προσέγγιση – µοντέλο
            µονόγραµµου
Χρησιµοποιώντας τα Unigrams θα επιλέγαµε πάντα
                      i   s


τη λέξη που εµφανίζεται τις περισσότερες φορές
(ρόκα-χορταρικό, φακός-που φωτίζει).
Για να βρούµε όµως τη σωστή σηµασία της λέξης θα
πρέπει να λάβουµε υπόψη και τα συµφραζόµενα
Αν si είναι η έννοια (sense) της λέξης i
  Bigrams: P(sn| sn-1) πχ: η Μαρία έφαγε ρόκα
  Trigrams: P(sn| sn-1, sn-2) πχ: φόρεσε το φακό
Στοχαστική προσέγγιση
Υπάρχουν όµως πολλές διαφορετικές σηµασιολογικές
έννοιες και
Ο αριθµός των φορών που εµφανίζεται κάποια λέξη
µπορεί να είναι πολύ µικρός άρα:
 Θα πρέπει να επιλέξουµε µεγαλύτερο εύρος παραθύρου
 συµφραζοµένων για να εντοπίσουµε την σωστή εξήγηση
 της λέξης που µας ενδιαφέρει. Γιατί θα µπορούσε να
 είναι:
    Αναγκάστηκε να βγάλει το φακό γιατί την πονούσε
    πολύ το µάτι της.
 - Βλέπουµε πως η λέξη που µας ενδιαφέρει (µάτι)
    βρίσκεται 6 λέξεις µακριά από τη λέξη (φακός) που
    θέλουµε να αποσαφηνίσουµε
Στοχαστική προσέγγιση

Αν ονοµάσουµε:
 s = sense (η έννοια της λέξης)
 w = word (η λέξη)
 c = context (το παράθυρο των λέξεων)
Θεωρούµε ένα παράθυρο λέξεων, όπου η λέξη που
µας ενδιαφέρει να αποσαφηνίσουµε βρίσκεται στη
µέση:
 c = w1,…,w5,…,w9
 Θέλουµε να βρούµε την έννοια (s) της λέξης (w5)
 δηλαδή: (w5/s) που µεγιστοποιεί την πιθανότητα
 P((w5/s)|w1…w9)
Αλγόριθµος Naïve Bayes
Ο αλγόριθµος του Bayes ανήκει στην κατηγορία των αλγορίθµων
επιβλεπόµενης µάθησης (supervised learning).
Μία πρακτική δυσκολία που αντιµετωπίζεται στη µάθηση κατά Bayes
είναι το γεγονός ότι απαιτείται η γνώση πολλών τιµών πιθανοτήτων.
Όταν αυτές οι τιµές δεν είναι δυνατό να υπολογιστούν επακριβώς,
υπολογίζονται κατ‘ εκτίµηση από παλαιότερες υποθέσεις, εµπειρική
γνώση, κτλ.
Η παραπάνω δυσκολία εφαρµογής έχει δώσει µεγάλη πρακτική αξία
σε µια απλουστευµένη εκδοχή της µάθησης κατά Bayes, τον απλό
ταξινοµητή Bayes, στον οποίο γίνεται η παραδοχή ότι τα
χαρακτηριστικά είναι ανεξάρτητα µεταξύ τους.
Αλγόριθµος Naïve Bayes
  Bayes Rule: P(s/w5 | c) = P(s/w5)* P(c | s/w5) / P(c) [1]
P(s/w5|c) :πιθανότητα έννοιας της λέξης δεδοµένων των συµφραζοµένων
  (posterior),
P(s/w5) : πιθανότητα έννοιας της λέξης ανεξάρτητων των συµφραζοµένων (prior),
  δηλαδή η εκ των προτέρων πιθανότητα πχ η λέξη καλόγερος να έχει την έννοια
  έπιπλο.
P(c | s/w5) / P(c) : παράγοντας ενσωµάτωσης πληροφορίας συµφραζοµένων
      P(c) :Τον όρο P(c) [2] (το κείµενο που εξετάζουµε) επειδή είναι σταθερός για
      όλες τις µεταφράσεις και δεν επηρεάζει το αποτέλεσµα, µπορούµε και να τον
      παραλείψουµε (για να απλοποιήσουµε τις διαδικασίες αποσαφήνισης)
      P(c | s/w5 ) :∆εδοµένου ότι πχ η λέξη καλόγερος είναι έπιπλο όταν
     βρίσκεται µέσα στο συγκεκριµένο κείµενο
   Έχουµε την παραδοχή της ανεξαρτησίας που µας λέει ότι : η παρουσία µίας
     λέξης στα συµφραζόµενα είναι ανεξάρτητη των άλλων λέξεων:
         P(c | s/w5 )       Πi=1..9 * P(c | s/w5) [3]
Αλγόριθµος Naïve Bayes

Αντικαθιστώντας στον [1] τους [2] και [3]
θα πάρουµε τον τελικό τύπο του Bayes:

 P(s/w5 | c) = P(s/w5)* Πi=1..9 * P(c | s/w5)

   Όπου : c = w1,…,w5,…,w9
Αλγόριθµος Naïve Bayes

  Ένα παράδειγµα για να κατανοήσουµε τον αλγόριθµο:
  Το παράθυρο συµφραζοµένων που θα εξετάσουµε:

«Καθόταν στην κουνιστή πολυθρόνα µε τη ρόκα της και έγνεφε όλη
                                τη µέρα »
  Η αµφίσηµη λέξη είναι προφανώς η λέξη «ρόκα» και βρίσκεται στο
  κέντρο του παραθύρου
  Οι λέξεις που συµµετέχουν στον αλγόριθµο είναι αυτές µε τα έντονα
  γράµµατα, οι υπόλοιπες (εκτός της λέξης ρόκα που εξετάζουµε)
  λέγονται λειτουργικές λέξεις (στην, µε, τη, της, και, τη) και δεν έχουν
  σηµασιολογικό ενδιαφέρον.
     Γενικά οι λέξεις που έχουν σηµασιολογικό ενδιαφέρον είναι τα
     ρήµατα, επίθετα, ουσιαστικά και επιρρήµατα
Αλγόριθµος Naïve Bayes
Πιθανότητα ανεξάρτητη των συµφραζοµένων:
   P(ρόκα/χορταρικό) = 0.6
   P(ρόκα/εργαλείο) = 0.3
Έχουµε βρει την λέξη ρόκα σε ένα σώµα κειµένου 100 φορές, από αυτές, 60 φορές είχε την έννοια
χορταρικό και 30 την έννοια εργαλείο [τις 10 φορές που αποµένουν (για να έχουµε άθροισµα
πιθανοτήτων 1) θεωρούµε ότι πιθανόν να υπάρχει και κάποια άλλη σηµασία της λέξης που µας
διαφεύγει, δηλαδή στο κείµενό µας δεν είχαν ούτε την έννοια χορταρικό ούτε την έννοια εργαλείο]
Πιθανότητα εξαρτηµένη των συµφραζοµένων:
   P7 (έγνεφε|ρόκα/χορταρικό) = 0.001
    ∆εδοµένου ότι η ρόκα είναι χορταρικό, ποια η πιθανότητα να εµφανίζεται στο σώµα κειµένου η
    λέξη έγνεφε.
    P7 (έγνεφε| ρόκα/εργαλείο) = 0.05
Για να υπολογιστεί κάθε µία από αυτές τις πιθανότητες, για κάθε λέξη του παραθύρου
συµφραζοµένων: ψάχνω µέσα στο παράθυρο συµφραζοµένων της λέξης ρόκα µε την έννοια
χορταρικό, και βρίσκω πόσες φορές εµφανίζεται η λέξη «έγνεφε», διά πόσες φορές εµφανίζεται η
έννοια της λέξης ρόκα σαν χορταρικό σε όλο το κείµενο.
Αλγόριθµος Naïve Bayes
  «Καθόταν στην κουνιστή πολυθρόνα µε τη ρόκα της και
                    έγνεφε όλη τη µέρα »
  P(s/w4 | c) = P(s/w4)* Πi=1..7 * P(c | s/w4)

Θα βρούµε την πιθανότητα για κάθε µία από τις έννοιες της
λέξης: Ρ1=χορταρικό και Ρ2= εργαλείο
Ρ1 = Ρ(ρόκα/χορταρικό)*Ρ(καθόταν|ρόκα/χορταρικό) *…*
*Ρ(έγνεφε|ρόκα/χορταρικό)*…* Ρ(µέρα|ρόκα/χορταρικό)

Γνωρίζουµε ήδη τις πιθανότητες Ρ(ρόκα/χορταρικό) και
Ρ(έγνεφε|ρόκα/χορταρικό) µας µένει να υπολογίσουµε τις
υπόλοιπες, οι οποίες είναι ανεξάρτητες συµφραζοµένων. Στο
συγκεκριµένο παράδειγµα θα είναι τυχαίες αυτές οι
πιθανότητες
Αλγόριθµος Naïve Bayes
Αντικαθιστούµε τις πιθανότητες στη σχέση µας και
θα έχουµε:
Ρ1 = 0,6 * 0,004 * 0,008 * 0,003 * 0,001* 0,006 *
0,009 * 0,002 = 6,2208-18
Κάνοντας ακριβώς τα ίδια βήµατα και για τη δεύτερη
πιθανότητα θα έχουµε
Ρ2 = 0,3 * 0,004 * 0,008 * 0,003 * 0,05* 0,006 *
0,009 * 0,002 = 1,5552-16
Βλέπουµε ότι Ρ1<Ρ2 άρα η ρόκα στην πρότασή µας,
σύµφωνα µε τον Bayes, είναι εργαλείο
Επιβλεπόµενη µάθηση

Στην επιβλεπόµενη µάθηση η γενική ιδέα είναι ότι σε
ένα σώµα κειµένου η σωστή έννοια της λέξης έχει
επισηµειωθεί χειρωνακτικά.
Στη συνέχεια εξάγουµε χαρακτηριστικά από το
κείµενο που θα µας βοηθήσουν στο να επιλέξουµε
τη σωστή έννοια της λέξης
Τέλος εκπαιδεύουµε έναν αλγόριθµο µηχανικής
µάθησης στο να δώσει την σωστή απόδοση της
λέξης σε νέα όµως παραδείγµατα, βασιζόµενος στα
δοθέντα χαρακτηριστικά.
Λίστες απόφασης

Μια δεύτερη µορφή επιβλεπόµενης µάθησης είναι οι
λίστες απόφασης.
Είναι ένας άλλος τρόπος αποσαφήνισης της έννοιας
των λέξεων
Πάλι δουλεύουµε µε ένα παράθυρο συµφραζοµένων
Ο πρώτος έλεγχος που θα επιτευχθεί, µας
καθορίζει και την έννοια της λέξης που ψάχνουµε
Αν δεν επιτευχθεί έλεγχος, τότε επιλέγεται η πιο
συχνή έννοια της λέξης.
Λίστες απόφασης

∆ηµιουργείται µία λίστα, ένα σετ κανόνων, όπου
κάθε στοιχείο είναι ενδεικτικό µιας συγκεκριµένης
έννοιας της λέξης που θέλουµε να αποσαφηνίσουµε
Αυτό σηµαίνει ότι η λίστα µας θα έχει στοιχεία για
όλες τις έννοιες της λέξης.
Κάποιος ειδήµων θα έχει δηµιουργήσει αυτούς τους
κανόνες (ο ειδικός πενολόγος που είχαµε πει)
Στη συνέχεια υπολογίζουµε τις πιθανότητες για κάθε
έναν από τους κανόνες αυτούς
Λίστες απόφασης

                       Παράδειγµα:
     Αποσαφήνιση της λέξης : πένα (γραφής, χορδών)
                       κανόνες
1.   «πένα κιθάρας»    χορδών
2.   «χαρτί» µέσα στο παράθυρο     γραφής
3.   «παρτιτούρες» µέσα στο παράθυρο     χορδών
4.   «συγκρότηµα» µέσα στο παράθυρο      χορδών
5.   «γραφείο» µέσα στο παράθυρο     γραφής
Λίστες απόφασης

Καθόρισε τις πιθανότητες για όλες τις έννοιες
λέξεων δεδοµένων όλων των ελέγχων.
P(w/s | test)
  Πχ «πένα κιθάρας»               χορδών : πόσες φορές η λέξη πένα
  µε την έννοια της χορδής, ακολουθείται από την λέξη κιθάρα διά τις
  φορές που εµφανίζεται η λέξη πένα µε την έννοια χορδή γενικά
Τα αποτελέσµατα ταξινοµούνται σε φθίνουσα σειρά ανάλογα µε την
πιθανότητά τους.
Αξιολόγηση συστηµάτων WSD

Τα αποτελέσµατα της αξιολόγησης εξαρτώνται από
τη λίστα των διαφορετικών εννοιών
Γενικά είναι δύσκολο να συγκρίνουµε δύο
συστήµατα που βασίζονται σε λίστες µε διαφορετικό
βαθµό πολυπλοκότητας
  Αν µία λέξη έχει δύο ισοπίθανες έννοιες, και αποσαφηνιστεί
  σωστά µε πιθανότητα 90%, τότε είναι απόλυτα επιτυχής
  Αν όµως, µία λεξη έχει δύο έννοιες µε πιθανότητες 90% για
  τη µία και 10% για την άλλη , τότε αν αποσαφηνιστεί σωστά
  µε πιθανότητα 90% είναι ασήµαντο επίτευγµα.

Más contenido relacionado

La actualidad más candente

ΟΝΟΜΑΤΙΚΕΣ ΠΡΟΤΑΣΕΙΣ
ΟΝΟΜΑΤΙΚΕΣ ΠΡΟΤΑΣΕΙΣΟΝΟΜΑΤΙΚΕΣ ΠΡΟΤΑΣΕΙΣ
ΟΝΟΜΑΤΙΚΕΣ ΠΡΟΤΑΣΕΙΣarischatzis
 
Αναφορικές προτάσεις
Αναφορικές προτάσειςΑναφορικές προτάσεις
Αναφορικές προτάσειςElectraBoli
 
ΘΕΩΡΙΑ ΕΚΘΕΣΗΣ Γ΄ ΛΥΚΕΙΟΥ
ΘΕΩΡΙΑ ΕΚΘΕΣΗΣ Γ΄ ΛΥΚΕΙΟΥΘΕΩΡΙΑ ΕΚΘΕΣΗΣ Γ΄ ΛΥΚΕΙΟΥ
ΘΕΩΡΙΑ ΕΚΘΕΣΗΣ Γ΄ ΛΥΚΕΙΟΥlabr0s
 
επιρρηματικοι προσδιορισμοι θεωρια
επιρρηματικοι προσδιορισμοι θεωριαεπιρρηματικοι προσδιορισμοι θεωρια
επιρρηματικοι προσδιορισμοι θεωριαEleni Kots
 
ΟΝΟΜΑΤΙΚΕΣ ΠΡΟΤΑΣΕΙΣ ΣΤΑ ΑΡΧΑΙΑ ΕΛΛΗΝΙΚΑ
ΟΝΟΜΑΤΙΚΕΣ ΠΡΟΤΑΣΕΙΣ ΣΤΑ ΑΡΧΑΙΑ ΕΛΛΗΝΙΚΑΟΝΟΜΑΤΙΚΕΣ ΠΡΟΤΑΣΕΙΣ ΣΤΑ ΑΡΧΑΙΑ ΕΛΛΗΝΙΚΑ
ΟΝΟΜΑΤΙΚΕΣ ΠΡΟΤΑΣΕΙΣ ΣΤΑ ΑΡΧΑΙΑ ΕΛΛΗΝΙΚΑAlexandra Gerakini
 
συνδετικες – διαρθρωτικες λεξεις και εκφρασεις για τη συνδεση προτασε...
συνδετικες  –  διαρθρωτικες  λεξεις  και  εκφρασεις  για  τη συνδεση  προτασε...συνδετικες  –  διαρθρωτικες  λεξεις  και  εκφρασεις  για  τη συνδεση  προτασε...
συνδετικες – διαρθρωτικες λεξεις και εκφρασεις για τη συνδεση προτασε...Eleni Kots
 
Η ΤΕΧΝΙΚΗ ΤΩΝ ΠΛΑΓΙΟΤΙΤΛΩΝ-Η ΔΙΔΑΣΚΑΛΙΑ ΚΑΙ Η ΑΞΙΟΛΟΓΗΣΗ ΤΗΣ ΠΕΡΙΛΗΨΗΣ
Η ΤΕΧΝΙΚΗ ΤΩΝ ΠΛΑΓΙΟΤΙΤΛΩΝ-Η ΔΙΔΑΣΚΑΛΙΑ ΚΑΙ Η ΑΞΙΟΛΟΓΗΣΗ ΤΗΣ ΠΕΡΙΛΗΨΗΣΗ ΤΕΧΝΙΚΗ ΤΩΝ ΠΛΑΓΙΟΤΙΤΛΩΝ-Η ΔΙΔΑΣΚΑΛΙΑ ΚΑΙ Η ΑΞΙΟΛΟΓΗΣΗ ΤΗΣ ΠΕΡΙΛΗΨΗΣ
Η ΤΕΧΝΙΚΗ ΤΩΝ ΠΛΑΓΙΟΤΙΤΛΩΝ-Η ΔΙΔΑΣΚΑΛΙΑ ΚΑΙ Η ΑΞΙΟΛΟΓΗΣΗ ΤΗΣ ΠΕΡΙΛΗΨΗΣGeorgios Dimakopoulos
 
ΠΛΗ20 ΚΑΡΤΕΣ ΜΑΘΗΜΑΤΟΣ 3.2
ΠΛΗ20 ΚΑΡΤΕΣ ΜΑΘΗΜΑΤΟΣ 3.2ΠΛΗ20 ΚΑΡΤΕΣ ΜΑΘΗΜΑΤΟΣ 3.2
ΠΛΗ20 ΚΑΡΤΕΣ ΜΑΘΗΜΑΤΟΣ 3.2Dimitris Psounis
 
έκθεση έκφραση γ' λυκείου
έκθεση έκφραση γ' λυκείουέκθεση έκφραση γ' λυκείου
έκθεση έκφραση γ' λυκείουepi08
 
σημεία στίξης της νέας ελληνικής γλώσσας
σημεία στίξης της νέας ελληνικής γλώσσαςσημεία στίξης της νέας ελληνικής γλώσσας
σημεία στίξης της νέας ελληνικής γλώσσαςThanos Stavropoulos
 
παράγραφος
παράγραφοςπαράγραφος
παράγραφοςvaralig
 
ΘΕΩΡΙΑ ΚΕΦΑΛΑΙΟΥ: Σημειώσεις-Περίληψη
ΘΕΩΡΙΑ ΚΕΦΑΛΑΙΟΥ: Σημειώσεις-ΠερίληψηΘΕΩΡΙΑ ΚΕΦΑΛΑΙΟΥ: Σημειώσεις-Περίληψη
ΘΕΩΡΙΑ ΚΕΦΑΛΑΙΟΥ: Σημειώσεις-ΠερίληψηEleni Kots
 
Θεωρία πειθούς
Θεωρία πειθούςΘεωρία πειθούς
Θεωρία πειθούςchavalesnick
 
H παράγραφος θεωρία και ασκήσεις
H παράγραφος θεωρία και ασκήσειςH παράγραφος θεωρία και ασκήσεις
H παράγραφος θεωρία και ασκήσειςEleni Kots
 
περιγραφη αφηγηση-επιχειρηματολογια-επιστολη-προσκληση-αγγελια-ημερολογιο-ανα...
περιγραφη αφηγηση-επιχειρηματολογια-επιστολη-προσκληση-αγγελια-ημερολογιο-ανα...περιγραφη αφηγηση-επιχειρηματολογια-επιστολη-προσκληση-αγγελια-ημερολογιο-ανα...
περιγραφη αφηγηση-επιχειρηματολογια-επιστολη-προσκληση-αγγελια-ημερολογιο-ανα...nikosas
 
κατηγορουμενο
κατηγορουμενοκατηγορουμενο
κατηγορουμενοEleni Kots
 
εισαγωγή μιας συστηματικότερης διδασκαλίας σε σχέση με τις
εισαγωγή μιας συστηματικότερης διδασκαλίας σε σχέση με τιςεισαγωγή μιας συστηματικότερης διδασκαλίας σε σχέση με τις
εισαγωγή μιας συστηματικότερης διδασκαλίας σε σχέση με τιςΓιάννης Πλατάρος
 

La actualidad más candente (19)

ΟΝΟΜΑΤΙΚΕΣ ΠΡΟΤΑΣΕΙΣ
ΟΝΟΜΑΤΙΚΕΣ ΠΡΟΤΑΣΕΙΣΟΝΟΜΑΤΙΚΕΣ ΠΡΟΤΑΣΕΙΣ
ΟΝΟΜΑΤΙΚΕΣ ΠΡΟΤΑΣΕΙΣ
 
Αναφορικές προτάσεις
Αναφορικές προτάσειςΑναφορικές προτάσεις
Αναφορικές προτάσεις
 
ΘΕΩΡΙΑ ΕΚΘΕΣΗΣ Γ΄ ΛΥΚΕΙΟΥ
ΘΕΩΡΙΑ ΕΚΘΕΣΗΣ Γ΄ ΛΥΚΕΙΟΥΘΕΩΡΙΑ ΕΚΘΕΣΗΣ Γ΄ ΛΥΚΕΙΟΥ
ΘΕΩΡΙΑ ΕΚΘΕΣΗΣ Γ΄ ΛΥΚΕΙΟΥ
 
επιρρηματικοι προσδιορισμοι θεωρια
επιρρηματικοι προσδιορισμοι θεωριαεπιρρηματικοι προσδιορισμοι θεωρια
επιρρηματικοι προσδιορισμοι θεωρια
 
ΟΝΟΜΑΤΙΚΕΣ ΠΡΟΤΑΣΕΙΣ ΣΤΑ ΑΡΧΑΙΑ ΕΛΛΗΝΙΚΑ
ΟΝΟΜΑΤΙΚΕΣ ΠΡΟΤΑΣΕΙΣ ΣΤΑ ΑΡΧΑΙΑ ΕΛΛΗΝΙΚΑΟΝΟΜΑΤΙΚΕΣ ΠΡΟΤΑΣΕΙΣ ΣΤΑ ΑΡΧΑΙΑ ΕΛΛΗΝΙΚΑ
ΟΝΟΜΑΤΙΚΕΣ ΠΡΟΤΑΣΕΙΣ ΣΤΑ ΑΡΧΑΙΑ ΕΛΛΗΝΙΚΑ
 
συνδετικες – διαρθρωτικες λεξεις και εκφρασεις για τη συνδεση προτασε...
συνδετικες  –  διαρθρωτικες  λεξεις  και  εκφρασεις  για  τη συνδεση  προτασε...συνδετικες  –  διαρθρωτικες  λεξεις  και  εκφρασεις  για  τη συνδεση  προτασε...
συνδετικες – διαρθρωτικες λεξεις και εκφρασεις για τη συνδεση προτασε...
 
Η ΤΕΧΝΙΚΗ ΤΩΝ ΠΛΑΓΙΟΤΙΤΛΩΝ-Η ΔΙΔΑΣΚΑΛΙΑ ΚΑΙ Η ΑΞΙΟΛΟΓΗΣΗ ΤΗΣ ΠΕΡΙΛΗΨΗΣ
Η ΤΕΧΝΙΚΗ ΤΩΝ ΠΛΑΓΙΟΤΙΤΛΩΝ-Η ΔΙΔΑΣΚΑΛΙΑ ΚΑΙ Η ΑΞΙΟΛΟΓΗΣΗ ΤΗΣ ΠΕΡΙΛΗΨΗΣΗ ΤΕΧΝΙΚΗ ΤΩΝ ΠΛΑΓΙΟΤΙΤΛΩΝ-Η ΔΙΔΑΣΚΑΛΙΑ ΚΑΙ Η ΑΞΙΟΛΟΓΗΣΗ ΤΗΣ ΠΕΡΙΛΗΨΗΣ
Η ΤΕΧΝΙΚΗ ΤΩΝ ΠΛΑΓΙΟΤΙΤΛΩΝ-Η ΔΙΔΑΣΚΑΛΙΑ ΚΑΙ Η ΑΞΙΟΛΟΓΗΣΗ ΤΗΣ ΠΕΡΙΛΗΨΗΣ
 
ΠΛΗ20 ΚΑΡΤΕΣ ΜΑΘΗΜΑΤΟΣ 3.2
ΠΛΗ20 ΚΑΡΤΕΣ ΜΑΘΗΜΑΤΟΣ 3.2ΠΛΗ20 ΚΑΡΤΕΣ ΜΑΘΗΜΑΤΟΣ 3.2
ΠΛΗ20 ΚΑΡΤΕΣ ΜΑΘΗΜΑΤΟΣ 3.2
 
έκθεση έκφραση γ' λυκείου
έκθεση έκφραση γ' λυκείουέκθεση έκφραση γ' λυκείου
έκθεση έκφραση γ' λυκείου
 
ΠΑΡΑΓΡΑΦΟΣ
ΠΑΡΑΓΡΑΦΟΣ ΠΑΡΑΓΡΑΦΟΣ
ΠΑΡΑΓΡΑΦΟΣ
 
σημεία στίξης της νέας ελληνικής γλώσσας
σημεία στίξης της νέας ελληνικής γλώσσαςσημεία στίξης της νέας ελληνικής γλώσσας
σημεία στίξης της νέας ελληνικής γλώσσας
 
παράγραφος
παράγραφοςπαράγραφος
παράγραφος
 
ΘΕΩΡΙΑ ΚΕΦΑΛΑΙΟΥ: Σημειώσεις-Περίληψη
ΘΕΩΡΙΑ ΚΕΦΑΛΑΙΟΥ: Σημειώσεις-ΠερίληψηΘΕΩΡΙΑ ΚΕΦΑΛΑΙΟΥ: Σημειώσεις-Περίληψη
ΘΕΩΡΙΑ ΚΕΦΑΛΑΙΟΥ: Σημειώσεις-Περίληψη
 
Θεωρία πειθούς
Θεωρία πειθούςΘεωρία πειθούς
Θεωρία πειθούς
 
H παράγραφος θεωρία και ασκήσεις
H παράγραφος θεωρία και ασκήσειςH παράγραφος θεωρία και ασκήσεις
H παράγραφος θεωρία και ασκήσεις
 
περιγραφη αφηγηση-επιχειρηματολογια-επιστολη-προσκληση-αγγελια-ημερολογιο-ανα...
περιγραφη αφηγηση-επιχειρηματολογια-επιστολη-προσκληση-αγγελια-ημερολογιο-ανα...περιγραφη αφηγηση-επιχειρηματολογια-επιστολη-προσκληση-αγγελια-ημερολογιο-ανα...
περιγραφη αφηγηση-επιχειρηματολογια-επιστολη-προσκληση-αγγελια-ημερολογιο-ανα...
 
κατηγορουμενο
κατηγορουμενοκατηγορουμενο
κατηγορουμενο
 
εισαγωγή μιας συστηματικότερης διδασκαλίας σε σχέση με τις
εισαγωγή μιας συστηματικότερης διδασκαλίας σε σχέση με τιςεισαγωγή μιας συστηματικότερης διδασκαλίας σε σχέση με τις
εισαγωγή μιας συστηματικότερης διδασκαλίας σε σχέση με τις
 
διδασκαλία του απείρου
διδασκαλία του απείρουδιδασκαλία του απείρου
διδασκαλία του απείρου
 

Destacado

Value major ashley
Value major ashleyValue major ashley
Value major ashleyaclick
 
Value Ppt for Middle School Art Students
Value Ppt for Middle School Art StudentsValue Ppt for Middle School Art Students
Value Ppt for Middle School Art Studentsaclick
 
νέες χρήσεις από άχρηστα υλικά α
νέες χρήσεις από άχρηστα  υλικά ανέες χρήσεις από άχρηστα  υλικά α
νέες χρήσεις από άχρηστα υλικά αΕλένη Μουστάκα
 
νέες χρήσεις από άχρηστα υλικά γ
νέες χρήσεις από άχρηστα  υλικά γνέες χρήσεις από άχρηστα  υλικά γ
νέες χρήσεις από άχρηστα υλικά γΕλένη Μουστάκα
 
Presentation1
Presentation1Presentation1
Presentation1rgurton
 
νέες χρήσεις από άχρηστα υλικά β
νέες χρήσεις από άχρηστα  υλικά βνέες χρήσεις από άχρηστα  υλικά β
νέες χρήσεις από άχρηστα υλικά βΕλένη Μουστάκα
 

Destacado (8)

Value major ashley
Value major ashleyValue major ashley
Value major ashley
 
Hoist
HoistHoist
Hoist
 
Value Ppt for Middle School Art Students
Value Ppt for Middle School Art StudentsValue Ppt for Middle School Art Students
Value Ppt for Middle School Art Students
 
νέες χρήσεις από άχρηστα υλικά α
νέες χρήσεις από άχρηστα  υλικά ανέες χρήσεις από άχρηστα  υλικά α
νέες χρήσεις από άχρηστα υλικά α
 
νέες χρήσεις από άχρηστα υλικά γ
νέες χρήσεις από άχρηστα  υλικά γνέες χρήσεις από άχρηστα  υλικά γ
νέες χρήσεις από άχρηστα υλικά γ
 
Presentation1
Presentation1Presentation1
Presentation1
 
Designing for Usability
Designing for UsabilityDesigning for Usability
Designing for Usability
 
νέες χρήσεις από άχρηστα υλικά β
νέες χρήσεις από άχρηστα  υλικά βνέες χρήσεις από άχρηστα  υλικά β
νέες χρήσεις από άχρηστα υλικά β
 

Similar a Word sense disambiguation

Paragogi graptou logou
Paragogi graptou logouParagogi graptou logou
Paragogi graptou logouNiki Krompa
 
πλατάρος γιάννης. «το αντιπαράδειγμα ως θεραπεία λαθών στα μαθηματικά»
πλατάρος γιάννης. «το αντιπαράδειγμα ως θεραπεία λαθών στα μαθηματικά»πλατάρος γιάννης. «το αντιπαράδειγμα ως θεραπεία λαθών στα μαθηματικά»
πλατάρος γιάννης. «το αντιπαράδειγμα ως θεραπεία λαθών στα μαθηματικά»Γιάννης Πλατάρος
 
πλατάρος γιάννης. «το αντιπαράδειγμα ως θεραπεία λαθών στα μαθηματικά»
πλατάρος γιάννης. «το αντιπαράδειγμα ως θεραπεία λαθών στα μαθηματικά»πλατάρος γιάννης. «το αντιπαράδειγμα ως θεραπεία λαθών στα μαθηματικά»
πλατάρος γιάννης. «το αντιπαράδειγμα ως θεραπεία λαθών στα μαθηματικά»Γιάννης Πλατάρος
 
νεοελληνική γλώσσα γ΄τάξη, παρουσίαση λεξικών
νεοελληνική γλώσσα γ΄τάξη, παρουσίαση λεξικώννεοελληνική γλώσσα γ΄τάξη, παρουσίαση λεξικών
νεοελληνική γλώσσα γ΄τάξη, παρουσίαση λεξικώνakoureli
 
Διδακτικό σενάριο:"Παραγωγή Ουσιαστικών"
Διδακτικό σενάριο:"Παραγωγή Ουσιαστικών"Διδακτικό σενάριο:"Παραγωγή Ουσιαστικών"
Διδακτικό σενάριο:"Παραγωγή Ουσιαστικών"Emytse66
 
ΣΤ.ΓΡΟΥΣΟΥΖΑΚΟΥ -ΡΗΤΟΡΙΚΗ.pptx
ΣΤ.ΓΡΟΥΣΟΥΖΑΚΟΥ -ΡΗΤΟΡΙΚΗ.pptxΣΤ.ΓΡΟΥΣΟΥΖΑΚΟΥ -ΡΗΤΟΡΙΚΗ.pptx
ΣΤ.ΓΡΟΥΣΟΥΖΑΚΟΥ -ΡΗΤΟΡΙΚΗ.pptxGIOTAKOLOKOURI1
 
10 συχνά λάθη στην ελληνική γλώσσα
10 συχνά λάθη στην ελληνική γλώσσα10 συχνά λάθη στην ελληνική γλώσσα
10 συχνά λάθη στην ελληνική γλώσσαJohn Kirailidis
 
Αρχές φιλοσοφίας 2.1, 2.2
Αρχές φιλοσοφίας 2.1, 2.2Αρχές φιλοσοφίας 2.1, 2.2
Αρχές φιλοσοφίας 2.1, 2.2Akis Ampelas
 
Φύλλο Εργασίας Αρχές Φιλοσοφίας 2ο Κεφάλαιο
Φύλλο Εργασίας Αρχές Φιλοσοφίας 2ο ΚεφάλαιοΦύλλο Εργασίας Αρχές Φιλοσοφίας 2ο Κεφάλαιο
Φύλλο Εργασίας Αρχές Φιλοσοφίας 2ο ΚεφάλαιοAkis Ampelas
 
Σημειώσεις στα πολυώνυμα για προχωρημένους!!
Σημειώσεις στα πολυώνυμα για προχωρημένους!! Σημειώσεις στα πολυώνυμα για προχωρημένους!!
Σημειώσεις στα πολυώνυμα για προχωρημένους!! Μάκης Χατζόπουλος
 
17539555 πλατάρος-γιάννης-το-αντιπαράδειγμα-ως-θεραπεία-λαθών-στα-μαθηματικά
17539555 πλατάρος-γιάννης-το-αντιπαράδειγμα-ως-θεραπεία-λαθών-στα-μαθηματικά17539555 πλατάρος-γιάννης-το-αντιπαράδειγμα-ως-θεραπεία-λαθών-στα-μαθηματικά
17539555 πλατάρος-γιάννης-το-αντιπαράδειγμα-ως-θεραπεία-λαθών-στα-μαθηματικάBig Brain's Team Big Brain's Team
 
συνταξη ρηματων α. ε. σταυρατη γεωργια
συνταξη ρηματων α. ε. σταυρατη γεωργιασυνταξη ρηματων α. ε. σταυρατη γεωργια
συνταξη ρηματων α. ε. σταυρατη γεωργιαstavratig
 
ΛΕΞΕΙΣ ΚΑΙ ΦΡΑΣΕΙΣ ΓΙΑ ΣΥΝΔΕΣΗ ΠΕΡΙΟΠΩΝ ΚΑΙ ΠΑΡΑΓΡΑΦΩΝ
ΛΕΞΕΙΣ ΚΑΙ ΦΡΑΣΕΙΣ ΓΙΑ ΣΥΝΔΕΣΗ ΠΕΡΙΟΠΩΝ ΚΑΙ ΠΑΡΑΓΡΑΦΩΝΛΕΞΕΙΣ ΚΑΙ ΦΡΑΣΕΙΣ ΓΙΑ ΣΥΝΔΕΣΗ ΠΕΡΙΟΠΩΝ ΚΑΙ ΠΑΡΑΓΡΑΦΩΝ
ΛΕΞΕΙΣ ΚΑΙ ΦΡΑΣΕΙΣ ΓΙΑ ΣΥΝΔΕΣΗ ΠΕΡΙΟΠΩΝ ΚΑΙ ΠΑΡΑΓΡΑΦΩΝdrallis
 
ΣΥΝΔΕΤΙΚΕΣ ΛΕΞΕΙΣ ΚΑΙ ΦΡΑΣΕΙΣ, ΕΚΘΕΣΗ Β ΛΥΚΕΙΟΥ
ΣΥΝΔΕΤΙΚΕΣ ΛΕΞΕΙΣ ΚΑΙ ΦΡΑΣΕΙΣ, ΕΚΘΕΣΗ Β ΛΥΚΕΙΟΥΣΥΝΔΕΤΙΚΕΣ ΛΕΞΕΙΣ ΚΑΙ ΦΡΑΣΕΙΣ, ΕΚΘΕΣΗ Β ΛΥΚΕΙΟΥ
ΣΥΝΔΕΤΙΚΕΣ ΛΕΞΕΙΣ ΚΑΙ ΦΡΑΣΕΙΣ, ΕΚΘΕΣΗ Β ΛΥΚΕΙΟΥdrallis
 

Similar a Word sense disambiguation (20)

Paragogi graptou logou
Paragogi graptou logouParagogi graptou logou
Paragogi graptou logou
 
πλατάρος γιάννης. «το αντιπαράδειγμα ως θεραπεία λαθών στα μαθηματικά»
πλατάρος γιάννης. «το αντιπαράδειγμα ως θεραπεία λαθών στα μαθηματικά»πλατάρος γιάννης. «το αντιπαράδειγμα ως θεραπεία λαθών στα μαθηματικά»
πλατάρος γιάννης. «το αντιπαράδειγμα ως θεραπεία λαθών στα μαθηματικά»
 
πλατάρος γιάννης. «το αντιπαράδειγμα ως θεραπεία λαθών στα μαθηματικά»
πλατάρος γιάννης. «το αντιπαράδειγμα ως θεραπεία λαθών στα μαθηματικά»πλατάρος γιάννης. «το αντιπαράδειγμα ως θεραπεία λαθών στα μαθηματικά»
πλατάρος γιάννης. «το αντιπαράδειγμα ως θεραπεία λαθών στα μαθηματικά»
 
ΠΛΗ20 ΜΑΘΗΜΑ 3.2
ΠΛΗ20 ΜΑΘΗΜΑ 3.2ΠΛΗ20 ΜΑΘΗΜΑ 3.2
ΠΛΗ20 ΜΑΘΗΜΑ 3.2
 
νεοελληνική γλώσσα γ΄τάξη, παρουσίαση λεξικών
νεοελληνική γλώσσα γ΄τάξη, παρουσίαση λεξικώννεοελληνική γλώσσα γ΄τάξη, παρουσίαση λεξικών
νεοελληνική γλώσσα γ΄τάξη, παρουσίαση λεξικών
 
Διδακτικό σενάριο:"Παραγωγή Ουσιαστικών"
Διδακτικό σενάριο:"Παραγωγή Ουσιαστικών"Διδακτικό σενάριο:"Παραγωγή Ουσιαστικών"
Διδακτικό σενάριο:"Παραγωγή Ουσιαστικών"
 
ημερίδα καλαμάτας 1ο γυμνάσιο
ημερίδα καλαμάτας 1ο γυμνάσιοημερίδα καλαμάτας 1ο γυμνάσιο
ημερίδα καλαμάτας 1ο γυμνάσιο
 
ΣΤ.ΓΡΟΥΣΟΥΖΑΚΟΥ -ΡΗΤΟΡΙΚΗ.pptx
ΣΤ.ΓΡΟΥΣΟΥΖΑΚΟΥ -ΡΗΤΟΡΙΚΗ.pptxΣΤ.ΓΡΟΥΣΟΥΖΑΚΟΥ -ΡΗΤΟΡΙΚΗ.pptx
ΣΤ.ΓΡΟΥΣΟΥΖΑΚΟΥ -ΡΗΤΟΡΙΚΗ.pptx
 
10 συχνά λάθη στην ελληνική γλώσσα
10 συχνά λάθη στην ελληνική γλώσσα10 συχνά λάθη στην ελληνική γλώσσα
10 συχνά λάθη στην ελληνική γλώσσα
 
Αρχές φιλοσοφίας 2.1, 2.2
Αρχές φιλοσοφίας 2.1, 2.2Αρχές φιλοσοφίας 2.1, 2.2
Αρχές φιλοσοφίας 2.1, 2.2
 
ΠΛΗ30 ΜΑΘΗΜΑ 4.4
ΠΛΗ30 ΜΑΘΗΜΑ 4.4ΠΛΗ30 ΜΑΘΗΜΑ 4.4
ΠΛΗ30 ΜΑΘΗΜΑ 4.4
 
Φύλλο Εργασίας Αρχές Φιλοσοφίας 2ο Κεφάλαιο
Φύλλο Εργασίας Αρχές Φιλοσοφίας 2ο ΚεφάλαιοΦύλλο Εργασίας Αρχές Φιλοσοφίας 2ο Κεφάλαιο
Φύλλο Εργασίας Αρχές Φιλοσοφίας 2ο Κεφάλαιο
 
Σημειώσεις στα πολυώνυμα για προχωρημένους!!
Σημειώσεις στα πολυώνυμα για προχωρημένους!! Σημειώσεις στα πολυώνυμα για προχωρημένους!!
Σημειώσεις στα πολυώνυμα για προχωρημένους!!
 
ΠΛΗ30 ΜΑΘΗΜΑ 4.1
ΠΛΗ30 ΜΑΘΗΜΑ 4.1ΠΛΗ30 ΜΑΘΗΜΑ 4.1
ΠΛΗ30 ΜΑΘΗΜΑ 4.1
 
17539555 πλατάρος-γιάννης-το-αντιπαράδειγμα-ως-θεραπεία-λαθών-στα-μαθηματικά
17539555 πλατάρος-γιάννης-το-αντιπαράδειγμα-ως-θεραπεία-λαθών-στα-μαθηματικά17539555 πλατάρος-γιάννης-το-αντιπαράδειγμα-ως-θεραπεία-λαθών-στα-μαθηματικά
17539555 πλατάρος-γιάννης-το-αντιπαράδειγμα-ως-θεραπεία-λαθών-στα-μαθηματικά
 
2η ενότητα, Γλώσσα - Γλώσσες και Πολιτισμοί του Κόσμου. Πολυσημία της λέξης. ...
2η ενότητα, Γλώσσα - Γλώσσες και Πολιτισμοί του Κόσμου. Πολυσημία της λέξης. ...2η ενότητα, Γλώσσα - Γλώσσες και Πολιτισμοί του Κόσμου. Πολυσημία της λέξης. ...
2η ενότητα, Γλώσσα - Γλώσσες και Πολιτισμοί του Κόσμου. Πολυσημία της λέξης. ...
 
συνταξη ρηματων α. ε. σταυρατη γεωργια
συνταξη ρηματων α. ε. σταυρατη γεωργιασυνταξη ρηματων α. ε. σταυρατη γεωργια
συνταξη ρηματων α. ε. σταυρατη γεωργια
 
τύποι ερωτήσεων
τύποι ερωτήσεωντύποι ερωτήσεων
τύποι ερωτήσεων
 
ΛΕΞΕΙΣ ΚΑΙ ΦΡΑΣΕΙΣ ΓΙΑ ΣΥΝΔΕΣΗ ΠΕΡΙΟΠΩΝ ΚΑΙ ΠΑΡΑΓΡΑΦΩΝ
ΛΕΞΕΙΣ ΚΑΙ ΦΡΑΣΕΙΣ ΓΙΑ ΣΥΝΔΕΣΗ ΠΕΡΙΟΠΩΝ ΚΑΙ ΠΑΡΑΓΡΑΦΩΝΛΕΞΕΙΣ ΚΑΙ ΦΡΑΣΕΙΣ ΓΙΑ ΣΥΝΔΕΣΗ ΠΕΡΙΟΠΩΝ ΚΑΙ ΠΑΡΑΓΡΑΦΩΝ
ΛΕΞΕΙΣ ΚΑΙ ΦΡΑΣΕΙΣ ΓΙΑ ΣΥΝΔΕΣΗ ΠΕΡΙΟΠΩΝ ΚΑΙ ΠΑΡΑΓΡΑΦΩΝ
 
ΣΥΝΔΕΤΙΚΕΣ ΛΕΞΕΙΣ ΚΑΙ ΦΡΑΣΕΙΣ, ΕΚΘΕΣΗ Β ΛΥΚΕΙΟΥ
ΣΥΝΔΕΤΙΚΕΣ ΛΕΞΕΙΣ ΚΑΙ ΦΡΑΣΕΙΣ, ΕΚΘΕΣΗ Β ΛΥΚΕΙΟΥΣΥΝΔΕΤΙΚΕΣ ΛΕΞΕΙΣ ΚΑΙ ΦΡΑΣΕΙΣ, ΕΚΘΕΣΗ Β ΛΥΚΕΙΟΥ
ΣΥΝΔΕΤΙΚΕΣ ΛΕΞΕΙΣ ΚΑΙ ΦΡΑΣΕΙΣ, ΕΚΘΕΣΗ Β ΛΥΚΕΙΟΥ
 

Word sense disambiguation

  • 1. Word Sense Disambiguation Αποσαφήνιση της έννοιας της λέξης Ιόνιο Πανεπιστήµιο. Μεταπτυχιακό Πληροφορικής Προχωρηµένα Θέµατα Γλωσσικής Τεχνολογίας Μουστάκα Ελένη Γενάρης 2012
  • 2. Στόχος της σηµερινής διάλεξης είναι: να ασχοληθούµε µε την εξήγηση της αµφισηµίας των λέξεων Να δούµε κάποιες προσεγγίσεις που θα βοηθήσουν στην άρση της
  • 3. Τι είναι η αµφισηµία; Υπάρχουν λέξεις που έχουν διαφορετικές έννοιες παρόλο που γράφονται και προφέρονται µε τον ίδιο ακριβώς τρόπο παραδείγµατος χάρη : Καλόγερος: είδος φορητής κρεµάστρας, αυτός που απαρνείται τα εγκόσµια, είδος πυώδους φλεγµονής, είδος εντόµου (πασχαλίτσα) Μήτρα: στο γυναικείο σώµα, το πρότυπο/καλούπι Κόλλα: µια κόλλα χαρτί, η κόλλα που κολλάµε Γραφείο: το έπιπλο, ο χώρος Κερκίδα: το κάθισµα σε γήπεδο, το οστό, η σαΐτα του αργαλειού
  • 4. Προφανώς η σηµασία, για πολλές από αυτές τις λέξεις, γίνεται ξεκάθαρη αν τις συναντήσουµε µέσα σε ένα σώµα κειµένου: Κρέµασα το παλτό µου στον καλόγερο Ξεκίνησαν οι συσπάσεις της µήτρας Θα ζωγραφίσω σε µία λευκή κόλλα Το γραφείο του βρίσκεται στο δεύτερο όροφο Έσπασε την κερκίδα του, στο µάθηµα
  • 5. Προσεγγίσεις Στοχαστική προσέγγιση Το µοντέλο µονόγραµµου και n-gram Επιβλεπόµενη µάθηση Αλγόριθµος Naïve Bayes Λίστες αποφάσεων
  • 6. Στοχαστική προσέγγιση-µοντέλο µονόγραµµου Μετράµε το πόσες φορές εµφανίζεται µία λέξη (µε την κάθε δυνατή έννοια) µέσα σε ένα κείµενο: Ρόκα (χορταρικό) 80 φορές. πχ: Ρόκα (εργαλείο πλεξίµατος) 25 φορές Ή Φακός (που φωτίζει) 63 φορές Φακός (επαφής) 42 φορές
  • 7. Στοχαστική προσέγγιση – µοντέλο µονόγραµµου Χρησιµοποιώντας τα Unigrams θα επιλέγαµε πάντα i s τη λέξη που εµφανίζεται τις περισσότερες φορές (ρόκα-χορταρικό, φακός-που φωτίζει). Για να βρούµε όµως τη σωστή σηµασία της λέξης θα πρέπει να λάβουµε υπόψη και τα συµφραζόµενα Αν si είναι η έννοια (sense) της λέξης i Bigrams: P(sn| sn-1) πχ: η Μαρία έφαγε ρόκα Trigrams: P(sn| sn-1, sn-2) πχ: φόρεσε το φακό
  • 8. Στοχαστική προσέγγιση Υπάρχουν όµως πολλές διαφορετικές σηµασιολογικές έννοιες και Ο αριθµός των φορών που εµφανίζεται κάποια λέξη µπορεί να είναι πολύ µικρός άρα: Θα πρέπει να επιλέξουµε µεγαλύτερο εύρος παραθύρου συµφραζοµένων για να εντοπίσουµε την σωστή εξήγηση της λέξης που µας ενδιαφέρει. Γιατί θα µπορούσε να είναι: Αναγκάστηκε να βγάλει το φακό γιατί την πονούσε πολύ το µάτι της. - Βλέπουµε πως η λέξη που µας ενδιαφέρει (µάτι) βρίσκεται 6 λέξεις µακριά από τη λέξη (φακός) που θέλουµε να αποσαφηνίσουµε
  • 9. Στοχαστική προσέγγιση Αν ονοµάσουµε: s = sense (η έννοια της λέξης) w = word (η λέξη) c = context (το παράθυρο των λέξεων) Θεωρούµε ένα παράθυρο λέξεων, όπου η λέξη που µας ενδιαφέρει να αποσαφηνίσουµε βρίσκεται στη µέση: c = w1,…,w5,…,w9 Θέλουµε να βρούµε την έννοια (s) της λέξης (w5) δηλαδή: (w5/s) που µεγιστοποιεί την πιθανότητα P((w5/s)|w1…w9)
  • 10. Αλγόριθµος Naïve Bayes Ο αλγόριθµος του Bayes ανήκει στην κατηγορία των αλγορίθµων επιβλεπόµενης µάθησης (supervised learning). Μία πρακτική δυσκολία που αντιµετωπίζεται στη µάθηση κατά Bayes είναι το γεγονός ότι απαιτείται η γνώση πολλών τιµών πιθανοτήτων. Όταν αυτές οι τιµές δεν είναι δυνατό να υπολογιστούν επακριβώς, υπολογίζονται κατ‘ εκτίµηση από παλαιότερες υποθέσεις, εµπειρική γνώση, κτλ. Η παραπάνω δυσκολία εφαρµογής έχει δώσει µεγάλη πρακτική αξία σε µια απλουστευµένη εκδοχή της µάθησης κατά Bayes, τον απλό ταξινοµητή Bayes, στον οποίο γίνεται η παραδοχή ότι τα χαρακτηριστικά είναι ανεξάρτητα µεταξύ τους.
  • 11. Αλγόριθµος Naïve Bayes Bayes Rule: P(s/w5 | c) = P(s/w5)* P(c | s/w5) / P(c) [1] P(s/w5|c) :πιθανότητα έννοιας της λέξης δεδοµένων των συµφραζοµένων (posterior), P(s/w5) : πιθανότητα έννοιας της λέξης ανεξάρτητων των συµφραζοµένων (prior), δηλαδή η εκ των προτέρων πιθανότητα πχ η λέξη καλόγερος να έχει την έννοια έπιπλο. P(c | s/w5) / P(c) : παράγοντας ενσωµάτωσης πληροφορίας συµφραζοµένων P(c) :Τον όρο P(c) [2] (το κείµενο που εξετάζουµε) επειδή είναι σταθερός για όλες τις µεταφράσεις και δεν επηρεάζει το αποτέλεσµα, µπορούµε και να τον παραλείψουµε (για να απλοποιήσουµε τις διαδικασίες αποσαφήνισης) P(c | s/w5 ) :∆εδοµένου ότι πχ η λέξη καλόγερος είναι έπιπλο όταν βρίσκεται µέσα στο συγκεκριµένο κείµενο Έχουµε την παραδοχή της ανεξαρτησίας που µας λέει ότι : η παρουσία µίας λέξης στα συµφραζόµενα είναι ανεξάρτητη των άλλων λέξεων: P(c | s/w5 ) Πi=1..9 * P(c | s/w5) [3]
  • 12. Αλγόριθµος Naïve Bayes Αντικαθιστώντας στον [1] τους [2] και [3] θα πάρουµε τον τελικό τύπο του Bayes: P(s/w5 | c) = P(s/w5)* Πi=1..9 * P(c | s/w5) Όπου : c = w1,…,w5,…,w9
  • 13. Αλγόριθµος Naïve Bayes Ένα παράδειγµα για να κατανοήσουµε τον αλγόριθµο: Το παράθυρο συµφραζοµένων που θα εξετάσουµε: «Καθόταν στην κουνιστή πολυθρόνα µε τη ρόκα της και έγνεφε όλη τη µέρα » Η αµφίσηµη λέξη είναι προφανώς η λέξη «ρόκα» και βρίσκεται στο κέντρο του παραθύρου Οι λέξεις που συµµετέχουν στον αλγόριθµο είναι αυτές µε τα έντονα γράµµατα, οι υπόλοιπες (εκτός της λέξης ρόκα που εξετάζουµε) λέγονται λειτουργικές λέξεις (στην, µε, τη, της, και, τη) και δεν έχουν σηµασιολογικό ενδιαφέρον. Γενικά οι λέξεις που έχουν σηµασιολογικό ενδιαφέρον είναι τα ρήµατα, επίθετα, ουσιαστικά και επιρρήµατα
  • 14. Αλγόριθµος Naïve Bayes Πιθανότητα ανεξάρτητη των συµφραζοµένων: P(ρόκα/χορταρικό) = 0.6 P(ρόκα/εργαλείο) = 0.3 Έχουµε βρει την λέξη ρόκα σε ένα σώµα κειµένου 100 φορές, από αυτές, 60 φορές είχε την έννοια χορταρικό και 30 την έννοια εργαλείο [τις 10 φορές που αποµένουν (για να έχουµε άθροισµα πιθανοτήτων 1) θεωρούµε ότι πιθανόν να υπάρχει και κάποια άλλη σηµασία της λέξης που µας διαφεύγει, δηλαδή στο κείµενό µας δεν είχαν ούτε την έννοια χορταρικό ούτε την έννοια εργαλείο] Πιθανότητα εξαρτηµένη των συµφραζοµένων: P7 (έγνεφε|ρόκα/χορταρικό) = 0.001 ∆εδοµένου ότι η ρόκα είναι χορταρικό, ποια η πιθανότητα να εµφανίζεται στο σώµα κειµένου η λέξη έγνεφε. P7 (έγνεφε| ρόκα/εργαλείο) = 0.05 Για να υπολογιστεί κάθε µία από αυτές τις πιθανότητες, για κάθε λέξη του παραθύρου συµφραζοµένων: ψάχνω µέσα στο παράθυρο συµφραζοµένων της λέξης ρόκα µε την έννοια χορταρικό, και βρίσκω πόσες φορές εµφανίζεται η λέξη «έγνεφε», διά πόσες φορές εµφανίζεται η έννοια της λέξης ρόκα σαν χορταρικό σε όλο το κείµενο.
  • 15. Αλγόριθµος Naïve Bayes «Καθόταν στην κουνιστή πολυθρόνα µε τη ρόκα της και έγνεφε όλη τη µέρα » P(s/w4 | c) = P(s/w4)* Πi=1..7 * P(c | s/w4) Θα βρούµε την πιθανότητα για κάθε µία από τις έννοιες της λέξης: Ρ1=χορταρικό και Ρ2= εργαλείο Ρ1 = Ρ(ρόκα/χορταρικό)*Ρ(καθόταν|ρόκα/χορταρικό) *…* *Ρ(έγνεφε|ρόκα/χορταρικό)*…* Ρ(µέρα|ρόκα/χορταρικό) Γνωρίζουµε ήδη τις πιθανότητες Ρ(ρόκα/χορταρικό) και Ρ(έγνεφε|ρόκα/χορταρικό) µας µένει να υπολογίσουµε τις υπόλοιπες, οι οποίες είναι ανεξάρτητες συµφραζοµένων. Στο συγκεκριµένο παράδειγµα θα είναι τυχαίες αυτές οι πιθανότητες
  • 16. Αλγόριθµος Naïve Bayes Αντικαθιστούµε τις πιθανότητες στη σχέση µας και θα έχουµε: Ρ1 = 0,6 * 0,004 * 0,008 * 0,003 * 0,001* 0,006 * 0,009 * 0,002 = 6,2208-18 Κάνοντας ακριβώς τα ίδια βήµατα και για τη δεύτερη πιθανότητα θα έχουµε Ρ2 = 0,3 * 0,004 * 0,008 * 0,003 * 0,05* 0,006 * 0,009 * 0,002 = 1,5552-16 Βλέπουµε ότι Ρ1<Ρ2 άρα η ρόκα στην πρότασή µας, σύµφωνα µε τον Bayes, είναι εργαλείο
  • 17. Επιβλεπόµενη µάθηση Στην επιβλεπόµενη µάθηση η γενική ιδέα είναι ότι σε ένα σώµα κειµένου η σωστή έννοια της λέξης έχει επισηµειωθεί χειρωνακτικά. Στη συνέχεια εξάγουµε χαρακτηριστικά από το κείµενο που θα µας βοηθήσουν στο να επιλέξουµε τη σωστή έννοια της λέξης Τέλος εκπαιδεύουµε έναν αλγόριθµο µηχανικής µάθησης στο να δώσει την σωστή απόδοση της λέξης σε νέα όµως παραδείγµατα, βασιζόµενος στα δοθέντα χαρακτηριστικά.
  • 18. Λίστες απόφασης Μια δεύτερη µορφή επιβλεπόµενης µάθησης είναι οι λίστες απόφασης. Είναι ένας άλλος τρόπος αποσαφήνισης της έννοιας των λέξεων Πάλι δουλεύουµε µε ένα παράθυρο συµφραζοµένων Ο πρώτος έλεγχος που θα επιτευχθεί, µας καθορίζει και την έννοια της λέξης που ψάχνουµε Αν δεν επιτευχθεί έλεγχος, τότε επιλέγεται η πιο συχνή έννοια της λέξης.
  • 19. Λίστες απόφασης ∆ηµιουργείται µία λίστα, ένα σετ κανόνων, όπου κάθε στοιχείο είναι ενδεικτικό µιας συγκεκριµένης έννοιας της λέξης που θέλουµε να αποσαφηνίσουµε Αυτό σηµαίνει ότι η λίστα µας θα έχει στοιχεία για όλες τις έννοιες της λέξης. Κάποιος ειδήµων θα έχει δηµιουργήσει αυτούς τους κανόνες (ο ειδικός πενολόγος που είχαµε πει) Στη συνέχεια υπολογίζουµε τις πιθανότητες για κάθε έναν από τους κανόνες αυτούς
  • 20. Λίστες απόφασης Παράδειγµα: Αποσαφήνιση της λέξης : πένα (γραφής, χορδών) κανόνες 1. «πένα κιθάρας» χορδών 2. «χαρτί» µέσα στο παράθυρο γραφής 3. «παρτιτούρες» µέσα στο παράθυρο χορδών 4. «συγκρότηµα» µέσα στο παράθυρο χορδών 5. «γραφείο» µέσα στο παράθυρο γραφής
  • 21. Λίστες απόφασης Καθόρισε τις πιθανότητες για όλες τις έννοιες λέξεων δεδοµένων όλων των ελέγχων. P(w/s | test) Πχ «πένα κιθάρας» χορδών : πόσες φορές η λέξη πένα µε την έννοια της χορδής, ακολουθείται από την λέξη κιθάρα διά τις φορές που εµφανίζεται η λέξη πένα µε την έννοια χορδή γενικά Τα αποτελέσµατα ταξινοµούνται σε φθίνουσα σειρά ανάλογα µε την πιθανότητά τους.
  • 22. Αξιολόγηση συστηµάτων WSD Τα αποτελέσµατα της αξιολόγησης εξαρτώνται από τη λίστα των διαφορετικών εννοιών Γενικά είναι δύσκολο να συγκρίνουµε δύο συστήµατα που βασίζονται σε λίστες µε διαφορετικό βαθµό πολυπλοκότητας Αν µία λέξη έχει δύο ισοπίθανες έννοιες, και αποσαφηνιστεί σωστά µε πιθανότητα 90%, τότε είναι απόλυτα επιτυχής Αν όµως, µία λεξη έχει δύο έννοιες µε πιθανότητες 90% για τη µία και 10% για την άλλη , τότε αν αποσαφηνιστεί σωστά µε πιθανότητα 90% είναι ασήµαντο επίτευγµα.