2. Ψηφιοποίηση των αγορών και επικράτηση του ηλεκτρονικού εμπορίου
ως κυρίαρχο μέσο πραγμάτωσης εμπορικών συναλλαγών
Ιδιαίτερα υψηλός όγκος προσφερόμενων προϊόντων προς τους
καταναλωτές
Αναγκαία η ανάπτυξη κατάλληλων μηχανισμών εξατομίκευσης του
διαθέσιμου περιεχομένου
Συστήματα συστάσεων
2
Εισαγωγή
Βασίζονται στην ανάλυση των προτύπων προτιμήσεων των χρηστών σε προϊόντα
με σκοπό τη πρόβλεψη ενδεχομένων προτιμήσεων σε νέα προϊόντα και τη
παραγωγή εξατομικευμένων προτάσεων για κάθε χρήστη που ικανοποιούν τις
ιδιαίτερες ανάγκες του
Mάρτιος 2018 Λουτρούκης Αναστάσιος
3. Γιατί είναι σημαντικά τα συστήματα συστάσεων σήμερα;
I. Ευρεία χρήση σε όλους τους κλάδους των διαδικτυακών εφαρμογών
(ενημέρωση, ψυχαγωγία, μέσα κοινωνικής δικτύωσης κλπ.)
II. Η επιτυχία των διαδικτυακών παρόχων υπηρεσιών και προϊόντων είναι άμεσα
συνυφασμένη με την αποτελεσματικότητα των συστημάτων συστάσεων
Πλατφόρμα
Ποσοστό πωλήσεων/χρήσης που προέρχεται
από συστάσεις προϊόντων
Netflix
2/3 ενοικιάσεις ταινιών προέρχονται από τη χρήση
συστάσεων
Amazon
Το 35% των συνολικών πωλήσεων στον ιστόχωρο της
amazon οφείλεται στη χρήση συστάσεων
Google News
Aύξηση κατά 38% της επισκεψιμότητας σε σελίδες
ειδήσεων λόγω χρήσης συστάσεων
Εισαγωγή
3Mάρτιος 2018 Λουτρούκης Αναστάσιος
4. 1. Οι υπάρχουσες προτάσεις στη βιβλιογραφία χαρακτηρίζονται από
έλλειψη σημασιολογικής κατανόησης των παρεχόμενων συστάσεων
2. Εστίαση κατά βάση στην ανάλυση των προτύπων βαθμολόγησης των
χρηστών στα αντικείμενα του συστήματος (collaborative filtering)
3. Οι σύγχρονες τάσεις στη περιοχή απαιτούν υψηλότερη έμφαση στην
εννοιολογική ανάλυση του περιεχομένου
<Μήνας> <Χρονιά> <Τίτλος εργασίας>
4
Σκοπός της διπλωματικής
Παραγωγή συστάσεων που βασίζεται στη σημασιολογική κατανόηση των
χαρακτηριστικών των αντικειμένων και των ενδιαφερόντων των χρηστών
Αξιοποίηση της πληροφορίας που προέρχεται από τις περιγραφές των
αντικειμένων του συστήματος και τα reviews των χρηστών
Mάρτιος 2018 Λουτρούκης Αναστάσιος
5. I. Σχεδιασμός και ανάπτυξη συστήματος συστάσεων με χρήση
σημασιολογικών μεθόδων
II. Τεχνικές επεξεργασίας φυσικής γλώσσας
III. Αλγόριθμοι σημασιολογικής ανάλυσης περιεχομένου
IV. Ανάλυση δεδομένων και μέθοδοι εξατομίκευσης περιεχομένου
<Μήνας> <Χρονιά> <Τίτλος εργασίας>
Γνώσεις που αποκτήθηκαν
5Mάρτιος 2018 Λουτρούκης Αναστάσιος
6. Bασίζεται στη Dirichlet κατανομή και τις ιδιότητες της
Unsupervised learning: Η επιλογή του αριθμού θεματικών προς
εκπαίδευση δε στηρίζεται σε κάποιο καθολικό ground truth
Latent Dirichlet Allocation (LDA)
6
Παραγωγικό στατιστικό μοντέλο για μία συλλογή διακριτών εγγράφων
Κεντρική ιδέα
I. Τα έγγραφα μίας συλλογής εγγράφων χαρακτηρίζονται από μία
κατανομή σε ένα σύνολο κρυμμένων - αφηρημένων θεματικών
II. Κάθε θεματική χαρακτηρίζεται από μία κατανομή στο σύνολο
των διακριτών λέξεων που απαρτίζουν τη συλλογή εγγράφων
Mάρτιος 2018 Λουτρούκης Αναστάσιος
7. Παραγωγική διαδικασία LDA
<Μήνας> <Χρονιά> <Τίτλος εργασίας>
Latent Dirichlet Allocation (LDA)
7
1. Για κάθε θεματική k, επιλογή κατανομής στο σύνολο των λέξεων φκ Dir(β)
2. Για κάθε έγγραφο d:
a. Επιλογή κατανομής στο σύνολο των θεματικών θd Dir(α)
b. Για κάθε λέξη i του εγγράφου:
i. Επιλογή ανάθεσης θεματικής zd,i Mult(θd), zd,i{1….K)
ii. Eπιλογή λέξης wd,i Mult(φzd,i
), wd,i{1….N}
Mάρτιος 2018 Λουτρούκης Αναστάσιος
8. Απαιτούνται κατάλληλοι αλγόριθμοι μηχανικής μάθησης για την εκμάθηση των
παραμέτρων
Χρήση αλγορίθμων Markov Chain Monte Carlo για τη προσέγγιση του μοντέλου (Gibbs
sampling)
Το τελικό στατιστικό μοντέλο παράγει:
Latent Dirichlet Allocation (LDA)
8
Πιθανοτική κατανομή εγγράφων στο σύνολο των
θεματικών
Topic 1 Topic 2 Topic 3 Topic 4
Document 1 θd=1 0.5 0.1 0.3 0.1
Document 2 θd=2 0.0 0.85 0.1 0.05
Document 3 θd=3 0.02 0.48 0.25 0.25
Πιθανοτική κατανομή θεματικών στο σύνολο των
λέξεων
Term 1 Term 2 Term 3 Term 4
Topic 1 φk=1 0.1 0.2 0.0 0.7
Topic 2 φk=2 0.2 0.2 0.2 0.4
Topic 3 Φk=3 0.01 0.39 0.25 0.15
Mάρτιος 2018 Λουτρούκης Αναστάσιος
9. Κάθε έγγραφο αναπαρίσταται ως το σύνολο των διακριτών λέξεων που
το απαρτίζουν
Αγνοούνται κανόνες γραμματικής, σύνταξης και διάταξης των λέξεων
Οργάνωση των εγγράφων σε δομημένη μορφή κειμένου
<Μήνας> <Χρονιά> <Τίτλος εργασίας>
Μοντέλο bag of words
9
Μη δομημένη μορφή κειμένου
D1=”I hate databases”
D2=”I like databases”
Δομημένη μορφή κειμένου
Μοντέλο πίνακα Εγγράφων-Όρων
I like hate databases
D1 1 0 1 1
D2 1 1 0 1
Mάρτιος 2018 Λουτρούκης Αναστάσιος
10. Μοvielens datasets: Συλλογή χαρακτηριστικών για 8645 διακριτές ταινίες και 655.000
διακριτών reviews χρήστη αναφορικά με τις ταινίες
Τυπική αναπαράσταση ταινίας: Το σύνολο των χαρακτηριστικών κατηγορίας και reviews
χρηστών
Σετ δεδομένων
10
Ενδεικτικά χαρακτηριστικά ταινιών
Movie Id Movie Title Genres
912 Casablanca (1942) Drama|Romance
63082 Slumdog Millionaire (2008) Crime|Drama|Romance
96079 Skyfall (2012) Action|Adventure|Thriller|IMAX
Ενδεικτικά reviews χρηστών
User ID Movie ID Tag
988 912 start of a beautiful friendship
147611 912 Film Noir
134188 63082 India
179262 63082 social commentary
37762 96079 James Bond
88969 96079 secret agent
Mάρτιος 2018 Λουτρούκης Αναστάσιος
11. Τυπικό workflow στη διαδικασία επεξεργασίας φυσικής γλώσσας
<Μήνας> <Χρονιά> <Τίτλος εργασίας>
Προεπεξεργασία δεδομένων
11
Απαραίτητη η μετατροπή του συνόλου των περιγραφών των ταινιών από
μη δομημένη σε δομημένη μορφή κειμένου κατάλληλη για περαιτέρω
επεξεργασία
Mάρτιος 2018 Λουτρούκης Αναστάσιος
12. Μετατροπή σε πεζούς χαρακτήρες
Αφαίρεση σημείων στίξης
Αφαίρεση αριθμητικών χαρακτήρων
Αφαίρεση βασικών stopwords
Αφαίρεση πρόσθετων χαρακτήρων κενού
Αποκοπή καταλήξεων (stemming)
Αφαίρεση πρόσθετων stopwords
Μετατροπή σε δομημένη μορφή κειμένου
Τελική αναπαράσταση ταινιών
<Μήνας> <Χρονιά> <Τίτλος εργασίας>
Προεπεξεργασία δεδομένων
12
Βασική διαδικασία προεπεξεργασίας
στα δεδομένα των ταινιών
Slumdog Millionaire
Mάρτιος 2018 Λουτρούκης Αναστάσιος
13. Εκπαίδευση με τη μέθοδο LDA() του πακέτου topicmodels της γλώσσας
προγραμματισμού R
Προσδιορισμός θεματικού άξονα κάθε θεματικής με βάση τους κυρίαρχους
όρους (labelling)
Εξαγωγή για κάθε θεματική σε πρώτο επίπεδο των 100 πιο
αντιπροσωπευτικών ταινιών με βάση τη πιθανοτική αναπαράσταση
Επιλογή για κάθε θεματική σε δεύτερο επίπεδο μίας λίστας 20 ταινιών με
κριτήριο το πλήθος των reviews που διαθέτει μια ταινία (πόσο δημοφιλής
είναι μία ταινία)
Κάθε θεματική αντιπροσωπεύεται από ένα μικρό πλήθος ταινιών που
σχετίζεται έντονα με το περιεχόμενο της και χαρακτηρίζεται από υψηλή
ποιότητα
Εκπαίδευση
13Mάρτιος 2018 Λουτρούκης Αναστάσιος
14. Σύγχυση (perplexity)
Εκφράζει τη δυνατότητα γενίκευσης – προσαρμογής του εκπαιδευμένου
μοντέλου σε νέα άγνωστα δείγματα
Χαμηλότερη τιμή ισοδυναμεί με καλύτερη πιθανοτική αναπαράσταση του
μοντέλου
Έλεγχος: 5-fold cross validation στα δεδομένα ελέγχου
Υλοποίηση: Mέθοδος perplexity() του πακέτου topicmodels της γλώσσας
προγραμματισμού R
Επιλογή αριθμού θεματικών προς εκπαίδευση
14Mάρτιος 2018 Λουτρούκης Αναστάσιος
15. Προσεγγιστικό διάγραμμα μετρικής perplexity βάσει του αριθμού
θεματικών με χρήση 5-fold cross validation
Επιλογή αριθμού θεματικών προς εκπαίδευση
15Mάρτιος 2018 Λουτρούκης Αναστάσιος
16. Πακέτο ldatuning στη γλώσσα προγραμματισμού R
Συνδυασμός πολλαπλών μετρικών της βιβλιογραφίας και γρήγορος
τρόπος αξιολόγησης
Επιλογή αριθμού θεματικών προς εκπαίδευση
16
Μετρικές
Juan Cao ArunGriffiths
Μεγιστοποίηση Ελαχιστοποίηση Ελαχιστοποίηση
Xρήση μετρικών
πυκνότητας για την
εύρεση του βέλτιστου
αριθμού θεματικών βάσει
των αποστάσεων μεταξύ
των εξαγόμενων
θεματικών
Υπολογισμός του αρμονικού
μέσου της λογαριθμικής
πιθανοφάνειας των δεδομένων
εκπαίδευσης με βάση ένα
σύνολο πέντε δειγμάτων που
εξάγονται με τη μέθοδο Gibbs
sampling
Χρήση τεχνικών
παραγοντοποίησης πινάκων
στην αρχική συλλογή
εγγράφων και αξιολόγηση
της ποιότητας του
διαχωρισμού σε όρους
συμμετρικής KL-απόκκλισης
Mάρτιος 2018 Λουτρούκης Αναστάσιος
17. Επιλογή αριθμού θεματικών με βάση το πακέτο ldatuning
Επιλογή αριθμού θεματικών προς εκπαίδευση
17Mάρτιος 2018 Λουτρούκης Αναστάσιος
18. Παράδειγμα 150 θεματικές
DISNEY-PIXAR-
ANIMATION
anim
disney
pixar
talk
children
adventur
funni
cute
comput
cartoon
MOVIE LIST
“Tangled (2010)” “Ice Age (2002)”
“Shrek 2 (2004)” “Toy Story 3 (2010)”
“Aladdin (1992)” “Beauty and The Beast (1991)”
“Toy Story 2 (1999)” “Kung Fu Panda (2008)”
“How to Train Your Dragon (2010)” “Inside Out (2015)”
“Big Hero 6 (2014)” “Monsters Inc (2001)”
“The Lion King (1994)” “Ratatouille (2007)”
“The Incredibles (2004)” “Finding Nemo (2003)”
“Shrek (2001)” “Toy Story (1995)”
“Up (2009)” “WALL∙E (2008)”
Κατηγοριοποίηση ταινιών
18
Ταινίες θεματικήςLabelling θεματικής
Mάρτιος 2018 Λουτρούκης Αναστάσιος
19. Αναπαράσταση ενδιαφερόντων χρήστη με βάση τις διαθέσιμες λεκτικές
περιγραφές του
Τυπική προεπεξεργασία περιγραφών που αφορούν τα ενδιαφέροντα του
χρήστη
Τελική αναπαράσταση του χρήστη με ένα μοντέλο bag of words που
συνοψίζει τη κυρίαρχη περιοχή ενδιαφέροντος του
Μοντελοποίηση χρήστη
19
Χρήση μεθόδου posterior() του πακέτου topicmodels για πιθανοτική
αντιστοίχιση χρηστών στις εξαγόμενες θεματικές
Στόχος: Η εύρεση των θεματικών των προϊόντων που βρίσκονται
κοντινότερα στο μοντέλo bag of words που αναπαριστά το χρήστη και η
εξαγωγή των κυρίαρχων θεματικών
Mάρτιος 2018 Λουτρούκης Αναστάσιος
20. ETIKETEΣ ΘΕΜΑΤΙΚΩΝ
WORLD WAR
MARVEL-ROBERT DOWNEY JR
TRUE STORY-BIOGRAPHY
COMIC BOOK-SUPERHERO
BOOK ADAPTION-NOVEL
Μοντελοποίηση χρήστη
20
Ενδεικτικό wordcloud χρήστη Εξαγόμενες κατηγορίες ταινιών
Mάρτιος 2018 Λουτρούκης Αναστάσιος
21. Σε τι βαθμό οι ταινίες που προτείνονται με βάση τη θεματική
αναπαράσταση των χρηστών προσεγγίζουν τις πραγματικές επιλογές τους
Μετρικές αξιολόγησης
Αξιολόγηση μοντέλου
21Mάρτιος 2018 Λουτρούκης Αναστάσιος
𝑷𝒓𝒆𝒄𝒊𝒔𝒊𝒐𝒏 =
𝑵𝒖𝒎𝒃𝒆𝒓 𝒐𝒇 𝒓𝒆𝒍𝒆𝒗𝒂𝒏𝒕 𝒓𝒆𝒄𝒐𝒎𝒎𝒆𝒏𝒅𝒂𝒕𝒊𝒐𝒏𝒔
𝑵𝒖𝒎𝒃𝒆𝒓 𝒐𝒇 𝒕𝒐𝒕𝒂𝒍 𝒓𝒆𝒄𝒐𝒎𝒎𝒆𝒏𝒅𝒂𝒕𝒊𝒐𝒏𝒔
𝑹𝒆𝒄𝒂𝒍𝒍 =
𝑵𝒖𝒎𝒃𝒆𝒓 𝒐𝒇 𝒓𝒆𝒍𝒆𝒗𝒂𝒏𝒕 𝒓𝒆𝒄𝒐𝒎𝒎𝒆𝒏𝒅𝒂𝒕𝒊𝒐𝒏𝒔
𝑵𝒖𝒎𝒃𝒆𝒓 𝒐𝒇 𝒕𝒐𝒕𝒂𝒍 𝒓𝒆𝒍𝒆𝒗𝒂𝒏𝒕 𝒑𝒓𝒐𝒅𝒖𝒄𝒕𝒔
23. Εξαγωγή διακριτών κατηγοριών των αντικειμένων με κριτήριο το θεματικό
τους περιεχόμενο
Αποτελεσματική θεματική ομαδοποίηση των αντικειμένων
Εντοπισμός βασικής περιοχής ενδιαφέροντος κάθε χρήστη και θεματική του
ταξινόμηση
Αξιοποίηση πρόσθετων πληροφοριών σχετικά με τα αντικείμενα του
συστήματος:
Ύπαρξη στοιχείου υποκειμενικότητας στα reviews χρηστών
Απαιτούνται πρόσθετες περιγραφές από domain experts
Αξιοποίηση πρόσθετων πληροφοριών σχετικά με τους χρήστες:
Ιστορικό αγορών
Αξιολογήσεις προϊόντων
Συνδυασμός με άλλες μεθόδους (collaborative filtering)
<Μήνας> <Χρονιά> <Τίτλος εργασίας>
Συμπεράσματα – Ανοιχτά θέματα
23
Βελτιώσεις
Mάρτιος 2018 Λουτρούκης Αναστάσιος
24. Θα ήθελα να ευχαριστήσω τους επιβλέποντες της διπλωματικής μου
εργασίας Επίκουρο καθηγητή κ. Ανδρέα Συμεωνίδη και τον μεταδιδακτορικό
ερευνητή κ. Κωνσταντίνο Βαβλιάκη για τη βοήθεια και τη καθοδήγηση που
μου προσέφεραν
Ευχαριστίες
24Mάρτιος 2018 Λουτρούκης Αναστάσιος
Βασίζεται στη Dirichlet κατανομή.Mικρότερες της μονάδας ώστε να επιτευχθούν sparse
Οι αλγόριθμοι MCMC αντιμετωπίζουν το πρόβλημα απόκτησης δειγμάτων από σύνθετες κατανομές με χρήση στοχαστικών διαδικασιών. Σε μία γενική επισκόπηση, ο αλγόριθμος Gibbs sampling προσομοιώνει μία κατανομή υψηλής διάστασης λαμβάνοντας δείγματα από χαμηλότερης διάστασης υποσύνολα των μεταβλητών, όπου κάθε υποσύνολο λαμβάνεται δεδομένων (υπό συνθήκη πιθανότητα) των τιμών των υπόλοιπων υποσυνόλων [26].
αποκοπή των καταλήξεων και την αντιστοίχιση κάθε λέξης στη γλωσσική ή μορφολογική της ρίζα με σκοπό παρόμοιες μορφολογικά λέξεις να αντιστοιχίζονται στην . Για παράδειγμα, ένας αλγόριθμος stemming αναγνωρίζει ότι οι λέξεις “stems”,”stemmer”,”stemming”,”stemmed” προέρχονται από τη μορφολογική ρίζα “stem”.
Πηγή: https://en.wikipedia.org/wiki/Stemming
Sparse όροι:Σε 1 μόνο ταινία
3-14 χαρακτήρες δε παράγουν χρήσιμη πληροφορία
a=0.1 b=50/K 2000 iterations
Η συνάρτηση πιθανοφάνεια χρησιμοποιείται για τον υπολογισμό των παραμέτρων ενός στατιστικού μοντέλου με βάση τα τελικά αποτελέσματα-δεδομένα του μοντέλου.
Στο ΝLP 𝐿 𝑤 = log 𝑝 𝑤 𝛷,𝛼 = 𝑑=1 𝑀 𝑙𝑜𝑔 𝑝 𝑤 𝑑 𝛷,𝛼
Griffiths:Υπολογισμός του αρμονικού μέσου της λογαριθμικής πιθανοφάνειας των δεδομένων εκπαίδευσης του μοντέλου με βάση ένα σύνολο S δειγμάτων που εξάγονται μέσω της μεθόδου Gibbs sampling.
Juan Cao:Χρήση μετρικών πυκνότητας για την εύρεση του βέλτιστου αριθμού θεματικών βάσει των αποστάσεων μεταξύ των εξαγόμενων θεματικών. Οι αποστάσεις μεταξύ των θεματικών υπολογίζονται βάσει της μετρικής cosine similarity δεδομένης της κατανομής λέξεων ανά θεματική.
Αrun:Aντιμετώπιση του LDA ως μηχανισμό matrix factorization και διαχωρισμός της αρχικής συλλογής εγγράφων σε δύο πίνακες παραγόντων βάσει του αριθμού θεματικών, του πλήθους εγγράφων και του πλήθους των διακριτών λέξεων. Η ποιότητα του διαχωρισμού εξαρτάται από τον επιλεγμένο αριθμό θεματικών και υπολογίζεται σε όρους συμμετρικής KL-απόκκλισης των κατανομών που προκύπτουν από τους πίνακες παραγόντων.
Griffiths:Υπολογισμός του αρμονικού μέσου της λογαριθμικής πιθανοφάνειας των δεδομένων εκπαίδευσης του μοντέλου με βάση ένα σύνολο S δειγμάτων που εξάγονται μέσω της μεθόδου Gibbs sampling.
Juan Cao:Χρήση μετρικών πυκνότητας για την εύρεση του βέλτιστου αριθμού θεματικών βάσει των αποστάσεων μεταξύ των εξαγόμενων θεματικών. Οι αποστάσεις μεταξύ των θεματικών υπολογίζονται βάσει της μετρικής cosine similarity δεδομένης της κατανομής λέξεων ανά θεματική.
Αrun:Aντιμετώπιση του LDA ως μηχανισμό matrix factorization και διαχωρισμός της αρχικής συλλογής εγγράφων σε δύο πίνακες παραγόντων βάσει του αριθμού θεματικών, του πλήθους εγγράφων και του πλήθους των διακριτών λέξεων. Η ποιότητα του διαχωρισμού εξαρτάται από τον επιλεγμένο αριθμό θεματικών και υπολογίζεται σε όρους συμμετρικής KL-απόκκλισης των κατανομών που προκύπτουν από τους πίνακες παραγόντων.