Loutroukis Anastasios

ΑΝΑΠΤΥΞΗ ΤΕΧΝΙΚΩΝ ΕΞΑΤΟΜΙΚΕΥΣΗΣ ΗΛΕΚΤΡΟΝΙΚΟΥ
ΚΑΤΑΣΤΗΜΑΤΟΣ ΜΕ ΧΡΗΣΗ ΠΡΟΤΥΠΩΝ ΠΛΟΗΓΗΣΗΣ ΚΑΙ
ΣΗΜΑΣΙΟΛΟΓΙΚΩΝ ΜΕΘΟΔΩΝ
Λουτρούκης Αναστάσιος
AEM 7914
Επιβλέποντες:
Επίκουρος Καθηγητής κ. Συμεωνίδης Ανδρέας
Μεταδιδακτορικός ερευνητής κ. Βαβλιάκης Κωνσταντίνος
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ
ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ
ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ & ΥΠΟΛΟΓΙΣΤΩΝ
ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΠΛΗΡΟΦΟΡΙΩΝ ΚΑΙ ΥΠΟΛΟΓΙΣΜΩΝ

 Ψηφιοποίηση των αγορών και επικράτηση του ηλεκτρονικού εμπορίου
ως κυρίαρχο μέσο πραγμάτωσης εμπορικών συναλλαγών
 Ιδιαίτερα υψηλός όγκος προσφερόμενων προϊόντων προς τους
καταναλωτές
 Αναγκαία η ανάπτυξη κατάλληλων μηχανισμών εξατομίκευσης του
διαθέσιμου περιεχομένου
Συστήματα συστάσεων
2
Εισαγωγή
Βασίζονται στην ανάλυση των προτύπων προτιμήσεων των χρηστών σε προϊόντα
με σκοπό τη πρόβλεψη ενδεχομένων προτιμήσεων σε νέα προϊόντα και τη
παραγωγή εξατομικευμένων προτάσεων για κάθε χρήστη που ικανοποιούν τις
ιδιαίτερες ανάγκες του
Mάρτιος 2018 Λουτρούκης Αναστάσιος

Γιατί είναι σημαντικά τα συστήματα συστάσεων σήμερα;
I. Ευρεία χρήση σε όλους τους κλάδους των διαδικτυακών εφαρμογών
(ενημέρωση, ψυχαγωγία, μέσα κοινωνικής δικτύωσης κλπ.)
II. Η επιτυχία των διαδικτυακών παρόχων υπηρεσιών και προϊόντων είναι άμεσα
συνυφασμένη με την αποτελεσματικότητα των συστημάτων συστάσεων
Πλατφόρμα
Ποσοστό πωλήσεων/χρήσης που προέρχεται
από συστάσεις προϊόντων
Netflix
2/3 ενοικιάσεις ταινιών προέρχονται από τη χρήση
συστάσεων
Amazon
Το 35% των συνολικών πωλήσεων στον ιστόχωρο της
amazon οφείλεται στη χρήση συστάσεων
Google News
Aύξηση κατά 38% της επισκεψιμότητας σε σελίδες
ειδήσεων λόγω χρήσης συστάσεων
Εισαγωγή
3Mάρτιος 2018 Λουτρούκης Αναστάσιος

1. Οι υπάρχουσες προτάσεις στη βιβλιογραφία χαρακτηρίζονται από
έλλειψη σημασιολογικής κατανόησης των παρεχόμενων συστάσεων
2. Εστίαση κατά βάση στην ανάλυση των προτύπων βαθμολόγησης των
χρηστών στα αντικείμενα του συστήματος (collaborative filtering)
3. Οι σύγχρονες τάσεις στη περιοχή απαιτούν υψηλότερη έμφαση στην
εννοιολογική ανάλυση του περιεχομένου
<Μήνας> <Χρονιά> <Τίτλος εργασίας>
4
Σκοπός της διπλωματικής
 Παραγωγή συστάσεων που βασίζεται στη σημασιολογική κατανόηση των
χαρακτηριστικών των αντικειμένων και των ενδιαφερόντων των χρηστών
 Αξιοποίηση της πληροφορίας που προέρχεται από τις περιγραφές των
αντικειμένων του συστήματος και τα reviews των χρηστών

I. Σχεδιασμός και ανάπτυξη συστήματος συστάσεων με χρήση
σημασιολογικών μεθόδων
II. Τεχνικές επεξεργασίας φυσικής γλώσσας
III. Αλγόριθμοι σημασιολογικής ανάλυσης περιεχομένου
IV. Ανάλυση δεδομένων και μέθοδοι εξατομίκευσης περιεχομένου
Γνώσεις που αποκτήθηκαν

 Bασίζεται στη Dirichlet κατανομή και τις ιδιότητες της
 Unsupervised learning: Η επιλογή του αριθμού θεματικών προς
εκπαίδευση δε στηρίζεται σε κάποιο καθολικό ground truth
Latent Dirichlet Allocation (LDA)
6
Παραγωγικό στατιστικό μοντέλο για μία συλλογή διακριτών εγγράφων
Κεντρική ιδέα
I. Τα έγγραφα μίας συλλογής εγγράφων χαρακτηρίζονται από μία
κατανομή σε ένα σύνολο κρυμμένων - αφηρημένων θεματικών
II. Κάθε θεματική χαρακτηρίζεται από μία κατανομή στο σύνολο
των διακριτών λέξεων που απαρτίζουν τη συλλογή εγγράφων

Παραγωγική διαδικασία LDA
7
1. Για κάθε θεματική k, επιλογή κατανομής στο σύνολο των λέξεων φκ Dir(β)
2. Για κάθε έγγραφο d:
a. Επιλογή κατανομής στο σύνολο των θεματικών θd Dir(α)
b. Για κάθε λέξη i του εγγράφου:
i. Επιλογή ανάθεσης θεματικής zd,i Mult(θd), zd,i{1….K)
ii. Eπιλογή λέξης wd,i Mult(φzd,i
), wd,i{1….N}

 Απαιτούνται κατάλληλοι αλγόριθμοι μηχανικής μάθησης για την εκμάθηση των
παραμέτρων
 Χρήση αλγορίθμων Markov Chain Monte Carlo για τη προσέγγιση του μοντέλου (Gibbs
sampling)
Το τελικό στατιστικό μοντέλο παράγει:
8
Πιθανοτική κατανομή εγγράφων στο σύνολο των
θεματικών
Topic 1 Topic 2 Topic 3 Topic 4
Document 1 θd=1 0.5 0.1 0.3 0.1
Document 2 θd=2 0.0 0.85 0.1 0.05
Document 3 θd=3 0.02 0.48 0.25 0.25
Πιθανοτική κατανομή θεματικών στο σύνολο των
λέξεων
Term 1 Term 2 Term 3 Term 4
Topic 1 φk=1 0.1 0.2 0.0 0.7
Topic 2 φk=2 0.2 0.2 0.2 0.4
Topic 3 Φk=3 0.01 0.39 0.25 0.15

 Κάθε έγγραφο αναπαρίσταται ως το σύνολο των διακριτών λέξεων που
το απαρτίζουν
 Αγνοούνται κανόνες γραμματικής, σύνταξης και διάταξης των λέξεων
 Οργάνωση των εγγράφων σε δομημένη μορφή κειμένου
Μοντέλο bag of words
9
Μη δομημένη μορφή κειμένου
D1=”I hate databases”
D2=”I like databases”
Δομημένη μορφή κειμένου
Μοντέλο πίνακα Εγγράφων-Όρων
I like hate databases
D1 1 0 1 1
D2 1 1 0 1

 Μοvielens datasets: Συλλογή χαρακτηριστικών για 8645 διακριτές ταινίες και 655.000
διακριτών reviews χρήστη αναφορικά με τις ταινίες
 Τυπική αναπαράσταση ταινίας: Το σύνολο των χαρακτηριστικών κατηγορίας και reviews
χρηστών
Σετ δεδομένων
10
Ενδεικτικά χαρακτηριστικά ταινιών
Movie Id Movie Title Genres
912 Casablanca (1942) Drama|Romance
63082 Slumdog Millionaire (2008) Crime|Drama|Romance
96079 Skyfall (2012) Action|Adventure|Thriller|IMAX
Ενδεικτικά reviews χρηστών
User ID Movie ID Tag
988 912 start of a beautiful friendship
147611 912 Film Noir
134188 63082 India
179262 63082 social commentary
37762 96079 James Bond
88969 96079 secret agent

Τυπικό workflow στη διαδικασία επεξεργασίας φυσικής γλώσσας
Προεπεξεργασία δεδομένων
11
Απαραίτητη η μετατροπή του συνόλου των περιγραφών των ταινιών από
μη δομημένη σε δομημένη μορφή κειμένου κατάλληλη για περαιτέρω
επεξεργασία

 Μετατροπή σε πεζούς χαρακτήρες
 Αφαίρεση σημείων στίξης
 Αφαίρεση αριθμητικών χαρακτήρων
 Αφαίρεση βασικών stopwords
 Αφαίρεση πρόσθετων χαρακτήρων κενού
 Αποκοπή καταλήξεων (stemming)
 Αφαίρεση πρόσθετων stopwords
 Μετατροπή σε δομημένη μορφή κειμένου
Τελική αναπαράσταση ταινιών
Προεπεξεργασία δεδομένων
12
Βασική διαδικασία προεπεξεργασίας
στα δεδομένα των ταινιών
Slumdog Millionaire

 Εκπαίδευση με τη μέθοδο LDA() του πακέτου topicmodels της γλώσσας
προγραμματισμού R
 Προσδιορισμός θεματικού άξονα κάθε θεματικής με βάση τους κυρίαρχους
όρους (labelling)
 Εξαγωγή για κάθε θεματική σε πρώτο επίπεδο των 100 πιο
αντιπροσωπευτικών ταινιών με βάση τη πιθανοτική αναπαράσταση
 Επιλογή για κάθε θεματική σε δεύτερο επίπεδο μίας λίστας 20 ταινιών με
κριτήριο το πλήθος των reviews που διαθέτει μια ταινία (πόσο δημοφιλής
είναι μία ταινία)
 Κάθε θεματική αντιπροσωπεύεται από ένα μικρό πλήθος ταινιών που
σχετίζεται έντονα με το περιεχόμενο της και χαρακτηρίζεται από υψηλή
ποιότητα
Εκπαίδευση

Σύγχυση (perplexity)
 Εκφράζει τη δυνατότητα γενίκευσης – προσαρμογής του εκπαιδευμένου
μοντέλου σε νέα άγνωστα δείγματα
 Χαμηλότερη τιμή ισοδυναμεί με καλύτερη πιθανοτική αναπαράσταση του
μοντέλου
 Έλεγχος: 5-fold cross validation στα δεδομένα ελέγχου
 Υλοποίηση: Mέθοδος perplexity() του πακέτου topicmodels της γλώσσας
προγραμματισμού R
Επιλογή αριθμού θεματικών προς εκπαίδευση

Προσεγγιστικό διάγραμμα μετρικής perplexity βάσει του αριθμού
θεματικών με χρήση 5-fold cross validation

Πακέτο ldatuning στη γλώσσα προγραμματισμού R
 Συνδυασμός πολλαπλών μετρικών της βιβλιογραφίας και γρήγορος
τρόπος αξιολόγησης
16
Μετρικές
Juan Cao ArunGriffiths
Μεγιστοποίηση Ελαχιστοποίηση Ελαχιστοποίηση
Xρήση μετρικών
πυκνότητας για την
εύρεση του βέλτιστου
αριθμού θεματικών βάσει
των αποστάσεων μεταξύ
των εξαγόμενων
θεματικών
Υπολογισμός του αρμονικού
μέσου της λογαριθμικής
πιθανοφάνειας των δεδομένων
εκπαίδευσης με βάση ένα
σύνολο πέντε δειγμάτων που
εξάγονται με τη μέθοδο Gibbs
sampling
Χρήση τεχνικών
παραγοντοποίησης πινάκων
στην αρχική συλλογή
εγγράφων και αξιολόγηση
της ποιότητας του
διαχωρισμού σε όρους
συμμετρικής KL-απόκκλισης

Επιλογή αριθμού θεματικών με βάση το πακέτο ldatuning

Παράδειγμα 150 θεματικές
DISNEY-PIXAR-
ANIMATION
anim
disney
pixar
talk
children
adventur
funni
cute
comput
cartoon
MOVIE LIST
“Tangled (2010)” “Ice Age (2002)”
“Shrek 2 (2004)” “Toy Story 3 (2010)”
“Aladdin (1992)” “Beauty and The Beast (1991)”
“Toy Story 2 (1999)” “Kung Fu Panda (2008)”
“How to Train Your Dragon (2010)” “Inside Out (2015)”
“Big Hero 6 (2014)” “Monsters Inc (2001)”
“The Lion King (1994)” “Ratatouille (2007)”
“The Incredibles (2004)” “Finding Nemo (2003)”
“Shrek (2001)” “Toy Story (1995)”
“Up (2009)” “WALL∙E (2008)”
Κατηγοριοποίηση ταινιών
18
Ταινίες θεματικήςLabelling θεματικής

 Αναπαράσταση ενδιαφερόντων χρήστη με βάση τις διαθέσιμες λεκτικές
περιγραφές του
 Τυπική προεπεξεργασία περιγραφών που αφορούν τα ενδιαφέροντα του
χρήστη
 Τελική αναπαράσταση του χρήστη με ένα μοντέλο bag of words που
συνοψίζει τη κυρίαρχη περιοχή ενδιαφέροντος του
Μοντελοποίηση χρήστη
19
 Χρήση μεθόδου posterior() του πακέτου topicmodels για πιθανοτική
αντιστοίχιση χρηστών στις εξαγόμενες θεματικές
 Στόχος: Η εύρεση των θεματικών των προϊόντων που βρίσκονται
κοντινότερα στο μοντέλo bag of words που αναπαριστά το χρήστη και η
εξαγωγή των κυρίαρχων θεματικών

ETIKETEΣ ΘΕΜΑΤΙΚΩΝ
WORLD WAR
MARVEL-ROBERT DOWNEY JR
TRUE STORY-BIOGRAPHY
COMIC BOOK-SUPERHERO
BOOK ADAPTION-NOVEL
Μοντελοποίηση χρήστη
20
Ενδεικτικό wordcloud χρήστη Εξαγόμενες κατηγορίες ταινιών

 Σε τι βαθμό οι ταινίες που προτείνονται με βάση τη θεματική
αναπαράσταση των χρηστών προσεγγίζουν τις πραγματικές επιλογές τους
Μετρικές αξιολόγησης
Αξιολόγηση μοντέλου
𝑷𝒓𝒆𝒄𝒊𝒔𝒊𝒐𝒏 =
𝑵𝒖𝒎𝒃𝒆𝒓 𝒐𝒇 𝒓𝒆𝒍𝒆𝒗𝒂𝒏𝒕 𝒓𝒆𝒄𝒐𝒎𝒎𝒆𝒏𝒅𝒂𝒕𝒊𝒐𝒏𝒔
𝑵𝒖𝒎𝒃𝒆𝒓 𝒐𝒇 𝒕𝒐𝒕𝒂𝒍 𝒓𝒆𝒄𝒐𝒎𝒎𝒆𝒏𝒅𝒂𝒕𝒊𝒐𝒏𝒔
𝑹𝒆𝒄𝒂𝒍𝒍 =
𝑵𝒖𝒎𝒃𝒆𝒓 𝒐𝒇 𝒓𝒆𝒍𝒆𝒗𝒂𝒏𝒕 𝒓𝒆𝒄𝒐𝒎𝒎𝒆𝒏𝒅𝒂𝒕𝒊𝒐𝒏𝒔
𝑵𝒖𝒎𝒃𝒆𝒓 𝒐𝒇 𝒕𝒐𝒕𝒂𝒍 𝒓𝒆𝒍𝒆𝒗𝒂𝒏𝒕 𝒑𝒓𝒐𝒅𝒖𝒄𝒕𝒔

Aποτελέσματα
Αριθμός θεματικών Recall Precision
100 23,17% 10,16%
125 23,36% 10,19%
150 23,66% 10,36%
175 23,56% 10,24%
200 23,9% 10,41%
Αριθμός θεματικών Recall Precision
100 33,61% 7,9%
125 33,96% 7,97%
150 34,62% 8,16%
175 34,45% 8,08%
200 35,1% 8,25%
Αξιολόγηση μοντέλου
22
10 θεματικές ανά χρήστη
5 θεματικές ανά χρήστη

 Εξαγωγή διακριτών κατηγοριών των αντικειμένων με κριτήριο το θεματικό
τους περιεχόμενο
 Αποτελεσματική θεματική ομαδοποίηση των αντικειμένων
 Εντοπισμός βασικής περιοχής ενδιαφέροντος κάθε χρήστη και θεματική του
ταξινόμηση
 Αξιοποίηση πρόσθετων πληροφοριών σχετικά με τα αντικείμενα του
συστήματος:
 Ύπαρξη στοιχείου υποκειμενικότητας στα reviews χρηστών
 Απαιτούνται πρόσθετες περιγραφές από domain experts
 Αξιοποίηση πρόσθετων πληροφοριών σχετικά με τους χρήστες:
 Ιστορικό αγορών
 Αξιολογήσεις προϊόντων
 Συνδυασμός με άλλες μεθόδους (collaborative filtering)
Συμπεράσματα – Ανοιχτά θέματα
23
Βελτιώσεις

Θα ήθελα να ευχαριστήσω τους επιβλέποντες της διπλωματικής μου
εργασίας Επίκουρο καθηγητή κ. Ανδρέα Συμεωνίδη και τον μεταδιδακτορικό
ερευνητή κ. Κωνσταντίνο Βαβλιάκη για τη βοήθεια και τη καθοδήγηση που
μου προσέφεραν
Ευχαριστίες

25
Ευχαριστώ για τη προσοχή σας

Loutroukis Anastasios

Recommended

Recommended

More Related Content

Similar to Loutroukis Anastasios

Similar to Loutroukis Anastasios (20)

More from ISSEL

More from ISSEL (20)

Recently uploaded

Recently uploaded (14)

Loutroukis Anastasios

Editor's Notes