Keyword-based software library recommendation in order to bootstrap software development

Πρόταση βιβλιοθηκών σχετικών με
λέξεις-κλειδιά για την εκκίνηση της
διαδικασίας ανάπτυξης λογισμικού
Διπλωματική εργασία
Εκπόνηση:
Δημήτριος Βαδικόλιας
ΑΕΜ : 7656
Επιβλέποντες:
Καθηγητής Ανδρέας Συμεωνίδης
Υπ. Διδάκτωρ Εμμανουήλ Κρασανάκης
Intelligent Systems & Software
Engineering Labgroup
Πολυτεχνική Σχολή
Τμήμα Ηλεκτρολόγων Μηχανικών και
Μηχανικών Υπολογιστών

Κίνητρο
Επιτάχυνση ανάπτυξης → πρόταση σχετικών βιβλιοθηκών
• κατά το αρχικό στάδιο της ανάπτυξης
• βάσει λέξεων-κλειδιών που περιγράφουν το λογισμικό

Βιβλιογραφία πρότασης βιβλιοθηκών
α) Βάσει ομοιότητας περιγραφών τους
(π.χ. αναζήτηση “XML” επιστρεφόμενη βιβλιοθήκη ‘Jackson XML’)
• αγνοεί πρότυπα κοινής χρήσης
β) Βάσει ήδη χρησιμοποιούμενων σε έργα
(π.χ. συλλογικό φιλτράρισμα, γράφοι εξαρτήσεων)
• αγνοεί λέξεις-κλειδιά
Από περιγραφές έργων;

Προτεινόμενη μεθοδολογία
Εξαγωγή λέξεων-κλειδιών από περιγραφές έργων λογισμικού
Κατασκευή γράφου συσχετίσεων βιβλιοθηκών με λέξεις κλειδιά.

Παράδειγμα αναλυόμενου γράφου
Έργο
λογισμικού
Βιβλιοθήκη
InDraw_Color_by
_Number_Pixel_A
rt
Google
GData
Selectable
Rounded
Image View
Firebase

Προτεινόμενη μεθοδολογία
Εξαγωγή λέξεων-κλειδιών από περιγραφές έργων λογισμικού
Κατασκευή γράφου συσχετίσεων βιβλιοθηκών με λέξεις κλειδιά.
Πρόταση βάσει σημασιολογικών συσχετίσεων και δημοτικότητας

Επιλογή καταλληλότερων βιβλιοθηκών
• Χρήση φίλτρων γράφου
(αναλύουν συσχετίσεις μεταξύ κόμβων για βαθμολόγηση του πόσο “κοντά” είναι όλοι οι κόμβοι
στο δοσμένο σύνολο από λέξεις-κλειδιά)
• Εφαρμογή προσωποποιημένου PageRank
(φίλτρο γράφων ισοδύναμο με τυχαίους περιπάτους με επανεκκίνηση)
𝑷𝑷𝑹 = 𝛼 ∙ 𝑃 ∙ 𝑷𝑷𝑹 + (1 − 𝑎) ∙ 𝒑𝒆𝒓𝒔𝒐𝒏𝒂𝒍𝒊𝒛𝒂𝒕𝒊𝒐𝒏_𝒗𝒆𝒄𝒕𝒐𝒓

Παραλλαγές του αλγορίθμου
• Διαφορετικός συντελεστής απόσβεσης
• Συμμετρική κανονικοποίηση του πίνακα μεταβάσεων
• Επανακανονικοποίηση
𝑃 = 𝐷−1/2𝐴𝐷−1/2
𝑃 = 𝐴𝐷−1
𝑎 = 0.85, 𝑎 = 0.5
𝐴 = 𝐴 + 𝐼𝑁
(έλεγχος απομάκρυνσης από κόμβους προσωποποίησης)
(μείωση επίδρασης υπερβολικά δημοφιλών κόμβων)
(αριθμητική ευστάθεια συμμετρικής κανονικοποίησης)

Παραλλαγές του αλγορίθμου(2)
• Διαδικασία sweep
• Χρήση σταθμισμένου γράφου
• Παράλειψη κόμβων έργων
𝑃𝑃𝑅𝑆𝑊𝐸𝐸𝑃 𝑣 = 𝑃𝑃𝑅 𝑣 /𝑃𝑅[𝑣]
𝑃 = 𝑊𝐷𝑤
−1
(κατανομή σκορ ανάλογα με το είδος των κόμβων)
(μεγαλύτερη διάχυση της πληροφορίας)
(μείωση επίδρασης υπερβολικά δημοφιλών κόμβων)

Πειράματα
Έργο λογισμικού Χρησιμοποιούμενες βιβλιοθήκες
[keywords]
Σύστημα
πρότασης
βιβλιοθηκών
Προτεινόμενες
βιβλιοθήκες
Μορφή δεδομένων: Έργο λογισμικού Χρησιμοποιούμενες βιβλιοθήκες
Διαχωρισμός συνόλου δεδομένων σε:
• Δεδομένα εκπαίδευσης (90% έργων)
Εξαγωγή keywords, libraries, κτλ Κατασκευή γράφου
• Δεδομένα ελέγχου (10% έργων)
Σύγκριση

Σύνολα δεδομένων
Γράφος Έργα λογισμικού Εξαρτήσεις Κόμβοι Ακμές
Maven
MALib 7,2 ∙ 105
6,1 ∙ 104 1,9 ∙ 106
1,2 ∙ 105
4,8 ∙ 106
3,1 ∙ 105
9,0 ∙ 106
2,8 ∙ 106

Αποτελέσματα
Μέθοδος AUC MR MP MF1 HR Coverage
PPR85 0.96 0.20 0.31 0.24 0.88 0.11
PPR50 0.96 0.26 0.41 0.32 0.95 0.19
SymRenorm 0.95 0.07 0.11 0.09 0.45 0.12
Cos 0.68 0.08 0.12 0.10 0.56 0.13
Μέθοδος AUC MR MP MF1 HR Coverage
PPR85 0.97 0.39 0.59 0.47 0.88 0.17
PPR50 0.97 0.44 0.67 0.53 0.88 0.27
SymRenorm 0.91 0.19 0.30 0.23 0.61 0.88
Cos 0.52 0.01 0.02 0.02 0.14 0.35
Maven
MALib
Επιλεγμένες – καλύτερες μέθοδοι
Μη σταθμισμένος γράφος,
περιλαμβάνει κόμβους τύπου Project
Χωρίς χρήση γράφου

Χρόνοι εκτέλεσης
Maven MALib
Μέθοδος 1 Επανάληψη Εκτέλεση 1 Επανάληψη Εκτέλεση
PPR.85 60ms 1.20 sec
4.8 x 10
6
ακμές
20ms 0.4sec
1.9 x 10
6
ακμές
Cos - 0.12 sec - 0.01sec
CF GNNs >5 ώρες
Σε παρόμοιου μεγέθους συστήματα
σχεδόν γραμμικό

Εργαλείο γραμμής εντολών
Αναζήτηση βιβλιοθηκών με βάση τις λέξεις-κλειδιά “photo filters”
Αποτελέσματα αναζήτησης

Αναζήτησης «photo filters» στο MALib
SymRenorm
PPR50 CosSim

Μελλοντική εργασία
• Εξαγωγή λέξεων-κλειδιών από πληρέστερη περιγραφή
• Cache αποτελέσματα του PageRank λόγω γραμμικότητας
• Εφαρμογή μεθόδων σε γράφους συσχετίσεων άλλων οντοτήτων με
λέξεις-κλειδιά

Ευχαριστώ για την προσοχή σας
Ερωτήσεις;

Keyword-based software library recommendation in order to bootstrap software development

Recomendados

Recomendados

Más contenido relacionado

Similar a Keyword-based software library recommendation in order to bootstrap software development

Similar a Keyword-based software library recommendation in order to bootstrap software development (20)

Más de ISSEL

Más de ISSEL (20)

Keyword-based software library recommendation in order to bootstrap software development