SlideShare una empresa de Scribd logo
1 de 17
Αυτόματη Εξαγωγή Ειδήσεων
από Δεδομένα Κοινωνικών
Δικτύων
ΧΑΤΖΗΠΕΤΡΟΥ ΕΛΕΥΘΕΡΙΟΣ (ΑΕΜ: 7286)
ΕΠΙΒΛ: ΠΕΡΙΚΛΗΣ Α. ΜΗΤΚΑΣ
Τι είναι το twitter;
Δημοφιλές κοινωνικό δίκτυο
• ~340M tweet (μηνύματα) Μ.Ο. ανά ημέρα (2012)
• 274M ενεργοί χρήστες (Ιούλιος 2014)
Μήκος tweet έως 140 χαρακτήρες
Πλεονεκτήματα σε σχέση με παραδοσιακά μέσα ενημέρωσης
• Γρηγορότερη διάδοση ειδήσεων
• Παρουσίαση από διάφορες οπτικές γωνίες
• Σύνδεσμοι και σε παραδοσιακά μέσα
Πρόσβαση σε tweets μέσω
• Twitter REST API
• Streaming API
Εμπόδια εκμετάλλευσης δεδομένων
twitter
Μεγάλος όγκος δεδομένων
Αποσπασματικός χαρακτήρας
• Μικρό μέγεθος
• Πολλές ανομοιογενείς πηγές
Θόρυβος
• Κοινωνική βαβούρα
• Spam
[www.pearanalytics.com]
Προτεινόμενο Συστήμα
Στόχος: Εξάγουμε ειδήσεις από σύνολα tweet και τις παρουσιάζουμε με ευκολονόητο
τρόπο στον χρήστη
Φίλτρα
Κρατάμε tweet που
◦ Είναι σε υποστηριζόμενη γλώσσα
◦ Δεν είναι retweet (προαιρετικά)
◦ Είναι μεγαλύτερο από 5 λέξεις και 20 χαρακτήρες
◦ Έχει λιγότερα από 4 hashtags και 4 urls
◦ Δεν έχει mentions (προαιρετικά)
◦ Έχει ουσιαστικό ακολουθούμενο από ρήμα
Προεπεξεργασία
Part-of-speech tagger
◦ Χρήση για τελευταία συνθήκη φίλτρου
◦ Αυτόματη εξαγωγή κυρίων ονομάτων
Προαιρετική επέκταση ερωτήματος
◦ Εξαγωγή υποψηφίων keywords με Rapid Automatic Keyword Extraction (RAKE)
◦ Αγνόηση αυτών που περιέχουν επιρρήματα, επίθετα και ρήματα
◦ Επιλογή αυτών που ξεπερνούν κάποια συχνότητα εμφάνισης
◦ Εξάλειψη unigrams που εμφανίζονται σε digrams, trigrams κλπ
◦ Το επεκταμένο ερώτημα = σύζευξη των επιλεγμένων keywords
◦ Αποτ: korea -> north korea OR south korea OR kim jong OR north korean
leader kim Jong
[S. Rose et al., Text Mining: Theory and Applications. 2010]
[http://www.nltk.org/book/ch05.html]
Σετ δεδομένων
Χρονική κατάτμηση
Δημιουργία ιστογράμματος όγκου tweets
Δημιουργία κρίσιμης καμπύλης από ιστόγραμμα μέσω φίλτρου βασισμένο σε κινούμενη
διάμεσο
◦ Αντί για διάμεσο, μέσο όρο σε 0.45 – 0.55 percentiles
◦ filter_length/2 δείγματα πριν και filter_length/2 μετά
◦ Συνυπολογισμός διαφορών επόμενων δειγμάτων
◦ Συνυπολογισμός πλάτους «κυμάτωσης»
Δημιουργία χρονικών περιοχών
◦ min_points συνεχόμενα σημεία πάνω από κρίσιμη καμπύλη
◦ περιοχή υψηλής κίνησης
◦ Οι ενδιάμεσες περιοχές
◦ περιοχές χαμηλής κίνησης
Χρονική κατάτμηση (αποτελέσματα)
Λεξικογραφική ομαδοποίηση
Κατασκευή bag-of-words
◦ Λεξικό από stemmed όρους
◦ Στάθμισμη με tf-idf
◦ Ενίσχυση βαρών κυρίων ονομάτων (πολλαπλασιασμός με b)
◦ Κανονικοποίηση
Χρήση αλγορίθμου density-based spatial clustering of applications with noise (DBSCAN) σε κάθε
χρονική περιοχή
◦ Cosine distance μεταξύ bag-of-words ως απόσταση
◦ Παράμετρος eps, μέγιστη απόσταση γειτονικών σημείων
◦ Παράμετρος minPts, ελάχιστο μέγεθος μη θορυβικής γειτονιάς
◦ Τετραγωνική πολυπλοκότητα
[Martin Ester et al. 1996]
Δειγματοληψία
Τυχαία επιλογή time_segment_limit tweet από κάθε χρονική περιοχή
◦ Ορισμός άνω φράγματος χρόνου εκτέλεσης
◦ Κανονικοποίηση παραμέτρων DBSCAN
◦ Κανονικοποίηση μεγέθους παραγόμενων ομάδων
Εικόνα:
◦ 70K max ανά χρονική περιοχή
◦ 5 χρονικές περιοχές
◦ 2 υψηλής, 3 χαμηλής
Επεξεργασία ομάδων
Περίληψη ομάδων
◦ Κεντρικό bag-of-words: κανονικοποιημένο διανυσματικό άθροισμα επιμέρους bag-of-words
◦ Όροι: το από πάνω σε αναγνώσιμη μορφή
◦ Κείμενα: Επιλογή των 10 unique tweet πιο κοντά στο κέντρο
◦ Τίτλος: Το κείμενο από πάνω με την καλύτερη κατάταξη
◦ Χρόνος: Ελάχιστος – Μέγιστος χρόνος επιμέρους, μίνι ιστόγραμμα κίνησης
◦ Informal: Πόσα tweet έχουν ανεπίσημη μορφή
◦ Μέγεθος: Πλήθος tweet ομάδας, κανονικοποιημένο αν από δειγματοληψία
Ένωση όμοιων ομάδων μέσω σχέσης
Επιλογή ομάδων
Κατάταξη tweet με ευρετικό κανόνα
Προτιμάμε:
◦ μεγαλύτερο μέγεθος
◦ Μικρότερη διάρκεια
◦ 1-2 urls
◦ Περισσότερους όρους
◦ Έχει λιγότερα informal ανά μέγεθος
Επιλέγουμε αυτά:
◦ Που ξεπερνούν κάποιο κατώφλι στο βάρος κατάταξης
◦ Έχουν λιγότερο από ένα κατώφλι ανεπίσημα tweet ανά μέγεθος
Δημιουργία Συσχετίσεων
Δημιουργία κατευθυνόμενου γράφου
◦ Ομάδες γεγονότα ως κορυφές
◦ Συσχετίσεις με ακμές
◦ Η φορά δείχνει χρόνο
Οι ακμές προκύπτουν
◦ Cosine distance <= Κατώφλι
◦ Φορά προς αυτό που έπεται χρονικά
Απλοποίηση γράφου
◦ Αφαίρεση ακμών εάν υπάρχει μακρύτερο μονοπάτι
Παρουσίαση Αποτελεσμάτων
Με τρεις τρόπους
◦ Με feed
◦ Με γράφο
◦ Με timeline
http://chpetrou.net/thesis/
Μελλοντική εργασία
Αντικατάσταση ευρετικών με τεχνικές Machine Learning
◦ Ranking των tweet
◦ Ranking των cluster
Υποστήριξη άλλων γλωσσών
◦ Χρήση POS tagger για άλλες γλώσσες
◦ Προαιρετικά stemmer
Μετατροπή σε σύστημα πραγματικού χρόνου
◦ REST API -> Stream API
◦ DBSCAN -> Agglomerative
◦ Χρήση ανατροφοδότησης από τον χρήστη (relevance feedback)
Βελτίωση δημιουργίας συσχετίσεων
Υποστήριξη άλλων κοινωνικών δικτύων
Ευχαριστώ για την προσοχή σας!
Επιλεγμένη βιβλιογραφία
◦ M. Ester, H.-P. Kriegel, J. Sander, and X. Xu, “A density-based algorithm for discovering clusters in large
spatial databases with noise”, 1996, http://is.muni.cz/publication/884893/en.
◦ R. Řehůřek and P. Sojka, “Software Framework for Topic Modelling with Large Corpora,” 2010,
http://is.muni.cz/publication/884893/en.
◦ R. Nallapati, A. Feng, F. Peng, and J. Allan, “Event threading within news topics,” 2004.
◦ C. Lin, C. Lin, J. Li, D. Wang, Y. Chen, and T. Li, “Generating event storylines from microblogs,” 2012.
◦ L. Shou, Z. Wang, K. Chen, and G. Chen, “Sumblr: Continuous summarization of evolving tweet streams,”
2013.
◦ R. D. Santos, S. Shah, F. Chen, A. Boedihardjo, P. Butler, C.-T. Lu, and N. Ramakrishnan, “Spatio-temporal
storytelling on twitter,” 2013.
◦ G. P. C. Fung, J. X. Yu, and H. Liu, “Time-dependent event hierarchy construction,” 2007.
◦ L. Huang and L. Huang, “Optimized Event Storyline Generation based on Mixture-Event-Aspect Model,”
2013.

Más contenido relacionado

Similar a Ελευθέριος Χατζηπέτρου

Pantelidou Eirini: Design and development of a system for incremental static ...
Pantelidou Eirini: Design and development of a system for incremental static ...Pantelidou Eirini: Design and development of a system for incremental static ...
Pantelidou Eirini: Design and development of a system for incremental static ...
Manos Tsardoulias
 
Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...
Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...
Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...
Manos Tsardoulias
 
Παρουσίαση-εργασίας-useraRating
Παρουσίαση-εργασίας-useraRatingΠαρουσίαση-εργασίας-useraRating
Παρουσίαση-εργασίας-useraRating
Aikaterini Daoultzoglou
 
Κεφ 3 - Υλικό - Εφαρμογές Υπολογιστών
Κεφ 3 - Υλικό - Εφαρμογές ΥπολογιστώνΚεφ 3 - Υλικό - Εφαρμογές Υπολογιστών
Κεφ 3 - Υλικό - Εφαρμογές Υπολογιστών
leftos21
 
Real-Time Detection Of Abnormal User Behavior In Web Applications Using Machi...
Real-Time Detection Of Abnormal User Behavior In Web Applications Using Machi...Real-Time Detection Of Abnormal User Behavior In Web Applications Using Machi...
Real-Time Detection Of Abnormal User Behavior In Web Applications Using Machi...
ISSEL
 
Ανίχνευση Αποκλίνουσας Συμπεριφοράς Χρηστών Διαδικτυακής Εφαρμογής Σε Πραγματ...
Ανίχνευση Αποκλίνουσας Συμπεριφοράς Χρηστών Διαδικτυακής Εφαρμογής Σε Πραγματ...Ανίχνευση Αποκλίνουσας Συμπεριφοράς Χρηστών Διαδικτυακής Εφαρμογής Σε Πραγματ...
Ανίχνευση Αποκλίνουσας Συμπεριφοράς Χρηστών Διαδικτυακής Εφαρμογής Σε Πραγματ...
ISSEL
 

Similar a Ελευθέριος Χατζηπέτρου (20)

Στέφανος Μπουρτζούδης
Στέφανος ΜπουρτζούδηςΣτέφανος Μπουρτζούδης
Στέφανος Μπουρτζούδης
 
Σωτήρης Μπέης
Σωτήρης ΜπέηςΣωτήρης Μπέης
Σωτήρης Μπέης
 
Pantelidou Eirini: Design and development of a system for incremental static ...
Pantelidou Eirini: Design and development of a system for incremental static ...Pantelidou Eirini: Design and development of a system for incremental static ...
Pantelidou Eirini: Design and development of a system for incremental static ...
 
Papatzelos Spiridon
Papatzelos SpiridonPapatzelos Spiridon
Papatzelos Spiridon
 
ΑΤΕΙ ΜΕΣΟΛΟΓΓΙΟΥΤΜΗΜΑ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ &ΔΙΚΤΥΩΝ.pdf
ΑΤΕΙ ΜΕΣΟΛΟΓΓΙΟΥΤΜΗΜΑ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ &ΔΙΚΤΥΩΝ.pdfΑΤΕΙ ΜΕΣΟΛΟΓΓΙΟΥΤΜΗΜΑ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ &ΔΙΚΤΥΩΝ.pdf
ΑΤΕΙ ΜΕΣΟΛΟΓΓΙΟΥΤΜΗΜΑ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ &ΔΙΚΤΥΩΝ.pdf
 
Μοντέλο Client/Server, Διαδικτυακές υπηρεσίες και Cloud computing
Μοντέλο Client/Server, Διαδικτυακές υπηρεσίες και Cloud computingΜοντέλο Client/Server, Διαδικτυακές υπηρεσίες και Cloud computing
Μοντέλο Client/Server, Διαδικτυακές υπηρεσίες και Cloud computing
 
Panagiotis Doxopoulos
Panagiotis DoxopoulosPanagiotis Doxopoulos
Panagiotis Doxopoulos
 
Το Azure δεν είναι χορτοφάγο! - 59ο DotNetZone Event
Το Azure δεν είναι χορτοφάγο! - 59ο DotNetZone EventΤο Azure δεν είναι χορτοφάγο! - 59ο DotNetZone Event
Το Azure δεν είναι χορτοφάγο! - 59ο DotNetZone Event
 
Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...
Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...
Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...
 
Evangelos papathomas diploma thesis presentation
Evangelos papathomas diploma thesis presentationEvangelos papathomas diploma thesis presentation
Evangelos papathomas diploma thesis presentation
 
Theory Intro
Theory IntroTheory Intro
Theory Intro
 
Τεχνολογίες_Διαδικτύου.pdf
Τεχνολογίες_Διαδικτύου.pdfΤεχνολογίες_Διαδικτύου.pdf
Τεχνολογίες_Διαδικτύου.pdf
 
Παρουσίαση-εργασίας-useraRating
Παρουσίαση-εργασίας-useraRatingΠαρουσίαση-εργασίας-useraRating
Παρουσίαση-εργασίας-useraRating
 
Κεφ 3 - Υλικό - Εφαρμογές Υπολογιστών
Κεφ 3 - Υλικό - Εφαρμογές ΥπολογιστώνΚεφ 3 - Υλικό - Εφαρμογές Υπολογιστών
Κεφ 3 - Υλικό - Εφαρμογές Υπολογιστών
 
Εισαγωγή σε C# και .ΝΕΤ
Εισαγωγή σε C# και .ΝΕΤΕισαγωγή σε C# και .ΝΕΤ
Εισαγωγή σε C# και .ΝΕΤ
 
A rule-based approach for the real-time semantic annotation in context-aware ...
A rule-based approach for the real-time semantic annotation in context-aware ...A rule-based approach for the real-time semantic annotation in context-aware ...
A rule-based approach for the real-time semantic annotation in context-aware ...
 
GNS3 Greek Presentation
GNS3 Greek Presentation GNS3 Greek Presentation
GNS3 Greek Presentation
 
Webradio technoeconomics
Webradio technoeconomicsWebradio technoeconomics
Webradio technoeconomics
 
Real-Time Detection Of Abnormal User Behavior In Web Applications Using Machi...
Real-Time Detection Of Abnormal User Behavior In Web Applications Using Machi...Real-Time Detection Of Abnormal User Behavior In Web Applications Using Machi...
Real-Time Detection Of Abnormal User Behavior In Web Applications Using Machi...
 
Ανίχνευση Αποκλίνουσας Συμπεριφοράς Χρηστών Διαδικτυακής Εφαρμογής Σε Πραγματ...
Ανίχνευση Αποκλίνουσας Συμπεριφοράς Χρηστών Διαδικτυακής Εφαρμογής Σε Πραγματ...Ανίχνευση Αποκλίνουσας Συμπεριφοράς Χρηστών Διαδικτυακής Εφαρμογής Σε Πραγματ...
Ανίχνευση Αποκλίνουσας Συμπεριφοράς Χρηστών Διαδικτυακής Εφαρμογής Σε Πραγματ...
 

Más de ISSEL

Implementation of a platform for assessing indoor spaces regarding their frie...
Implementation of a platform for assessing indoor spaces regarding their frie...Implementation of a platform for assessing indoor spaces regarding their frie...
Implementation of a platform for assessing indoor spaces regarding their frie...
ISSEL
 
Autonomous car position calculation with particle filters using traffic data ...
Autonomous car position calculation with particle filters using traffic data ...Autonomous car position calculation with particle filters using traffic data ...
Autonomous car position calculation with particle filters using traffic data ...
ISSEL
 
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
ISSEL
 
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
ISSEL
 
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
ISSEL
 
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής ΝοημοσύνηςΑνάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
ISSEL
 
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptxΑνάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
ISSEL
 
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
ISSEL
 
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
ISSEL
 
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
ISSEL
 
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
ISSEL
 
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας ΙσχυρισμώνΔημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
ISSEL
 
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµαταΕξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
ISSEL
 
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
ISSEL
 
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ISSEL
 
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
ISSEL
 
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικούΕξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
ISSEL
 
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία ΕφαρµογήςΑνάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
ISSEL
 
Camera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environmentsCamera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environments
ISSEL
 
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
ISSEL
 

Más de ISSEL (20)

Implementation of a platform for assessing indoor spaces regarding their frie...
Implementation of a platform for assessing indoor spaces regarding their frie...Implementation of a platform for assessing indoor spaces regarding their frie...
Implementation of a platform for assessing indoor spaces regarding their frie...
 
Autonomous car position calculation with particle filters using traffic data ...
Autonomous car position calculation with particle filters using traffic data ...Autonomous car position calculation with particle filters using traffic data ...
Autonomous car position calculation with particle filters using traffic data ...
 
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
 
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
 
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
 
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής ΝοημοσύνηςΑνάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
 
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptxΑνάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
 
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
 
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
 
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
 
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
 
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας ΙσχυρισμώνΔημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
 
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµαταΕξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
 
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
 
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
 
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
 
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικούΕξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
 
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία ΕφαρµογήςΑνάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
 
Camera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environmentsCamera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environments
 
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
 

Ελευθέριος Χατζηπέτρου

  • 1. Αυτόματη Εξαγωγή Ειδήσεων από Δεδομένα Κοινωνικών Δικτύων ΧΑΤΖΗΠΕΤΡΟΥ ΕΛΕΥΘΕΡΙΟΣ (ΑΕΜ: 7286) ΕΠΙΒΛ: ΠΕΡΙΚΛΗΣ Α. ΜΗΤΚΑΣ
  • 2. Τι είναι το twitter; Δημοφιλές κοινωνικό δίκτυο • ~340M tweet (μηνύματα) Μ.Ο. ανά ημέρα (2012) • 274M ενεργοί χρήστες (Ιούλιος 2014) Μήκος tweet έως 140 χαρακτήρες Πλεονεκτήματα σε σχέση με παραδοσιακά μέσα ενημέρωσης • Γρηγορότερη διάδοση ειδήσεων • Παρουσίαση από διάφορες οπτικές γωνίες • Σύνδεσμοι και σε παραδοσιακά μέσα Πρόσβαση σε tweets μέσω • Twitter REST API • Streaming API
  • 3. Εμπόδια εκμετάλλευσης δεδομένων twitter Μεγάλος όγκος δεδομένων Αποσπασματικός χαρακτήρας • Μικρό μέγεθος • Πολλές ανομοιογενείς πηγές Θόρυβος • Κοινωνική βαβούρα • Spam [www.pearanalytics.com]
  • 4. Προτεινόμενο Συστήμα Στόχος: Εξάγουμε ειδήσεις από σύνολα tweet και τις παρουσιάζουμε με ευκολονόητο τρόπο στον χρήστη
  • 5. Φίλτρα Κρατάμε tweet που ◦ Είναι σε υποστηριζόμενη γλώσσα ◦ Δεν είναι retweet (προαιρετικά) ◦ Είναι μεγαλύτερο από 5 λέξεις και 20 χαρακτήρες ◦ Έχει λιγότερα από 4 hashtags και 4 urls ◦ Δεν έχει mentions (προαιρετικά) ◦ Έχει ουσιαστικό ακολουθούμενο από ρήμα
  • 6. Προεπεξεργασία Part-of-speech tagger ◦ Χρήση για τελευταία συνθήκη φίλτρου ◦ Αυτόματη εξαγωγή κυρίων ονομάτων Προαιρετική επέκταση ερωτήματος ◦ Εξαγωγή υποψηφίων keywords με Rapid Automatic Keyword Extraction (RAKE) ◦ Αγνόηση αυτών που περιέχουν επιρρήματα, επίθετα και ρήματα ◦ Επιλογή αυτών που ξεπερνούν κάποια συχνότητα εμφάνισης ◦ Εξάλειψη unigrams που εμφανίζονται σε digrams, trigrams κλπ ◦ Το επεκταμένο ερώτημα = σύζευξη των επιλεγμένων keywords ◦ Αποτ: korea -> north korea OR south korea OR kim jong OR north korean leader kim Jong [S. Rose et al., Text Mining: Theory and Applications. 2010] [http://www.nltk.org/book/ch05.html]
  • 8. Χρονική κατάτμηση Δημιουργία ιστογράμματος όγκου tweets Δημιουργία κρίσιμης καμπύλης από ιστόγραμμα μέσω φίλτρου βασισμένο σε κινούμενη διάμεσο ◦ Αντί για διάμεσο, μέσο όρο σε 0.45 – 0.55 percentiles ◦ filter_length/2 δείγματα πριν και filter_length/2 μετά ◦ Συνυπολογισμός διαφορών επόμενων δειγμάτων ◦ Συνυπολογισμός πλάτους «κυμάτωσης» Δημιουργία χρονικών περιοχών ◦ min_points συνεχόμενα σημεία πάνω από κρίσιμη καμπύλη ◦ περιοχή υψηλής κίνησης ◦ Οι ενδιάμεσες περιοχές ◦ περιοχές χαμηλής κίνησης
  • 10. Λεξικογραφική ομαδοποίηση Κατασκευή bag-of-words ◦ Λεξικό από stemmed όρους ◦ Στάθμισμη με tf-idf ◦ Ενίσχυση βαρών κυρίων ονομάτων (πολλαπλασιασμός με b) ◦ Κανονικοποίηση Χρήση αλγορίθμου density-based spatial clustering of applications with noise (DBSCAN) σε κάθε χρονική περιοχή ◦ Cosine distance μεταξύ bag-of-words ως απόσταση ◦ Παράμετρος eps, μέγιστη απόσταση γειτονικών σημείων ◦ Παράμετρος minPts, ελάχιστο μέγεθος μη θορυβικής γειτονιάς ◦ Τετραγωνική πολυπλοκότητα [Martin Ester et al. 1996]
  • 11. Δειγματοληψία Τυχαία επιλογή time_segment_limit tweet από κάθε χρονική περιοχή ◦ Ορισμός άνω φράγματος χρόνου εκτέλεσης ◦ Κανονικοποίηση παραμέτρων DBSCAN ◦ Κανονικοποίηση μεγέθους παραγόμενων ομάδων Εικόνα: ◦ 70K max ανά χρονική περιοχή ◦ 5 χρονικές περιοχές ◦ 2 υψηλής, 3 χαμηλής
  • 12. Επεξεργασία ομάδων Περίληψη ομάδων ◦ Κεντρικό bag-of-words: κανονικοποιημένο διανυσματικό άθροισμα επιμέρους bag-of-words ◦ Όροι: το από πάνω σε αναγνώσιμη μορφή ◦ Κείμενα: Επιλογή των 10 unique tweet πιο κοντά στο κέντρο ◦ Τίτλος: Το κείμενο από πάνω με την καλύτερη κατάταξη ◦ Χρόνος: Ελάχιστος – Μέγιστος χρόνος επιμέρους, μίνι ιστόγραμμα κίνησης ◦ Informal: Πόσα tweet έχουν ανεπίσημη μορφή ◦ Μέγεθος: Πλήθος tweet ομάδας, κανονικοποιημένο αν από δειγματοληψία Ένωση όμοιων ομάδων μέσω σχέσης
  • 13. Επιλογή ομάδων Κατάταξη tweet με ευρετικό κανόνα Προτιμάμε: ◦ μεγαλύτερο μέγεθος ◦ Μικρότερη διάρκεια ◦ 1-2 urls ◦ Περισσότερους όρους ◦ Έχει λιγότερα informal ανά μέγεθος Επιλέγουμε αυτά: ◦ Που ξεπερνούν κάποιο κατώφλι στο βάρος κατάταξης ◦ Έχουν λιγότερο από ένα κατώφλι ανεπίσημα tweet ανά μέγεθος
  • 14. Δημιουργία Συσχετίσεων Δημιουργία κατευθυνόμενου γράφου ◦ Ομάδες γεγονότα ως κορυφές ◦ Συσχετίσεις με ακμές ◦ Η φορά δείχνει χρόνο Οι ακμές προκύπτουν ◦ Cosine distance <= Κατώφλι ◦ Φορά προς αυτό που έπεται χρονικά Απλοποίηση γράφου ◦ Αφαίρεση ακμών εάν υπάρχει μακρύτερο μονοπάτι
  • 15. Παρουσίαση Αποτελεσμάτων Με τρεις τρόπους ◦ Με feed ◦ Με γράφο ◦ Με timeline http://chpetrou.net/thesis/
  • 16. Μελλοντική εργασία Αντικατάσταση ευρετικών με τεχνικές Machine Learning ◦ Ranking των tweet ◦ Ranking των cluster Υποστήριξη άλλων γλωσσών ◦ Χρήση POS tagger για άλλες γλώσσες ◦ Προαιρετικά stemmer Μετατροπή σε σύστημα πραγματικού χρόνου ◦ REST API -> Stream API ◦ DBSCAN -> Agglomerative ◦ Χρήση ανατροφοδότησης από τον χρήστη (relevance feedback) Βελτίωση δημιουργίας συσχετίσεων Υποστήριξη άλλων κοινωνικών δικτύων
  • 17. Ευχαριστώ για την προσοχή σας! Επιλεγμένη βιβλιογραφία ◦ M. Ester, H.-P. Kriegel, J. Sander, and X. Xu, “A density-based algorithm for discovering clusters in large spatial databases with noise”, 1996, http://is.muni.cz/publication/884893/en. ◦ R. Řehůřek and P. Sojka, “Software Framework for Topic Modelling with Large Corpora,” 2010, http://is.muni.cz/publication/884893/en. ◦ R. Nallapati, A. Feng, F. Peng, and J. Allan, “Event threading within news topics,” 2004. ◦ C. Lin, C. Lin, J. Li, D. Wang, Y. Chen, and T. Li, “Generating event storylines from microblogs,” 2012. ◦ L. Shou, Z. Wang, K. Chen, and G. Chen, “Sumblr: Continuous summarization of evolving tweet streams,” 2013. ◦ R. D. Santos, S. Shah, F. Chen, A. Boedihardjo, P. Butler, C.-T. Lu, and N. Ramakrishnan, “Spatio-temporal storytelling on twitter,” 2013. ◦ G. P. C. Fung, J. X. Yu, and H. Liu, “Time-dependent event hierarchy construction,” 2007. ◦ L. Huang and L. Huang, “Optimized Event Storyline Generation based on Mixture-Event-Aspect Model,” 2013.