Τα τελευταία χρόνια πραγματοποιούνται αξιόλογες προσπάθειες για την κατανόηση και την αντιμετώπιση γονιδιακών ασθενειών, δηλαδή ασθενειών που οφείλονται σε ανωμαλίες ή μεταλλάξεις στο γενετικό υλικό. Πρακτικά, μέσω της μελέτης του ανθρώπινου γονιδιώματος επιδιώκεται η χαρτογράφηση και η αποκωδικοποίηση αυτών των νόσων και των πολύπλοκων μηχανισμών λειτουργίας τους, κάτι που αποτελεί το πρώτο βήμα στον αγώνα τόσο για τον ακριβή καθορισμό και την κατανόηση των παραγόντων που συμβάλλουν στη γένεση και την εξέλιξή τους όσο και για την αποτελεσματική αντιμετώπιση και θεραπεία τους. Η παρούσα διπλωματική εργασία συντελεί στη μοντελοποίηση της ασθένειας της λευχαιμίας, μιας μορφής καρκίνου που προσβάλλει το αίμα ή το μυελό των οστών. Συγκεκριμένα, διαθέτοντας ένα σύνολο 251 γράφων, κάθε ένας από τους οποίους αποτυπώνει την πορεία/εξέλιξη μιας ακολουθίας ανοσοσφαιρίνης σε καρκινικά κύτταρα ενός ασθενή, στόχος είναι με τη χρήση τεχνικών εξόρυξης δεδομένων να ανακαλυφθούν χρήσιμα μοτίβα μεταξύ των δειγμάτων και να συνδεθούν μεταξύ τους για το σχηματισμό μεγαλύτερων υπερδικτύων που θα ερμηνεύουν και τη γενικότερη πορεία εξέλιξης της ασθένειας. Αρχικά, τα δεδομένα των παραπάνω γράφων τροποποιούνται κατάλληλα για την είσοδό τους στα εργαλεία της ανάλυσης και στη συνέχεια η συνολική μεθοδολογία διακλαδίζεται σε τρεις διαδικασίες. Στο πρώτο στάδιο εφαρμόζεται τεχνική Εξόρυξης Συχνών Υπογράφων (FSM) με χρήση του αλγόριθμου gSpan για την αναζήτηση υπογράφων ακριβείας που εμφανίζονται επανειλημμένα με ταυτόσημη δομή και πληροφορία σε ένα πλήθος από τα δείγματα εισόδου. Στο δεύτερο στάδιο εφαρμόζεται τεχνική Εξόρυξης Κανόνων Συσχέτισης (ARM) με χρήση του αλγόριθμου A – priori για την αναζήτηση εσωτερικών υπομοτίβων των αρχικών δειγμάτων με τη μορφή κανόνων, οι οποίοι εκφράζουν ισχυρές/πιθανές μεταβάσεις από ένα σύνολο μεταλλάξεων σε ένα επόμενο. Στο τρίτο στάδιο εφαρμόζεται εκ νέου η ίδια τεχνική σε ομαδοποιημένα πλέον υποσύνολα δειγμάτων και παρουσιάζονται συνδυασμένοι ισχυροί κανόνες που συνθέτουν υπερδίκτυα για συγκεκριμένες κατηγορίες δειγμάτων. Σε κάθε περίπτωση, όλα τα μοτίβα που αναδεικνύονται ταξινομούνται με βάση τον τύπο της ασθένειας και του γονιδίου ανοσοσφαιρίνης που προσβάλλεται. Τα αποτελέσματα που προκύπτουν είναι ποικιλόμορφα. Ανιχνεύονται ολιγάριθμα μοτίβα, μέτριου ή μικρού μεγέθους αλλά μεγάλης ακρίβειας στην πρώτη περίπτωση, περισσότερα και μεγαλύτερου εύρους αλλά πιθανοτικά, στατιστικά υπολογισμένα μοτίβα στη δεύτερη περίπτωση και μεγαλύτερα συνδυαστικά μοτίβα που αναφέρονται σε κοινή κατηγορία για την τελευταία περίπτωση. Επομένως, τα κατάλληλα μοτίβα για κάθε περίσταση δύνανται να μελετηθούν και να αξιοποιηθούν για την άντληση χρήσιμων συμπερασμάτων, όπως η αναγνώριση/ταυτοποίηση μοτίβων, η κατηγοριοποίηση περιπτώσεων ασθενών, η πρόβλεψη εξέλιξης μεταλλαγμένων ακολουθιών, η εκτίμηση της κλινικής πορείας και έκβασης περιστατικών και η διαμόρφωση του κατάλληλου χειρισμού και αγωγής.
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Ένα Πλαίσιο Εξόρυξης Γράφων για την Εκτίμηση της Εξέλιξης Ακολουθιών και Εφαρμογές του στη Βιοπληροφορική
1. ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ
ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ
ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ
ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ
Διπλωματική Εργασία
Ένα Πλαίσιο Εξόρυξης Γράφων για την Εκτίμηση της Εξέλιξης
Ακολουθιών και Εφαρμογές του στη Βιοπληροφορική
Αμπραχαμιάν Σεροβπέ
ΑΕΜ: 8773
Επιβλέπων: Περικλής Α. Μήτκας, Καθηγητής Α.Π.Θ.
Συνεπιβλέπων: Θεμιστοκλής Διαμαντόπουλος, Μεταδιδακτορικός Ερευνητής
Συνεπιβλέπων: Φώτης Ε. Ψωμόπουλος, Κύριος Ερευνητής ΙΝΕΒ|ΕΚΕΤΑ
Εργαστήριο Ευφυών Συστημάτων και Τεχνολογίας Λογισμικού (ISSEL)
Θεσσαλονίκη, 3 Απριλίου 2023
1
2. Θέμα Διπλωματικής Εργασίας
• Με είσοδο ένα πλήθος διαφορετικών γράφων, κάθε
ένας από τους οποίους αποτυπώνει μια διαφορετική
πορεία/εξέλιξη μιας ακολουθίας ανοσοσφαιρίνης σε
καρκινικά κύτταρα ενός ασθενή με λευχαιμία,
Στόχος είναι:
Να εντοπισθούν κοινά μοτίβα και να συνδεθούν
οι γράφοι σε μεγαλύτερα υπερδίκτυα, τα οποία
θα μπορούν να ερμηνεύουν και τη γενικότερη
πορεία εξέλιξης της ασθένειας.
2
3. Θεωρητικό Υπόβαθρο – Τι είναι η ανοσοσφαιρίνη
• Ανοσοσφαιρίνη – αντίσωμα => πρωτεΐνη => καταπολέμηση παθογόνων
μικροοργανισμών => διέγερση από αντιγόνο
• Δύο μεγάλες βαριές αλυσίδες (H) και δύο μικρές ελαφριές αλυσίδες (L)
• Σταθερή περιοχή => κοινή για όλα τα αντισώματα
Μεταβλητή περιοχή => εξαιρετικά ποικιλόμορφη
• Τεράστια ποικιλότητα αντισωμάτων =>
αναγνώριση εξίσου μεγάλης
ποικιλίας αντιγόνων
3
4. Θεωρητικό Υπόβαθρο
Τι είναι η λευχαιμία και πώς προκαλείται
• Λευχαιμία => καρκίνος του αίματος ή του μυελού των οστών =>
οξεία/χρόνια και λεμφοκυτταρική/μυελογενής.
• Χρόνια Λεμφοκυτταρική Λευχαιμία (CLL) => Β – λεμφοκύτταρα =>
υπερβολική παραγωγή ανώριμων μη φυσιολογικών μορφών.
• Φυσιολογικό: ενεργοποίηση με αντιγόνο => σωματική υπερμετάλλαξη
(SHM) => μεγάλο φάσμα αντισωμάτων => συγγενής ωρίμανση.
• Λευχαιμία: κάποιοι κλώνοι μεταλλάσσονται και αναπαράγονται
ανεξέλεγκτα => συσσώρευση καρκινικών κυττάρων.
ΣΤΟΧΟΣ:
Μοντελοποίηση της πορείας εξέλιξης τέτοιων κλωνικών ακολουθιών
4
33. Συμπεράσματα και Συνολική Αξιολόγηση
• Τρεις μεθοδολογίες => αξιοσημείωτο πλήθος ποικιλόμορφων μοτίβων.
• Αποτελέσματα/Μοτίβα => 3 βασικές μεταβλητές:
πλήθος και πληροφορία εξέλιξης μεταλλάξεων
κατηγορία γονιδίου ανοσοσφαιρίνης
κατηγορία τύπου ασθένειας.
• Ποιοτική αξιοποίηση => 3 κύριοι άξονες:
αναγνώριση/ταυτοποίηση μοτίβων (pattern recognition)
πρόβλεψη/εκτίμηση εξέλιξης καταστάσεων (evolution prediction)
κατηγοριοποίηση περιστατικών (case classification).
• Ποσοτική αξιολόγηση => support, confidence και υπόλοιπες μετρικές =>
συχνότητα και ισχύς μοτίβων.
33
34. Μελλοντικές Επεκτάσεις
• Δημιουργία ενός γενετικού μοντέλου (generative model) από τους
γράφους που παράγονται.
• Επέκταση της μεθόδου ώστε να λαμβάνει υπόψη επιπλέον
κλινικοβιολογικά χαρακτηριστικά ανά δείγμα.
• Επέκταση της μεθόδου ώστε να αξιολογεί την εγγύτητα των αμινοξέων
στις μεταλλάξεις, με βάση τις φυσικοχημικές ιδιότητες.
• Διερεύνηση εφαρμογής της μεθόδου σε αντίστοιχα δεδομένα
χρονοσειρών και όχι απαραίτητα σε επιστήμες ζωής.
34
36. Ευχαριστίες
Ευχαριστώ πολύ τον κ. Μήτκα, όπως και τον κ.
Διαμαντόπουλο και τον κ. Ψωμόπουλο για την
εμπιστοσύνη τους και τη βοήθειά τους κατά τη
συγγραφή της παρούσας διπλωματικής.
36