Günümüzde neredeyse tüm sektörlerde veri yığınları ile mücadele edilmektedir. Bu veri yığınlarından anlamlı ve yararlı bilgiler elde etme süreci veri madenciliği olarak tanımlanır. Projede üniversitelerin veritabanlarındaki öğrenci verilerinden anlamlı ve yararlı bilgiler elde etmek ve bu bilgiler ışığında üniversite yönetimlerinin planlama faaliyetlerine destek olmak amaçlanmıştır. Açık kaynak kodlu bir veri madenciliği uygulama aracı olan WEKA yazılımı üzerinde k-means algoritması kullanılarak yapılan kümeleme analizi sonucu öğrenciler gruplara ayrılmış, bu gruplara özgü stratejiler geliştirilmiştir. Üniversite yönetimlerinin geleceğe yönelik planlamalar yapmak ve stratejiler geliştirmek için bu ve buna benzer veri madenciliği uygulamalarını periyodik olarak tekrarlamaları gerekir.
Veri madenciliği teknikleri ile öğrenci segmentasyonu
1. VERİ MADENCİLİĞİ TEKNİKLERİ İLE
ÖĞRENCİ SEGMENTASYONU
Gülay EKREN
Ankara, 2012 1
SİNOP ÜNİVERSİTESİNDE BİR UYGULAMA
2. Sunum İçeriği
• Giriş
• Neden İhtiyaç Hissettim?
• Öğrenci Segmentasyonu
• Veri Madenciliği
– Veri Madenciliği Yöntemi
– Veri Madenciliği Modelleri
– Kullanılan Uygulama Aracı
– Kullanılan Veri Madenciliği Tekniği
• Bulgular
• Değerlendirme
• Öneriler
• Sonuç
2
3. Giriş
Proje kapsamında model olarak alınan Sinop
Üniversitesine bağlı akademik birimlere,
2010–2011 yılı içinde kayıt yaptıran
öğrencilerin kayıt bilgileri kullanılarak bir veri
madenciliği uygulaması gerçekleştirilmiştir.
3
4. Giriş
Bu proje ile üniversitelerin veritabanlarındaki
öğrenci verilerinden anlamlı ve yararlı bilgiler
elde etmek ve bu bilgiler ışığında üniversite
yönetimlerinin planlama faaliyetlerine destek
olmak amaçlanmıştır.
4
5. Neden İhtiyaç Hissettim?
- Öğrencilerin üniversitede eğitim gördükleri süreyi
en verimli şekilde kullanabilmeleri için neler
yapılabilir?
- Üniversite yönetimlerine düşen görevler nelerdir?
- Bunun için hangi verileri kullanabilirim?
- Bu veriler zaman aşımına uğramadan nasıl
değerlendirilebilir?
- Öğrenci İşleri veritabanındaki veriler, hem
üniversite yönetiminin hem de öğrencilerin
yararına kullanılabilir mi?
5
6. Öğrenci Segmentasyonu
Proje bir segmentasyon çalışmasıdır.
Segmentasyon, hedef kitleyi benzer özellikler
taşıyan homojen gruplara bölmek ve bu
grupları detaylı olarak tanımlamak amacıyla
yapılır.
Bu projedeki hedef kitle üniversite
öğrencileridir.
6
7. Öğrenci Segmentasyonu
Segmentasyon çalışmalarından şu sonuçlar
çıkarılabilir:
- Üniversite öğrencilerinin demografik, sosyo-
psikolojik vs. özelliklerinin detaylı incelenmesi
ile onlara etkili ve doğru ulaşılabilir.
- Üniversite öğrencileri kümelere ayrılarak kaç
farklı grup öğrencinin olduğu görülebilir.
7
8. Öğrenci Segmentasyonu
- Hangi gruba nasıl yaklaşılması gerektiği, hangi
bölümdeki/programdaki öğrencilere nasıl
hitap edilmesi gerektiği belirlenebilir.
- Her grubun ihtiyaçlarının farklılaşan noktaları
belirlenerek, stratejiler ve uygulama
faaliyetleri bu grubun ihtiyacına göre
planlanabilir.
8
9. Veri Madenciliği
Veritabanları içinde öngörülemeyen ya da
bakarak anlaşılamayan bilgilere veri desenleri
denir.
Veritabanlarındaki desenleri keşfetme süreci
veri madenciliği olarak tanımlanır.
9
10. Veri Madenciliği Yöntemi
Projede veri madenciliği yöntemi olarak CRISP-
DM (CRoss-Industry Standard Process for Data
Mining) yöntemi kullanılmıştır.
CRISP-DM veri madenciliği yöntemi, dört
seviyeden oluşan hiyerarşik bir süreç
modelidir.
10
11. Veri Madenciliği Yöntemi
• İlk önce veri madenciliği süreci için belirli
aşamalar, daha sonra bu aşamalar için tüm sürece
ve uygulamalarına yetecek birkaç genel görev ve
bu görevlerin özel durumlar karşısında nasıl
gerçekleşeceği tanımlanır.
11
Süreç Örnekleri
Özel Görevler
Genel Görevler
Aşamalar
Şekil 1. CRISP-DM Yöntemi, (Chapman ve ark, 2000)’den uyarlanmıştır.
12. Veri Madenciliği Modelleri
Veri madenciliği uygulamalarında kullanılan
teknikler ikiye ayrılır:
– Tahmin Edici Modeller:
• Sonuçları bilinen verilerden yola çıkarak bir
model geliştirilir, bu modelin oluşturduğu
sonuçları bilinmeyen veri kümeleri üzerinden
tahminlerde bulunulur.
• Sınıflandırma ve regresyon
12
13. Veri Madenciliği Modelleri
– Tanımlayıcı Modeller:
• Eldeki verilerden modeller yardımıyla
öngörülemeyen sonuçlar çıkarılır.
• Kümeleme, Birliktelik Kuralları ve Ardışık Zamanlı
Örüntü Modelleri
Bu projede benzer verilerin gruplanması/kümelenmesi
yoluyla öğrenci segmentasyonu yapılması amaçlandığı
için tanımlayıcı bir model olan kümeleme modeli
kullanılmıştır.
13
14. Kullanılan Uygulama Aracı
Açık Kaynak kodlu, ücretsiz veri madenciliği
uygulama araçları:
– Rapidminer (Yale)
– WEKA
– R
– KNIME
Bu projede veri madenciliği uygulama aracı
olarak WEKA tercih edilmiştir.
14
15. Kullanılan Veri Madenciliği Tekniği
Kümeleme modelinde diğer veri modellerinde
olduğu gibi farklı algoritmalar kullanılarak
anlamlı sonuçlara ulaşılmaktadır.
WEKA ortamında bütün kümeleme
algoritmaları eldeki veri setine uygulanmış ve
daha anlamlı sonuçlar üreten k-means
algoritmasının kullanılmasına karar verilmiştir.
15
16. Veri Seti
• Sinop Üniversitesi Öğrenci İşleri veritabanından
alınan 2010–2011 akademik yılına ait toplam
3819 öğrenci kaydından oluşmaktadır.
16
19. Çıktıların Yorumlanması (Örnek)
K2
Marmara Bölgesindeki genel liselerden, 201–
250 arası puan alarak gelen erkek öğrenciler
Muhasebe ve Vergi Uygulamaları programını
tercih etmiştir. Bu küme veri setinin %15’lik
kısmını oluşturmaktadır.
19
20. Bulgu-1
Küme Geldiği Bölge Okul türü Puanı Geldiği Program Cinsiyeti Kaçlık Küme-
Yüzdelik dilimi
K0 Karadeniz Bölgesi Meslek Lisesi 0 Bilgisayar Programcılığı Erkek 10’luk küme- %14
K1 Karadeniz Bölgesi Meslek Lisesi 0 Bilgisayar Programcılığı Kız 10’luk küme- %7
K8 Karadeniz Bölgesi Meslek Lisesi 0 Makine Erkek 10’luk küme- %11
K0 Karadeniz Bölgesi Meslek Lisesi 0 Harita ve Kadastro Erkek 5’lik küme- %30
K2 Marmara Bölgesi Genel Lise
201–
250
Muhasebe ve Vergi
Uygulamaları
Erkek 10’luk küme- %15
20
Tablo 1.
21. Değerlendirme-1
Karadeniz Bölgesinde, Sinop Üniversitesindeki
Meslek Yüksekokullarına sınavsız geçiş hakkını
kullanarak gelen meslek lisesi mezunu
öğrenciler en çok “Bilgisayar Programcılığı”,
“Makine” ve “Harita ve Kadastro”
programlarını tercih etmiştir.
21
22. Öneri-1
• SÜ Yönetimi, Karadeniz Bölgesindeki meslek
liselerinden sınavsız geçiş sistemi ile gelen
öğrencilerin tercih etme oranının fazla olduğu
Meslek Yüksekokullarındaki “Bilgisayar
Programcılığı”, “Makine” ve “Harita ve Kadastro”
programlarının kontenjanları arttırılmalıdır.
22
23. Bulgu-2
Küme Geldiği Bölge Geldiği okul türü Geldiği Bölüm Kaçlık Küme- Yüzdelik
dilimi
K7
Karadeniz Bölgesi Anadolu Lisesi/YDA
Su Ürünleri
Mühendisliği
10’luk küme- %3
K9
Karadeniz Bölgesi Anadolu Lisesi/YDA
Sınıf Öğretmenliği 10’luk küme- %7
K4
Akdeniz Bölgesi Anadolu Lisesi/YDA
Sınıf Öğretmenliği 10’luk küme- %6
K4
İç Anadolu Bölgesi Anadolu Lisesi/YDA
Sınıf Öğretmenliği 5’luk küme- %14
23
Tablo 2.
24. Değerlendirme-2
• Sinop Üniversitesine Anadolu Lisesi ve yabancı dil
ağırlıklı liselerden gelen öğrencilerin yoğunlukta
olduğu bölümler: Su Ürünleri Mühendisliği ve
Sınıf Öğretmenliği’dir.
• Üniversiteye bağlı enstitülerde Su Ürünleri
Mühendisliği mezunlarına yönelik yüksek lisans
ve doktora programları vardır ancak “Sınıf
Öğretmenliği” mezunlarına yönelik yüksek lisans
veya doktora programı yoktur.
24
25. Öneri-2
• Üniversite, Anadolu Lisesi ve yabancı dil ağırlıklı
liselerden gelerek lisans tamamlayan öğrencilerini
kaybetmemek için Sınıf Öğretmenliği veya Eğitim
Bilimleri alanında yüksek lisans ve doktora
programları açmalıdır.
25
26. Bulgu-3
Bölge Tercih Edilen Bölüm/Program
Karadeniz Bölgesi Bilgisayar Programcılığı, Harita ve Kadastro, Makine, Su Ürünleri Mühendisliği, Sınıf Öğretmenliği,
Matematik
Marmara Bölgesi Muhasebe ve Vergi Uygulamaları, Matematik, İstatistik, Sosyal Bilgiler Öğretmenliği
İç Anadolu Bölgesi Sosyal Bilgiler Öğretmenliği, Sınıf Öğretmenliği, Su Ürünleri Mühendisliği
Akdeniz Bölgesi Sınıf Öğretmenliği
26
Tablo 3.
27. Öneri-3
• Avrupa Birliğine uyum süreci kapsamında
yürütülen bir çalışma olan ve üniversiteler
arası öğrenci ve öğretim elemanı değişim
programını yürüten Üniversite Rektörlüklerine
bağlı Farabi Kurum Koordinatörlükleri,
yurtiçindeki üniversitelerle ikili anlaşmalar
yaparak öğrenci ve öğretim elemanı değişimi
gerçekleştirmektedir.
27
28. Öneri-3
• Bu değişim programına başvuran öğrencilerin
daha çok geldikleri liselerin bulunduğu bölgedeki
veya ailelerine yakın üniversitelere gitmek
isteyecekleri düşünülerek o bölgelerdeki
üniversitelerle ikili anlaşmalar, o bölgelerdeki
liselerden gelen öğrencilerin yoğunlukta
bulunduğu program ve bölümlere bakılarak
(bakınız Tablo 3.) tekrar gözden geçirilmelidir.
28
29. Sonuç
• Bu çalışmada, öğrenci verileri üzerinde yapılan
literatürdeki diğer veri madenciliği
uygulamalarından farklı olarak üniversitelerde
öğrenim gören öğrenciler anlamlı gruplara
ayrılarak üniversite yönetimlerinin bu
grupların yapısına uygun stratejiler geliştirmesi
ve planlamalar yapması amaçlanmıştır.
29
30. Sonuç
• Bu araştırma 2010–2011 akademik yılında
Sinop Üniversitesine kayıt yaptıran ve kayıt
yenileyen öğrencilerle sınırlıdır ancak bu ve
buna benzer uygulamalar üniversite
yönetimleri tarafından sistematik ve periyodik
olarak tekrarlanarak elde edilen deneyimler
projelere ve kararlara yansıtılabilir.
30
31. Sonuç
• Bu uygulamalar her akademik yılın başında
geliştirilip, birkaç yıl sonra uygulamalara bir
bütün olarak bakılırsa daha anlamlı sonuçlar
elde edilecektir.
31
32. Kaynaklar
Akgöbek Ö. Ve Kaya S., Veri Madenciliği Teknikleri ile Veri Kümelerinden Bilgi Keşfi: Medical Veri Madenciliği Uygulaması, e-Journal of New
World Sciences Academy, Volume: 6, Number: 1, 2011
Akpınar, H. Veri Tabanlarında Bilgi Keşfi ve Veri Madenciliği, İstanbul Üniv. İşletme Fakültesi Dergisi, C:29 S: 1 Nisan 2000
Anand Kumar N. V. ve Uma G. V., “Improving Academic Performance of Students by Applying Data Mining Technique,” European Journal of
Scientific Research, vol. 34, no:4, ss.526-534, 2009.
Ayesha, S., Mustafa, T., Sattar, A. R. ve Khan, M. I. (2010), “Data Mining Model for Higher Education System”, European Journal of Scientific
Research, Vol. 43, No. 1, ss. 24.
Aydın S., Veri Madenciliği ve Anadolu Üniversitesi Uzaktan Eğitim Sisteminde Bir Uygulama, Anadolu Üniversitesi Sosyal Bilimler Enstitüsü,
Doktora Tezi, 2007
Barker K., Trafalis T., ve Rhoads T.R. Learning from student data. In Proceedings of the 2004 IEEE Systems and Information Engineering Design
Symposium, ss 79–86, 2004.
Carbureanu, M., The Efficiency Level Analysis fort he Wastewater Mechanical Treatment Process Using Data Mining and Fuzzy Logic, Vol. LXI,
No. 2, ss. 59-66 2009
Chapman P, Clinton J, Kerber R, Khabaza T, Reinartz T, Shearer C, Wirth R. CRISP-DM 1.0, Step-by-step Data Mining Guide, 2000.
Cios, K.J., Pedrycz, W., Swiniarski, R.W., Kurgan, L.A., Data Mining A Knowledge Discovery Approach, XV, s. 606, 2007
Çakmak, Z., Uzgören N., Keçek G. Kümeleme Analizi Teknikleri İle İllerin Kültürel Yapılarına Göre Sınıflandırılması Ve Değişimlerinin
İncelenmesi, http://sbe.dpu.edu.tr/12/15-36.pdf
Dener, M., Dörterler, M., Orman, A., "Açık Kaynak Kodlu Veri Madenciliği Programları: Weka’da Örnek Uygulama", Akademik Bilişim’09 - XI.
Akademik Bilişim Konferansı Bildirileri, 2009
Dunham, Margaret H. Data Mining Introductory and Advanced Topics. New Jersey: Pearson Education, Inc., 2003.
İnternet: http://maya.cs.depaul.edu/classes/ect584/WEKA/k-means.html Ziyaret Tarihi: 13.12.2011
32
33. Kaynaklar
Hamalainen W., Descriptive and Predictive Modelling Techniques for Educational Technology, Department of Computer Science, University of
Joensuu, Licentiate thesis, 2006
Erdogan S.Z., Timor M.. “A data mining application in a student database”. Journal of aeronautics and space technologies ,Volume 2 No 2,
2005.
Fayyad, U.M., Piatetsky-Shapiro, G., and Smyth, P. From Data Mining To Knowledge Discovery.AI magazine, American Association for Artificial
Intelligence., 1996.
İnternet: Mesleki ve Teknik Ortaöğretim Kurumlarından Meslek Yüksekokullarına Sınavsız Geçiş Bilgi Kılavuzu
http://www.osym.gov.tr/dosya/1-28963/h/sinavsiz.pdf 30.12.2011
İnternet: http://www.osym.gov.tr/belge/1-12076/2010-osys-yerlestirme-yuksekogretim-programlari-ve-kont-.html Ziyaret Tarihi: 30.12.2011
Kifaya S.Q., Amman J.,Mining student evaluation using associative classification and clustering. Communications of the IBIMA vol. 11.,2009
Kim K., Customer Need Type Classification Model Using Data Mining Techniques for Recommender Systems, World Academy of Science,
Engineering and Technology 80, 2011
Kudyaba S. ve Hoptroff R., Data Mining and Business Inteligence, USA: Idea Group, s.8., 2001
33
34. Kaynaklar
Mahajan S. ve Vij S. K., Modelling and Prediction of Rainfall Data Using Data Mining, International Journal of
Engineering Science and Technology (IJEST), Vol. 3, No. 7, 2011
Myller N., Suhonen J., ve Sutinen E.. Using data mining for improving web-based course design. In Proceedings of the
International Conference on Computers in Education (ICCE 2002), pages 959–963. IEEE, 2002.
Romero C., Ventura S., P. De Bra, ve C. De Castro. Discovering prediction rules in AHA! courses. In Proceedings of the 9th
International Conference on User Modeling, volume 2702, pages 25–34, 2003.
Salazar-Afanador A., Gosalbez-Castillo J., Bosch-Roig I., Miralles-Ricos R., and Vergara-Dominguez L. A case study of
knowledge discovery on academic achievement, student desertion and student retention. In Proceedings of the
2nd International Conference on Information Technology: Research and Education
(ITRE 2004), pages 150–154. IEEE, 2004.
Two Crows Corporation, “Introduction of Data Mining and Knowledge Discovery 3nd ed.”, ISBN: 1-892095-02-5, USA, s.
6, 2005
WITTEN, I. H. ve FRANK, E., Data Mining: Practical Machine Learning Tools and Techniques, 2nd Edition, San Francisco,
Morgan Kaufmann Series, 2005.
Zhong N., Zhou L., Methodologies for Knowledge Discovery and Data Mining, Third Pacific-Asia Conference, PAKDD '99,
Beijing, China, April 26-28, 1999
İnternet: Segmentasyon ve Profil Çalışmaları
http://www.betaarastirma.com/documents/segmentasyon_ve_profil_c7alfdfemalarfd.html Ziyaret Tarihi:
21.05.2012
34
35. Teşekkür
• Sinop Üniversitesi Öğrenci İşleri Şube Müdürü
Ahmet CİVAN’a
• Gazi Üniversitesi Öğretim Üyesi Prof. Dr.
Cevriye GENCER’e
• Danışmanım Doç. Dr. Serçin KARATAŞ’a
35
Notas del editor
İşi anlama aşamasında, projenin hedefleri ve gereksinimleri belirlenir, bu bilgiler Veriyi anlama aşamasında, veriye dair ilk keşifler yapılır, ilginç alt kümeler belirlenerek gizli bilgiye dayanan hipotezler şekillendirilir. Veriyi hazırlama aşamasında, tablo, kayıt, nitelik seçimi, veri temizleme, veri dönüştürme işlemleri yapılarak elimizdeki ham veri modelleme araçları için kullanıma hazır hale getirilir. Modelleme aşamasında, modelleme araçlarından biri seçilir ve uygulanır. Bazı teknikler veri hazırlanırken özel gereksinimlere ihtiyaç duyduğundan veriyi hazırlama aşamasına gerekirse dönülebilir. Değerlendirme aşamasında, seçilen modelin istenen hedefleri gerçekleştirip gerçekleştirmediğinden tam olarak emin olunur, tüm aşamalar tekrar gözden geçirilir ve veri madenciliği bulgularını kullanma kararı alınır. Dağıtım aşamasında, verilerden elde edilen bilgiler, veri madenciliği projesinin sonuçlarını kullanacak kişiler tarafından anlaşılır şekilde düzenlenir ve sunulur.
Kümeleme modelinden, daha çok küme veya daha az küme kullanarak istenen sonuçlar elde etmek mümkündür ancak burada amaç elde edilen sonuçlardan istenen bilgiden çok öngörülmeyen bilgiler elde etmektir.
Eldeki veri setine uygulanan k-means algoritmasında, küme sayısı (seed değeri) olarak farklı değerler girilerek sonuçlar incelenmiş, 10 ve 5 değeri girildiğinde çıkan sonuçların değerlendirilmesine karar verilmiştir.