SlideShare una empresa de Scribd logo
1 de 54
MÜHENDİSLİK FAKÜLTESİ
YÖNETİM BİLİŞİM SİSTEMLERİ YÜKSEK LİSANS
TEZSİZ YÜKSEK LİSANS DÖNEM PROJESİ
HASTALIK TEŞHİSLERİNDE VERİ MADENCİLİĞİNİN
KULLANIMININ İNCELENMESİ
HAZIRLAYAN
Mert YÜCEL
DANIŞMAN ÖĞRETİM ÜYESİ
Dr. Gözde MERT
2022
ETİK İLKELERE UYGUNLUK BEYANI
Dönem proje yazma sürecinde bilimsel ve etik ilkelere uyduğumu, yararlandığım tüm
kaynakları kaynak gösterme ilkelerine uygun olarak kaynakçada belirttiğimi ve bu bölümler
dışındaki tüm ifadelerin şahsıma ait olduğunu beyan ederim.
İmza
Mert YÜCEL
iii
HASTALIK TEŞHİSLERİNDE VERİ MADENCİLİĞİNİN KULLANIMININ
İNCELENMESİ
Mert YÜCEL
AHMET YESEVİ ÜNİVERSİTESİ
YÖNETİM BİLİŞİM SİSTEMLERİ YÜKSEK LİSANS
2022
ÖZET
Günümüzde veri madenciliği çoğu kritik problemin çözümünde önemli bir rol oynamaktadır.
Veri madenciliği birçok alan da kullanılmaktadır. Bu alanlardan biri de hastalık teşhisleridir.
Hastalıkların teşhis edilmesi doktorlar ve hastalar için önemlidir. Çoğu hastalık son
evrelerde teşhis edilebilmekte ve tedaviler bu evreden sonra çoğu zaman cevap verememekte
ve hasta kayıpları yaşanmaktadır. Bu sebeple, hastalıkların erken teşhisi hayati önem
taşımaktadır. Bu çalışmada, hastalık teşhislerinde veri madenciliği kullanımı incelenmiş
olup, örnek olarak seçilen veri setindeki hastaların bilgileri kullanılarak hasta olup
olmadıklarının tahmininde bulunabilmesi amaçlanmıştır. Bu çalışmada kullanılan yazılımlar
Python programlama dili ve kütüphaneleridir. Bu çalışmada, lojistik regresyon ve destek
vektör makineleri veri madenciliği modelleri kullanılarak bir sınıflandırma yöntemi
gerçekleştirilip, kişilerin hasta olup olmadıklarının tahmini sağlanmıştır.
Anahtar Kelimeler: Veri Madenciliği, Hastalık Teşhisi
Danışman: Dr. Gözde MERT
iv
AN EXAMINATION OF THE USE OF DATA MINING IN DISEASE
DIAGNOSTICS
Mert YÜCEL
AHMET YESEVI UNIVERSITY
MANAGEMENT INFORMATION SYSTEMS MASTER DEGREE
2022
ABSTRACT
Today, data mining plays an important role in solving many critical problems. Data mining
is used in many fields. One of these areas is disease diagnosis. Diagnosing diseases is
important for doctors and patients. Most diseases can be diagnosed in the last stages and
treatments often do not respond after this stage. Therefore, early diagnosis of diseases is of
vital importance. In this study, it is aimed to predict whether people are sick or not using
data mining with their medical information. The software used in this study are Python
programming language and libraries. In this study, a classification method was performed
using logistic regression and support vector machines data mining models, an estimation of
whether people were sick or not was provided.
Keywords: Data Mining, Disease Diagnosis,
Advisor: Dr. Gözde MERT
v
İÇİNDEKİLER
ETİK İLKELERE UYGUNLUK BEYANI .......................................................................ii
ÖZET...............................................................................................................................iii
ABSTRACT .................................................................................................................... iv
İÇİNDEKİLER ................................................................................................................. v
ŞEKİLLER LİSTESİ....................................................................................................... vii
TABLOLAR LİSTESİ ...................................................................................................viii
SİMGELER VE KISALTMALAR................................................................................... ix
BÖLÜM I GİRİŞ .............................................................................................................. 1
1.1. Problem ................................................................................................................. 1
1.2. Araştırmanın Amacı................................................................................................ 2
1.3. Araştırmanın Önemi................................................................................................ 2
1.4. Sayıltılar ................................................................................................................. 2
1.5. Sınırlılıklar.............................................................................................................. 2
1.6. Tanımlar ................................................................................................................. 3
BÖLÜM II KAVRAMSAL ÇERÇEVE ............................................................................ 4
2.1. Sağlık Hizmetlerinde Bilgi Yönetimi ...................................................................... 6
2.1. Veritabanlarında Bilgi Keşfi ................................................................................... 8
2.2. Veri Madenciliği..................................................................................................... 9
2.3. Veri Ambarı ve Veri Madenciliği.......................................................................... 10
2.4. Bir Süreç Olarak Veri Madenciliği........................................................................ 13
2.4.1. İşi Anlama Aşaması........................................................................................ 16
2.4.2. Veri Anlama Aşaması..................................................................................... 16
2.4.3. Veri Hazırlama Aşaması................................................................................. 16
2.4.4. Modelleme Aşaması ....................................................................................... 17
2.4.5. Değerlendirme Aşaması.................................................................................. 17
2.4.6. Dağıtım Aşaması............................................................................................ 17
2.5. Temel Veri Madenciliği Görevleri ........................................................................ 18
2.5.1 Sınıflandırma................................................................................................... 19
2.5.2 Regresyon ....................................................................................................... 19
2.5.3. Zaman Serisi Analizi ...................................................................................... 20
2.5.4. Tahmin........................................................................................................... 20
2.5.5. Kümeleme...................................................................................................... 20
vi
2.5.6. Özetleme ........................................................................................................ 21
2.5.7. İlişkilendirme Kuralları .................................................................................. 21
2.5.8. Dizi Keşfi....................................................................................................... 22
2.6. Veri Madenciliği Sorunları.................................................................................... 22
2.6.1 Anomali Tespiti............................................................................................... 22
2.6.2. Örüntü Değerlendirme ve Bilgi Sunumu. ........................................................ 24
2.7. Veri İşleme Araçları.............................................................................................. 24
2.8. Veri Madenciliği İle Sağlık Alanında Yapılmış Çalışmalar ................................... 25
2.9. Veri Madenciliği İle Hastalık Teşhisleri Alanında Yapılmış Çalışmalar ................ 26
BÖLÜM 2I YÖNTEM.................................................................................................... 28
3.1. Araştırmanın Modeli............................................................................................. 28
3.2. Evren ve Örneklem ............................................................................................... 28
3.3. Veri Toplama Araçları .......................................................................................... 28
3.4. Verilerin Toplanması ............................................................................................ 29
3.5. Verilerin Analizi ................................................................................................... 29
BÖLÜM IV BULGULAR VE YORUM ......................................................................... 30
4.1 Uygulama .............................................................................................................. 30
BÖLÜM V SONUÇ, TARTIŞMA VE ÖNERİLER ........................................................ 38
5.1. Sonuç.................................................................................................................... 38
5.2. Tartışma................................................................................................................ 39
5.3. Öneriler ................................................................................................................ 40
KAYNAKÇA.................................................................................................................. 41
EKLER ........................................................................................................................... 45
vii
ŞEKİLLER LİSTESİ
Şekil 2.1. Veri Madenciliği ...........................................................................................9
Şekil 2.2. Sağlık Hizmetleri Bilgi Keşfi süreci ............................................................10
Şekil 2.3. Veri Ambarı ve Veri Madenciliği ................................................................12
Şekil 2.4. Çapraz Endüstri Veri Madenciliği Süreci.....................................................15
Şekil 4.1. Python Kütüphanelerinin Yüklenmesi .........................................................30
Şekil 4.2. Veri Seti Özellikleri.....................................................................................31
Şekil 4.3. Veri Seti Sıfır Değerlerinin Toplamı............................................................31
Şekil 4.4. Veri Seti Değerleri.......................................................................................31
Şekil 4.5. Eksik Değerlerin Tanımlanması...................................................................32
Şekil 4.6. Eksik Değerlerin Doldurulması....................................................................32
Şekil 4.7. Eksik Değerlerin Toplamı............................................................................33
Şekil 4.8. En Çok Etki Eden 4 Özellik.........................................................................33
Şekil 4.9. Algoritmaların Oluşturulması ......................................................................33
Şekil 4.10. X ve y Değişkenlerinin Belirlenmesi .........................................................34
Şekil 4.11. X Değişkeninin Gösterilmesi.....................................................................34
Şekil 4.12. y Değişkeninin Gösterilmesi......................................................................34
Şekil 4.13. Lojistik Regresyon Skoru ..........................................................................35
Şekil 4.14. Lojistik Regresyon Skorunun Eklenmesi ...................................................35
Şekil 4.15. Doğrusal Destek Vektör Regresyon Skoru.................................................35
Şekil 4.16. Doğrusal Destek Vektör Regresyon Skorunun Listeye Eklenmesi..............36
Şekil 4.17. Modelin Kaydedilmesi...............................................................................36
Şekil 4.18. Modelin Çağrılması...................................................................................36
Şekil 4.19. Modelin Kullanılması................................................................................37
Şekil 4.20. Modelin Başka Bir Tahminde Kullanılması ...............................................37
viii
TABLOLAR LİSTESİ
Tablo 2.1. Bilgi Keşfi Evrimi........................................................................................8
Tablo 2.2. Veri Madenciliği Görevleri ........................................................................18
ix
SİMGELER VE KISALTMALAR
Kısaltmalar Açıklamalar
CRM Müşteri ilişkileri yönetimi
BY Bilgi Yönetimi
DM Veri Madenciliği
SHDS Stratejik Sağlık Hizmetleri Karar Destek
Hizmetleri
CASACT The Casualty Actuarial Society
CRISP-DM Cross-Industry Standard Process for Data
Mining
WEKA Waikato Bilgi Analizi Ortamı
RM RAPIDMINER
KNIME Konstanz Information Miner
1
BÖLÜM I
GİRİŞ
Günümüz teknolojisi hızla gelişmekte ve her geçen gün gücü daha da artmaktadır.
Teknolojinin getirdiği bu uygun koşullar yüksek miktarda veri artışını da oluşturmaktadır.
Veriler, bir amaç doğrultusunda analiz edilip, sonuçlarının doğru yorumlanması ile bilgiye
dönüştüğünde bir anlam ifade etmeye başlar. Bu ham ve büyük veriyi bilgiye, anlamlı hale
dönüştürme işlemleri veri madenciliği ile yapılabilmektedir. Bu işlem sırasında istatistiksel
ve matematiksel yöntemler kullanılır.
Veri madenciliğinin kullanıldığı yerlerden biri olan sağlık alanı da en önemli alanlardan
birisidir. Çünkü sağlık alanındaki veriler hayati önem taşıyan verilerdir. Bu durum, tıbbi
veriler arasından elde edilecek bilgi keşiflerini önemli kılmaktadır. Tıp alanında hastalık
teşhisleri önem arz etmektedir. Hastalık teşhislerinde veri madenciliği teknikleri
kullanılması uzmanların karar vermesine yardımcı olmaktadır.
Bu çalışmada veri madenciliğinin tanımı, süreçleri, yöntemleri, uygulama alanları, hastalık
teşhisindeki kullanımına yer verilmiştir. Çalışmada öncelikle giriş başlığı altında problem,
araştırma amacı, araştırma önemi, sayıtılar, sınırlılıklar ve tanımlar ele açıklanacaktır. İkinci
bölümde kavramsal çerçeve başlığında araştırma konusu ile ilgili kaynaklar taranarak
kavramsal çerçeve oluşturulmuştur. Üçüncü bölümde çalışmanın yöntemi; araştırmanın
modeli, evren ve örneklem, veri toplama araçları, verilerin toplanması ve verilerin analizi
başlıklarında açıklanacaktır. Dördüncü bölümde araştırmaya dair bulgular ve yorumlar
araştırma amacına göre aktarılmıştır. Beşinci ve son bölümde ise sonuç, tartışma ve öneriler
başlıklarında araştırmaya dayalı olarak ifade edilmiştir.
1.1. Problem
Dünya üzerindeki insanlar, birçok farklı hastalıktan dolayı enfekte olup hayatını
kaybetmektedir. Hastalıkların erken ve doğru teşhis yapılması, hayati önem taşımaktadır.
Doğru ve erken zamanda yapılan hastalık teşhisi, doktorların hastaları tedaviye erken
başlatmasına ve tedaviye olumlu cevap verme ihtimalini arttırmada fayda sağlamaktadır.
Yanlış ve geç zamanda yapılan hastalık teşhisleri tedavi süreçlerini uzatmakta ve hastanın
iyileşme ihtimalini azaltmaktadır.
2
1.2. Araştırmanın Amacı
Bu çalışmanın amacı, bilgi teknolojileri dünyasındaki önemi her geçen gün daha da artan
veri madenciliğini kullanarak hastalık teşhislerinin yapılabilmesini sağlamaktır. Veri
madenciliği algoritmaları olan Destek Vektör Makineleri ve Lojistik Regresyon ile veri
setinin eğitilmesi amaçlanmıştır. Bu eğitimin sonucunda ise elde edilmek istenen
algoritmanın test setleri tahmininde doğru tahmin edip edemeyeceğinin kontrol edilmesi
olmuştur. Kullanılan veri seti, algoritma ile eğitilmiştir. Böylece gelecek olan test veri
setlerinin hasta olup olmama olasılığı araştırılmıştır. İki tane algoritma kullanılarak
algoritmaların hangisinin daha iyi sonuç verdiği araştırılmış ve karşılaştırılmıştır.
1.3. Araştırmanın Önemi
Veri madenciliğin kullanıldığı sağlık alanı da veri madenciliğinin en önemli alanlarından
birisidir. Çünkü sağlık alanındaki veriler hayati önem taşıyan verilerdir. Bu veriler,
hastalıkların teşhis edilmesinde kullanılabilir. Hastalıkların erken ve doğru teşhis
edilebilmesi, tedavi süreçlerinde ciddi bir kazanım sağlamaktadır. Erken teşhis, hastalıkların
erken evrede saptanıp tedavi ve bakımının zamanında yapılmasını ve buna bağlı olarak da
tedaviden daha iyi sonuçlar elde edilmesini sağlamaktadır. Verilerin hızlı bir şekilde elde
edilip, veri madenciliği modelleri yardımı ile hastalık teşhisinde kullanılması, hastalık
tedavilerinde uzmanlara ve hastalara fayda sağlamaktadır. Bu araştırmada hasta bilgilerinin
veri madenciliği modelleri ve teknikleri kullanılarak, hastalık teşhislerinin doğru ve erken
yapılabilmesi açısından önem taşımaktadır.
1.4. Sayıltılar
Bu araştırma kapsamında kullanılan veri setindeki bilgilerin doğru olduğu varsayılmıştır
1.5. Sınırlılıklar
Çalışmanın sınırlılıkları mevcuttur, çalışma kapsamında bahsedilen veri madenciliği
uygulama alanı; hastalık teşhislerinde veri madenciliğinin kullanımı ile sınırlandırılmıştır.
Bu sınırlandırmalar çalışmanın amacı ve odaklandığı konu itibariyle bilinçli bir şekilde
yapılmıştır.
3
1.6. Tanımlar
Araştırma kapsamında bahsedilen Python ifadesi ise nesne yönelimli, yorumlamalı, bilimsel
ve etkileşimli yüksek seviyeli bir programlama dilidir. NumPy, Python programlama dili
için büyük, çok boyutlu dizileri ve matrisleri destekleyen, bu diziler üzerinde çalışacak üst
düzey matematiksel işlevler ekleyen bir kütüphanedir. Pandas, veri işlemesi ve analizi için
Python programlama dilinde yazılmış olan bir yazılım kütüphanesidir. Seaborn, Python'da
ilgi çekici ve bilgilendirici istatistiksel grafikler yapmak için kullanılan bir kütüphanedir.
Scikit-learn, veri bilimi ve makine öğrenimi için en yaygın kullanılan Python paketlerinden
biridir.
4
BÖLÜM II
KAVRAMSAL ÇERÇEVE
Birleşmeler, küreselleşme ve yoğunlaşan rekabet gibi piyasa güçleri, hizmetler ortamını
kökten değiştirmektedir. Önde gelen kurum ve kuruluşlar bu çalkantılı dönemde verilen
hizmetler konusunda önlemler alarak başarılı olmaktadır. Bu önlemler arasında veri
madenciliği gelmektedir.
Bir kurumun müşterileriyle öğrenen bir ilişki kurabilmesi için müşterilerinin ne yaptığını
fark edebilmesi, onların ve kurumun zaman içinde neler yaptığını hatırlaması, bu
deneyimlerden ders çıkarması ve daha iyi iş kararları ve eylemleri için buna göre hareket
etmesi gerekir. Online teknoloji dergisi ZDNET News'e göre veri madenciliğinin "bu on
yılın en devrimci gelişmelerinden biri" olacağı tahmin edilmektedir (Konrad, 2001). Hatta
MIT Technology Review (2001) veri madenciliğini dünyayı değiştirecek on yeni
teknolojiden biri olarak seçmiştir. Veri madenciliği tekniklerinin uygulanması, iş yapma ve
araştırma konularında devrim niteliğinde bir değişim olarak görülmüştür.
Veri madenciliğinin devrim olarak adlandırılabilecek ve veriden öğrenmede tercih edilecek
bazı avantajları vardır. Veri madenciliği, yapılandırılmış sorgular (birçok ticari veri
tabanında kullanılır) veya istatistiksel analiz yazılımları gibi diğer veri analizi
uygulamalarıyla karşılaştırıldığında, dereceden ziyade tür farkını temsil eder. Birçok analitik
araç, bir hipotezin geliştirildiği ve ardından hipotezi kanıtlamak veya çürütmek için verilerin
test edildiği doğrulama tabanlı bir yaklaşım kullanır. Örneğin, bir kullanıcı Motor sigortası
satın alan bir müşterinin Zorunlu Üçüncü Şahıs Sorumluluk Motor sigortası da satın
alacağını varsayabilir. Bu yaklaşımın etkinliği, kullanıcının çeşitli hipotezler geliştirmedeki
yaratıcılığının yanı sıra kullanılan yazılımın yapısı ile de sınırlı olabilir. Başka bir deyişle,
bu yaklaşım, analistin uygun soruları sorma ve sonuçları hızlı bir şekilde geri döndürme,
nitelik alanının karmaşıklığını yönetme ve farklı düşünme yeteneği de dahil olmak üzere bir
dizi faktöre dayanır. Buna karşılık, veri madenciliği, doğrulamaya dayalı istatistiksel
yöntemlere ek olarak, algoritmaların aynı anda birkaç çok boyutlu veri ilişkisini incelemek
ve benzersiz veya sık temsil edilenleri belirlemek için kullanılabildiği bir keşif yaklaşımını
kullanabilir. Örneğin, bir sigorta şirketi müşterilerinin sigorta alımlarını ev sahipliği,
kullanılan otomobil türü, yaş, meslek, gelir ve coğrafi bölge ile karşılaştırabilir. Veri
5
madenciliği, uygun probleme ve veriye en mükemmel yöntemi kullanmak için istatistik,
madencilik ve Yapay Zeka'dan birçok yöntemi barındırır (Seifert, 2004).
Teknoloji ve iş süreçlerindeki gelişmeler, veri madenciliğine olan ilginin artmasına katkıda
bulunmuştur. Bu değişikliklerden bazıları, veri tabanlarını birbirine bağlamak için
kullanılabilen bilgisayar ağlarının büyümesi; Yapay Zeka olarak adlandırılan sinir ağları ve
gelişmiş algoritmalar gibi gelişmiş arama ile ilgili tekniklerin geliştirilmesi; kullanıcıların
uzak terminallerden merkezi veri kaynaklarına erişmesine olanak tanıyan istemci/sunucu
bilgi işlem modelinin yaygınlaşması ve farklı kaynaklardan gelen verileri tek bir aranabilir
kaynakta birleştirme yeteneğinin artmasıdır. Bu gelişmiş veri yönetimi araçlarına ek olarak,
bilginin artan kullanılabilirliği ve depolama maliyetlerinin düşmesi de rol oynamıştır. Son
birkaç yılda, toplanan ve depolanan bilgi hacminde hızlı bir artış olmuştur; bazı gözlemciler
dünyadaki veri miktarının her yıl yaklaşık iki katına çıktığını öne sürmektedir. Örneğin
dünyanın en büyük perakendecisi olan Wal-Mart'ın müşteri veri tabanı geçtiğimiz on yılın
sonunda yaklaşık 43 terra-byte veri içermekteydi ki bu rakam ABD İç Gelir Hizmetleri'nin
gelir vergisi toplamak için kullandığı veri tabanından daha büyüktür (Shaw vd., 2001). Aynı
zamanda, veri depolama maliyetleri de önemli ölçüde azalmıştır. Benzer şekilde, bilgi işlem
gücü birkaç yıl içinde neredeyse iki katına çıkmaya devam ederken, bilgi işlem gücünün
göreceli maliyeti düşmeye devam etmiştir. Çeşitli bilgilerin ve çok sayıda verinin
mevcudiyeti, piyasayı bu verilerden mümkün olduğunca fazla yararlanmaya zorlamakta ve
bu verilerin daha iyi teknikler ve daha iyi araçlarla madenciliğinin yapılması ihtiyacını
tetiklemektedir. Veri madenciliği 1990'larda görünür bir araştırma ve geliştirme alanı olarak
ortaya çıkmış olsa da, hızlı büyüme veri madenciliğini sonraki on yılda devrim niteliğindeki
değişimlerden biri haline getirmiştir. Bu eğilim, SPSS ve SAS gibi analitik yazılım
geliştiricileri ile CRM (Müşteri ilişkileri yönetimi) yazılım satıcıları arasındaki boşluğu
kapatmakta ve analitik CRM yaygınlaşmaktadır. Veri madenciliğindeki gelişmeler daha iyi
algoritmalara, standardizasyona ve sistemlerin entegrasyonuna yol açmaktadır (Thearling,
2005).
Bu çerçevede bilgi teknolojisindeki önemli gelişmeler, sağlık bilişiminde de verilerin aşırı
büyümesine neden olmaktadır (Kavakiotis vd., 2017: 105). Sağlık bilişimi verileri hastane
detaylarını, hasta detaylarını, hastalık detaylarını ve tedavi maliyetini içerir. Bu devasa
veriler farklı kaynaklardan ve formatlardan üretilmektedir. İlgisiz özniteliklere ve eksik
verilere sahip olabilir. Veri madenciliği tekniklerini uygulamak, büyük hastalık verilerinden
6
bilgi çıkarmak için önemli bir yaklaşımdır. Veri madenciliği, büyük hastalık veri setinden
bilgi çıkarmak için çeşitli yöntemlere sahiptir. Sınıflandırma, kümeleme ve kural
madenciliği gibi veri madenciliği teknikleri, verileri analiz etmek ve anlamlı bilgiler
çıkarmak için kullanılabilir (Ahmed, 2017: 1887). Sağlık hizmetlerinde veri madenciliğinin
önemli güncel uygulamalarından bazıları, benzer hastalıklardan toplanan önceki verilere
dayanarak hastalıkların gelecekteki sonuçlarını tahmin etmeyi, hasta verilerine dayanarak
hastalığın teşhisini, tedavi maliyetlerini ve kaynak talebini analiz etmeyi, gürültülü, eksik
verilerin ön işlemesini ve hastalık teşhisi için bekleme süresini en aza indirmeyi içerir. Weka,
Rapid miner ve Orange gibi veri madenciliği araçları sağlık verilerini analiz etmek ve daha
iyi sonuçlar tahmin etmek için kullanılmaktadır. Yeni ve güncel veri madenciliği araçları ve
teknolojileri, sağlık hizmetlerini maliyet etkin bir şekilde iyileştirmek ve hastalık teşhisi için
gereken süreyi en aza indirmek için hastalık teşhisinde ve sağlık bilişiminde kullanılmaktadır
(Patil vd., 2014: 35; Usha Rani, 2017: 52; Devi vd., 2).
Sonuç olarak, verilerden öğrenmek ve buna göre stratejiler belirlemek kurumların başarılı
olması için çok önemli hale gelmekte ve veri madenciliği teknikleri bu amaçla giderek daha
fazla kullanılmaktadır. Sağlık sistemi yönetsel kararları ve politikalarının temeli veri ve
veriden elde edilen bilgi ya da datadır. Sağlık karar ve politikalarının amaçlar paralelinde
etkin ve uygun olabilmesi doğru, güncel ve güvenilir veriyle bağlantılıdır. Sağlık bilgi
sistemlerinde amaç büyük miktarda sağlık verilerinden yararlı bilgi üretmektir (Koyuncugil
ve Özgülbaş, 2009). Bu kapsamda bu bölümde veri madenciliği konusunda bilgiler
verilecektir.
2.1. Sağlık Hizmetlerinde Bilgi Yönetimi
Sağlık hizmetlerinde Bilgi Yönetimi (BY), bir sağlık kuruluşunun bilgi varlıklarının çeşitli
yönlerinin oluşturulmasını, tanımlanmasını, edinilmesini, geliştirilmesini, korunmasını,
yayılmasını ve son olarak kullanılmasını kolaylaştırmak için resmi metodolojilerin ve
tekniklerin birleşimi olarak kabul edilebilir. Sağlık sektörü, sofistike bilgi ve enformasyon
kaynaklarından güç alan genişletilmiş bir işletmeye dönüşmüştür. Günümüzün
knowledgetheoretic sağlık işletmelerinde bilgi, işletmenin 'hareket etme kapasitesinin'
merkezinde yer alan 'yüksek değerli bir bilgi formu' olarak kabul edilmektedir. Bilgi
yönetimi alanı, aşağıdakiler için metodolojik ve teknolojik bir çerçeve sunmaktadır: “(a)
sağlık hizmeti uygulaması ve sunumu ile ilgili olarak ne yaptığımıza dair deneyimsel bilgiyi
7
ve ne yaptığımızın sonuçlarından elde edilen ampirik bilgiyi proaktif bir şekilde yakalamak;
ve (b) iş kuralları, trend öngörüleri, iş akışı analizi, analitik sonuçlar, prosedürel kılavuzlar
ve benzerlerinden oluşan bir topluluk karşısında stratejik bir karar verme kaynağı olarak
hizmet etmek üzere sağlık hizmeti bilgisini operasyonel hale getirmek” (Abidi ve Yu-N,
2000). Sağlık işletmeleri, elektronik tıbbi kayıtlar, klinik araştırma verileri, hastane kayıtları,
idari raporlar, kıyaslama bulguları vb. gibi büyük miktarlarda veri ürettikleri için 'veri
zengini' olarak kabul edilebilir. Ancak, aynı zamanda sağlık kuruluşlarının 'bilgi fakiri'
olduğunu da söyleyebiliriz çünkü sağlık verileri nadiren stratejik bir karar-destek kaynağına
dönüştürülmektedir. Bu bağlamda, BY ve Veri Madenciliği (DM) gibi teknolojilerin ortaya
çıkmasıyla birlikte, artık ham ampirik verilerin sağlık kuruluşunun iç dinamiklerine bir
pencere açabilecek ampirik bilgi türüne geçişini kolaylaştıracak fırsatlar mevcuttur. Bu tür
verilerden elde edilen bilginin, sağlık hizmetleri yöneticilerinin ve politika yapıcılarının, söz
konusu sağlık hizmetleri kuruluşunun operasyonel etkinliğinin iyileştirilmesine yönelik
'içsel' ancak paha biçilemez operasyonel ilkeler/değerler/bilgiler/stratejiler çıkarmalarını
sağlayabileceği ifade edilebilir (Abidi, 2001).
Bir sağlık kuruluşunun operasyonel etkinliğinin, (a) görünüşte sakin olan sağlık hizmetleri
veri havuzlarından çeşitli ampirik bilgi yönlerinin elde edilmesi ve (b) elde edilen ampirik
bilginin, sağlık kuruluşunun stratejik karar alma, planlama ve yönetimini etkilemeyi
amaçlayan bir dizi paketlenmiş, katma değerli Stratejik Sağlık Hizmetleri Karar Destek
Hizmetlerinin (SHDS) türetilmesi için operasyonel hale getirilmesi yoluyla önemli ölçüde
artırılabileceği söylenebilir. Yukarıda bahsedilen SHDS'nin bakış açısı, sağlık hizmetleri
yöneticilerinin/politika yapıcılarının/analistlerinin politikalar oluşturmalarına veya stratejik
kararlar almalarına ya da sağlık hizmetleri kuruluşunun mevcut operasyonel değerlerinin
gerçek sonuçlarını/performansını dikkate alarak gelecekteki sonuçları tahmin etmelerine
yardımcı olmak için stratejik içgörüler/öneriler/tahminler/analizler sunmalarıdır - ki bu
değerler benimsenen operasyonel değerlerle aynı olmayabilir. Yukarıdaki hedeflere ulaşmak
için, bilgi tedariki (DM aracılığıyla) ve bilgi operasyonelleştirme (BY aracılığıyla) teknikleri
arasında bir sinerji oluşturan yeni bir yaklaşıma dayanan BY odaklı bir bilgi yapısı
tasarlamak önerilebilir. Önerilen sinerjinin işleyiş şekli aşağıdaki gibidir: DM teknikleri,
karar kalitesinde sağlık hizmetleri bilgisini tümevarımsal olarak türetmek için sağlık
hizmetleri veri havuzlarını 'çıkarmak' için kullanılırken, BY teknikleri daha sonra bir SHDS
paketi elde etmek için tümevarımsal olarak türetilen sağlık hizmetleri bilgisini operasyonel
8
hale getirmek için kullanılır. Böyle bir BY odaklı bilgi yapısının işlevsel ve mimari
özelliklerinin tanımlanması, burada rapor edilen çalışmanın temasını oluşturmaktadır.
2.1. Veritabanlarında Bilgi Keşfi
Veri Tabanlarında Bilgi Keşfi, bazı literatürlerde veri madenciliğinden ayrı tutulmaktadır.
Büyük veritabanlarından bilgi keşfi sadece bir işlem değil bir süreçtir. İlerleyen bölümlerde
detaylı olarak anlatılacak olan bu süreç, işi anlama ve problem belirleme ile başlayıp veriyi
anlama ve temizlemeye, ardından modelleme, değerlendirme ve uygulamaya kadar
uzanmaktadır.
Tablo 2.1
Bilgi Keşfi Evrimi (Tacenur, 2006: 4).
Evrimsel
Adım
İş Sorusu
Etkinleştirici
Teknolojiler
Ürün
Sağlayıcılar
Özellikler
Veri Toplama
(1960'lar)
"Son beş
yıldaki toplam
gelirim ne
kadardı?"
Bilgisayarlar,
kasetler, diskler
IBM, CDC
Geriye dönük,
statik veri
iletimi
Veri Erişimi
(1980'ler)
"Geçen Mart
ayında New
England'da
birim satışlar
ne kadardı?"
İlişkisel
veritabanları
(RDBMS),
Yapılandırılmış
Sorgu Dili
(SQL), ODBC
Oracle, Sybase,
Informix, IBM,
Microsoft
Kayıt
düzeyinde
geriye dönük,
dinamik veri
sunumu
Veri Ambarı ve
Karar Destek
(1990'lar)
"Geçen Mart
ayında New
England'da
birim satışlar
neydi?
Boston'a kadar
inin."
On-line analitik
işleme (OLAP),
çok boyutlu
veritabanları,
veri ambarları
Pilot,
Comshare,
Arbor, Cognos,
Microstrategy
Çoklu
seviyelerde
geriye dönük,
dinamik veri
sunumu
Veri
Madenciliği
(2000'ler)
"Gelecek ay
Boston birim
satışlarında ne
olması
muhtemel?
Neden?"
Gelişmiş
algoritmalar, çok
işlemcili
bilgisayarlar,
devasa veri
tabanları
Pilot,
Lockheed,
IBM, SGI,
SAS, SPSS ve
diğerleri
Prospektif,
proaktif bilgi
sunumu
Bazı literatürlerde veri madenciliği sürecin modelleme aşaması ile sınırlandırılmakta ve tüm
süreç veri tabanlarında bilgi keşfi süreci olarak adlandırılmaktadır. Ancak genellikle veri
madenciliği ve Veritabanlarında Bilgi Keşfi tüm süreci kapsayan eş anlamlı kelimeler olarak
9
kullanılmaktadır. Bilgi keşfi evrimi 1960'larda veri toplamanın artmasıyla başlar. Zamanla
veriye ulaşmak kolaylaşmış ve 1990'larda veri ambarı ve karar destek sistemleri popülerlik
kazanarak son on yılda sofistike veri madenciliği uygulamalarına öncülük etmiştir. Thearling
tarafından hazırlanan aşağıdaki tablo bilgi keşfinin gelişimini özetlemektedir (Thearling,
2006).
2.2. Veri Madenciliği
Veri madenciliği, büyük veri kümelerinden bilinmeyen bilginin hesaplamalı olarak
çıkarılması süreciyle ilgilidir. Muazzam veri setlerinden faydalı bilgilerin çıkarılması ve
hastalıkların teşhis ve tedavisi için karar verme sonuçlarının sağlanması çok önemlidir. Veri
madenciliği, çeşitli hastalıkları analiz ederek ve tahmin ederek bilgi elde etmek için
kullanılabilir. Sağlık hizmetleri veri madenciliği, tıbbi alandaki veri setlerindeki gizli
kalıpları keşfetmek için büyük bir potansiyele sahiptir (Ersöz ve Çınar, 2021: 397).
Şekil 2.1
Veri Madenciliği
Sağlık hizmetleri verilerine bağlı olarak uygunlukları değişen çeşitli veri madenciliği
teknikleri mevcuttur. Sağlık hizmetlerinde veri madenciliği uygulamaları harika bir
potansiyele ve etkinliğe sahip olabilir. Büyük veri tabanlarında tahmine dayalı bilgi bulma
sürecini otomatikleştirir. Hastalık tahmini, veri madenciliğinde önemli bir rol oynamaktadır.
Bir hastalığın bulunması, hasta üzerinde bir dizi testin yapılmasını gerektirir. Ancak, veri
madenciliği tekniklerinin kullanılması test sayısını azaltabilir. Bu azaltılmış test seti,
performans ve zaman açısından önemli bir rol oynar. Sağlık hizmetleri veri madenciliği
10
önemli bir görevdir çünkü doktorların yaş, kilo, semptomlar vb. gibi hangi özelliklerin teşhis
için daha önemli olduğunu görmelerini sağlar. Bu, doktorların hastalığı daha verimli bir
şekilde teşhis etmesine yardımcı olacaktır. Veritabanlarında bilgi keşfi, verilerdeki yararlı
bilgileri ve kalıpları bulma sürecidir. Veritabanlarında bilgi keşfi veri madenciliği
kullanılarak yapılabilir. Veri madenciliği, veri tabanlarında bilgi keşfi süreci tarafından
türetilen bilgi ve kalıpları çıkarmak için algoritmalar kullanır (Ahmed, 2017). Veri
tabanlarında bilgi keşfi sürecinin çeşitli aşamaları Şekil 2.2'de vurgulanmıştır.
Şekil 2.2.
Sağlık Hizmetleri Bilgi Keşfi süreci (Ahmed, 2017: 1886).
Veri tabanlarında bilgi keşfi sürecinin çeşitli aşamaları şekildeki gibi açıklanmaktadır. Seçim
aşamasında, veri farklı kaynaklardan elde edilir. Ön işleme aşamasında, istenmeyen eksik
ve gürültülü verileri kaldırır ve dönüşüm aşamasında ortak bir formata biçimlendirilebilecek
temiz verileri sağlar. Daha sonra istenen çıktıyı elde etmek için veri madenciliği teknikleri
uygulanır. Son olarak değerlendirme aşamasında, sonucu son kullanıcıya anlamlı bir şekilde
sunacaktır (Özdemir, Aslay ve Handan, 2009).
2.3. Veri Ambarı ve Veri Madenciliği
Analizde kullanılacak veriler genellikle çeşitli sistemler, veri tabanları, formatlar ve yapılar
üzerinde ve bazen de yedekli bir yerde bulunur. Bu verileri bir değere dönüştürmek için
verilere erişmek ilk aşamadır. Veri ambarının önemi de bu noktada ortaya çıkmaktadır.
11
Birleştirilmiş, düzenlenmiş, temizlenmiş, standartlaştırılmış verilere sahip veri ambarı,
analiz için operasyonel veri tabanlarından veya sistemlere yayılmış normal dosyalardan daha
iyi bir kaynaktır. Verilerdeki gizli bilgilerin tanımlanması; departman verilerinin tek bir
depoda birleştirilmesini, karar vermeyi ve veri analizini basitleştirmek için verilerin
düzenlenmesini ve değerli bilgiler için madencilik yapılmasını gerektirir (Sharp, 2003: 114).
Veri ambarı, sorgulama, analiz ve raporlama, dolayısıyla veri madenciliği için özel olarak
yapılandırılmış işlem verilerinin bir kopyasıdır. Veri ambarı, işlem sistemi tarafından daha
sonra güncellenmeyen veya değiştirilmeyen işlemlerin bir kopyasını içerdiğinden,
zamanında veri mevcut değildir. Çevrimiçi sistem ile veri ambarı arasındaki zaman
gecikmesi, verinin yapısından güncelleme zamanlarının kararlarına kadar değişmektedir.
Ancak, veriler özel olarak yapılandırıldığından ve kopyalandığında temizlenmiş ve
dönüştürülmüş olabileceğinden, üzerinde çalışmak çok daha hızlı ve kolaydır. Bir sonraki
bölümde veri madenciliği süreci ele alınacak ve veri madenciliği analizinin en önemli ve
zaman alıcı aşamalarından birinin veri hazırlama olduğundan bahsedilecektir. Veri ambarı
ve veri martlarının önemi bu bakış açısıyla daha iyi anlaşılabilir. Data Mart, veri ambarından
bir adım sonra gelen, daha küçük ve daha odaklı bir Veri Ambarıdır, başka bir deyişle mini
bir ambar olarak adlandırılabilir. Bir Data Mart tipik olarak bir kuruluş içindeki belirli bir iş
biriminin iş kurallarını yansıtır. Sonuç olarak, küçük, yönetimi kolay ve konu odaklı veri
ambarları, veri alma ve analiz süresini önemli ölçüde azaltır. Veri Ambarları ve Veri
Martları, sorguları ve veri madenciliğini destekleyerek şirketlerin İş Zekası yeteneklerinin
gücünü ve verimliliğini artırır. Bu uygulamaların web üzerinden etkinleştirilmesi onları daha
kullanıcı dostu hale getirir. Potansiyel faydaları maliyetlerinden çok daha fazladır. Veri
ambarı/veri martı uygulaması, karar desteği için bilgi dağıtımını kolaylaştırır ve son yıllarda
aktüerler ve istatistikçiler arasında daha popüler hale gelen tanımlayıcı ve öngörücü
modellerin geliştirilmesini önemli ölçüde basitleştirir (Gündoğdu, 2007).
Büyük bir sigorta şirketinde veri ambarı sisteminin başarılı bir şekilde uygulanması
CASACT (The Casualty Actuarial Society) makalesinde analiz edilmiştir. Uygulama
sonuçlarına göre, veri ambarları, veri haritaları ve tahmine dayalı analitik, bir İş Zekası
sisteminin temel bileşenleridir. Veri ambarı, analiz için kullanılan geçmiş verilerin işlemsel
veritabanlarından etkin bir şekilde ayrılmasını sağlar. Bu, veri erişim kapasitesini önemli
ölçüde artırır ve ayrıca işlemsel sistemler üzerindeki yükü azaltır. Kurumun beklenen
analitik verimliliği gerçekleştirebilmesi için veri ambarının iyi planlanmış olması gerekir.
12
OLAP keşifsel veri analizi içindir ancak daha derin analizler veri madenciliği için özel
araçların kullanılmasını gerektirir. Veri madenciliği OLAP'tan farklıdır çünkü varsayımsal
kalıpları doğrulamak yerine bu kalıpları ortaya çıkarmak için verinin kendisini kullanır.
OLAP tümdengelimsel bir süreç olmasına rağmen, veri madenciliği tümevarımsal bir
süreçtir.
Şekil 2.3
Veri Ambarı ve Veri Madenciliği (Tacenur, 2006:7)
Örneğin, bir sigortalı için risk faktörleri veri madenciliği analizine tabi tutulduğunda, veri
madenciliği aracı yüksek hasar kayıtları ve yaşı olan kişilerin kötü sigorta riskleri olduğunu
keşfedebilir, ancak daha da ileri gidebilir ve analistin denemeyi düşünmediği bir örüntüyü
de keşfedebilir. Sonuç olarak, şirket veri ambarları ve veri haritaları bir veri madenciliği
analizi için zorunlu olmasa da süreci önemli ölçüde basitleştirmektedir. Eğer şirketin bir veri
ambarı ya da veri tabanı yoksa, veri madenciliği süreci küçük bir veri madenciliği veri tabanı
oluşturmak için benzer veri setlerinin hazırlanmasını içerir (Bukhbinder, Krumenaker ve
Phillips, 2005: 173).
13
2.4. Bir Süreç Olarak Veri Madenciliği
Yazılım araçları veri madenciliğinin anahtarı olsa da, veri madenciliği çözümünün yalnızca
bir parçasıdır. Price Waterhouse tarafından gerçekleştirilen veri madenciliği uygulamalarına
yönelik bir kıyaslama anketi, sürecin teknolojiden çok daha önemli olduğunu ortaya
koymuştur. Ankete katılan 159 şirket arasında iyi iş süreçlerine sahip olanlar, zayıf süreçlere
sahip olanlara göre iki kattan fazla daha etkiliydi. Daha sofistike araçlar kullanmak,
şirketlerin bir sınıra kadar daha etkili olmalarına yardımcı olur. Zayıf bir sürece sahip iyi
araçlar başarıya götürmez. Başarılı bir süreç için anketin bazı detayları aşağıda listelenmiştir
(Galfond, 2017: 25):
 Mümkün olan en iyi veriye sahip olmak: Veri temizliğine yeterli kaynak ayıran
şirketlerin %90'ından fazlası etkili olmuştur.
 Sonuçlar üzerinde hızlı hareket etmek
 Sürekli bir iyileştirme döngüsüne sahip olmak: Bu döngüye sahip şirketler iki kat
daha etkili olmuştur.
 Özellikle ürün ve pazar, bilgi sistemleri ve istatistik veya ekonometri gibi çeşitli
disiplinler hakkında güçlü bilgi içeren bir ekip oluşturmak: Geniş ve derin
becerilere sahip şirketler, zayıf ekiplere sahip olanlara göre dört kat daha etkiliydi.
 Verilere erişme ve temizleme, tahminlerde bulunma, sonuçları yorumlama ve
bunlara göre hareket etme ve sürekli iyileştirme dahil olmak üzere tüm veri
madenciliği sürecini kolaylaştıran bir yazılım aracı seçmek.
Veri madenciliği satın alınabilecek bir üründen ziyade üzerinde çalışılması gereken bir
disiplindir. Yazılım başarıyı etkiler ancak etkin bir süreç ve etkin bir insan çalışması başarıyı
getirir. Problem tanımından başlayarak sonuçların yorumlanması, iş için anlamlı bilgiye
dönüştürülmesi ve doğru aksiyonların alınması değer yaratır. Veri madenciliğinin karmaşık
yetenekleri, başarılı bir veri madenciliği uygulaması için iki öncülün önemli olmasına neden
olur; çözülecek problemin net bir şekilde formüle edilmesi ve ilgili verilere erişim. Veri
madenciliğinin bu kavramsallaştırmasını yansıtan bazı gözlemciler, veri madenciliğini veri
tabanlarında bilgi keşfi olarak bilinen daha büyük bir sürecin sadece bir adımı olarak
görmektedir. Veri tabanlarında bilgi keşfi sürecindeki diğer adımlar arasında kaynak
tanımlama, veri toplama, veri temizleme, veri entegrasyonu, veri seçimi, veri dönüşümü,
veri madenciliği, örüntü değerlendirme ve bilgi sunumu yer almaktadır (Seifert, 2004).
14
Bu çalışmada da literatürde genel kabul gördüğü üzere veri madenciliğinin bilgi keşfi
sürecinin tamamını kapsadığı kabul edilmiştir. Departman yapısı ve bölümlerin farklı
odaklara sahip olması, veri madenciliği projelerinde mükerrer çabalara ve deneyim kaybına
yol açmaktadır. Büyük veri madenciliği projelerini daha az maliyetli, daha verimli, daha
güvenilir, daha tekrarlanabilir, daha yönetilebilir ve daha hızlı hale getirmek için sistematik
bir yaklaşıma ve hatta sektörler arası bir standarda ihtiyaç duyulmuştur. Veri Madenciliği
için Sektörler Arası Standart Süreç (CRISP-DM) 1996 yılında Daimler Chrysler AG, SPSS
ve NCR'yi temsil eden analistler tarafından geliştirilmiştir. Metodoloji, 1999 yılında sigorta
sektörü ortağı OHRA'nın denemeler yapması ve ESPRIT programı kapsamında Avrupa
Komisyonu'nun kısmi sponsorluğu ile olgunluğa ulaştı ve CRISP-DM versiyon 1.0
yayınlandı. CRISP-DM, veri madenciliğini bir işletmenin ya da araştırma biriminin genel
problem çözme stratejisine uydurmak için kolay kullanılabilir ve ticari olmayan standart bir
süreç sağlar. Birçok farklı yaklaşım kullanılabilmesine rağmen CRISP-DM genel kabul
gören bir yöntem haline gelmiştir. Kdnuggets tarafından 2004 yılında yapılan bir ankette,
veri madencilerinin %42'si CRISP-DM metodolojisini kullandıklarını belirtirken, %28'i
kendi yaklaşımlarını, %10'u ise SAS tarafından oluşturulan bir metodoloji olan SEMMA'yı
kullandıklarını belirtmişlerdir (kdnuggets, 2004).
Genel olarak, Şekil 2.4 CRISP-DM Veri Madenciliği Süreç Döngüsü'nde de görülebileceği
gibi, CRISP-DM 6 aşamadan oluşmaktadır. Süreç, dış daire ile sembolize edildiği gibi
sürekli ve yinelemelidir. Her aşama kendinden önceki aşamanın çıktısına bağlıdır. Aşamalar
arasındaki en önemli bağımlılıklar şekilde oklarla gösterilmiştir. Süreç yinelemeli
olduğundan, aşamaların sırası sabit değildir, ilerlemeden önce daha fazla iyileştirme için bir
önceki aşamaya veya birden fazla aşamaya geri dönmek her zaman mümkündür. Veri
madenciliği süreci, analiz edilen her iş veya veri madenciliği probleminin analiz edilecek
yeni sorular getirdiği bir kartopu etkisi gibi devam eder (Wirth ve Hipp, 2000).
15
Şekil 2.4.
Çapraz Endüstri Veri Madenciliği Süreci (Aytaç ve Bilge, 2013).
Metodoloji, bu 6 ana aşama altında hiyerarşik bir yapıya sahiptir. Aşamalar, Genel görevler
olarak adlandırılan tüm olası durumları kapsaması beklenen genel görevlere ayrılmıştır. (örn.
Veri hazırlama aşaması altında veri temizleme) Uzmanlaşmış görev seviyesi olarak
adlandırılan üçüncü seviye, genel görevin nasıl yürütüldüğünün açıklandığı daha detaylı bir
seviyedir. (örn. Veri temizleme görevi altında eksik değer işleme) Süreç örneği seviyesi
olarak adlandırılan dördüncü ve son seviye, belirli bir özel görev seviyesinde gerçekte ne
olduğunu temsil eder. (örn. Sayısal öznitelikler için ortalama değer ve kategorik öznitelikler
için en sık kullanılan değer kullanılmıştır) Genel görevler hiyerarşik seviyesine açılan olası
bir taslak, CRISP-DM ve Berry ve Linoff'un (2004) metodolojisinin katkısıyla aşağıdaki gibi
özetlenebilir (Larose, 2005: 59).
16
2.4.1. İşi Anlama Aşaması
İşi anlama aşaması, proje hedeflerinin ve gereksinimlerinin iş açısından anlaşılmasını
kapsar. Süreç, iyi tanımlanmış bir iş problemi, veri madenciliği problemine dönüşüm ve ön
plan ile başlar (Hand, 2001: 353).
 İş hedefi
 Hedefin veri madenciliği problem tanımına çevrilmesi
 Hedeflere ulaşmak için stratejiye başlamak
2.4.2. Veri Anlama Aşaması
Veriyi anlama aşaması, veri üzerinde çalışmaya başlama aşamasıdır. Verilerin bulunması ve
seçilmesi, verilere aşina olma faaliyetleri, verilerin ilk içgörülerinin keşfedilmesi bu
aşamadaki bazı faaliyetlerdir. Uygun Verinin Seçilmesi Verinin Tanımlanması Verinin
Keşfedilmesi (Extraction) Verinin anlaşılması ve hazırlanması aşamaları bir veri
madenciliği çalışmasının en zahmetli kısmıdır. Veri madenciliği veritabanının
oluşturulması, verilerin keşfedilmesi ve modelleme için hazırlanması en çok zaman alan
aşamalardır. Örneğin, bir web tıklama akışı analizi verisinde, bu aşamalar bir proje
zamanının ve kaynak tahsisinin yaklaşık %80 ila %95'ini oluşturur (Edelstein, 2001).
2.4.3. Veri Hazırlama Aşaması
Veri hazırlama aşaması, tablo, kayıt ve öznitelik seçiminin yanı sıra modelleme araçları için
verilerin dönüştürülmesi ve temizlenmesi gibi görevleri kapsar. Bu görevler, modellerde
kullanılacak verileri hazırlamak için gerçekleştirilir (Hand, 2001: 353).
 Model Kümesi Oluşturma
 Veri Temizliği
 Veri Dönüşümü (seçim, entegrasyon, biçimlendirme)
17
2.4.4. Modelleme Aşaması
Modelleme aşaması, veri madenciliği tekniklerinin seçilmesi ve uygulanması aşamasıdır.
Eğer veri seti seçilen tekniklerin gerekliliklerini karşılamıyorsa hazırlık aşamasına geri
dönmek gerekebilir (Edelstein, 2001).
 Tekniklerin seçilmesi
 Modeller Oluşturun
 Test modelleri
 Modelleri değerlendirin
2.4.5. Değerlendirme Aşaması
İş hedeflerine doğru bir şekilde ulaştığından emin olmak için modeli daha kapsamlı bir
şekilde değerlendirmek ve modeli oluşturmak için yürütülen adımları gözden geçirmek
önemlidir. Amaç, yeterince dikkate alınmamış bazı önemli iş konularının olup olmadığını
kontrol etmektir. Sonunda veri madenciliği sonuçlarının kullanımına ilişkin bir karara
varılmalıdır (Tacenur, 2006: 13).
 Süreci gözden geçirin
 Hedefe ulaşılıp ulaşılmadığının belirlenmesi
2.4.6. Dağıtım Aşaması
Bu aşama, avantaj elde etmek için modelin gerçek hayata dönüştürülmesidir. Gereksinimlere
bağlı olarak, dağıtım aşaması nihai bir rapor kadar basit olabileceği gibi, işletme genelinde
tekrarlanabilir bir veri madenciliği sürecinin uygulanması kadar karmaşık da olabilir.
Genellikle analizci sonuçları verir ve işlevsel departmanlar dağıtımı gerçekleştirir. Bununla
birlikte, analist dağıtım çalışmasını yürütmeyecek olsa bile, müşterinin oluşturulan
modellerden gerçekten yararlanmak için hangi eylemlerin gerçekleştirilmesi gerektiğini
önceden anlaması önemlidir (Ersöz ve Çınar, 2021).
 Nihai rapor
 Dağıtım planı
18
 Plan izleme
2.5. Temel Veri Madenciliği Görevleri
Veri madenciliği görevleri genellikle iki ana kategoriye ayrılır; tahmin edici ve tanımlayıcı
görevler. Tahmine dayalı görevlerin amacı, diğer özniteliklerin değerlerine dayanarak belirli
bir özniteliğin değerini tahmin etmektir. Tahmin edilecek öznitelik genellikle hedef olarak
bilinirken, tahmini yapmak için kullanılan öznitelikler açıklayıcı olarak bilinir. Tahmine
dayalı görevler sınıflandırma, regresyon, zaman serisi analizi ve tahmindir. Tanımlayıcı
görevlerin amacı, verilerdeki altta yatan ilişkileri özetleyen kalıplar türetmektir. Tanımlayıcı
veri madenciliği görevleri genellikle doğası gereği keşifseldir ve sonuçları doğrulamak ve
açıklamak için sıklıkla işlem sonrası teknikler gerektirir. Tanımlayıcı görevler kümeleme,
özetleme, birliktelik kuralları ve dizi keşfidir. Tablo 2.2 veri madenciliği görevlerini
göstermektedir.
Tablo 2.2
Veri Madenciliği Görevleri (Aşuk, 2010: 12).
Tahmine Dayalı Görevler Tanımlayıcı Görevler
Sınıflandırma Kümeleme
Regresyon Özetleme
Zaman Serisi Analizi Dernek Kuralları
Tahmin Dizi Keşfi
Veri madenciliği fonksiyonları denetimli ve denetimsiz fonksiyonlar olarak da
sınıflandırılabilir. Denetimli fonksiyonlar bir değeri tahmin etmek için kullanılır, bir hedefin
(bilinen sonuç) belirtilmesini gerektirir. Hedefler ya evet/hayır kararını gösteren ikili
öznitelikler (satın al/alma) ya da tercih edilen bir alternatifi gösteren çok sınıflı hedeflerdir
(kazak rengi). Sınıflandırma için Naïve Bayes denetimli bir madencilik algoritmasıdır.
Denetimsiz fonksiyonlar, verilerdeki içsel yapıyı, ilişkileri veya yakınlıkları bulmak için
kullanılır. Denetimsiz madencilik bir hedef kullanmaz. Kümeleme algoritmaları, verilerde
doğal olarak oluşan grupları bulmak için kullanılabilir.
19
2.5.1 Sınıflandırma
Bir koleksiyonun sınıflandırılması, koleksiyonu oluşturan öğelerin kategorilere veya
sınıflara ayrılmasından oluşur. Veri madenciliği bağlamında sınıflandırma, geçmiş veriler
üzerine inşa edilen bir model kullanılarak yapılır. Tahmine dayalı sınıflandırmanın amacı,
yeni verilerdeki, yani geçmiş verilerde bulunmayan verilerdeki her kayıt için hedef sınıfı
doğru bir şekilde tahmin etmektir. Bir sınıflandırma görevi, hedef değerlerin (veya sınıf
atamalarının) bilindiği yapı verileriyle (eğitim verileri olarak da bilinir) başlar. Farklı
sınıflandırma algoritmaları, tahmin edici özniteliklerin değerleri ile yapı verilerindeki hedef
özniteliklerin değerleri arasındaki ilişkileri bulmak için farklı teknikler kullanır. Bu ilişkiler
bir modelde özetlenir; model daha sonra hedef değerleri tahmin etmek için bilinmeyen hedef
değerlere sahip yeni vakalara uygulanabilir. Bir sınıflandırma modeli, tahminleri bilinen
hedef değerlerle karşılaştırmak için eğitim verilerinden ayrı tutulan verilere de uygulanabilir;
bu tür veriler test verileri veya değerlendirme verileri olarak da bilinir. Karşılaştırma
tekniğine modelin tahmin doğruluğunu ölçen bir modelin test edilmesi adı verilir. Bir
sınıflandırma modelinin yeni verilere uygulanmasına modelin uygulanması, verilere de
uygulama verileri veya puanlama verileri denir. Bir modelin verilere uygulanması genellikle
verilerin puanlanması olarak adlandırılır. Dört ana sınıflandırma algoritması vardır: “Karar
Ağacı Algoritması, Naive Bayes Algoritması, Adaptif Bayes Ağı Algoritması ve Destek
Vektör Makinesi Algoritması” (Taft vd., 2005).
2.5.2 Regresyon
Regresyon, bir veri öğesini gerçek değerli bir tahmin değişkenine eşlemek için kullanılır.
Gerçekte regresyon, bu eşlemeyi yapan fonksiyonun öğrenilmesini içerir. Regresyon, hedef
verilerin bilinen bazı fonksiyon türlerine uyduğunu varsayar ve ardından verilen verileri
modelleyen bu türden en iyi fonksiyonu belirler. Regresyon modelleri sınıflandırma
modellerine benzer. Regresyon ve sınıflandırma arasındaki fark, regresyonun sayısal veya
sürekli hedef niteliklerle, sınıflandırmanın ise kesikli veya kategorik hedef niteliklerle
ilgilenmesidir. Başka bir deyişle, hedef nitelik sürekli (kayan noktalı) değerler veya doğal
düzene sahip tamsayı değerler içeriyorsa, bir regresyon tekniği kullanılabilir. Hedef nitelik
kategorik değerler içeriyorsa, yani sıralamanın önemli olmadığı dize veya tamsayı değerleri
içeriyorsa, bir sınıflandırma tekniği gereklidir. Regresyon modelleri için Destek Vektör
20
Makinesi, Aktif Öğrenme ve Tek Sınıflı Destek Vektör Modeli kullanılabilir (Aşuk, 2010:
14)
2.5.3. Zaman Serisi Analizi
Zaman serisi analizi ile bir özelliğin değeri zaman içinde değiştikçe incelenir. Değerler
genellikle eşit aralıklı zaman noktaları olarak elde edilir. Zaman serisini görselleştirmek için
bir zaman serisi grafiği kullanılır. Zaman serisi analizinde gerçekleştirilen üç temel işlev
vardır. Bir durumda, farklı zaman serileri arasındaki benzerliği belirlemek için mesafe
ölçüleri kullanılır. İkinci durumda, davranışını belirlemek için çizginin yapısı incelenir.
Üçüncü bir uygulama, gelecekteki değerleri tahmin etmek için tarihsel zaman serisi grafiğini
kullanmak olacaktır (Seker, 2015: 24).
2.5.4. Tahmin
Birçok gerçek dünya veri madenciliği uygulaması, geçmiş ve mevcut verilere dayalı olarak
gelecekteki veri durumlarının tahmin edilmesi olarak görülebilir. Tahmin, bir tür
sınıflandırma olarak görülebilir. Aradaki fark, tahminin mevcut bir durumdan ziyade
gelecekteki bir durumu tahmin etmesidir. Tahmin uygulamaları arasında sel, konuşma
tanıma, makine öğrenimi ve örüntü tanıma yer alır. Gelecekteki değerler zaman serisi analizi
veya regresyon teknikleri kullanılarak tahmin edilebilse de, diğer yaklaşımlar da
kullanılabilir (Irmak, Köksal ve Asilkan, 2012: 105).
2.5.5. Kümeleme
Kümeleme, grupların önceden tanımlanmaması, bunun yerine yalnızca veriler tarafından
tanımlanması dışında sınıflandırmaya benzer. Kümeleme alternatif olarak denetimsiz
öğrenme veya segmentasyon olarak da adlandırılır. Verilerin birbirinden ayrık olabilecek
veya olmayabilecek gruplara bölünmesi veya bölümlere ayrılması olarak düşünülebilir.
Kümeleme genellikle veriler arasındaki benzerliğin önceden tanımlanmış niteliklere göre
belirlenmesiyle gerçekleştirilir. En benzer veriler kümeler halinde gruplandırılır. Kümeler
önceden tanımlanmadığından, bir alan uzmanının genellikle oluşturulan kümelerin anlamını
yorumlaması gerekir. Kümeleme analizi, verilerin içine gömülü kümeleri tanımlar. Küme,
bir anlamda birbirine benzeyen veri nesneleri topluluğudur. İyi bir kümeleme yöntemi,
21
kümeler arası benzerliğin düşük ve küme içi benzerliğin yüksek olmasını sağlamak için
yüksek kaliteli kümeler üretir; başka bir deyişle, bir kümenin üyeleri, farklı bir kümenin
üyelerine benzediklerinden daha çok birbirlerine benzerler. Kümeleme, yararlılığın veri
analizinin hedefleri tarafından tanımlandığı yararlı küme grupları bulmayı amaçlar. Beş
farklı küme türü vardır: İyi ayrılmış, prototip tabanlı, grafik tabanlı, yoğunluk tabanlı ve
kavramsal kümeler. İyi ayrılmış küme, her bir nesnenin kümedeki diğer tüm nesnelere,
kümede olmayan herhangi bir nesneden daha yakın olduğu bir nesne kümesidir. Prototip
tabanlı küme, her bir nesnenin kümeyi tanımlayan prototipe diğer herhangi bir kümenin
prototipinden daha yakın olduğu bir nesne kümesidir. Veriler, düğümlerin nesneler olduğu
ve bağlantıların nesneler arasındaki bağlantıları temsil ettiği bir grafik olarak temsil edilirse,
bir küme grafik tabanlı olarak tanımlanabilir. Yoğunluk tabanlı küme, düşük yoğunluklu bir
bölge tarafından çevrelenen yoğun bir nesne bölgesidir. Kavramsal küme, bazı özellikleri
paylaşan bir dizi nesnedir. İki ana kümeleme algoritması vardır; KMeans Algoritması ve O-
Cluster Algoritması (Taşkın ve Emel, 2010: 398).
2.5.6. Özetleme
Özetleme, verileri ilişkili basit açıklamalarla alt kümelere eşler. Özetleme aynı zamanda
karakterizasyon veya genelleme olarak da adlandırılır. Veritabanı hakkında temsili bilgiler
çıkarır veya türetir. Bu, verilerin bazı kısımlarının gerçekten alınmasıyla gerçekleştirilebilir.
Alternatif olarak özet türü bilgiler verilerden türetilebilir. Özetleme, veritabanının içeriğini
kısa ve öz bir şekilde karakterize eder (Aşuk, 2010: 16).
2.5.7. İlişkilendirme Kuralları
İlişkilendirme, büyük veri kümelerinde gizlenmiş ilginç ilişkileri keşfetmeye yönelik veri
madenciliği görevini ifade eder. Ortaya çıkarılan ilişkiler birliktelik kuralları şeklinde temsil
edilebilir. İlişkilendirme kuralı, belirli veri ilişkilendirme türlerini tanımlayan bir modeldir.
Bunlar nedensel ilişkiler değildir. Gerçek verilerde veya gerçek dünyada var olan herhangi
bir ilişkiyi temsil etmezler. Ancak birliktelik kuralları, perakende mağaza yönetimine etkili
reklam ve pazarlama konusunda yardımcı olmak için kullanılabilir (Aşuk, 2010: 16).
22
2.5.8. Dizi Keşfi
Sıralı analiz veya dizi keşfi, verilerdeki sıralı kalıpları belirlemek için kullanılır. Bu örüntüler
eylemlerin zaman sırasına dayanır. Bu örüntüler, verilerin ilişkili bulunması bakımından
ilişkilendirmelere benzer, ancak ilişki zamana dayalıdır (Aşuk, 2010: 16).
2.6. Veri Madenciliği Sorunları
Veri madenciliği ile ilgili birçok önemli uygulama sorunu vardır. Bunlar; insan etkileşimi,
aşırı uyum, aykırı değerler, sonuçların yorumlanması, sonuçların görselleştirilmesi, büyük
veri kümeleri, yüksek boyutluluk, multimedya verileri, eksik veriler, ilgisiz veriler, gürültülü
veriler, değişen veriler, entegrasyon ve uygulamadır. Bu sorunlar veri madenciliği
algoritmaları ve ürünleri tarafından ele alınmalıdır.
2.6.1 Anomali Tespiti
Anomali tespiti, yeni veya anormal örüntülerin tanımlanmasından oluşur [9]. Bu uyumsuz
örüntüler, farklı uygulama alanlarında genellikle anomaliler, aykırı değerler, uyumsuz
gözlemler, istisnalar, sapmalar, sürprizler, tuhaflıklar veya kirleticiler olarak adlandırılır.
Bunlardan anomaliler ve aykırı değerler, anomali tespiti bağlamında en yaygın olarak
kullanılan iki terimdir; bazen birbirinin yerine kullanılır. Anormallik tespiti çok çeşitli
uygulamalarda geniş bir kullanım alanı bulmaktadır. Anomali tespitinin önemi, verilerdeki
anomalilerin çok çeşitli uygulama alanlarında önemli ve genellikle kritik eyleme
dönüştürülebilir bilgilere dönüşmesinden kaynaklanmaktadır. Verilerdeki aykırı değerlerin
veya anomalilerin tespit edilmesi, istatistik camiasında 19. yüzyılın başlarında çalışılmıştır.
Zaman içinde, çeşitli araştırma topluluklarında çeşitli anormallik tespit teknikleri
geliştirilmiştir. Bu tekniklerin birçoğu belirli uygulama alanları için özel olarak
geliştirilmişken, diğerleri daha geneldir. Aykırı Değer, farklı bir mekanizma tarafından
oluşturulduğuna dair şüphe uyandıracak kadar diğer gözlemlerden sapan bir gözlemdir.
Verinin genel davranışına uymayan bir veri nesnesidir, gürültü (Bir kişinin gürültüsü başka
bir kişinin sinyali olabilir) veya istisna olarak değerlendirilebilir, bu da nadir olay analizinde
oldukça kullanışlıdır (Chandola, 2009: 56).
23
Anomalilerin üç yaygın nedeni vardır: farklı sınıflardan gelen veriler, doğal varyasyon ve
veri ölçüm veya toplama hatası. Bir nesne, farklı bir tür veya sınıftan olduğu için diğer
nesnelerden farklı olabilir. Birçok veri seti, bir veri nesnesinin olasılığının, nesnenin
dağılımın merkezinden uzaklığı arttıkça hızla azaldığı istatistiksel dağılımlarla
modellenebilir. Sistemler, bir kurumun veri depolarında bulunan ve eski sistemlerden,
veritabanlarından veya farklı format ve yapıdaki dosyalardan gelen veri koleksiyonunu
kullanır. Bu nedenle, verilerin anlamlı sonuçlar üretmek için veri faaliyetlerine uyacak
şekilde biçimlendirilmesi ve yapılandırılması önemlidir (Charran, 2006). Dolayısıyla, veri
toplama veya ölçüm sürecindeki hatalar bir başka anomali kaynağıdır. Veri toplama
sırasında, tablo sütun kısıtlamaları ve bağlantılı açıklayıcı tablolara referanslar kullanılarak
hata kayıtları da tanımlanır. Belirlenen hataların sürekli geri bildirimi yoluyla, kaynaktaki
veri kalitesi, tercihen veri yakalama sırasında iyileştirilebilir. Bu nedenle, basit bir
anormallik tespit yaklaşımı, normal davranışı temsil eden bir bölge tanımlamak ve verilerde
bu normal bölgeye ait olmayan herhangi bir gözlemi anormallik olarak ilan etmektir. Ancak
birkaç faktör bu görünüşteki yaklaşımı çok zorlayıcı hale getirmektedir. Olası tüm normal
davranışları kapsayan bir normal bölge tanımlamak çok zordur. Anomaliler kötü niyetli
eylemlerin sonucu olduğunda, kötü niyetli düşmanlar genellikle anormal gözlemlerin normal
gibi görünmesini sağlamak için kendilerini uyarlar, böylece normal davranışı tanımlama
görevini daha da zorlaştırır. Birçok alanda normal davranış gelişmeye devam eder ve mevcut
bir normal davranış kavramı gelecekte yeterince temsil edici olmayabilir. Anomali kavramı
farklı uygulama alanları için farklıdır. Anomali tespit teknikleri tarafından kullanılan
modellerin eğitimi/doğrulanması için etiketli verilerin mevcudiyeti genellikle önemli bir
sorundur. Veriler genellikle gerçek anomalilere benzeme eğiliminde olan ve dolayısıyla ayırt
edilmesi ve giderilmesi zor olan gürültü içerir (Lee, 2007).
Anomali tespitinin üç ana tekniği vardır: Model tabanlı teknikler, yakınlık tabanlı teknikler
ve yoğunluk tabanlı teknikler. Birçok anormallik tespit tekniği öncelikle verinin bir modelini
oluşturur. Anomaliler, modele çok iyi uymayan nesnelerdir. Modeller kümeleme yoluyla
oluşturulabilir. Model bir kümeler kümesi ise, anomaliler herhangi bir kümeye güçlü bir
şekilde ait olmayan nesnelerdir. Ayrıca bir model oluşturmak için sınıflandırma teknikleri
de kullanılabilir. Yakınlık tabanlı teknikler, nesneler arasında bir yakınlık ölçüsü tanımlar.
Anormal nesneler, diğer nesnelerin çoğundan uzak olanlardır. Yakınlık tabanlı tekniklerin
çoğu mesafelere dayalıdır, bu nedenle mesafe tabanlı aykırı değer tespit teknikleri olarak
adlandırılırlar. Yoğunluk tabanlı teknikler nesnelerin yoğunluğunu hesaplar ve düşük
24
yoğunluklu bölgelerde bulunan ve komşularından nispeten uzak olan nesneleri anormal
olarak değerlendirir.
2.6.2. Örüntü Değerlendirme ve Bilgi Sunumu.
KDD'nin altıncı adımı olan örüntü değerlendirmesi, bazı etkileyici ölçütlere dayalı olarak
bilgiyi temsil eden gerçekten ilginç örüntüleri tanımlar. KDD'nin yedinci adımı olan bilgi
sunumunda, çıkarılan bilginin kullanıcıya sunulması için görselleştirme ve bilgi temsili
teknikleri kullanılır. Görselleştirme tekniklerinin kullanımı, kullanıcıların sonuçların daha
matematiksel veya metin tipi açıklamalarından daha karmaşık sonuçları özetlemesine,
çıkarmasına ve kavramasına olanak tanır. Görselleştirme teknikleri arasında grafiksel,
geometrik, simge tabanlı, piksel tabanlı, hiyerarşik ve hibrit yer alır. Çubuk grafikler, pasta
grafikler, histogramlar ve çizgi grafikler gibi geleneksel grafik yapıları kullanılabilir.
Geometrik teknikler kutu grafiği ve dağılım diyagramı tekniklerini içerir. Şekiller, renkler
veya diğer simgelerin kullanılması sonuçların sunumunu iyileştirebilir. Piksel tabanlı
tekniklerde her veri değeri benzersiz şekilde renklendirilmiş bir piksel olarak gösterilir.
Hiyerarşik teknikler, görüntüleme alanını veri değerlerine dayalı olarak sıralamaya göre
bölgelere ayırır (Dunham, 2003).
2.7. Veri İşleme Araçları
Çeşitli veri madenciliği tekniklerini gerçekleştirmek için Weka, Rapidminer, Orange ve
Knime gibi veri madenciliği araçları kullanılmaktadır.
WEKA: Waikato Bilgi Analizi Ortamı (WEKA), Yeni Zelanda'daki Waikato Üniversitesi
tarafından sunulan açık kaynaklı bir yazılım ve makine öğrenimi araç setidir. WEKA, veri
ön işleme, kümeleme, sınıflandırma, regresyon, görselleştirme ve özellik seçimi gibi çeşitli
standart veri madenciliği görevlerini destekler. Mevcut veri madenciliği ve makine öğrenimi
teknikleriyle WEKA kullanılarak yeni algoritmalar da uygulanabilir. WEKA, dosyalar,
URL'ler ve veritabanları dahil olmak üzere veri yüklemek için çeşitli kaynaklar sağlar.
Desteklediği dosya formatları arasında WEKA "nın kendi ARFF formatı, CSV, Lib SVMs
formatı ve C4.5 formatı bulunmaktadır. WEKA "da karışıklık matrisi, kesinlik, geri çağırma,
doğru pozitif ve yanlış negatif gibi birçok değerlendirme kriteri de sağlanmaktadır. WEKA
aracının avantajlarından bazıları Açık kaynak kodlu, platform bağımsız ve taşınabilir,
25
grafiksel kullanıcı arayüzü ve farklı veri madenciliği algoritmalarının çok geniş bir
koleksiyonunu içerir (waikato, 2021).
RAPIDMINER: RAPIDMINER (RM) veri madenciliği süreçleri için iyi bir ortam sağlayan
açık kaynaklı bir yazılımdır. Veri akışını oluşturmak için kullanılan sürükle ve bırak
özelliğine sahiptir. Farklı dosya formatlarını desteklemektedir. Regresyon, sınıflandırma ve
kümeleme görevleri farklı öğrenme algoritmaları ile kolayca gerçekleştirilebilir. Rapid
Miner çok sayıda sınıflandırma ve regresyon algoritmasını, karar ağaçlarını, birliktelik
kurallarını, kümeleme algoritmalarını destekler ve veri ön işleme, normalleştirme, filtreleme
ve veri analizi için birçok özellik mevcuttur. Farklı geleneksel ve standart veritabanlarından
veri aktarabilir (rapidminer, 2021).
ORANGE: ORANGE, Ljubljana Üniversitesi Biyoinformatik Laboratuvarı'nda geliştirilen
açık kaynaklı bir veri madenciliği aracıdır. Uygulamalar komut dosyası ve görsel
programlama kullanılarak uygulanabilir. Veri manipülasyonu ve widget değişikliği için
Python kütüphanesi mevcuttur. Programlama, widget'ları tuval üzerine yerleştirerek ve giriş
ve çıkışlarını bağlayarak gerçekleştirilir. Bu araç makine öğrenimi ve veri madenciliği
algoritmaları için uygundur. Hem veri madenciliği araştırmacıları hem de kendi
algoritmalarını geliştirmek ve test etmek isteyen deneyimsiz kullanıcılar tarafından kolayca
kullanılabilir. Kodun mümkün olduğunca çoğunu yeniden kullanma avantajı sağlar (orange,
2021).
KNIME: KNIME (Konstanz Information Miner) İsviçre şirketi tarafından geliştirilen ve
sürdürülen genel amaçlı bir açık kaynak veri madenciliği aracıdır. Eclipse platformu
üzerinde uygulanmaktadır ve veri entegrasyonu, işleme, keşif ve analiz platformu
olanaklarına sahiptir. KNIME, R ve WEKA gibi diğer veri madenciliği araçları ile entegre
edilebilir (knime, 2021).
2.8. Veri Madenciliği İle Sağlık Alanında Yapılmış Çalışmalar
Bu bölümde veri madenciliği ile sağlık alanında yapılmış çalışmalar hakkında bilgiler
verilecektir.
26
Obenshain (2004) tarafından yapılan çalışmada sağlık verilerinin gözetimi ile ilgili olarak
veri madenciliğine üst düzey bir giriş sunulmuştur. Veri madenciliği geleneksel istatistik ile
karşılaştırılmakta, otomatik veri sistemlerinin bazı avantajları tanımlanmakta ve bazı veri
madenciliği stratejileri ve algoritmaları açıklanmaktadır. Somut bir örnekle veri madenciliği
sürecindeki adımlar gösterilmekte ve sağlık alanındaki üç başarılı veri madenciliği
uygulaması açıklanmaktadır.
Koyuncugil ve Özgülbaş (2009) tarafından yapılan çalışmada “veri tabanlarında bilgi keşfi,
veri ambarı, veri madenciliği, iş zekası ve veri madenciliği yöntemleri konularında
kavramsal çerçeve verilerek; ülkemizdeki sağlık sektöründe öncelikli konu ve sorun alanları
ile ilgili veri madenciliği” uygulamalarına örnekler sunulmuştur.
Güllüoğlu (2011) tarafından yapılan çalışmada Tıp alanında uygulanması düşünülen veri
madenciliğe çalışmalarına örnek teşkil etmesi açısından bir plan çıkarmak
amaçlanmıştır. Bu açıdan bakıldığı zaman çalışmanın amacı geliştirilecek yöntembilim ile
saklı olan ve bilinmeyen bilgilere ulaşmaktır. Bunun için farklı tipteki veriler
sınıflandırılacak, eğitilecek yeni veriler test edilecek ve yordama yapılacaktır. Böylece
kaynaktan hedefe giden süreçte hedef karar vermede etkilenecektir. Bu şekilde çıkarılmak
istenen bilgiye ulaşılmış olacaktır.
Atiktürk Taşdelen (2019) tarafından yapılan çalışmada Bu çalışmada makine öğrenmesi
metotları kullanılarak sınıflandırma işlemi yapılmıştır. Sağlık alanındaki verilerde
perceptron öğrenme algoritması, K en yakın komşuluk, derin öğrenme metotları uygulanarak
karşılaştırmalar yapılmış ve bir metot önerilmiştir.
2.9. Veri Madenciliği İle Hastalık Teşhisleri Alanında Yapılmış Çalışmalar
Hall ve arkadaşları (2002) tarafından yapılan güncel bir çalışmada, sindirim sistemi
(gastrointestinal) hastası olan çeşitli yaş, cinsiyet, zaman ve bunun yanı sıra sağlık
sigortalılık durumu lojistik regresyon yöntemi ile analiz edilmiş, gastrointestinal
hastalıkların sıcaklığın arttığı yaz aylarında gençlerde, kadınlarda ve herhangi bir sağlık
güvencesi olmayanlarda arttığı sonucuna varılmıştır.
27
Santos vd. (2014) çalışmalarında ilişkilendirmelerin tanımlamalarına bağlı olduğu için
özelliklerin azaltılmasının sınıflandırmada önemli hassas ve önemli olduğunu belirtmiş,
göğüs kanseri verilerinde kullandıkları etkili özellik sıralaması algoritmalarından
bahsetmiştir
Nilashi vd. (2017) tarafından yapılan çalışmanın amacı, meme kanseri hastalığı verilerinde
hastalıkla ilgili tahmin yürütmektir. Bunu yaparken, bulanık kural gerekçelendirme
yöntemini kullanmış, bulanık kuralları keşfederek tahmin modelleri oluşturmuşlardır.
Jain ve Singh (2018) uygun özellik seçiminin sınıflandırmanın doğruluğunu önemli ölçüde
etkilediğini belirtmiş ve çeşitli özellik seçimi yöntemlerini inceleyerek avantaj ve
dezavantajlarını incelemişlerdir. Ayrıca kronik hastalık tahmini için geleneksel
sınıflandırma sistemleri, adaptif sınıflandırma sistemleri ve paralel sınıflandırma
sistemlerini incelemişlerdir.
28
BÖLÜM 2I
YÖNTEM
Araştırma yöntemi; “araştırmanın modeli, evren ve örneklem, veri toplama araçları, verilerin
toplanması ve verilerin analizi başlıkları” ile detaylıca açıklanacaktır. Çalışmaya öncelikle
diyabet hastalığına uygun veri seti için araştırma yapılarak başlanmıştır. Uygun veri seti
bulunduktan sonra bu veri seti üzerinde işlem yapmadan önce veri madenciliği basamakları
uygulanmaya başlanmış ve bu aşamada sırasıyla veri temizleme, veri indirgeme, veri
dönüştürme ve uygun veri madenciliği yazılımı seçimi işlemleri yapılmıştır. Daha sonra
kullanılan veri seti, algoritma ile eğitilmiştir. Böylece gelecek olan test veri setlerinin hasta
olup olmama olasılığı araştırılmıştır. İki tane algoritma kullanılarak algoritmaların
hangisinin daha iyi sonuç verdiği araştırılmış ve karşılaştırılmıştır.
3.1. Araştırmanın Modeli
Hastalık teşhislerinde veri madenciliğinin kullanımı araştırmasının modeli ilişkisel araştırma
modelidir. İlişkisel araştırma modeli ile araştırma problemi, araştırma konusu kapsamında
incelenmiştir.
Şeker hastalığına ait örnek veriler üzerinden çalışma yapılarak veri madenciliği
yöntemlerinden lojistik regresyon ve destek vektör makineleri ile bir sınıflandırma
gerçekleştirerek hangi algoritmanın daha iyi sonuç verdiğini ve bir kişinin hasta olmaya ne
kadar yakın olduğu ele alınacaktır.
3.2. Evren ve Örneklem
Amaç ve sınırlılıkta da belirtildiği üzere araştırma veri madenciliği kullanılarak kişinin
hastalık teşhisi tahminini ortaya çıkmasına yöneliktir. Elde edilecek sonuçların genellemek
isteneceği çalışma evreni sağlık birimleridir.
3.3. Veri Toplama Araçları
Araştırmada belirlenen ilişkisel araştırma yönteminde veri toplama aracı olarak belgesel
tarama yöntemi kullanılmıştır. Var olan kayıt ve belgeleri inceleyerek veri toplama işlemi
belgesel tarama yöntemi olarak adlandırılır. Bu yöntemin seçilmesinin nedeni lojistik
29
regresyon ve destek vektör makineleri veri madenciliği modellerini kullanarak bir
sınıflandırma yöntemi gerçekleştirip, kişilerin hasta olup olmadıklarının tahminini belgesel
tarama yöntemi ile bulunan hazır veri seti üzerinde kullanılmasının uygun olmasıdır.
Belgesel tarama yöntemi ile kaggle veri tabanından elde edilen veri seti 768 adet kayıttan
oluşan diyabet hastalığı ile ilgilidir. Veri setindeki her hayıt bir kişiye ait özelliklerden
oluşmaktadır. Veri seti 8 özellik ‘ten oluşmuştur. Bu özellikler; hamilelik sayısı, glikoz
düzeyi, kan basıncı, ten kalınlığı, insülin sayısı, diyabet soy ağacı fonksiyonu, vücut kitle
indeksi ve yaş’ tır.
3.4. Verilerin Toplanması
Araştırma kapsamında toplanan verilerin kaynağı insan olmuştur ve bu doğrultuda araştırma
konusu ile ilgili hazır veriler kullanılmıştır. Kullanılan veri seti hakkında detaylı bilgi şu
adresten alınabilir: https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database
Araştırmada kişilerin hastalığını belirleyen kriterlerin yer aldığı bir veri setinden
yararlanılacaktır. Veriler belgesel tarama yöntemiyle derlenmiştir.
3.5. Verilerin Analizi
Veri analizi yöntemlerinden nicel veri analiz yöntemi kullanılmıştır. Nicel veriler, sayısal
anlamda veya miktar olarak bilgiler vermektedirler. Veriler analiz edilirken makine
öğrenmesi ve istatistik alanlarından yararlanılmıştır.
30
BÖLÜM IV
BULGULAR VE YORUM
4.1 Uygulama
Bu uygulamada veri madenciliği algoritmaları olan Destek Vektör Makineleri ve Lojistik
Regresyon ile veri setinin modellenmesi amaçlanmıştır. Kullanılan veri seti, algoritma ile
eğitilmiştir. Böylece gelecek olan test veri setlerinin hasta olup olmama olasılığı
araştırılmıştır. Uygulamada kullanılan veri seti diyabet hastalığı ile ilgilidir. İnternet
ortamından excel dosya formatı olan ‘.csv’ uzantısı olarak indirilmiştir. Kullanılan program
“.csv” formatında analiz yapmayı desteklemektedir. Bu sebeple indirilen dosya analiz
işlemlerinde direk kullanılmıştır. Python programlama dili kullanılarak, Anaconda
Navigator içerisinde Jupyter ortamında yazılmıştır. Öncelikle Jupyter ortamına kullanılacak
olan Numpy ve Pandas Python kütüphaneleri Şekil 4.1’de görüldüğü üzere yüklenmiştir.
Şekil 4.1.
Python kütüphanelerinin yüklenmesi
Veriler program içerisine yüklenmiştir. Veri seti içerisinde 768 adet kişinin bilgileri
bulunmaktadır. Veri setindeki her hayıt bir kişiye ait özelliklerden oluşmaktadır. Kişilerin
hepsi bayandır. Outcome değeri ise çıktı değeridir. Değer 1 ise diyabet hastası olduğunu, 0
ise diyabet hastası olmadığını gösterir. Şekil 4.2’de görüldüğü üzere veri seti 8 özellik ‘ten
oluşmuştur. Bu özellikler şunlardır:
 Pregnancies: Kişinin kaç defa hamile kaldığı belirtilmiştir.
 Glucose: Glikoz değeridir.
 Blood Pressure: Kan basıncı değeridir.
 Skin Thickness: Cilt kalınlığı değeridir.
 İnsülin: İnsülin değeridir.
 Body Mass Index: Vücut kitle indeksi değeridir.
 Diabetes Pedigree Function: Diyabet soyağacı fonksiyonu değeridir.
 Age: Kişilerin yaşını gösteren değerdir.
31
Şekil 4.2.
Veri seti özellikleri
Daha sağlıklı sonuçların çıkması için veri ön işleme adımı önemlidir. Veri ön işleme işlemi
adımı için her bir özellikte kaç adet 0 değerinin olduğu Şekil 4.3. ve Şekil 4.4’de öğrenildi.
Şekil 4.3.
Veri seti sıfır değerlerinin toplamı
Şekil 4.4.
Veri seti değerleri
32
Glikoz, kan basıncı, cilt kalınlığı, insülin, vücut kitle indeksi, diyabet soy ağacı fonksiyonu
ve yaş özellikleri sütunlarında yer alan 0 değerleri NaN olarak değiştirildi. Bu hücreleri Şekil
4.5’de eksik değerler olarak tanımlandı.
Şekil 4.5.
Eksik değerlerin tanımlanması
Eksik değerleri kendi sütununda bulunan değerlerin ortalaması ile Şekil 4.6’da dolduruldu.
Bu sayede veri setinde eksik değer kalmadı.
Şekil 4.6.
Eksik değerlerin doldurulması
33
Eksik değer kalmadığı Şekil 4.7’de görülüyor.
Şekil 4.7.
Eksik değerlerin toplamı
Diyabet hastası olup olmadığına en çok etki eden 4 özelliği Şekil 4.8’de görüldüğü üzere
korelasyon analizine göre bulundu. Bunlar sırasıyla glikoz, vücut kitle endeksi ve yaş
özellikleridir. Model oluştururken bu özellikler kullanılacaktır.
Şekil 4.8.
En çok etki eden 4 özellik
Veri ön işleme ve en çok etki eden özelliklerin ortaya çıkarılmasının ardından veri analize
hazır hale geldi. Kullanılacak olan algoritmalar lojistik regresyon ve destek vektör regresyon
’dur. Algoritmaların oluşturulabilmesi için Python’da bulunan hazır kütüphaneler Şekil
4.9’da programa dahil edildi.
Şekil 4.9.
Algoritmaların Oluşturulması
34
X ve y değişkenleri Şekil 4.10’da belirlendi. X değişkeni özellik setini, y değişkeni ise çıktı
setini temsil eder.
Şekil 4.10.
X ve y değişkenlerinin belirlenmesi
X değişkeni Şekil 4.11’de Glikoz, Vücut Kitle İndeksi ve yaş değerlerini gösterir.
Şekil 4.11.
X değişkeninin gösterilmesi
y değişkeni Şekil 4.12’de Outcome sütunundaki 0 ve 1 değerlerini gösterir.
Şekil 4.12.
y değişkeninin gösterilmesi
35
Lojistik regresyonu oluşturup, skoru kayıt etme işlemi Şekil 4.13’de yapıldı. X ve y
değişkenlerini ayırıp, her on tane de bir gözlem olarak belirlendi. Doğrulukların ortalaması
alınarak skor belirlendi. Bunun anlamı on tane de bir öğrenme gerçekleştirerek “accuracy”
skorunu belirleyip, ortalamasının hesaplanarak bulunmasıdır. 0.7669856450330144 değeri
veri setindeki sonuçların %76 doğru şekilde bildiğini gösterir. Bu değer, başarı oranını
gösterir.
Şekil 4.13.
Lojistik regresyon skoru
Bulunan lojistik regresyon skorunu sonuçlar listesine Şekil 4.14’de eklendi.
Şekil 4.14.
Lojistik regresyon skorunun eklenmesi
Doğrusal destek vektör regresyon skoru Şekil 4.15’de bulundu.
Şekil 4.15.
Doğrusal destek vektör regresyon skoru
36
Şekil 4.16’da görüldüğü üzere sonuçlar listesine eklendi.
Şekil 4.16.
Doğrusal destek vektör regresyon skorunun listeye eklenmesi
Lojistik regresyon algoritması ile bulunan skor doğrusal vektör algoritması ile bulunan
skordan daha başarılı çıkmıştır. Bu iki algoritma arasından lojistik regresyon tercih
edilecektir. En iyi sonucu veren model Şekil 4.17’de kaydedildi.
Şekil 4.17.
Modelin kaydedilmesi
Kaydedilen model Şekil 4.18’de çağrıldı.
Şekil 4.18
Modelin çağrılması
37
Çağrılan modeli lojistik regresyon modeli ile tahmin için Şekil 4.19’da kullanıldı. Glikoz
değeri 70, vücut kitle indeksi 60 ve yaşı 50 olan bir hasta için lojistik regresyon tahmini
yapıldı. İki çıktı değerimiz bulunmaktadır. Bunlardan 1 değeri diyabet hastası olduğunu, 0
değeri ise diyabet hastası olmadığını gösterir. Lojistik regresyon modeline göre bu hastanın
diyabet hastası olduğu tahmin edildi.
Şekil 4.19
Modelin kullanılması
Lojistik regresyon modeli ile başka bir tahmin Şekil 4.20’de yapıldı. Glikoz değeri 40, vücut
kitle indeksi 40 ve yaşı 40 olan bir hasta için lojistik regresyon modeline göre bu hastanın
diyabet hastası olmadığı tahmin edildi.
Şekil 4.20
Modelin başka bir tahminde kullanılması
38
BÖLÜM V
SONUÇ, TARTIŞMA VE ÖNERİLER
Araştırmanın son bölümünde sonuç başlığı altında dönem projesi konusu tanımlanacak,
kullanılan yöntem ve elde edilen sonuçlar ifade edilecektir. Tartışma başlığı altında
araştırmanın sonuç kısmı benzer çalışmalarla karşılaştırılarak probleme ilişkin
değerlendirmeler yapılacaktır. Öneriler başlığında ise araştırma amaç ve alt amaçları dikkate
alınarak kişisel düşünceler aktarılacaktır.
5.1. Sonuç
Veri madenciliği en kolay tanımıyla oldukça büyük miktardaki ham veriler içerisinden
amaca uygun modellerin ortaya çıkarılması prosesidir. Bir diğer ifadeyle; “karmaşık ve
düzensiz veriler içindeki modelleri ortaya çıkarıp bunları karar verme ve eylem planını
gerçekleştirmek için kullanma” işlemidir. Sağlık alanındaki veriler hayati önem taşıyan
verilerdir. Bu veriler, veri madenciliği modelleri kullanılarak hastalıkların erken ve doğru
teşhis edilmesinde önemli kazanımlar sağlayabilir. Bu çalışmada veri madenciliğinin
hastalık teşhislerinde kullanımının incelenmesi ve veri madenciliği teknikleri kullanılarak
örnek bir sınıflandırma çalışması yaparak yeni bir bakış açısı kazandırmak amaçlanmıştır.
Araştırmada ilişkisel araştırma yöntemi ve veri toplama aracı olarak belgesel tarama yöntemi
kullanılmıştır. Bu kapsamda; veri madenciliği algoritmalarından Destek Vektör Makineleri
ve Lojistik Regresyon ’un hastalık teşhislerinde nasıl kullanılabileceği konusunda örnek bir
çalışma yapılmış ve sonuçları gözlenmiştir. Uygulamada kullanılan veri seti diyabet hastalığı
ile ilgilidir. Kullanılan veri seti, bu algoritmalar ile eğitilmiş ve böylece gelecek olan test
veri setlerinin diyabet hastası olup olmama olasılığı araştırılmıştır.
Yapılan çalışmada veri setindeki “Glikoz” değerinin diyabet için en önemli kriter olduğunu
gözlenmiştir. Destek Vektör Makineleri algoritması ile bulunan skor 0.765’dir. Lojistik
Regresyon algoritması ile bulunan skor ise 0.766’dır. Yapılan testlerde algoritmaların
yüksek doğrulukta çalıştığı saptanmıştır. Lojistik regresyon algoritmasının doğrusal vektör
algoritmasına göre daha iyi doğruluk oranı verdiği saptanmıştır.
39
Veri madenciliği ile ilgili metot ve kavramların iyi bilinmesi ileride verilerin daha hızlı
düzenlenmesi ve değerlendirilmesi açısından son derece önemlidir. Veri madenciliğinin
gelişmesi, hastalık teşhislerinde kullanımına zemin hazırlamış ve gerekliliğini ortaya
koymuştur. Bu çalışmada veri madenciliğinin hastalık teşhislerinde kullanımı incelenerek
veri madenciliği yöntemlerinin hastalık teşhislerinde fayda sağlayabileceği görülmüştür.
5.2. Tartışma
Araştırma kapsamında çıkarılan sonuçlar benzer çalışmalar ile karşılaştırıldığında tutarlılık
göstermektedir. Benzer çalışmalarda veri madenciliğinin kullanımının hastalık teşhislerinde
aktif rol oynayabileceği ifade edilmektedir. Benzer araştırmalarda veri madenciliği
modellerinin diğer alanlarda olduğu gibi sağlık alanında kullanımının önemli olduğu
gözlemlenmiştir.
Çataloluk (2011) tarafından yapılan çalışmada özellikle tıp alanında veri madenciliğinin,
hastalara doğru teşhis koymak için maliyeti yüksek, laboratuvar şartları kısıtlı olan, hasta
açısından risk taşıyan yöntemlerin söz konusu olduğu durumlarda ya da tecrübe bakımından
yeterli düzeyde olmayan hekimlerin doğru teşhis koymalarına fayda sağlamada önemli bir
yardımcı karar destek aracı olarak kullanılabileceği açıklanmıştır.
Sevim (2019) tarafından yapılan çalışmada veri madenciliğinde kullanılan ortamın bir
öneminin olmadığı, önemli olan en verimli bir şekilde ön işleme yapılması ve en iyi sonuç
elde edilmesi olduğu açıklanmıştır.
Mevcut veriler ve algoritmalar ile yapılan analizlere bakılarak aynı özellikte ki verilerle
yapılacak diğer veri madenciliği çalışmalarının tanımlanmasında kullanılabilir. Böylece
analizde kullanılan veriler ışığında, aynı türde yeni veriler ortaya çıktığında bu verilere
ilişkin ileriye yönelik tahminler yapılabilecektir. Geleceğin sayısal karar verme ve iş zekâsı
yöntemi olan Veri Madenciliğinin konunun uzmanı kişiler tarafından hastalık teşhislerinde
kullanımının artması ile sağlık hizmetlerinin daha etkin sunumu ve kaynakların daha verimli
kullanımına yol açacaktır.
40
5.3. Öneriler
Araştırmada elde edilen sonuçlar ve tartışmalar ışığında araştırma amaç ve alt amaçları
doğrultusunda önerilerde bulunulabilir. Bu amaçla yapılan çalışmalarda karşılaşılan en
büyük problem veri yığınlarının hatalı veriler içermesi ya da çok sayıda değerinin eksik
girilmiş olmasıdır. Bu çalışmada kullanılan veri setinde de bahsi geçen bu problemlerle
karşılaşılmıştır. Uygulama sonuçlarının güvenilirliği açısından veri setinin detaylı bir
önişleme sürecinden geçirilmesi önerilmektedir. Bu aşamada veri setine; verilerin
temizlenmesi, null değeri çok fazla olan satırların veri setinde ortalama ile değiştirilmesi ve
veri indirgeme gibi birçok işlemin uygulanması yapılabilir.
Veri madenciliğinde birçok algoritma bulunmaktadır. Bu algoritmaların hangisinin daha
başarılı olduğu üzerine yapılan birçok araştırma mevcut olup bu araştırmaların sonucu
birbirinden farklılık göstermektedir. Bu çalışmada veri setine Lojistik Regresyon ve Karar
Destek Vektör algoritması uygulanmış ve her bir algoritma ile birer model oluşturulmuştur.
Oluşturulan bu modeller arasında farklı skor değerleri çıkmıştır. Bundan dolayı veri setine
ve probleme en uygun modelin seçilerek, yüksek doğruluk oranının kullanılması
önerilmektedir.
Hastalık teşhislerinde veri madenciliği uygulaması gerçekleştirileceği zaman, eldeki verinin
ve çözülmesi amaçlanan problemin çok iyi bir şekilde analiz edilmesi ve anlaşılması gerekir.
Gerçekte hasta olan bir kişiye sağlıklı teşhisi koymak veya gerçekte sağlıklı olan bir kişiye
hasta teşhisi koyup yanlış tedaviler uygulanmasına sebep olmak sağlık açısından oldukça
tehlikelidir. Bu nedenle hastalık teşhisinde kullanılacak olan veri setinin ve veri madenciliği
modelinin konunun uzmanları tarafından kararlaştırılıp, uygulanması önerilmektedir.
41
KAYNAKÇA
Abidi, S. S. R. (2001). Knowledge management in healthcare: towards ‘knowledge-
driven’decision-support services. International journal of medical informatics, 63(1-
2), 5-18.
Abidi, S. S. R., & Yu-N, C. (2000). A Convergence of Knowledge Management and Data
Mining: Towards ‘Knowledge-Driven’Strategic Services. In 3rd International
Conference on the Practical Applications of Knowledge Management, Manchester.
Ahmed, K. P. (2017). Analysis of data mining tools for disease prediction. Journal of
Pharmaceutical Sciences and Research, 9(10), 1886-1888.
Aşuk, C. (2010). A Data-Mınıng Based Fraud Detectıon System For Health Insurance
Companıes. (Yüksek lisans Tezi). Marmara Ünı̇versitesı̇ Fen Bilimleri Enstitüsü.
Atiktürk Taşdelen, D. (2019). Veri Madenciliğinin Tıp Ve Sağlık Hizmetlerinde
Uygulamaları. (Yüksek Lisans Tezi). Ankara Üniversitesi Fen Bilimleri Enstitüsü.
Aytaç, M. B., & Bilge, H. Ş. (2013). Tele Pazarlama Verilerinin Birliktelik Kurallarıyla Ve
Crısp-Dm Yöntemiyle Analiz Edilmesi. Aksaray Üniversitesi İktisadi ve İdari
Bilimler Fakültesi Dergisi, 5(2), 25-40.
Barbone, F., Bovenzi, M., Cavallieri, F., & Stanta, G. (1995). Air pollution and lung cancer
in Trieste, Italy. American Journal of Epidemiology, 141(12), 1161-1169.
Berry, M. J., & Linoff, G. S. (2004). Data mining techniques: for marketing, sales, and
customer relationship management. John Wiley & Sons..
Bukhbinder, G., Krumenaker, M., & Phillips, A. (2005). Insurance Industry Decision
Support: Data Marts, OLAP and Predictive Analytics. In Casualty Actuarial Society
Forum (pp. 171-197).
Chandola, V. (2009). Anomaly detection for symbolic sequences and time series data.
University of Minnesota.
Charran, E. (2006). Introduction to Data Mining with SQL Server”, http://www.sql-server-
performance.com/ec_data_mining.asp.
Cox, B. D., Whichelow, M. J., & Prevost, A. T. (1998). The development of cardiovascular
disease in relation to anthropometric indices and hypertension in British
adults. International journal of obesity, 22(10), 966-973.
Çataloluk, H. (2012). Gerçek Tıbbi Veriler Üzerinde Veri Madenciliği Yöntemlerini
Kullanarak Hastalık Teşhis. (Yüksek Lisans Tezi). Bilecik Üniversitesi Fen Bilimleri
Enstitüsü Bilgisayar Mühendisliği Ana Bilim Dalı
Devi, S. K., Krishnapriya, S., & Kalita, D. (2016). Prediction of heart disease using data
mining techniques. Indian journal of Science and technology, 9(39), 1-5.
42
Dunham, M. H. (2006). Data mining: Introductory and advanced topics. Pearson Education
India.
Edelstein H.A. (2001). Pan For Gold In The Clickstream”, InformationWeek March 12,
http://www.informationweek.com/828/prmining.htm.
Ersöz, F., & Çınar, Y. (2021). Veri Madenciliği ve Makine Öğrenimi Yaklaşımlarının
Karşılaştırılması: Tekstil Sektöründe bir Uygulama. Avrupa Bilim ve Teknoloji
Dergisi, (29), 397-414.
Galfond, G. (2017). Data Mining Can Unearth A Competitive Edge. National Underwriter,
10.
Güllüoğlu, S. S. (2011). Tıp ve sağlık hizmetlerinde veri madenciliği çalışmaları: kanser
teşhisine yönelik bir ön çalışma. AJIT-e: Bilişim Teknolojileri Online Dergisi, 2(5), 1-
7.
Gündoğdu, Ö. E. (2007). Veri madenciliğinde genetik algoritmalar (Master's thesis, Kocaeli
Üniversitesi, Fen Bilimleri Enstitüsü).
Hall G.V. , Kirk, M.D. , Ashbolt, R. , Stafford, R. , Lalor, K. (2002). Frequency of infectious
gastrointestinal illness in Australia, 2002: Regional, seasonal and demographic
variation”, Epidemiology and Infection, 134, 111-118
Hand, D., Mannila, H., & Smyth, P. (2001). Principles of Data Mining”. The MIT Press.
In A comprehensive, highlytechnical look at the math and science behind extracting
useful information from large databases (Vol. 546).
Irmak, S., Köksal, C. D., & Asilkan, Ö. (2012). Hastanelerin gelecekteki hasta
yoğunluklarının veri madenciliği yöntemleri ile tahmin edilmesi. Uluslararası Alanya
İşletme Fakültesi Dergisi, 4(1), 101-114.
Jain, D., Singh, V. (2018). Feature selection and classification systems for chronic disease
prediction: A review. Egyptian Informatics Journal, 19, 179–189
Kavakiotis I, Tsave O, Salifoglou A, Maglaveras N, Vlahavas I, Chouvarda I. (2017).
Machine learning and data mining methods in diabetes research. Computational and
structural biotechnology journal, 104-116.
Kdnuggets (2004).http://www.kdnuggets.com/polls/2004/data_mining_methodology.htm.
Knime (2021). https://www.knime.com/
Konrad R.: “Data mining: Digging user info for gold”, http://zdnet.com.com/2100-11-
528032.html?legacy=zdnn, ZDNET News February 7, (2001)
Koyuncugil, A., & Özgülbaş, N. (2009). Veri madenciliği: Tıp ve sağlık hizmetlerinde
kullanımı ve uygulamaları. Bilişim Teknolojileri Dergisi, 2(2).
Koyuncugil, A.S. (2006). Bulanık veri madenciliği ve sermaye piyasalarına uygulanması.
(Doktora tezi). Ankara Üniversitesi, Fen Bilimleri Enstitüsü.
43
Larose D.T. (2005). Discovering Knowledge in Data: An Introduction to Data Mining. John
Wiley & Sons.
Lee, H. H. (2007). Data Preparation Tool for Exploration in Data Mining. Masters
Dissertations: Computer Science , http://dspace.fsktm.um.edu.my/handle/1812/97
(2007).
MIT (2001). The Technology Review Ten, MIT Technology Review January/February,
Nilashi, M., Ibrahim, O., Ahmadi, H., Shahmoradi, L. (2017). A knowledge-based system
for breast cancer classification using fuzzy logic method. Telematics and Informatics,
34(2017) 133-144
Obenshain K. M., (2004) Application of Data Mining Techniques To Healthcare”, Data
Infect Control Hosp Epidemiol, 25, 690–695.
Orange (2021). https://orange.biolab.si/
Özdemir, A., Aslay, F. Y., & Handan, Ç. (2009). Veri Tabanında Bilgi Keşfi Süreci:
Gümüşhane Devlet Hastanesi Uygulaması. Sosyal Ekonomik Araştırmalar
Dergisi, 10(20), 347-366.
Patil, P. H., Thube, S., Ratnaparkhi, B., & Rajeswari, K. (2014). Analysis of different data
mining tools using classification, clustering and association rule mining. International
Journal of Computer Applications, 93(8).
Rapidminer (2021). https://rapidminer.com/
Santos, V., Datia, N., & Pato, M. P. M. (2014). Ensemble feature ranking applied to medical
data. Procedia Technology, 17, 223-230.
Seifert, J. W. (2004). Data mining: An overview. National security issues, 201-217.
Seker, S. E. (2015). Zaman Serisi Analizi (Time Series Analysis). YBS Ansiklopedi, 2(4),
23-31.
Sevim, S. (2019). Makine Öğrenmesi Yöntemiyle Hastalıkların Önceden Belirlenmesi Ve
Diyabet Üzerine Bir Uygulama. (Yüksek Lisans Tezi). İstanbul Aydın Üniversitesi
Lisansüstü Eğitim Enstitüsü Bilgisayar Mühendisliği Ana Bilim Dalı
Sharp D.E. (2003). Customer Relationship Management Systems Handbook. CRC Press,
(2003), 114-115.
Shaw, M. J., Subramaniam, C., Tan, G. W., & Welge, M. E. (2001). Knowledge management
and data mining for marketing. Decision support systems, 31(1), 127-137.
Shea, S., Misra, D., Ehrlich, M. H., Field, L., & Francis, C. K. (1992). Predisposing factors
for severe, uncontrolled hypertension in an inner-city minority population. New
England journal of medicine, 327(11), 776-781.
44
Stewart, B. F., Siscovick, D., Lind, B. K., Gardin, J. M., Gottdiener, J. S., Smith, V. E., ... &
Cardiovascular Health Study 1. (1997). Clinical factors associated with calcific aortic
valve disease. Journal of the American College of Cardiology, 29(3), 630-634.
Tacenur, E. (2006). An Applıcatıon Of Data Mınıng Study; A Way To Improve Busıness
Strategıes Of The Company. (Yüksek Lisans Tezi). Marmara Üniversitesi Fen
Bilimleri Enstitüsü Mühendislik Yönetimi Ana Bilim Dalı.
Taft, M., Krishnan, R., Hornick, M., Muhkin, D., Tang, G., Thomas, S., ... & Venkayla, S.
(2005). Oracle Data Mining Concepts, 10g Release 2 (10.2) B14339-01.
Taşkın, A. G. D. Ç., & Emel, G. G. (2010). Veri Madenciliğinde Kümeleme Yaklaşimlari
Ve Kohonen Ağlari İle Perakendecilik Sektöründe Bir Uygulama. Süleyman Demirel
Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 15(3), 395-409.
Thearling K. (2005). More Than Algorithms: Data Mining in the Real World.
http://www.thearling.com/umass/index_frame.htm (Access date: December 2005)
Thearling K. (2006) An Introduction to Data Mining.
http://www.thearling.com/text/dmwhite/dmwhite.htm (Access date: January 2006)
Usha Rani, D. (2017). Survey on Data Mining Tools and Techniques in Medical
Field. International Journal of Advanced Networking &Applications.
waikato (2021). http://www.cs.waikato.ac.nz/ml/weka/
Wirth, R., & Hipp, J. (2000, April). CRISP-DM: Towards a standard process model for data
mining. In Proceedings of the 4th international conference on the practical applications
of knowledge discovery and data mining (Vol. 1, pp. 29-39).
45
EKLER

Más contenido relacionado

La actualidad más candente

Bilgi Güvenliği Farkındalık Eğitimi
Bilgi Güvenliği Farkındalık EğitimiBilgi Güvenliği Farkındalık Eğitimi
Bilgi Güvenliği Farkındalık EğitimiBGA Cyber Security
 
Sağlık kurumlarında kalite yönetimi unite 24-hasta güvenli̇ği̇ni̇ etki̇leyen ...
Sağlık kurumlarında kalite yönetimi unite 24-hasta güvenli̇ği̇ni̇ etki̇leyen ...Sağlık kurumlarında kalite yönetimi unite 24-hasta güvenli̇ği̇ni̇ etki̇leyen ...
Sağlık kurumlarında kalite yönetimi unite 24-hasta güvenli̇ği̇ni̇ etki̇leyen ...Prof. Dr. Halit Hami Öz
 
Zararlı Yazılım Analizi Eğitimi Lab Kitabı
Zararlı Yazılım Analizi Eğitimi Lab KitabıZararlı Yazılım Analizi Eğitimi Lab Kitabı
Zararlı Yazılım Analizi Eğitimi Lab KitabıBGA Cyber Security
 
Kuramsal dayanaklar2
Kuramsal dayanaklar2Kuramsal dayanaklar2
Kuramsal dayanaklar2alfaland
 
Les 10 principales menaces de sécurité des bases de données
Les 10 principales menaces de sécurité des bases de donnéesLes 10 principales menaces de sécurité des bases de données
Les 10 principales menaces de sécurité des bases de donnéesImperva
 
Pfsense Firewall ve Router Eğitimi
Pfsense Firewall ve Router EğitimiPfsense Firewall ve Router Eğitimi
Pfsense Firewall ve Router EğitimiBGA Cyber Security
 
Gizem Başak Berk - Yüksek Lisans Tez Sunumu
Gizem Başak Berk - Yüksek Lisans Tez SunumuGizem Başak Berk - Yüksek Lisans Tez Sunumu
Gizem Başak Berk - Yüksek Lisans Tez SunumuG. Basak Berk
 
Penetrasyon Testlerinde Açık Kod Yazılımların Kullanımı
Penetrasyon Testlerinde Açık Kod Yazılımların KullanımıPenetrasyon Testlerinde Açık Kod Yazılımların Kullanımı
Penetrasyon Testlerinde Açık Kod Yazılımların KullanımıBGA Cyber Security
 
Microsoft Azure Overview Class 1
Microsoft Azure Overview Class 1Microsoft Azure Overview Class 1
Microsoft Azure Overview Class 1MH Muhammad Ali
 
Beyaz Şapkalı Hacker CEH Eğitimi - Bölüm 1, 2, 3
Beyaz Şapkalı Hacker CEH Eğitimi - Bölüm 1, 2, 3Beyaz Şapkalı Hacker CEH Eğitimi - Bölüm 1, 2, 3
Beyaz Şapkalı Hacker CEH Eğitimi - Bölüm 1, 2, 3BGA Cyber Security
 
Teknogirisim sermayesi destegi ornek i̇s planı dosyasi
Teknogirisim sermayesi destegi ornek i̇s planı dosyasiTeknogirisim sermayesi destegi ornek i̇s planı dosyasi
Teknogirisim sermayesi destegi ornek i̇s planı dosyasiKapsam Denetim
 
Web Uygulama Güvenliği Ve Güvenli Kod Geliştirme Eğitim Notlarım
Web Uygulama Güvenliği Ve Güvenli Kod Geliştirme Eğitim NotlarımWeb Uygulama Güvenliği Ve Güvenli Kod Geliştirme Eğitim Notlarım
Web Uygulama Güvenliği Ve Güvenli Kod Geliştirme Eğitim NotlarımNur Yesilyurt
 
Beyaz Şapkalı Hacker CEH Eğitimi - Bölüm 7, 8, 9
Beyaz Şapkalı Hacker CEH Eğitimi - Bölüm 7, 8, 9Beyaz Şapkalı Hacker CEH Eğitimi - Bölüm 7, 8, 9
Beyaz Şapkalı Hacker CEH Eğitimi - Bölüm 7, 8, 9BGA Cyber Security
 
Hücresel i malat
Hücresel i malatHücresel i malat
Hücresel i malatanswer3131
 
Rahatlıkta Bozulma-Sunum
Rahatlıkta Bozulma-SunumRahatlıkta Bozulma-Sunum
Rahatlıkta Bozulma-Sunumnandacepte.org
 

La actualidad más candente (20)

Bilgi Güvenliği Farkındalık Eğitimi
Bilgi Güvenliği Farkındalık EğitimiBilgi Güvenliği Farkındalık Eğitimi
Bilgi Güvenliği Farkındalık Eğitimi
 
Sağlık kurumlarında kalite yönetimi unite 24-hasta güvenli̇ği̇ni̇ etki̇leyen ...
Sağlık kurumlarında kalite yönetimi unite 24-hasta güvenli̇ği̇ni̇ etki̇leyen ...Sağlık kurumlarında kalite yönetimi unite 24-hasta güvenli̇ği̇ni̇ etki̇leyen ...
Sağlık kurumlarında kalite yönetimi unite 24-hasta güvenli̇ği̇ni̇ etki̇leyen ...
 
Zararlı Yazılım Analizi Eğitimi Lab Kitabı
Zararlı Yazılım Analizi Eğitimi Lab KitabıZararlı Yazılım Analizi Eğitimi Lab Kitabı
Zararlı Yazılım Analizi Eğitimi Lab Kitabı
 
Uygulamali Sizma Testi (Pentest) Egitimi Sunumu - 1
Uygulamali Sizma Testi (Pentest) Egitimi Sunumu - 1Uygulamali Sizma Testi (Pentest) Egitimi Sunumu - 1
Uygulamali Sizma Testi (Pentest) Egitimi Sunumu - 1
 
Kuramsal dayanaklar2
Kuramsal dayanaklar2Kuramsal dayanaklar2
Kuramsal dayanaklar2
 
BTRisk Zararlı Yazılım Analizi Eğitimi Sunumu - Bölüm 2
BTRisk Zararlı Yazılım Analizi Eğitimi Sunumu - Bölüm 2BTRisk Zararlı Yazılım Analizi Eğitimi Sunumu - Bölüm 2
BTRisk Zararlı Yazılım Analizi Eğitimi Sunumu - Bölüm 2
 
Les 10 principales menaces de sécurité des bases de données
Les 10 principales menaces de sécurité des bases de donnéesLes 10 principales menaces de sécurité des bases de données
Les 10 principales menaces de sécurité des bases de données
 
Pfsense Firewall ve Router Eğitimi
Pfsense Firewall ve Router EğitimiPfsense Firewall ve Router Eğitimi
Pfsense Firewall ve Router Eğitimi
 
Gizem Başak Berk - Yüksek Lisans Tez Sunumu
Gizem Başak Berk - Yüksek Lisans Tez SunumuGizem Başak Berk - Yüksek Lisans Tez Sunumu
Gizem Başak Berk - Yüksek Lisans Tez Sunumu
 
Penetrasyon Testlerinde Açık Kod Yazılımların Kullanımı
Penetrasyon Testlerinde Açık Kod Yazılımların KullanımıPenetrasyon Testlerinde Açık Kod Yazılımların Kullanımı
Penetrasyon Testlerinde Açık Kod Yazılımların Kullanımı
 
Microsoft Azure Overview Class 1
Microsoft Azure Overview Class 1Microsoft Azure Overview Class 1
Microsoft Azure Overview Class 1
 
Beyaz Şapkalı Hacker CEH Eğitimi - Bölüm 1, 2, 3
Beyaz Şapkalı Hacker CEH Eğitimi - Bölüm 1, 2, 3Beyaz Şapkalı Hacker CEH Eğitimi - Bölüm 1, 2, 3
Beyaz Şapkalı Hacker CEH Eğitimi - Bölüm 1, 2, 3
 
Teknogirisim sermayesi destegi ornek i̇s planı dosyasi
Teknogirisim sermayesi destegi ornek i̇s planı dosyasiTeknogirisim sermayesi destegi ornek i̇s planı dosyasi
Teknogirisim sermayesi destegi ornek i̇s planı dosyasi
 
Sunum 1
Sunum 1Sunum 1
Sunum 1
 
Hacking'in Mavi Tarafı -1
Hacking'in Mavi Tarafı  -1Hacking'in Mavi Tarafı  -1
Hacking'in Mavi Tarafı -1
 
Web Uygulama Güvenliği Ve Güvenli Kod Geliştirme Eğitim Notlarım
Web Uygulama Güvenliği Ve Güvenli Kod Geliştirme Eğitim NotlarımWeb Uygulama Güvenliği Ve Güvenli Kod Geliştirme Eğitim Notlarım
Web Uygulama Güvenliği Ve Güvenli Kod Geliştirme Eğitim Notlarım
 
Beyaz Şapkalı Hacker CEH Eğitimi - Bölüm 7, 8, 9
Beyaz Şapkalı Hacker CEH Eğitimi - Bölüm 7, 8, 9Beyaz Şapkalı Hacker CEH Eğitimi - Bölüm 7, 8, 9
Beyaz Şapkalı Hacker CEH Eğitimi - Bölüm 7, 8, 9
 
Hücresel i malat
Hücresel i malatHücresel i malat
Hücresel i malat
 
PAROLA KIRMA SALDIRILARI
PAROLA KIRMA SALDIRILARIPAROLA KIRMA SALDIRILARI
PAROLA KIRMA SALDIRILARI
 
Rahatlıkta Bozulma-Sunum
Rahatlıkta Bozulma-SunumRahatlıkta Bozulma-Sunum
Rahatlıkta Bozulma-Sunum
 

Similar a Hastalık Teşhislerinde Veri Madenciliğinin Kullanımının İncelenmesi (3).pdf

Kursat taskin yolsuzluk onlemede bdd teknikleri
Kursat taskin   yolsuzluk onlemede bdd teknikleriKursat taskin   yolsuzluk onlemede bdd teknikleri
Kursat taskin yolsuzluk onlemede bdd teknikleriKürşat TAŞKIN
 
Çağrı Merkezlerinde Stres Yönetimi
Çağrı Merkezlerinde Stres YönetimiÇağrı Merkezlerinde Stres Yönetimi
Çağrı Merkezlerinde Stres YönetimiSerdar MISIR
 
Bulut Bilişim ve Bilgisayar Ağları
Bulut Bilişim ve Bilgisayar AğlarıBulut Bilişim ve Bilgisayar Ağları
Bulut Bilişim ve Bilgisayar Ağlarıcgoze
 
Sistem koruyucu bakım
Sistem koruyucu bakımSistem koruyucu bakım
Sistem koruyucu bakımSahin Akturk
 
Nesne tabanlı programlama 2
Nesne tabanlı programlama 2Nesne tabanlı programlama 2
Nesne tabanlı programlama 2Erol Dizdar
 
Alcak cozunurluklu-fotograflarin-goruntulenmesi-ve-bunlarin-optimizasyonu-ile...
Alcak cozunurluklu-fotograflarin-goruntulenmesi-ve-bunlarin-optimizasyonu-ile...Alcak cozunurluklu-fotograflarin-goruntulenmesi-ve-bunlarin-optimizasyonu-ile...
Alcak cozunurluklu-fotograflarin-goruntulenmesi-ve-bunlarin-optimizasyonu-ile...Yiğit Üncü
 
Nursing informatics presentation
Nursing informatics presentationNursing informatics presentation
Nursing informatics presentationhawasulemana2
 
BTT. Modül 12.İşletim Sistemleri Kurulum
BTT. Modül 12.İşletim Sistemleri KurulumBTT. Modül 12.İşletim Sistemleri Kurulum
BTT. Modül 12.İşletim Sistemleri Kurulumdeniz armutlu
 
BTT. Modül 18. Veri Yapıları
BTT. Modül 18. Veri YapılarıBTT. Modül 18. Veri Yapıları
BTT. Modül 18. Veri Yapılarıdeniz armutlu
 
Sunucu işletim sistemi 1
Sunucu işletim sistemi 1Sunucu işletim sistemi 1
Sunucu işletim sistemi 1Erol Dizdar
 
MaestroServiceManagement_20141032013_HasanYılmaz-Tez
MaestroServiceManagement_20141032013_HasanYılmaz-TezMaestroServiceManagement_20141032013_HasanYılmaz-Tez
MaestroServiceManagement_20141032013_HasanYılmaz-TezHasan Yılmaz
 
Bt tez
Bt tezBt tez
Bt tezomt123
 
1 sunucu isletim sistemi
1 sunucu isletim sistemi1 sunucu isletim sistemi
1 sunucu isletim sistemiFatih Tüzen
 
ENFORMASYON VE İLETİŞİM TEKNOJİLERİ
ENFORMASYON VE İLETİŞİM TEKNOJİLERİENFORMASYON VE İLETİŞİM TEKNOJİLERİ
ENFORMASYON VE İLETİŞİM TEKNOJİLERİcgoze
 
BTT. Modül 10.Görüntü İşleme Cihazları
BTT. Modül 10.Görüntü İşleme CihazlarıBTT. Modül 10.Görüntü İşleme Cihazları
BTT. Modül 10.Görüntü İşleme Cihazlarıdeniz armutlu
 

Similar a Hastalık Teşhislerinde Veri Madenciliğinin Kullanımının İncelenmesi (3).pdf (20)

Kursat taskin yolsuzluk onlemede bdd teknikleri
Kursat taskin   yolsuzluk onlemede bdd teknikleriKursat taskin   yolsuzluk onlemede bdd teknikleri
Kursat taskin yolsuzluk onlemede bdd teknikleri
 
Çağrı Merkezlerinde Stres Yönetimi
Çağrı Merkezlerinde Stres YönetimiÇağrı Merkezlerinde Stres Yönetimi
Çağrı Merkezlerinde Stres Yönetimi
 
Bulut Bilişim ve Bilgisayar Ağları
Bulut Bilişim ve Bilgisayar AğlarıBulut Bilişim ve Bilgisayar Ağları
Bulut Bilişim ve Bilgisayar Ağları
 
Proje dökümanı
Proje dökümanıProje dökümanı
Proje dökümanı
 
Yavuz's MS Thesis
Yavuz's MS ThesisYavuz's MS Thesis
Yavuz's MS Thesis
 
Sistem koruyucu bakım
Sistem koruyucu bakımSistem koruyucu bakım
Sistem koruyucu bakım
 
Drogtech
DrogtechDrogtech
Drogtech
 
Nesne tabanlı programlama 2
Nesne tabanlı programlama 2Nesne tabanlı programlama 2
Nesne tabanlı programlama 2
 
Alcak cozunurluklu-fotograflarin-goruntulenmesi-ve-bunlarin-optimizasyonu-ile...
Alcak cozunurluklu-fotograflarin-goruntulenmesi-ve-bunlarin-optimizasyonu-ile...Alcak cozunurluklu-fotograflarin-goruntulenmesi-ve-bunlarin-optimizasyonu-ile...
Alcak cozunurluklu-fotograflarin-goruntulenmesi-ve-bunlarin-optimizasyonu-ile...
 
Nursing informatics presentation
Nursing informatics presentationNursing informatics presentation
Nursing informatics presentation
 
BTT. Modül 12.İşletim Sistemleri Kurulum
BTT. Modül 12.İşletim Sistemleri KurulumBTT. Modül 12.İşletim Sistemleri Kurulum
BTT. Modül 12.İşletim Sistemleri Kurulum
 
BTT. Modül 18. Veri Yapıları
BTT. Modül 18. Veri YapılarıBTT. Modül 18. Veri Yapıları
BTT. Modül 18. Veri Yapıları
 
Ar ge
Ar geAr ge
Ar ge
 
Sunucu işletim sistemi 1
Sunucu işletim sistemi 1Sunucu işletim sistemi 1
Sunucu işletim sistemi 1
 
MaestroServiceManagement_20141032013_HasanYılmaz-Tez
MaestroServiceManagement_20141032013_HasanYılmaz-TezMaestroServiceManagement_20141032013_HasanYılmaz-Tez
MaestroServiceManagement_20141032013_HasanYılmaz-Tez
 
Bt tez
Bt tezBt tez
Bt tez
 
1 sunucu isletim sistemi
1 sunucu isletim sistemi1 sunucu isletim sistemi
1 sunucu isletim sistemi
 
ENFORMASYON VE İLETİŞİM TEKNOJİLERİ
ENFORMASYON VE İLETİŞİM TEKNOJİLERİENFORMASYON VE İLETİŞİM TEKNOJİLERİ
ENFORMASYON VE İLETİŞİM TEKNOJİLERİ
 
BTT. Modül 10.Görüntü İşleme Cihazları
BTT. Modül 10.Görüntü İşleme CihazlarıBTT. Modül 10.Görüntü İşleme Cihazları
BTT. Modül 10.Görüntü İşleme Cihazları
 
Stratejik Planlama Lisans Tezi
Stratejik Planlama Lisans TeziStratejik Planlama Lisans Tezi
Stratejik Planlama Lisans Tezi
 

Hastalık Teşhislerinde Veri Madenciliğinin Kullanımının İncelenmesi (3).pdf

  • 1. MÜHENDİSLİK FAKÜLTESİ YÖNETİM BİLİŞİM SİSTEMLERİ YÜKSEK LİSANS TEZSİZ YÜKSEK LİSANS DÖNEM PROJESİ HASTALIK TEŞHİSLERİNDE VERİ MADENCİLİĞİNİN KULLANIMININ İNCELENMESİ HAZIRLAYAN Mert YÜCEL DANIŞMAN ÖĞRETİM ÜYESİ Dr. Gözde MERT 2022
  • 2. ETİK İLKELERE UYGUNLUK BEYANI Dönem proje yazma sürecinde bilimsel ve etik ilkelere uyduğumu, yararlandığım tüm kaynakları kaynak gösterme ilkelerine uygun olarak kaynakçada belirttiğimi ve bu bölümler dışındaki tüm ifadelerin şahsıma ait olduğunu beyan ederim. İmza Mert YÜCEL
  • 3. iii HASTALIK TEŞHİSLERİNDE VERİ MADENCİLİĞİNİN KULLANIMININ İNCELENMESİ Mert YÜCEL AHMET YESEVİ ÜNİVERSİTESİ YÖNETİM BİLİŞİM SİSTEMLERİ YÜKSEK LİSANS 2022 ÖZET Günümüzde veri madenciliği çoğu kritik problemin çözümünde önemli bir rol oynamaktadır. Veri madenciliği birçok alan da kullanılmaktadır. Bu alanlardan biri de hastalık teşhisleridir. Hastalıkların teşhis edilmesi doktorlar ve hastalar için önemlidir. Çoğu hastalık son evrelerde teşhis edilebilmekte ve tedaviler bu evreden sonra çoğu zaman cevap verememekte ve hasta kayıpları yaşanmaktadır. Bu sebeple, hastalıkların erken teşhisi hayati önem taşımaktadır. Bu çalışmada, hastalık teşhislerinde veri madenciliği kullanımı incelenmiş olup, örnek olarak seçilen veri setindeki hastaların bilgileri kullanılarak hasta olup olmadıklarının tahmininde bulunabilmesi amaçlanmıştır. Bu çalışmada kullanılan yazılımlar Python programlama dili ve kütüphaneleridir. Bu çalışmada, lojistik regresyon ve destek vektör makineleri veri madenciliği modelleri kullanılarak bir sınıflandırma yöntemi gerçekleştirilip, kişilerin hasta olup olmadıklarının tahmini sağlanmıştır. Anahtar Kelimeler: Veri Madenciliği, Hastalık Teşhisi Danışman: Dr. Gözde MERT
  • 4. iv AN EXAMINATION OF THE USE OF DATA MINING IN DISEASE DIAGNOSTICS Mert YÜCEL AHMET YESEVI UNIVERSITY MANAGEMENT INFORMATION SYSTEMS MASTER DEGREE 2022 ABSTRACT Today, data mining plays an important role in solving many critical problems. Data mining is used in many fields. One of these areas is disease diagnosis. Diagnosing diseases is important for doctors and patients. Most diseases can be diagnosed in the last stages and treatments often do not respond after this stage. Therefore, early diagnosis of diseases is of vital importance. In this study, it is aimed to predict whether people are sick or not using data mining with their medical information. The software used in this study are Python programming language and libraries. In this study, a classification method was performed using logistic regression and support vector machines data mining models, an estimation of whether people were sick or not was provided. Keywords: Data Mining, Disease Diagnosis, Advisor: Dr. Gözde MERT
  • 5. v İÇİNDEKİLER ETİK İLKELERE UYGUNLUK BEYANI .......................................................................ii ÖZET...............................................................................................................................iii ABSTRACT .................................................................................................................... iv İÇİNDEKİLER ................................................................................................................. v ŞEKİLLER LİSTESİ....................................................................................................... vii TABLOLAR LİSTESİ ...................................................................................................viii SİMGELER VE KISALTMALAR................................................................................... ix BÖLÜM I GİRİŞ .............................................................................................................. 1 1.1. Problem ................................................................................................................. 1 1.2. Araştırmanın Amacı................................................................................................ 2 1.3. Araştırmanın Önemi................................................................................................ 2 1.4. Sayıltılar ................................................................................................................. 2 1.5. Sınırlılıklar.............................................................................................................. 2 1.6. Tanımlar ................................................................................................................. 3 BÖLÜM II KAVRAMSAL ÇERÇEVE ............................................................................ 4 2.1. Sağlık Hizmetlerinde Bilgi Yönetimi ...................................................................... 6 2.1. Veritabanlarında Bilgi Keşfi ................................................................................... 8 2.2. Veri Madenciliği..................................................................................................... 9 2.3. Veri Ambarı ve Veri Madenciliği.......................................................................... 10 2.4. Bir Süreç Olarak Veri Madenciliği........................................................................ 13 2.4.1. İşi Anlama Aşaması........................................................................................ 16 2.4.2. Veri Anlama Aşaması..................................................................................... 16 2.4.3. Veri Hazırlama Aşaması................................................................................. 16 2.4.4. Modelleme Aşaması ....................................................................................... 17 2.4.5. Değerlendirme Aşaması.................................................................................. 17 2.4.6. Dağıtım Aşaması............................................................................................ 17 2.5. Temel Veri Madenciliği Görevleri ........................................................................ 18 2.5.1 Sınıflandırma................................................................................................... 19 2.5.2 Regresyon ....................................................................................................... 19 2.5.3. Zaman Serisi Analizi ...................................................................................... 20 2.5.4. Tahmin........................................................................................................... 20 2.5.5. Kümeleme...................................................................................................... 20
  • 6. vi 2.5.6. Özetleme ........................................................................................................ 21 2.5.7. İlişkilendirme Kuralları .................................................................................. 21 2.5.8. Dizi Keşfi....................................................................................................... 22 2.6. Veri Madenciliği Sorunları.................................................................................... 22 2.6.1 Anomali Tespiti............................................................................................... 22 2.6.2. Örüntü Değerlendirme ve Bilgi Sunumu. ........................................................ 24 2.7. Veri İşleme Araçları.............................................................................................. 24 2.8. Veri Madenciliği İle Sağlık Alanında Yapılmış Çalışmalar ................................... 25 2.9. Veri Madenciliği İle Hastalık Teşhisleri Alanında Yapılmış Çalışmalar ................ 26 BÖLÜM 2I YÖNTEM.................................................................................................... 28 3.1. Araştırmanın Modeli............................................................................................. 28 3.2. Evren ve Örneklem ............................................................................................... 28 3.3. Veri Toplama Araçları .......................................................................................... 28 3.4. Verilerin Toplanması ............................................................................................ 29 3.5. Verilerin Analizi ................................................................................................... 29 BÖLÜM IV BULGULAR VE YORUM ......................................................................... 30 4.1 Uygulama .............................................................................................................. 30 BÖLÜM V SONUÇ, TARTIŞMA VE ÖNERİLER ........................................................ 38 5.1. Sonuç.................................................................................................................... 38 5.2. Tartışma................................................................................................................ 39 5.3. Öneriler ................................................................................................................ 40 KAYNAKÇA.................................................................................................................. 41 EKLER ........................................................................................................................... 45
  • 7. vii ŞEKİLLER LİSTESİ Şekil 2.1. Veri Madenciliği ...........................................................................................9 Şekil 2.2. Sağlık Hizmetleri Bilgi Keşfi süreci ............................................................10 Şekil 2.3. Veri Ambarı ve Veri Madenciliği ................................................................12 Şekil 2.4. Çapraz Endüstri Veri Madenciliği Süreci.....................................................15 Şekil 4.1. Python Kütüphanelerinin Yüklenmesi .........................................................30 Şekil 4.2. Veri Seti Özellikleri.....................................................................................31 Şekil 4.3. Veri Seti Sıfır Değerlerinin Toplamı............................................................31 Şekil 4.4. Veri Seti Değerleri.......................................................................................31 Şekil 4.5. Eksik Değerlerin Tanımlanması...................................................................32 Şekil 4.6. Eksik Değerlerin Doldurulması....................................................................32 Şekil 4.7. Eksik Değerlerin Toplamı............................................................................33 Şekil 4.8. En Çok Etki Eden 4 Özellik.........................................................................33 Şekil 4.9. Algoritmaların Oluşturulması ......................................................................33 Şekil 4.10. X ve y Değişkenlerinin Belirlenmesi .........................................................34 Şekil 4.11. X Değişkeninin Gösterilmesi.....................................................................34 Şekil 4.12. y Değişkeninin Gösterilmesi......................................................................34 Şekil 4.13. Lojistik Regresyon Skoru ..........................................................................35 Şekil 4.14. Lojistik Regresyon Skorunun Eklenmesi ...................................................35 Şekil 4.15. Doğrusal Destek Vektör Regresyon Skoru.................................................35 Şekil 4.16. Doğrusal Destek Vektör Regresyon Skorunun Listeye Eklenmesi..............36 Şekil 4.17. Modelin Kaydedilmesi...............................................................................36 Şekil 4.18. Modelin Çağrılması...................................................................................36 Şekil 4.19. Modelin Kullanılması................................................................................37 Şekil 4.20. Modelin Başka Bir Tahminde Kullanılması ...............................................37
  • 8. viii TABLOLAR LİSTESİ Tablo 2.1. Bilgi Keşfi Evrimi........................................................................................8 Tablo 2.2. Veri Madenciliği Görevleri ........................................................................18
  • 9. ix SİMGELER VE KISALTMALAR Kısaltmalar Açıklamalar CRM Müşteri ilişkileri yönetimi BY Bilgi Yönetimi DM Veri Madenciliği SHDS Stratejik Sağlık Hizmetleri Karar Destek Hizmetleri CASACT The Casualty Actuarial Society CRISP-DM Cross-Industry Standard Process for Data Mining WEKA Waikato Bilgi Analizi Ortamı RM RAPIDMINER KNIME Konstanz Information Miner
  • 10. 1 BÖLÜM I GİRİŞ Günümüz teknolojisi hızla gelişmekte ve her geçen gün gücü daha da artmaktadır. Teknolojinin getirdiği bu uygun koşullar yüksek miktarda veri artışını da oluşturmaktadır. Veriler, bir amaç doğrultusunda analiz edilip, sonuçlarının doğru yorumlanması ile bilgiye dönüştüğünde bir anlam ifade etmeye başlar. Bu ham ve büyük veriyi bilgiye, anlamlı hale dönüştürme işlemleri veri madenciliği ile yapılabilmektedir. Bu işlem sırasında istatistiksel ve matematiksel yöntemler kullanılır. Veri madenciliğinin kullanıldığı yerlerden biri olan sağlık alanı da en önemli alanlardan birisidir. Çünkü sağlık alanındaki veriler hayati önem taşıyan verilerdir. Bu durum, tıbbi veriler arasından elde edilecek bilgi keşiflerini önemli kılmaktadır. Tıp alanında hastalık teşhisleri önem arz etmektedir. Hastalık teşhislerinde veri madenciliği teknikleri kullanılması uzmanların karar vermesine yardımcı olmaktadır. Bu çalışmada veri madenciliğinin tanımı, süreçleri, yöntemleri, uygulama alanları, hastalık teşhisindeki kullanımına yer verilmiştir. Çalışmada öncelikle giriş başlığı altında problem, araştırma amacı, araştırma önemi, sayıtılar, sınırlılıklar ve tanımlar ele açıklanacaktır. İkinci bölümde kavramsal çerçeve başlığında araştırma konusu ile ilgili kaynaklar taranarak kavramsal çerçeve oluşturulmuştur. Üçüncü bölümde çalışmanın yöntemi; araştırmanın modeli, evren ve örneklem, veri toplama araçları, verilerin toplanması ve verilerin analizi başlıklarında açıklanacaktır. Dördüncü bölümde araştırmaya dair bulgular ve yorumlar araştırma amacına göre aktarılmıştır. Beşinci ve son bölümde ise sonuç, tartışma ve öneriler başlıklarında araştırmaya dayalı olarak ifade edilmiştir. 1.1. Problem Dünya üzerindeki insanlar, birçok farklı hastalıktan dolayı enfekte olup hayatını kaybetmektedir. Hastalıkların erken ve doğru teşhis yapılması, hayati önem taşımaktadır. Doğru ve erken zamanda yapılan hastalık teşhisi, doktorların hastaları tedaviye erken başlatmasına ve tedaviye olumlu cevap verme ihtimalini arttırmada fayda sağlamaktadır. Yanlış ve geç zamanda yapılan hastalık teşhisleri tedavi süreçlerini uzatmakta ve hastanın iyileşme ihtimalini azaltmaktadır.
  • 11. 2 1.2. Araştırmanın Amacı Bu çalışmanın amacı, bilgi teknolojileri dünyasındaki önemi her geçen gün daha da artan veri madenciliğini kullanarak hastalık teşhislerinin yapılabilmesini sağlamaktır. Veri madenciliği algoritmaları olan Destek Vektör Makineleri ve Lojistik Regresyon ile veri setinin eğitilmesi amaçlanmıştır. Bu eğitimin sonucunda ise elde edilmek istenen algoritmanın test setleri tahmininde doğru tahmin edip edemeyeceğinin kontrol edilmesi olmuştur. Kullanılan veri seti, algoritma ile eğitilmiştir. Böylece gelecek olan test veri setlerinin hasta olup olmama olasılığı araştırılmıştır. İki tane algoritma kullanılarak algoritmaların hangisinin daha iyi sonuç verdiği araştırılmış ve karşılaştırılmıştır. 1.3. Araştırmanın Önemi Veri madenciliğin kullanıldığı sağlık alanı da veri madenciliğinin en önemli alanlarından birisidir. Çünkü sağlık alanındaki veriler hayati önem taşıyan verilerdir. Bu veriler, hastalıkların teşhis edilmesinde kullanılabilir. Hastalıkların erken ve doğru teşhis edilebilmesi, tedavi süreçlerinde ciddi bir kazanım sağlamaktadır. Erken teşhis, hastalıkların erken evrede saptanıp tedavi ve bakımının zamanında yapılmasını ve buna bağlı olarak da tedaviden daha iyi sonuçlar elde edilmesini sağlamaktadır. Verilerin hızlı bir şekilde elde edilip, veri madenciliği modelleri yardımı ile hastalık teşhisinde kullanılması, hastalık tedavilerinde uzmanlara ve hastalara fayda sağlamaktadır. Bu araştırmada hasta bilgilerinin veri madenciliği modelleri ve teknikleri kullanılarak, hastalık teşhislerinin doğru ve erken yapılabilmesi açısından önem taşımaktadır. 1.4. Sayıltılar Bu araştırma kapsamında kullanılan veri setindeki bilgilerin doğru olduğu varsayılmıştır 1.5. Sınırlılıklar Çalışmanın sınırlılıkları mevcuttur, çalışma kapsamında bahsedilen veri madenciliği uygulama alanı; hastalık teşhislerinde veri madenciliğinin kullanımı ile sınırlandırılmıştır. Bu sınırlandırmalar çalışmanın amacı ve odaklandığı konu itibariyle bilinçli bir şekilde yapılmıştır.
  • 12. 3 1.6. Tanımlar Araştırma kapsamında bahsedilen Python ifadesi ise nesne yönelimli, yorumlamalı, bilimsel ve etkileşimli yüksek seviyeli bir programlama dilidir. NumPy, Python programlama dili için büyük, çok boyutlu dizileri ve matrisleri destekleyen, bu diziler üzerinde çalışacak üst düzey matematiksel işlevler ekleyen bir kütüphanedir. Pandas, veri işlemesi ve analizi için Python programlama dilinde yazılmış olan bir yazılım kütüphanesidir. Seaborn, Python'da ilgi çekici ve bilgilendirici istatistiksel grafikler yapmak için kullanılan bir kütüphanedir. Scikit-learn, veri bilimi ve makine öğrenimi için en yaygın kullanılan Python paketlerinden biridir.
  • 13. 4 BÖLÜM II KAVRAMSAL ÇERÇEVE Birleşmeler, küreselleşme ve yoğunlaşan rekabet gibi piyasa güçleri, hizmetler ortamını kökten değiştirmektedir. Önde gelen kurum ve kuruluşlar bu çalkantılı dönemde verilen hizmetler konusunda önlemler alarak başarılı olmaktadır. Bu önlemler arasında veri madenciliği gelmektedir. Bir kurumun müşterileriyle öğrenen bir ilişki kurabilmesi için müşterilerinin ne yaptığını fark edebilmesi, onların ve kurumun zaman içinde neler yaptığını hatırlaması, bu deneyimlerden ders çıkarması ve daha iyi iş kararları ve eylemleri için buna göre hareket etmesi gerekir. Online teknoloji dergisi ZDNET News'e göre veri madenciliğinin "bu on yılın en devrimci gelişmelerinden biri" olacağı tahmin edilmektedir (Konrad, 2001). Hatta MIT Technology Review (2001) veri madenciliğini dünyayı değiştirecek on yeni teknolojiden biri olarak seçmiştir. Veri madenciliği tekniklerinin uygulanması, iş yapma ve araştırma konularında devrim niteliğinde bir değişim olarak görülmüştür. Veri madenciliğinin devrim olarak adlandırılabilecek ve veriden öğrenmede tercih edilecek bazı avantajları vardır. Veri madenciliği, yapılandırılmış sorgular (birçok ticari veri tabanında kullanılır) veya istatistiksel analiz yazılımları gibi diğer veri analizi uygulamalarıyla karşılaştırıldığında, dereceden ziyade tür farkını temsil eder. Birçok analitik araç, bir hipotezin geliştirildiği ve ardından hipotezi kanıtlamak veya çürütmek için verilerin test edildiği doğrulama tabanlı bir yaklaşım kullanır. Örneğin, bir kullanıcı Motor sigortası satın alan bir müşterinin Zorunlu Üçüncü Şahıs Sorumluluk Motor sigortası da satın alacağını varsayabilir. Bu yaklaşımın etkinliği, kullanıcının çeşitli hipotezler geliştirmedeki yaratıcılığının yanı sıra kullanılan yazılımın yapısı ile de sınırlı olabilir. Başka bir deyişle, bu yaklaşım, analistin uygun soruları sorma ve sonuçları hızlı bir şekilde geri döndürme, nitelik alanının karmaşıklığını yönetme ve farklı düşünme yeteneği de dahil olmak üzere bir dizi faktöre dayanır. Buna karşılık, veri madenciliği, doğrulamaya dayalı istatistiksel yöntemlere ek olarak, algoritmaların aynı anda birkaç çok boyutlu veri ilişkisini incelemek ve benzersiz veya sık temsil edilenleri belirlemek için kullanılabildiği bir keşif yaklaşımını kullanabilir. Örneğin, bir sigorta şirketi müşterilerinin sigorta alımlarını ev sahipliği, kullanılan otomobil türü, yaş, meslek, gelir ve coğrafi bölge ile karşılaştırabilir. Veri
  • 14. 5 madenciliği, uygun probleme ve veriye en mükemmel yöntemi kullanmak için istatistik, madencilik ve Yapay Zeka'dan birçok yöntemi barındırır (Seifert, 2004). Teknoloji ve iş süreçlerindeki gelişmeler, veri madenciliğine olan ilginin artmasına katkıda bulunmuştur. Bu değişikliklerden bazıları, veri tabanlarını birbirine bağlamak için kullanılabilen bilgisayar ağlarının büyümesi; Yapay Zeka olarak adlandırılan sinir ağları ve gelişmiş algoritmalar gibi gelişmiş arama ile ilgili tekniklerin geliştirilmesi; kullanıcıların uzak terminallerden merkezi veri kaynaklarına erişmesine olanak tanıyan istemci/sunucu bilgi işlem modelinin yaygınlaşması ve farklı kaynaklardan gelen verileri tek bir aranabilir kaynakta birleştirme yeteneğinin artmasıdır. Bu gelişmiş veri yönetimi araçlarına ek olarak, bilginin artan kullanılabilirliği ve depolama maliyetlerinin düşmesi de rol oynamıştır. Son birkaç yılda, toplanan ve depolanan bilgi hacminde hızlı bir artış olmuştur; bazı gözlemciler dünyadaki veri miktarının her yıl yaklaşık iki katına çıktığını öne sürmektedir. Örneğin dünyanın en büyük perakendecisi olan Wal-Mart'ın müşteri veri tabanı geçtiğimiz on yılın sonunda yaklaşık 43 terra-byte veri içermekteydi ki bu rakam ABD İç Gelir Hizmetleri'nin gelir vergisi toplamak için kullandığı veri tabanından daha büyüktür (Shaw vd., 2001). Aynı zamanda, veri depolama maliyetleri de önemli ölçüde azalmıştır. Benzer şekilde, bilgi işlem gücü birkaç yıl içinde neredeyse iki katına çıkmaya devam ederken, bilgi işlem gücünün göreceli maliyeti düşmeye devam etmiştir. Çeşitli bilgilerin ve çok sayıda verinin mevcudiyeti, piyasayı bu verilerden mümkün olduğunca fazla yararlanmaya zorlamakta ve bu verilerin daha iyi teknikler ve daha iyi araçlarla madenciliğinin yapılması ihtiyacını tetiklemektedir. Veri madenciliği 1990'larda görünür bir araştırma ve geliştirme alanı olarak ortaya çıkmış olsa da, hızlı büyüme veri madenciliğini sonraki on yılda devrim niteliğindeki değişimlerden biri haline getirmiştir. Bu eğilim, SPSS ve SAS gibi analitik yazılım geliştiricileri ile CRM (Müşteri ilişkileri yönetimi) yazılım satıcıları arasındaki boşluğu kapatmakta ve analitik CRM yaygınlaşmaktadır. Veri madenciliğindeki gelişmeler daha iyi algoritmalara, standardizasyona ve sistemlerin entegrasyonuna yol açmaktadır (Thearling, 2005). Bu çerçevede bilgi teknolojisindeki önemli gelişmeler, sağlık bilişiminde de verilerin aşırı büyümesine neden olmaktadır (Kavakiotis vd., 2017: 105). Sağlık bilişimi verileri hastane detaylarını, hasta detaylarını, hastalık detaylarını ve tedavi maliyetini içerir. Bu devasa veriler farklı kaynaklardan ve formatlardan üretilmektedir. İlgisiz özniteliklere ve eksik verilere sahip olabilir. Veri madenciliği tekniklerini uygulamak, büyük hastalık verilerinden
  • 15. 6 bilgi çıkarmak için önemli bir yaklaşımdır. Veri madenciliği, büyük hastalık veri setinden bilgi çıkarmak için çeşitli yöntemlere sahiptir. Sınıflandırma, kümeleme ve kural madenciliği gibi veri madenciliği teknikleri, verileri analiz etmek ve anlamlı bilgiler çıkarmak için kullanılabilir (Ahmed, 2017: 1887). Sağlık hizmetlerinde veri madenciliğinin önemli güncel uygulamalarından bazıları, benzer hastalıklardan toplanan önceki verilere dayanarak hastalıkların gelecekteki sonuçlarını tahmin etmeyi, hasta verilerine dayanarak hastalığın teşhisini, tedavi maliyetlerini ve kaynak talebini analiz etmeyi, gürültülü, eksik verilerin ön işlemesini ve hastalık teşhisi için bekleme süresini en aza indirmeyi içerir. Weka, Rapid miner ve Orange gibi veri madenciliği araçları sağlık verilerini analiz etmek ve daha iyi sonuçlar tahmin etmek için kullanılmaktadır. Yeni ve güncel veri madenciliği araçları ve teknolojileri, sağlık hizmetlerini maliyet etkin bir şekilde iyileştirmek ve hastalık teşhisi için gereken süreyi en aza indirmek için hastalık teşhisinde ve sağlık bilişiminde kullanılmaktadır (Patil vd., 2014: 35; Usha Rani, 2017: 52; Devi vd., 2). Sonuç olarak, verilerden öğrenmek ve buna göre stratejiler belirlemek kurumların başarılı olması için çok önemli hale gelmekte ve veri madenciliği teknikleri bu amaçla giderek daha fazla kullanılmaktadır. Sağlık sistemi yönetsel kararları ve politikalarının temeli veri ve veriden elde edilen bilgi ya da datadır. Sağlık karar ve politikalarının amaçlar paralelinde etkin ve uygun olabilmesi doğru, güncel ve güvenilir veriyle bağlantılıdır. Sağlık bilgi sistemlerinde amaç büyük miktarda sağlık verilerinden yararlı bilgi üretmektir (Koyuncugil ve Özgülbaş, 2009). Bu kapsamda bu bölümde veri madenciliği konusunda bilgiler verilecektir. 2.1. Sağlık Hizmetlerinde Bilgi Yönetimi Sağlık hizmetlerinde Bilgi Yönetimi (BY), bir sağlık kuruluşunun bilgi varlıklarının çeşitli yönlerinin oluşturulmasını, tanımlanmasını, edinilmesini, geliştirilmesini, korunmasını, yayılmasını ve son olarak kullanılmasını kolaylaştırmak için resmi metodolojilerin ve tekniklerin birleşimi olarak kabul edilebilir. Sağlık sektörü, sofistike bilgi ve enformasyon kaynaklarından güç alan genişletilmiş bir işletmeye dönüşmüştür. Günümüzün knowledgetheoretic sağlık işletmelerinde bilgi, işletmenin 'hareket etme kapasitesinin' merkezinde yer alan 'yüksek değerli bir bilgi formu' olarak kabul edilmektedir. Bilgi yönetimi alanı, aşağıdakiler için metodolojik ve teknolojik bir çerçeve sunmaktadır: “(a) sağlık hizmeti uygulaması ve sunumu ile ilgili olarak ne yaptığımıza dair deneyimsel bilgiyi
  • 16. 7 ve ne yaptığımızın sonuçlarından elde edilen ampirik bilgiyi proaktif bir şekilde yakalamak; ve (b) iş kuralları, trend öngörüleri, iş akışı analizi, analitik sonuçlar, prosedürel kılavuzlar ve benzerlerinden oluşan bir topluluk karşısında stratejik bir karar verme kaynağı olarak hizmet etmek üzere sağlık hizmeti bilgisini operasyonel hale getirmek” (Abidi ve Yu-N, 2000). Sağlık işletmeleri, elektronik tıbbi kayıtlar, klinik araştırma verileri, hastane kayıtları, idari raporlar, kıyaslama bulguları vb. gibi büyük miktarlarda veri ürettikleri için 'veri zengini' olarak kabul edilebilir. Ancak, aynı zamanda sağlık kuruluşlarının 'bilgi fakiri' olduğunu da söyleyebiliriz çünkü sağlık verileri nadiren stratejik bir karar-destek kaynağına dönüştürülmektedir. Bu bağlamda, BY ve Veri Madenciliği (DM) gibi teknolojilerin ortaya çıkmasıyla birlikte, artık ham ampirik verilerin sağlık kuruluşunun iç dinamiklerine bir pencere açabilecek ampirik bilgi türüne geçişini kolaylaştıracak fırsatlar mevcuttur. Bu tür verilerden elde edilen bilginin, sağlık hizmetleri yöneticilerinin ve politika yapıcılarının, söz konusu sağlık hizmetleri kuruluşunun operasyonel etkinliğinin iyileştirilmesine yönelik 'içsel' ancak paha biçilemez operasyonel ilkeler/değerler/bilgiler/stratejiler çıkarmalarını sağlayabileceği ifade edilebilir (Abidi, 2001). Bir sağlık kuruluşunun operasyonel etkinliğinin, (a) görünüşte sakin olan sağlık hizmetleri veri havuzlarından çeşitli ampirik bilgi yönlerinin elde edilmesi ve (b) elde edilen ampirik bilginin, sağlık kuruluşunun stratejik karar alma, planlama ve yönetimini etkilemeyi amaçlayan bir dizi paketlenmiş, katma değerli Stratejik Sağlık Hizmetleri Karar Destek Hizmetlerinin (SHDS) türetilmesi için operasyonel hale getirilmesi yoluyla önemli ölçüde artırılabileceği söylenebilir. Yukarıda bahsedilen SHDS'nin bakış açısı, sağlık hizmetleri yöneticilerinin/politika yapıcılarının/analistlerinin politikalar oluşturmalarına veya stratejik kararlar almalarına ya da sağlık hizmetleri kuruluşunun mevcut operasyonel değerlerinin gerçek sonuçlarını/performansını dikkate alarak gelecekteki sonuçları tahmin etmelerine yardımcı olmak için stratejik içgörüler/öneriler/tahminler/analizler sunmalarıdır - ki bu değerler benimsenen operasyonel değerlerle aynı olmayabilir. Yukarıdaki hedeflere ulaşmak için, bilgi tedariki (DM aracılığıyla) ve bilgi operasyonelleştirme (BY aracılığıyla) teknikleri arasında bir sinerji oluşturan yeni bir yaklaşıma dayanan BY odaklı bir bilgi yapısı tasarlamak önerilebilir. Önerilen sinerjinin işleyiş şekli aşağıdaki gibidir: DM teknikleri, karar kalitesinde sağlık hizmetleri bilgisini tümevarımsal olarak türetmek için sağlık hizmetleri veri havuzlarını 'çıkarmak' için kullanılırken, BY teknikleri daha sonra bir SHDS paketi elde etmek için tümevarımsal olarak türetilen sağlık hizmetleri bilgisini operasyonel
  • 17. 8 hale getirmek için kullanılır. Böyle bir BY odaklı bilgi yapısının işlevsel ve mimari özelliklerinin tanımlanması, burada rapor edilen çalışmanın temasını oluşturmaktadır. 2.1. Veritabanlarında Bilgi Keşfi Veri Tabanlarında Bilgi Keşfi, bazı literatürlerde veri madenciliğinden ayrı tutulmaktadır. Büyük veritabanlarından bilgi keşfi sadece bir işlem değil bir süreçtir. İlerleyen bölümlerde detaylı olarak anlatılacak olan bu süreç, işi anlama ve problem belirleme ile başlayıp veriyi anlama ve temizlemeye, ardından modelleme, değerlendirme ve uygulamaya kadar uzanmaktadır. Tablo 2.1 Bilgi Keşfi Evrimi (Tacenur, 2006: 4). Evrimsel Adım İş Sorusu Etkinleştirici Teknolojiler Ürün Sağlayıcılar Özellikler Veri Toplama (1960'lar) "Son beş yıldaki toplam gelirim ne kadardı?" Bilgisayarlar, kasetler, diskler IBM, CDC Geriye dönük, statik veri iletimi Veri Erişimi (1980'ler) "Geçen Mart ayında New England'da birim satışlar ne kadardı?" İlişkisel veritabanları (RDBMS), Yapılandırılmış Sorgu Dili (SQL), ODBC Oracle, Sybase, Informix, IBM, Microsoft Kayıt düzeyinde geriye dönük, dinamik veri sunumu Veri Ambarı ve Karar Destek (1990'lar) "Geçen Mart ayında New England'da birim satışlar neydi? Boston'a kadar inin." On-line analitik işleme (OLAP), çok boyutlu veritabanları, veri ambarları Pilot, Comshare, Arbor, Cognos, Microstrategy Çoklu seviyelerde geriye dönük, dinamik veri sunumu Veri Madenciliği (2000'ler) "Gelecek ay Boston birim satışlarında ne olması muhtemel? Neden?" Gelişmiş algoritmalar, çok işlemcili bilgisayarlar, devasa veri tabanları Pilot, Lockheed, IBM, SGI, SAS, SPSS ve diğerleri Prospektif, proaktif bilgi sunumu Bazı literatürlerde veri madenciliği sürecin modelleme aşaması ile sınırlandırılmakta ve tüm süreç veri tabanlarında bilgi keşfi süreci olarak adlandırılmaktadır. Ancak genellikle veri madenciliği ve Veritabanlarında Bilgi Keşfi tüm süreci kapsayan eş anlamlı kelimeler olarak
  • 18. 9 kullanılmaktadır. Bilgi keşfi evrimi 1960'larda veri toplamanın artmasıyla başlar. Zamanla veriye ulaşmak kolaylaşmış ve 1990'larda veri ambarı ve karar destek sistemleri popülerlik kazanarak son on yılda sofistike veri madenciliği uygulamalarına öncülük etmiştir. Thearling tarafından hazırlanan aşağıdaki tablo bilgi keşfinin gelişimini özetlemektedir (Thearling, 2006). 2.2. Veri Madenciliği Veri madenciliği, büyük veri kümelerinden bilinmeyen bilginin hesaplamalı olarak çıkarılması süreciyle ilgilidir. Muazzam veri setlerinden faydalı bilgilerin çıkarılması ve hastalıkların teşhis ve tedavisi için karar verme sonuçlarının sağlanması çok önemlidir. Veri madenciliği, çeşitli hastalıkları analiz ederek ve tahmin ederek bilgi elde etmek için kullanılabilir. Sağlık hizmetleri veri madenciliği, tıbbi alandaki veri setlerindeki gizli kalıpları keşfetmek için büyük bir potansiyele sahiptir (Ersöz ve Çınar, 2021: 397). Şekil 2.1 Veri Madenciliği Sağlık hizmetleri verilerine bağlı olarak uygunlukları değişen çeşitli veri madenciliği teknikleri mevcuttur. Sağlık hizmetlerinde veri madenciliği uygulamaları harika bir potansiyele ve etkinliğe sahip olabilir. Büyük veri tabanlarında tahmine dayalı bilgi bulma sürecini otomatikleştirir. Hastalık tahmini, veri madenciliğinde önemli bir rol oynamaktadır. Bir hastalığın bulunması, hasta üzerinde bir dizi testin yapılmasını gerektirir. Ancak, veri madenciliği tekniklerinin kullanılması test sayısını azaltabilir. Bu azaltılmış test seti, performans ve zaman açısından önemli bir rol oynar. Sağlık hizmetleri veri madenciliği
  • 19. 10 önemli bir görevdir çünkü doktorların yaş, kilo, semptomlar vb. gibi hangi özelliklerin teşhis için daha önemli olduğunu görmelerini sağlar. Bu, doktorların hastalığı daha verimli bir şekilde teşhis etmesine yardımcı olacaktır. Veritabanlarında bilgi keşfi, verilerdeki yararlı bilgileri ve kalıpları bulma sürecidir. Veritabanlarında bilgi keşfi veri madenciliği kullanılarak yapılabilir. Veri madenciliği, veri tabanlarında bilgi keşfi süreci tarafından türetilen bilgi ve kalıpları çıkarmak için algoritmalar kullanır (Ahmed, 2017). Veri tabanlarında bilgi keşfi sürecinin çeşitli aşamaları Şekil 2.2'de vurgulanmıştır. Şekil 2.2. Sağlık Hizmetleri Bilgi Keşfi süreci (Ahmed, 2017: 1886). Veri tabanlarında bilgi keşfi sürecinin çeşitli aşamaları şekildeki gibi açıklanmaktadır. Seçim aşamasında, veri farklı kaynaklardan elde edilir. Ön işleme aşamasında, istenmeyen eksik ve gürültülü verileri kaldırır ve dönüşüm aşamasında ortak bir formata biçimlendirilebilecek temiz verileri sağlar. Daha sonra istenen çıktıyı elde etmek için veri madenciliği teknikleri uygulanır. Son olarak değerlendirme aşamasında, sonucu son kullanıcıya anlamlı bir şekilde sunacaktır (Özdemir, Aslay ve Handan, 2009). 2.3. Veri Ambarı ve Veri Madenciliği Analizde kullanılacak veriler genellikle çeşitli sistemler, veri tabanları, formatlar ve yapılar üzerinde ve bazen de yedekli bir yerde bulunur. Bu verileri bir değere dönüştürmek için verilere erişmek ilk aşamadır. Veri ambarının önemi de bu noktada ortaya çıkmaktadır.
  • 20. 11 Birleştirilmiş, düzenlenmiş, temizlenmiş, standartlaştırılmış verilere sahip veri ambarı, analiz için operasyonel veri tabanlarından veya sistemlere yayılmış normal dosyalardan daha iyi bir kaynaktır. Verilerdeki gizli bilgilerin tanımlanması; departman verilerinin tek bir depoda birleştirilmesini, karar vermeyi ve veri analizini basitleştirmek için verilerin düzenlenmesini ve değerli bilgiler için madencilik yapılmasını gerektirir (Sharp, 2003: 114). Veri ambarı, sorgulama, analiz ve raporlama, dolayısıyla veri madenciliği için özel olarak yapılandırılmış işlem verilerinin bir kopyasıdır. Veri ambarı, işlem sistemi tarafından daha sonra güncellenmeyen veya değiştirilmeyen işlemlerin bir kopyasını içerdiğinden, zamanında veri mevcut değildir. Çevrimiçi sistem ile veri ambarı arasındaki zaman gecikmesi, verinin yapısından güncelleme zamanlarının kararlarına kadar değişmektedir. Ancak, veriler özel olarak yapılandırıldığından ve kopyalandığında temizlenmiş ve dönüştürülmüş olabileceğinden, üzerinde çalışmak çok daha hızlı ve kolaydır. Bir sonraki bölümde veri madenciliği süreci ele alınacak ve veri madenciliği analizinin en önemli ve zaman alıcı aşamalarından birinin veri hazırlama olduğundan bahsedilecektir. Veri ambarı ve veri martlarının önemi bu bakış açısıyla daha iyi anlaşılabilir. Data Mart, veri ambarından bir adım sonra gelen, daha küçük ve daha odaklı bir Veri Ambarıdır, başka bir deyişle mini bir ambar olarak adlandırılabilir. Bir Data Mart tipik olarak bir kuruluş içindeki belirli bir iş biriminin iş kurallarını yansıtır. Sonuç olarak, küçük, yönetimi kolay ve konu odaklı veri ambarları, veri alma ve analiz süresini önemli ölçüde azaltır. Veri Ambarları ve Veri Martları, sorguları ve veri madenciliğini destekleyerek şirketlerin İş Zekası yeteneklerinin gücünü ve verimliliğini artırır. Bu uygulamaların web üzerinden etkinleştirilmesi onları daha kullanıcı dostu hale getirir. Potansiyel faydaları maliyetlerinden çok daha fazladır. Veri ambarı/veri martı uygulaması, karar desteği için bilgi dağıtımını kolaylaştırır ve son yıllarda aktüerler ve istatistikçiler arasında daha popüler hale gelen tanımlayıcı ve öngörücü modellerin geliştirilmesini önemli ölçüde basitleştirir (Gündoğdu, 2007). Büyük bir sigorta şirketinde veri ambarı sisteminin başarılı bir şekilde uygulanması CASACT (The Casualty Actuarial Society) makalesinde analiz edilmiştir. Uygulama sonuçlarına göre, veri ambarları, veri haritaları ve tahmine dayalı analitik, bir İş Zekası sisteminin temel bileşenleridir. Veri ambarı, analiz için kullanılan geçmiş verilerin işlemsel veritabanlarından etkin bir şekilde ayrılmasını sağlar. Bu, veri erişim kapasitesini önemli ölçüde artırır ve ayrıca işlemsel sistemler üzerindeki yükü azaltır. Kurumun beklenen analitik verimliliği gerçekleştirebilmesi için veri ambarının iyi planlanmış olması gerekir.
  • 21. 12 OLAP keşifsel veri analizi içindir ancak daha derin analizler veri madenciliği için özel araçların kullanılmasını gerektirir. Veri madenciliği OLAP'tan farklıdır çünkü varsayımsal kalıpları doğrulamak yerine bu kalıpları ortaya çıkarmak için verinin kendisini kullanır. OLAP tümdengelimsel bir süreç olmasına rağmen, veri madenciliği tümevarımsal bir süreçtir. Şekil 2.3 Veri Ambarı ve Veri Madenciliği (Tacenur, 2006:7) Örneğin, bir sigortalı için risk faktörleri veri madenciliği analizine tabi tutulduğunda, veri madenciliği aracı yüksek hasar kayıtları ve yaşı olan kişilerin kötü sigorta riskleri olduğunu keşfedebilir, ancak daha da ileri gidebilir ve analistin denemeyi düşünmediği bir örüntüyü de keşfedebilir. Sonuç olarak, şirket veri ambarları ve veri haritaları bir veri madenciliği analizi için zorunlu olmasa da süreci önemli ölçüde basitleştirmektedir. Eğer şirketin bir veri ambarı ya da veri tabanı yoksa, veri madenciliği süreci küçük bir veri madenciliği veri tabanı oluşturmak için benzer veri setlerinin hazırlanmasını içerir (Bukhbinder, Krumenaker ve Phillips, 2005: 173).
  • 22. 13 2.4. Bir Süreç Olarak Veri Madenciliği Yazılım araçları veri madenciliğinin anahtarı olsa da, veri madenciliği çözümünün yalnızca bir parçasıdır. Price Waterhouse tarafından gerçekleştirilen veri madenciliği uygulamalarına yönelik bir kıyaslama anketi, sürecin teknolojiden çok daha önemli olduğunu ortaya koymuştur. Ankete katılan 159 şirket arasında iyi iş süreçlerine sahip olanlar, zayıf süreçlere sahip olanlara göre iki kattan fazla daha etkiliydi. Daha sofistike araçlar kullanmak, şirketlerin bir sınıra kadar daha etkili olmalarına yardımcı olur. Zayıf bir sürece sahip iyi araçlar başarıya götürmez. Başarılı bir süreç için anketin bazı detayları aşağıda listelenmiştir (Galfond, 2017: 25):  Mümkün olan en iyi veriye sahip olmak: Veri temizliğine yeterli kaynak ayıran şirketlerin %90'ından fazlası etkili olmuştur.  Sonuçlar üzerinde hızlı hareket etmek  Sürekli bir iyileştirme döngüsüne sahip olmak: Bu döngüye sahip şirketler iki kat daha etkili olmuştur.  Özellikle ürün ve pazar, bilgi sistemleri ve istatistik veya ekonometri gibi çeşitli disiplinler hakkında güçlü bilgi içeren bir ekip oluşturmak: Geniş ve derin becerilere sahip şirketler, zayıf ekiplere sahip olanlara göre dört kat daha etkiliydi.  Verilere erişme ve temizleme, tahminlerde bulunma, sonuçları yorumlama ve bunlara göre hareket etme ve sürekli iyileştirme dahil olmak üzere tüm veri madenciliği sürecini kolaylaştıran bir yazılım aracı seçmek. Veri madenciliği satın alınabilecek bir üründen ziyade üzerinde çalışılması gereken bir disiplindir. Yazılım başarıyı etkiler ancak etkin bir süreç ve etkin bir insan çalışması başarıyı getirir. Problem tanımından başlayarak sonuçların yorumlanması, iş için anlamlı bilgiye dönüştürülmesi ve doğru aksiyonların alınması değer yaratır. Veri madenciliğinin karmaşık yetenekleri, başarılı bir veri madenciliği uygulaması için iki öncülün önemli olmasına neden olur; çözülecek problemin net bir şekilde formüle edilmesi ve ilgili verilere erişim. Veri madenciliğinin bu kavramsallaştırmasını yansıtan bazı gözlemciler, veri madenciliğini veri tabanlarında bilgi keşfi olarak bilinen daha büyük bir sürecin sadece bir adımı olarak görmektedir. Veri tabanlarında bilgi keşfi sürecindeki diğer adımlar arasında kaynak tanımlama, veri toplama, veri temizleme, veri entegrasyonu, veri seçimi, veri dönüşümü, veri madenciliği, örüntü değerlendirme ve bilgi sunumu yer almaktadır (Seifert, 2004).
  • 23. 14 Bu çalışmada da literatürde genel kabul gördüğü üzere veri madenciliğinin bilgi keşfi sürecinin tamamını kapsadığı kabul edilmiştir. Departman yapısı ve bölümlerin farklı odaklara sahip olması, veri madenciliği projelerinde mükerrer çabalara ve deneyim kaybına yol açmaktadır. Büyük veri madenciliği projelerini daha az maliyetli, daha verimli, daha güvenilir, daha tekrarlanabilir, daha yönetilebilir ve daha hızlı hale getirmek için sistematik bir yaklaşıma ve hatta sektörler arası bir standarda ihtiyaç duyulmuştur. Veri Madenciliği için Sektörler Arası Standart Süreç (CRISP-DM) 1996 yılında Daimler Chrysler AG, SPSS ve NCR'yi temsil eden analistler tarafından geliştirilmiştir. Metodoloji, 1999 yılında sigorta sektörü ortağı OHRA'nın denemeler yapması ve ESPRIT programı kapsamında Avrupa Komisyonu'nun kısmi sponsorluğu ile olgunluğa ulaştı ve CRISP-DM versiyon 1.0 yayınlandı. CRISP-DM, veri madenciliğini bir işletmenin ya da araştırma biriminin genel problem çözme stratejisine uydurmak için kolay kullanılabilir ve ticari olmayan standart bir süreç sağlar. Birçok farklı yaklaşım kullanılabilmesine rağmen CRISP-DM genel kabul gören bir yöntem haline gelmiştir. Kdnuggets tarafından 2004 yılında yapılan bir ankette, veri madencilerinin %42'si CRISP-DM metodolojisini kullandıklarını belirtirken, %28'i kendi yaklaşımlarını, %10'u ise SAS tarafından oluşturulan bir metodoloji olan SEMMA'yı kullandıklarını belirtmişlerdir (kdnuggets, 2004). Genel olarak, Şekil 2.4 CRISP-DM Veri Madenciliği Süreç Döngüsü'nde de görülebileceği gibi, CRISP-DM 6 aşamadan oluşmaktadır. Süreç, dış daire ile sembolize edildiği gibi sürekli ve yinelemelidir. Her aşama kendinden önceki aşamanın çıktısına bağlıdır. Aşamalar arasındaki en önemli bağımlılıklar şekilde oklarla gösterilmiştir. Süreç yinelemeli olduğundan, aşamaların sırası sabit değildir, ilerlemeden önce daha fazla iyileştirme için bir önceki aşamaya veya birden fazla aşamaya geri dönmek her zaman mümkündür. Veri madenciliği süreci, analiz edilen her iş veya veri madenciliği probleminin analiz edilecek yeni sorular getirdiği bir kartopu etkisi gibi devam eder (Wirth ve Hipp, 2000).
  • 24. 15 Şekil 2.4. Çapraz Endüstri Veri Madenciliği Süreci (Aytaç ve Bilge, 2013). Metodoloji, bu 6 ana aşama altında hiyerarşik bir yapıya sahiptir. Aşamalar, Genel görevler olarak adlandırılan tüm olası durumları kapsaması beklenen genel görevlere ayrılmıştır. (örn. Veri hazırlama aşaması altında veri temizleme) Uzmanlaşmış görev seviyesi olarak adlandırılan üçüncü seviye, genel görevin nasıl yürütüldüğünün açıklandığı daha detaylı bir seviyedir. (örn. Veri temizleme görevi altında eksik değer işleme) Süreç örneği seviyesi olarak adlandırılan dördüncü ve son seviye, belirli bir özel görev seviyesinde gerçekte ne olduğunu temsil eder. (örn. Sayısal öznitelikler için ortalama değer ve kategorik öznitelikler için en sık kullanılan değer kullanılmıştır) Genel görevler hiyerarşik seviyesine açılan olası bir taslak, CRISP-DM ve Berry ve Linoff'un (2004) metodolojisinin katkısıyla aşağıdaki gibi özetlenebilir (Larose, 2005: 59).
  • 25. 16 2.4.1. İşi Anlama Aşaması İşi anlama aşaması, proje hedeflerinin ve gereksinimlerinin iş açısından anlaşılmasını kapsar. Süreç, iyi tanımlanmış bir iş problemi, veri madenciliği problemine dönüşüm ve ön plan ile başlar (Hand, 2001: 353).  İş hedefi  Hedefin veri madenciliği problem tanımına çevrilmesi  Hedeflere ulaşmak için stratejiye başlamak 2.4.2. Veri Anlama Aşaması Veriyi anlama aşaması, veri üzerinde çalışmaya başlama aşamasıdır. Verilerin bulunması ve seçilmesi, verilere aşina olma faaliyetleri, verilerin ilk içgörülerinin keşfedilmesi bu aşamadaki bazı faaliyetlerdir. Uygun Verinin Seçilmesi Verinin Tanımlanması Verinin Keşfedilmesi (Extraction) Verinin anlaşılması ve hazırlanması aşamaları bir veri madenciliği çalışmasının en zahmetli kısmıdır. Veri madenciliği veritabanının oluşturulması, verilerin keşfedilmesi ve modelleme için hazırlanması en çok zaman alan aşamalardır. Örneğin, bir web tıklama akışı analizi verisinde, bu aşamalar bir proje zamanının ve kaynak tahsisinin yaklaşık %80 ila %95'ini oluşturur (Edelstein, 2001). 2.4.3. Veri Hazırlama Aşaması Veri hazırlama aşaması, tablo, kayıt ve öznitelik seçiminin yanı sıra modelleme araçları için verilerin dönüştürülmesi ve temizlenmesi gibi görevleri kapsar. Bu görevler, modellerde kullanılacak verileri hazırlamak için gerçekleştirilir (Hand, 2001: 353).  Model Kümesi Oluşturma  Veri Temizliği  Veri Dönüşümü (seçim, entegrasyon, biçimlendirme)
  • 26. 17 2.4.4. Modelleme Aşaması Modelleme aşaması, veri madenciliği tekniklerinin seçilmesi ve uygulanması aşamasıdır. Eğer veri seti seçilen tekniklerin gerekliliklerini karşılamıyorsa hazırlık aşamasına geri dönmek gerekebilir (Edelstein, 2001).  Tekniklerin seçilmesi  Modeller Oluşturun  Test modelleri  Modelleri değerlendirin 2.4.5. Değerlendirme Aşaması İş hedeflerine doğru bir şekilde ulaştığından emin olmak için modeli daha kapsamlı bir şekilde değerlendirmek ve modeli oluşturmak için yürütülen adımları gözden geçirmek önemlidir. Amaç, yeterince dikkate alınmamış bazı önemli iş konularının olup olmadığını kontrol etmektir. Sonunda veri madenciliği sonuçlarının kullanımına ilişkin bir karara varılmalıdır (Tacenur, 2006: 13).  Süreci gözden geçirin  Hedefe ulaşılıp ulaşılmadığının belirlenmesi 2.4.6. Dağıtım Aşaması Bu aşama, avantaj elde etmek için modelin gerçek hayata dönüştürülmesidir. Gereksinimlere bağlı olarak, dağıtım aşaması nihai bir rapor kadar basit olabileceği gibi, işletme genelinde tekrarlanabilir bir veri madenciliği sürecinin uygulanması kadar karmaşık da olabilir. Genellikle analizci sonuçları verir ve işlevsel departmanlar dağıtımı gerçekleştirir. Bununla birlikte, analist dağıtım çalışmasını yürütmeyecek olsa bile, müşterinin oluşturulan modellerden gerçekten yararlanmak için hangi eylemlerin gerçekleştirilmesi gerektiğini önceden anlaması önemlidir (Ersöz ve Çınar, 2021).  Nihai rapor  Dağıtım planı
  • 27. 18  Plan izleme 2.5. Temel Veri Madenciliği Görevleri Veri madenciliği görevleri genellikle iki ana kategoriye ayrılır; tahmin edici ve tanımlayıcı görevler. Tahmine dayalı görevlerin amacı, diğer özniteliklerin değerlerine dayanarak belirli bir özniteliğin değerini tahmin etmektir. Tahmin edilecek öznitelik genellikle hedef olarak bilinirken, tahmini yapmak için kullanılan öznitelikler açıklayıcı olarak bilinir. Tahmine dayalı görevler sınıflandırma, regresyon, zaman serisi analizi ve tahmindir. Tanımlayıcı görevlerin amacı, verilerdeki altta yatan ilişkileri özetleyen kalıplar türetmektir. Tanımlayıcı veri madenciliği görevleri genellikle doğası gereği keşifseldir ve sonuçları doğrulamak ve açıklamak için sıklıkla işlem sonrası teknikler gerektirir. Tanımlayıcı görevler kümeleme, özetleme, birliktelik kuralları ve dizi keşfidir. Tablo 2.2 veri madenciliği görevlerini göstermektedir. Tablo 2.2 Veri Madenciliği Görevleri (Aşuk, 2010: 12). Tahmine Dayalı Görevler Tanımlayıcı Görevler Sınıflandırma Kümeleme Regresyon Özetleme Zaman Serisi Analizi Dernek Kuralları Tahmin Dizi Keşfi Veri madenciliği fonksiyonları denetimli ve denetimsiz fonksiyonlar olarak da sınıflandırılabilir. Denetimli fonksiyonlar bir değeri tahmin etmek için kullanılır, bir hedefin (bilinen sonuç) belirtilmesini gerektirir. Hedefler ya evet/hayır kararını gösteren ikili öznitelikler (satın al/alma) ya da tercih edilen bir alternatifi gösteren çok sınıflı hedeflerdir (kazak rengi). Sınıflandırma için Naïve Bayes denetimli bir madencilik algoritmasıdır. Denetimsiz fonksiyonlar, verilerdeki içsel yapıyı, ilişkileri veya yakınlıkları bulmak için kullanılır. Denetimsiz madencilik bir hedef kullanmaz. Kümeleme algoritmaları, verilerde doğal olarak oluşan grupları bulmak için kullanılabilir.
  • 28. 19 2.5.1 Sınıflandırma Bir koleksiyonun sınıflandırılması, koleksiyonu oluşturan öğelerin kategorilere veya sınıflara ayrılmasından oluşur. Veri madenciliği bağlamında sınıflandırma, geçmiş veriler üzerine inşa edilen bir model kullanılarak yapılır. Tahmine dayalı sınıflandırmanın amacı, yeni verilerdeki, yani geçmiş verilerde bulunmayan verilerdeki her kayıt için hedef sınıfı doğru bir şekilde tahmin etmektir. Bir sınıflandırma görevi, hedef değerlerin (veya sınıf atamalarının) bilindiği yapı verileriyle (eğitim verileri olarak da bilinir) başlar. Farklı sınıflandırma algoritmaları, tahmin edici özniteliklerin değerleri ile yapı verilerindeki hedef özniteliklerin değerleri arasındaki ilişkileri bulmak için farklı teknikler kullanır. Bu ilişkiler bir modelde özetlenir; model daha sonra hedef değerleri tahmin etmek için bilinmeyen hedef değerlere sahip yeni vakalara uygulanabilir. Bir sınıflandırma modeli, tahminleri bilinen hedef değerlerle karşılaştırmak için eğitim verilerinden ayrı tutulan verilere de uygulanabilir; bu tür veriler test verileri veya değerlendirme verileri olarak da bilinir. Karşılaştırma tekniğine modelin tahmin doğruluğunu ölçen bir modelin test edilmesi adı verilir. Bir sınıflandırma modelinin yeni verilere uygulanmasına modelin uygulanması, verilere de uygulama verileri veya puanlama verileri denir. Bir modelin verilere uygulanması genellikle verilerin puanlanması olarak adlandırılır. Dört ana sınıflandırma algoritması vardır: “Karar Ağacı Algoritması, Naive Bayes Algoritması, Adaptif Bayes Ağı Algoritması ve Destek Vektör Makinesi Algoritması” (Taft vd., 2005). 2.5.2 Regresyon Regresyon, bir veri öğesini gerçek değerli bir tahmin değişkenine eşlemek için kullanılır. Gerçekte regresyon, bu eşlemeyi yapan fonksiyonun öğrenilmesini içerir. Regresyon, hedef verilerin bilinen bazı fonksiyon türlerine uyduğunu varsayar ve ardından verilen verileri modelleyen bu türden en iyi fonksiyonu belirler. Regresyon modelleri sınıflandırma modellerine benzer. Regresyon ve sınıflandırma arasındaki fark, regresyonun sayısal veya sürekli hedef niteliklerle, sınıflandırmanın ise kesikli veya kategorik hedef niteliklerle ilgilenmesidir. Başka bir deyişle, hedef nitelik sürekli (kayan noktalı) değerler veya doğal düzene sahip tamsayı değerler içeriyorsa, bir regresyon tekniği kullanılabilir. Hedef nitelik kategorik değerler içeriyorsa, yani sıralamanın önemli olmadığı dize veya tamsayı değerleri içeriyorsa, bir sınıflandırma tekniği gereklidir. Regresyon modelleri için Destek Vektör
  • 29. 20 Makinesi, Aktif Öğrenme ve Tek Sınıflı Destek Vektör Modeli kullanılabilir (Aşuk, 2010: 14) 2.5.3. Zaman Serisi Analizi Zaman serisi analizi ile bir özelliğin değeri zaman içinde değiştikçe incelenir. Değerler genellikle eşit aralıklı zaman noktaları olarak elde edilir. Zaman serisini görselleştirmek için bir zaman serisi grafiği kullanılır. Zaman serisi analizinde gerçekleştirilen üç temel işlev vardır. Bir durumda, farklı zaman serileri arasındaki benzerliği belirlemek için mesafe ölçüleri kullanılır. İkinci durumda, davranışını belirlemek için çizginin yapısı incelenir. Üçüncü bir uygulama, gelecekteki değerleri tahmin etmek için tarihsel zaman serisi grafiğini kullanmak olacaktır (Seker, 2015: 24). 2.5.4. Tahmin Birçok gerçek dünya veri madenciliği uygulaması, geçmiş ve mevcut verilere dayalı olarak gelecekteki veri durumlarının tahmin edilmesi olarak görülebilir. Tahmin, bir tür sınıflandırma olarak görülebilir. Aradaki fark, tahminin mevcut bir durumdan ziyade gelecekteki bir durumu tahmin etmesidir. Tahmin uygulamaları arasında sel, konuşma tanıma, makine öğrenimi ve örüntü tanıma yer alır. Gelecekteki değerler zaman serisi analizi veya regresyon teknikleri kullanılarak tahmin edilebilse de, diğer yaklaşımlar da kullanılabilir (Irmak, Köksal ve Asilkan, 2012: 105). 2.5.5. Kümeleme Kümeleme, grupların önceden tanımlanmaması, bunun yerine yalnızca veriler tarafından tanımlanması dışında sınıflandırmaya benzer. Kümeleme alternatif olarak denetimsiz öğrenme veya segmentasyon olarak da adlandırılır. Verilerin birbirinden ayrık olabilecek veya olmayabilecek gruplara bölünmesi veya bölümlere ayrılması olarak düşünülebilir. Kümeleme genellikle veriler arasındaki benzerliğin önceden tanımlanmış niteliklere göre belirlenmesiyle gerçekleştirilir. En benzer veriler kümeler halinde gruplandırılır. Kümeler önceden tanımlanmadığından, bir alan uzmanının genellikle oluşturulan kümelerin anlamını yorumlaması gerekir. Kümeleme analizi, verilerin içine gömülü kümeleri tanımlar. Küme, bir anlamda birbirine benzeyen veri nesneleri topluluğudur. İyi bir kümeleme yöntemi,
  • 30. 21 kümeler arası benzerliğin düşük ve küme içi benzerliğin yüksek olmasını sağlamak için yüksek kaliteli kümeler üretir; başka bir deyişle, bir kümenin üyeleri, farklı bir kümenin üyelerine benzediklerinden daha çok birbirlerine benzerler. Kümeleme, yararlılığın veri analizinin hedefleri tarafından tanımlandığı yararlı küme grupları bulmayı amaçlar. Beş farklı küme türü vardır: İyi ayrılmış, prototip tabanlı, grafik tabanlı, yoğunluk tabanlı ve kavramsal kümeler. İyi ayrılmış küme, her bir nesnenin kümedeki diğer tüm nesnelere, kümede olmayan herhangi bir nesneden daha yakın olduğu bir nesne kümesidir. Prototip tabanlı küme, her bir nesnenin kümeyi tanımlayan prototipe diğer herhangi bir kümenin prototipinden daha yakın olduğu bir nesne kümesidir. Veriler, düğümlerin nesneler olduğu ve bağlantıların nesneler arasındaki bağlantıları temsil ettiği bir grafik olarak temsil edilirse, bir küme grafik tabanlı olarak tanımlanabilir. Yoğunluk tabanlı küme, düşük yoğunluklu bir bölge tarafından çevrelenen yoğun bir nesne bölgesidir. Kavramsal küme, bazı özellikleri paylaşan bir dizi nesnedir. İki ana kümeleme algoritması vardır; KMeans Algoritması ve O- Cluster Algoritması (Taşkın ve Emel, 2010: 398). 2.5.6. Özetleme Özetleme, verileri ilişkili basit açıklamalarla alt kümelere eşler. Özetleme aynı zamanda karakterizasyon veya genelleme olarak da adlandırılır. Veritabanı hakkında temsili bilgiler çıkarır veya türetir. Bu, verilerin bazı kısımlarının gerçekten alınmasıyla gerçekleştirilebilir. Alternatif olarak özet türü bilgiler verilerden türetilebilir. Özetleme, veritabanının içeriğini kısa ve öz bir şekilde karakterize eder (Aşuk, 2010: 16). 2.5.7. İlişkilendirme Kuralları İlişkilendirme, büyük veri kümelerinde gizlenmiş ilginç ilişkileri keşfetmeye yönelik veri madenciliği görevini ifade eder. Ortaya çıkarılan ilişkiler birliktelik kuralları şeklinde temsil edilebilir. İlişkilendirme kuralı, belirli veri ilişkilendirme türlerini tanımlayan bir modeldir. Bunlar nedensel ilişkiler değildir. Gerçek verilerde veya gerçek dünyada var olan herhangi bir ilişkiyi temsil etmezler. Ancak birliktelik kuralları, perakende mağaza yönetimine etkili reklam ve pazarlama konusunda yardımcı olmak için kullanılabilir (Aşuk, 2010: 16).
  • 31. 22 2.5.8. Dizi Keşfi Sıralı analiz veya dizi keşfi, verilerdeki sıralı kalıpları belirlemek için kullanılır. Bu örüntüler eylemlerin zaman sırasına dayanır. Bu örüntüler, verilerin ilişkili bulunması bakımından ilişkilendirmelere benzer, ancak ilişki zamana dayalıdır (Aşuk, 2010: 16). 2.6. Veri Madenciliği Sorunları Veri madenciliği ile ilgili birçok önemli uygulama sorunu vardır. Bunlar; insan etkileşimi, aşırı uyum, aykırı değerler, sonuçların yorumlanması, sonuçların görselleştirilmesi, büyük veri kümeleri, yüksek boyutluluk, multimedya verileri, eksik veriler, ilgisiz veriler, gürültülü veriler, değişen veriler, entegrasyon ve uygulamadır. Bu sorunlar veri madenciliği algoritmaları ve ürünleri tarafından ele alınmalıdır. 2.6.1 Anomali Tespiti Anomali tespiti, yeni veya anormal örüntülerin tanımlanmasından oluşur [9]. Bu uyumsuz örüntüler, farklı uygulama alanlarında genellikle anomaliler, aykırı değerler, uyumsuz gözlemler, istisnalar, sapmalar, sürprizler, tuhaflıklar veya kirleticiler olarak adlandırılır. Bunlardan anomaliler ve aykırı değerler, anomali tespiti bağlamında en yaygın olarak kullanılan iki terimdir; bazen birbirinin yerine kullanılır. Anormallik tespiti çok çeşitli uygulamalarda geniş bir kullanım alanı bulmaktadır. Anomali tespitinin önemi, verilerdeki anomalilerin çok çeşitli uygulama alanlarında önemli ve genellikle kritik eyleme dönüştürülebilir bilgilere dönüşmesinden kaynaklanmaktadır. Verilerdeki aykırı değerlerin veya anomalilerin tespit edilmesi, istatistik camiasında 19. yüzyılın başlarında çalışılmıştır. Zaman içinde, çeşitli araştırma topluluklarında çeşitli anormallik tespit teknikleri geliştirilmiştir. Bu tekniklerin birçoğu belirli uygulama alanları için özel olarak geliştirilmişken, diğerleri daha geneldir. Aykırı Değer, farklı bir mekanizma tarafından oluşturulduğuna dair şüphe uyandıracak kadar diğer gözlemlerden sapan bir gözlemdir. Verinin genel davranışına uymayan bir veri nesnesidir, gürültü (Bir kişinin gürültüsü başka bir kişinin sinyali olabilir) veya istisna olarak değerlendirilebilir, bu da nadir olay analizinde oldukça kullanışlıdır (Chandola, 2009: 56).
  • 32. 23 Anomalilerin üç yaygın nedeni vardır: farklı sınıflardan gelen veriler, doğal varyasyon ve veri ölçüm veya toplama hatası. Bir nesne, farklı bir tür veya sınıftan olduğu için diğer nesnelerden farklı olabilir. Birçok veri seti, bir veri nesnesinin olasılığının, nesnenin dağılımın merkezinden uzaklığı arttıkça hızla azaldığı istatistiksel dağılımlarla modellenebilir. Sistemler, bir kurumun veri depolarında bulunan ve eski sistemlerden, veritabanlarından veya farklı format ve yapıdaki dosyalardan gelen veri koleksiyonunu kullanır. Bu nedenle, verilerin anlamlı sonuçlar üretmek için veri faaliyetlerine uyacak şekilde biçimlendirilmesi ve yapılandırılması önemlidir (Charran, 2006). Dolayısıyla, veri toplama veya ölçüm sürecindeki hatalar bir başka anomali kaynağıdır. Veri toplama sırasında, tablo sütun kısıtlamaları ve bağlantılı açıklayıcı tablolara referanslar kullanılarak hata kayıtları da tanımlanır. Belirlenen hataların sürekli geri bildirimi yoluyla, kaynaktaki veri kalitesi, tercihen veri yakalama sırasında iyileştirilebilir. Bu nedenle, basit bir anormallik tespit yaklaşımı, normal davranışı temsil eden bir bölge tanımlamak ve verilerde bu normal bölgeye ait olmayan herhangi bir gözlemi anormallik olarak ilan etmektir. Ancak birkaç faktör bu görünüşteki yaklaşımı çok zorlayıcı hale getirmektedir. Olası tüm normal davranışları kapsayan bir normal bölge tanımlamak çok zordur. Anomaliler kötü niyetli eylemlerin sonucu olduğunda, kötü niyetli düşmanlar genellikle anormal gözlemlerin normal gibi görünmesini sağlamak için kendilerini uyarlar, böylece normal davranışı tanımlama görevini daha da zorlaştırır. Birçok alanda normal davranış gelişmeye devam eder ve mevcut bir normal davranış kavramı gelecekte yeterince temsil edici olmayabilir. Anomali kavramı farklı uygulama alanları için farklıdır. Anomali tespit teknikleri tarafından kullanılan modellerin eğitimi/doğrulanması için etiketli verilerin mevcudiyeti genellikle önemli bir sorundur. Veriler genellikle gerçek anomalilere benzeme eğiliminde olan ve dolayısıyla ayırt edilmesi ve giderilmesi zor olan gürültü içerir (Lee, 2007). Anomali tespitinin üç ana tekniği vardır: Model tabanlı teknikler, yakınlık tabanlı teknikler ve yoğunluk tabanlı teknikler. Birçok anormallik tespit tekniği öncelikle verinin bir modelini oluşturur. Anomaliler, modele çok iyi uymayan nesnelerdir. Modeller kümeleme yoluyla oluşturulabilir. Model bir kümeler kümesi ise, anomaliler herhangi bir kümeye güçlü bir şekilde ait olmayan nesnelerdir. Ayrıca bir model oluşturmak için sınıflandırma teknikleri de kullanılabilir. Yakınlık tabanlı teknikler, nesneler arasında bir yakınlık ölçüsü tanımlar. Anormal nesneler, diğer nesnelerin çoğundan uzak olanlardır. Yakınlık tabanlı tekniklerin çoğu mesafelere dayalıdır, bu nedenle mesafe tabanlı aykırı değer tespit teknikleri olarak adlandırılırlar. Yoğunluk tabanlı teknikler nesnelerin yoğunluğunu hesaplar ve düşük
  • 33. 24 yoğunluklu bölgelerde bulunan ve komşularından nispeten uzak olan nesneleri anormal olarak değerlendirir. 2.6.2. Örüntü Değerlendirme ve Bilgi Sunumu. KDD'nin altıncı adımı olan örüntü değerlendirmesi, bazı etkileyici ölçütlere dayalı olarak bilgiyi temsil eden gerçekten ilginç örüntüleri tanımlar. KDD'nin yedinci adımı olan bilgi sunumunda, çıkarılan bilginin kullanıcıya sunulması için görselleştirme ve bilgi temsili teknikleri kullanılır. Görselleştirme tekniklerinin kullanımı, kullanıcıların sonuçların daha matematiksel veya metin tipi açıklamalarından daha karmaşık sonuçları özetlemesine, çıkarmasına ve kavramasına olanak tanır. Görselleştirme teknikleri arasında grafiksel, geometrik, simge tabanlı, piksel tabanlı, hiyerarşik ve hibrit yer alır. Çubuk grafikler, pasta grafikler, histogramlar ve çizgi grafikler gibi geleneksel grafik yapıları kullanılabilir. Geometrik teknikler kutu grafiği ve dağılım diyagramı tekniklerini içerir. Şekiller, renkler veya diğer simgelerin kullanılması sonuçların sunumunu iyileştirebilir. Piksel tabanlı tekniklerde her veri değeri benzersiz şekilde renklendirilmiş bir piksel olarak gösterilir. Hiyerarşik teknikler, görüntüleme alanını veri değerlerine dayalı olarak sıralamaya göre bölgelere ayırır (Dunham, 2003). 2.7. Veri İşleme Araçları Çeşitli veri madenciliği tekniklerini gerçekleştirmek için Weka, Rapidminer, Orange ve Knime gibi veri madenciliği araçları kullanılmaktadır. WEKA: Waikato Bilgi Analizi Ortamı (WEKA), Yeni Zelanda'daki Waikato Üniversitesi tarafından sunulan açık kaynaklı bir yazılım ve makine öğrenimi araç setidir. WEKA, veri ön işleme, kümeleme, sınıflandırma, regresyon, görselleştirme ve özellik seçimi gibi çeşitli standart veri madenciliği görevlerini destekler. Mevcut veri madenciliği ve makine öğrenimi teknikleriyle WEKA kullanılarak yeni algoritmalar da uygulanabilir. WEKA, dosyalar, URL'ler ve veritabanları dahil olmak üzere veri yüklemek için çeşitli kaynaklar sağlar. Desteklediği dosya formatları arasında WEKA "nın kendi ARFF formatı, CSV, Lib SVMs formatı ve C4.5 formatı bulunmaktadır. WEKA "da karışıklık matrisi, kesinlik, geri çağırma, doğru pozitif ve yanlış negatif gibi birçok değerlendirme kriteri de sağlanmaktadır. WEKA aracının avantajlarından bazıları Açık kaynak kodlu, platform bağımsız ve taşınabilir,
  • 34. 25 grafiksel kullanıcı arayüzü ve farklı veri madenciliği algoritmalarının çok geniş bir koleksiyonunu içerir (waikato, 2021). RAPIDMINER: RAPIDMINER (RM) veri madenciliği süreçleri için iyi bir ortam sağlayan açık kaynaklı bir yazılımdır. Veri akışını oluşturmak için kullanılan sürükle ve bırak özelliğine sahiptir. Farklı dosya formatlarını desteklemektedir. Regresyon, sınıflandırma ve kümeleme görevleri farklı öğrenme algoritmaları ile kolayca gerçekleştirilebilir. Rapid Miner çok sayıda sınıflandırma ve regresyon algoritmasını, karar ağaçlarını, birliktelik kurallarını, kümeleme algoritmalarını destekler ve veri ön işleme, normalleştirme, filtreleme ve veri analizi için birçok özellik mevcuttur. Farklı geleneksel ve standart veritabanlarından veri aktarabilir (rapidminer, 2021). ORANGE: ORANGE, Ljubljana Üniversitesi Biyoinformatik Laboratuvarı'nda geliştirilen açık kaynaklı bir veri madenciliği aracıdır. Uygulamalar komut dosyası ve görsel programlama kullanılarak uygulanabilir. Veri manipülasyonu ve widget değişikliği için Python kütüphanesi mevcuttur. Programlama, widget'ları tuval üzerine yerleştirerek ve giriş ve çıkışlarını bağlayarak gerçekleştirilir. Bu araç makine öğrenimi ve veri madenciliği algoritmaları için uygundur. Hem veri madenciliği araştırmacıları hem de kendi algoritmalarını geliştirmek ve test etmek isteyen deneyimsiz kullanıcılar tarafından kolayca kullanılabilir. Kodun mümkün olduğunca çoğunu yeniden kullanma avantajı sağlar (orange, 2021). KNIME: KNIME (Konstanz Information Miner) İsviçre şirketi tarafından geliştirilen ve sürdürülen genel amaçlı bir açık kaynak veri madenciliği aracıdır. Eclipse platformu üzerinde uygulanmaktadır ve veri entegrasyonu, işleme, keşif ve analiz platformu olanaklarına sahiptir. KNIME, R ve WEKA gibi diğer veri madenciliği araçları ile entegre edilebilir (knime, 2021). 2.8. Veri Madenciliği İle Sağlık Alanında Yapılmış Çalışmalar Bu bölümde veri madenciliği ile sağlık alanında yapılmış çalışmalar hakkında bilgiler verilecektir.
  • 35. 26 Obenshain (2004) tarafından yapılan çalışmada sağlık verilerinin gözetimi ile ilgili olarak veri madenciliğine üst düzey bir giriş sunulmuştur. Veri madenciliği geleneksel istatistik ile karşılaştırılmakta, otomatik veri sistemlerinin bazı avantajları tanımlanmakta ve bazı veri madenciliği stratejileri ve algoritmaları açıklanmaktadır. Somut bir örnekle veri madenciliği sürecindeki adımlar gösterilmekte ve sağlık alanındaki üç başarılı veri madenciliği uygulaması açıklanmaktadır. Koyuncugil ve Özgülbaş (2009) tarafından yapılan çalışmada “veri tabanlarında bilgi keşfi, veri ambarı, veri madenciliği, iş zekası ve veri madenciliği yöntemleri konularında kavramsal çerçeve verilerek; ülkemizdeki sağlık sektöründe öncelikli konu ve sorun alanları ile ilgili veri madenciliği” uygulamalarına örnekler sunulmuştur. Güllüoğlu (2011) tarafından yapılan çalışmada Tıp alanında uygulanması düşünülen veri madenciliğe çalışmalarına örnek teşkil etmesi açısından bir plan çıkarmak amaçlanmıştır. Bu açıdan bakıldığı zaman çalışmanın amacı geliştirilecek yöntembilim ile saklı olan ve bilinmeyen bilgilere ulaşmaktır. Bunun için farklı tipteki veriler sınıflandırılacak, eğitilecek yeni veriler test edilecek ve yordama yapılacaktır. Böylece kaynaktan hedefe giden süreçte hedef karar vermede etkilenecektir. Bu şekilde çıkarılmak istenen bilgiye ulaşılmış olacaktır. Atiktürk Taşdelen (2019) tarafından yapılan çalışmada Bu çalışmada makine öğrenmesi metotları kullanılarak sınıflandırma işlemi yapılmıştır. Sağlık alanındaki verilerde perceptron öğrenme algoritması, K en yakın komşuluk, derin öğrenme metotları uygulanarak karşılaştırmalar yapılmış ve bir metot önerilmiştir. 2.9. Veri Madenciliği İle Hastalık Teşhisleri Alanında Yapılmış Çalışmalar Hall ve arkadaşları (2002) tarafından yapılan güncel bir çalışmada, sindirim sistemi (gastrointestinal) hastası olan çeşitli yaş, cinsiyet, zaman ve bunun yanı sıra sağlık sigortalılık durumu lojistik regresyon yöntemi ile analiz edilmiş, gastrointestinal hastalıkların sıcaklığın arttığı yaz aylarında gençlerde, kadınlarda ve herhangi bir sağlık güvencesi olmayanlarda arttığı sonucuna varılmıştır.
  • 36. 27 Santos vd. (2014) çalışmalarında ilişkilendirmelerin tanımlamalarına bağlı olduğu için özelliklerin azaltılmasının sınıflandırmada önemli hassas ve önemli olduğunu belirtmiş, göğüs kanseri verilerinde kullandıkları etkili özellik sıralaması algoritmalarından bahsetmiştir Nilashi vd. (2017) tarafından yapılan çalışmanın amacı, meme kanseri hastalığı verilerinde hastalıkla ilgili tahmin yürütmektir. Bunu yaparken, bulanık kural gerekçelendirme yöntemini kullanmış, bulanık kuralları keşfederek tahmin modelleri oluşturmuşlardır. Jain ve Singh (2018) uygun özellik seçiminin sınıflandırmanın doğruluğunu önemli ölçüde etkilediğini belirtmiş ve çeşitli özellik seçimi yöntemlerini inceleyerek avantaj ve dezavantajlarını incelemişlerdir. Ayrıca kronik hastalık tahmini için geleneksel sınıflandırma sistemleri, adaptif sınıflandırma sistemleri ve paralel sınıflandırma sistemlerini incelemişlerdir.
  • 37. 28 BÖLÜM 2I YÖNTEM Araştırma yöntemi; “araştırmanın modeli, evren ve örneklem, veri toplama araçları, verilerin toplanması ve verilerin analizi başlıkları” ile detaylıca açıklanacaktır. Çalışmaya öncelikle diyabet hastalığına uygun veri seti için araştırma yapılarak başlanmıştır. Uygun veri seti bulunduktan sonra bu veri seti üzerinde işlem yapmadan önce veri madenciliği basamakları uygulanmaya başlanmış ve bu aşamada sırasıyla veri temizleme, veri indirgeme, veri dönüştürme ve uygun veri madenciliği yazılımı seçimi işlemleri yapılmıştır. Daha sonra kullanılan veri seti, algoritma ile eğitilmiştir. Böylece gelecek olan test veri setlerinin hasta olup olmama olasılığı araştırılmıştır. İki tane algoritma kullanılarak algoritmaların hangisinin daha iyi sonuç verdiği araştırılmış ve karşılaştırılmıştır. 3.1. Araştırmanın Modeli Hastalık teşhislerinde veri madenciliğinin kullanımı araştırmasının modeli ilişkisel araştırma modelidir. İlişkisel araştırma modeli ile araştırma problemi, araştırma konusu kapsamında incelenmiştir. Şeker hastalığına ait örnek veriler üzerinden çalışma yapılarak veri madenciliği yöntemlerinden lojistik regresyon ve destek vektör makineleri ile bir sınıflandırma gerçekleştirerek hangi algoritmanın daha iyi sonuç verdiğini ve bir kişinin hasta olmaya ne kadar yakın olduğu ele alınacaktır. 3.2. Evren ve Örneklem Amaç ve sınırlılıkta da belirtildiği üzere araştırma veri madenciliği kullanılarak kişinin hastalık teşhisi tahminini ortaya çıkmasına yöneliktir. Elde edilecek sonuçların genellemek isteneceği çalışma evreni sağlık birimleridir. 3.3. Veri Toplama Araçları Araştırmada belirlenen ilişkisel araştırma yönteminde veri toplama aracı olarak belgesel tarama yöntemi kullanılmıştır. Var olan kayıt ve belgeleri inceleyerek veri toplama işlemi belgesel tarama yöntemi olarak adlandırılır. Bu yöntemin seçilmesinin nedeni lojistik
  • 38. 29 regresyon ve destek vektör makineleri veri madenciliği modellerini kullanarak bir sınıflandırma yöntemi gerçekleştirip, kişilerin hasta olup olmadıklarının tahminini belgesel tarama yöntemi ile bulunan hazır veri seti üzerinde kullanılmasının uygun olmasıdır. Belgesel tarama yöntemi ile kaggle veri tabanından elde edilen veri seti 768 adet kayıttan oluşan diyabet hastalığı ile ilgilidir. Veri setindeki her hayıt bir kişiye ait özelliklerden oluşmaktadır. Veri seti 8 özellik ‘ten oluşmuştur. Bu özellikler; hamilelik sayısı, glikoz düzeyi, kan basıncı, ten kalınlığı, insülin sayısı, diyabet soy ağacı fonksiyonu, vücut kitle indeksi ve yaş’ tır. 3.4. Verilerin Toplanması Araştırma kapsamında toplanan verilerin kaynağı insan olmuştur ve bu doğrultuda araştırma konusu ile ilgili hazır veriler kullanılmıştır. Kullanılan veri seti hakkında detaylı bilgi şu adresten alınabilir: https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database Araştırmada kişilerin hastalığını belirleyen kriterlerin yer aldığı bir veri setinden yararlanılacaktır. Veriler belgesel tarama yöntemiyle derlenmiştir. 3.5. Verilerin Analizi Veri analizi yöntemlerinden nicel veri analiz yöntemi kullanılmıştır. Nicel veriler, sayısal anlamda veya miktar olarak bilgiler vermektedirler. Veriler analiz edilirken makine öğrenmesi ve istatistik alanlarından yararlanılmıştır.
  • 39. 30 BÖLÜM IV BULGULAR VE YORUM 4.1 Uygulama Bu uygulamada veri madenciliği algoritmaları olan Destek Vektör Makineleri ve Lojistik Regresyon ile veri setinin modellenmesi amaçlanmıştır. Kullanılan veri seti, algoritma ile eğitilmiştir. Böylece gelecek olan test veri setlerinin hasta olup olmama olasılığı araştırılmıştır. Uygulamada kullanılan veri seti diyabet hastalığı ile ilgilidir. İnternet ortamından excel dosya formatı olan ‘.csv’ uzantısı olarak indirilmiştir. Kullanılan program “.csv” formatında analiz yapmayı desteklemektedir. Bu sebeple indirilen dosya analiz işlemlerinde direk kullanılmıştır. Python programlama dili kullanılarak, Anaconda Navigator içerisinde Jupyter ortamında yazılmıştır. Öncelikle Jupyter ortamına kullanılacak olan Numpy ve Pandas Python kütüphaneleri Şekil 4.1’de görüldüğü üzere yüklenmiştir. Şekil 4.1. Python kütüphanelerinin yüklenmesi Veriler program içerisine yüklenmiştir. Veri seti içerisinde 768 adet kişinin bilgileri bulunmaktadır. Veri setindeki her hayıt bir kişiye ait özelliklerden oluşmaktadır. Kişilerin hepsi bayandır. Outcome değeri ise çıktı değeridir. Değer 1 ise diyabet hastası olduğunu, 0 ise diyabet hastası olmadığını gösterir. Şekil 4.2’de görüldüğü üzere veri seti 8 özellik ‘ten oluşmuştur. Bu özellikler şunlardır:  Pregnancies: Kişinin kaç defa hamile kaldığı belirtilmiştir.  Glucose: Glikoz değeridir.  Blood Pressure: Kan basıncı değeridir.  Skin Thickness: Cilt kalınlığı değeridir.  İnsülin: İnsülin değeridir.  Body Mass Index: Vücut kitle indeksi değeridir.  Diabetes Pedigree Function: Diyabet soyağacı fonksiyonu değeridir.  Age: Kişilerin yaşını gösteren değerdir.
  • 40. 31 Şekil 4.2. Veri seti özellikleri Daha sağlıklı sonuçların çıkması için veri ön işleme adımı önemlidir. Veri ön işleme işlemi adımı için her bir özellikte kaç adet 0 değerinin olduğu Şekil 4.3. ve Şekil 4.4’de öğrenildi. Şekil 4.3. Veri seti sıfır değerlerinin toplamı Şekil 4.4. Veri seti değerleri
  • 41. 32 Glikoz, kan basıncı, cilt kalınlığı, insülin, vücut kitle indeksi, diyabet soy ağacı fonksiyonu ve yaş özellikleri sütunlarında yer alan 0 değerleri NaN olarak değiştirildi. Bu hücreleri Şekil 4.5’de eksik değerler olarak tanımlandı. Şekil 4.5. Eksik değerlerin tanımlanması Eksik değerleri kendi sütununda bulunan değerlerin ortalaması ile Şekil 4.6’da dolduruldu. Bu sayede veri setinde eksik değer kalmadı. Şekil 4.6. Eksik değerlerin doldurulması
  • 42. 33 Eksik değer kalmadığı Şekil 4.7’de görülüyor. Şekil 4.7. Eksik değerlerin toplamı Diyabet hastası olup olmadığına en çok etki eden 4 özelliği Şekil 4.8’de görüldüğü üzere korelasyon analizine göre bulundu. Bunlar sırasıyla glikoz, vücut kitle endeksi ve yaş özellikleridir. Model oluştururken bu özellikler kullanılacaktır. Şekil 4.8. En çok etki eden 4 özellik Veri ön işleme ve en çok etki eden özelliklerin ortaya çıkarılmasının ardından veri analize hazır hale geldi. Kullanılacak olan algoritmalar lojistik regresyon ve destek vektör regresyon ’dur. Algoritmaların oluşturulabilmesi için Python’da bulunan hazır kütüphaneler Şekil 4.9’da programa dahil edildi. Şekil 4.9. Algoritmaların Oluşturulması
  • 43. 34 X ve y değişkenleri Şekil 4.10’da belirlendi. X değişkeni özellik setini, y değişkeni ise çıktı setini temsil eder. Şekil 4.10. X ve y değişkenlerinin belirlenmesi X değişkeni Şekil 4.11’de Glikoz, Vücut Kitle İndeksi ve yaş değerlerini gösterir. Şekil 4.11. X değişkeninin gösterilmesi y değişkeni Şekil 4.12’de Outcome sütunundaki 0 ve 1 değerlerini gösterir. Şekil 4.12. y değişkeninin gösterilmesi
  • 44. 35 Lojistik regresyonu oluşturup, skoru kayıt etme işlemi Şekil 4.13’de yapıldı. X ve y değişkenlerini ayırıp, her on tane de bir gözlem olarak belirlendi. Doğrulukların ortalaması alınarak skor belirlendi. Bunun anlamı on tane de bir öğrenme gerçekleştirerek “accuracy” skorunu belirleyip, ortalamasının hesaplanarak bulunmasıdır. 0.7669856450330144 değeri veri setindeki sonuçların %76 doğru şekilde bildiğini gösterir. Bu değer, başarı oranını gösterir. Şekil 4.13. Lojistik regresyon skoru Bulunan lojistik regresyon skorunu sonuçlar listesine Şekil 4.14’de eklendi. Şekil 4.14. Lojistik regresyon skorunun eklenmesi Doğrusal destek vektör regresyon skoru Şekil 4.15’de bulundu. Şekil 4.15. Doğrusal destek vektör regresyon skoru
  • 45. 36 Şekil 4.16’da görüldüğü üzere sonuçlar listesine eklendi. Şekil 4.16. Doğrusal destek vektör regresyon skorunun listeye eklenmesi Lojistik regresyon algoritması ile bulunan skor doğrusal vektör algoritması ile bulunan skordan daha başarılı çıkmıştır. Bu iki algoritma arasından lojistik regresyon tercih edilecektir. En iyi sonucu veren model Şekil 4.17’de kaydedildi. Şekil 4.17. Modelin kaydedilmesi Kaydedilen model Şekil 4.18’de çağrıldı. Şekil 4.18 Modelin çağrılması
  • 46. 37 Çağrılan modeli lojistik regresyon modeli ile tahmin için Şekil 4.19’da kullanıldı. Glikoz değeri 70, vücut kitle indeksi 60 ve yaşı 50 olan bir hasta için lojistik regresyon tahmini yapıldı. İki çıktı değerimiz bulunmaktadır. Bunlardan 1 değeri diyabet hastası olduğunu, 0 değeri ise diyabet hastası olmadığını gösterir. Lojistik regresyon modeline göre bu hastanın diyabet hastası olduğu tahmin edildi. Şekil 4.19 Modelin kullanılması Lojistik regresyon modeli ile başka bir tahmin Şekil 4.20’de yapıldı. Glikoz değeri 40, vücut kitle indeksi 40 ve yaşı 40 olan bir hasta için lojistik regresyon modeline göre bu hastanın diyabet hastası olmadığı tahmin edildi. Şekil 4.20 Modelin başka bir tahminde kullanılması
  • 47. 38 BÖLÜM V SONUÇ, TARTIŞMA VE ÖNERİLER Araştırmanın son bölümünde sonuç başlığı altında dönem projesi konusu tanımlanacak, kullanılan yöntem ve elde edilen sonuçlar ifade edilecektir. Tartışma başlığı altında araştırmanın sonuç kısmı benzer çalışmalarla karşılaştırılarak probleme ilişkin değerlendirmeler yapılacaktır. Öneriler başlığında ise araştırma amaç ve alt amaçları dikkate alınarak kişisel düşünceler aktarılacaktır. 5.1. Sonuç Veri madenciliği en kolay tanımıyla oldukça büyük miktardaki ham veriler içerisinden amaca uygun modellerin ortaya çıkarılması prosesidir. Bir diğer ifadeyle; “karmaşık ve düzensiz veriler içindeki modelleri ortaya çıkarıp bunları karar verme ve eylem planını gerçekleştirmek için kullanma” işlemidir. Sağlık alanındaki veriler hayati önem taşıyan verilerdir. Bu veriler, veri madenciliği modelleri kullanılarak hastalıkların erken ve doğru teşhis edilmesinde önemli kazanımlar sağlayabilir. Bu çalışmada veri madenciliğinin hastalık teşhislerinde kullanımının incelenmesi ve veri madenciliği teknikleri kullanılarak örnek bir sınıflandırma çalışması yaparak yeni bir bakış açısı kazandırmak amaçlanmıştır. Araştırmada ilişkisel araştırma yöntemi ve veri toplama aracı olarak belgesel tarama yöntemi kullanılmıştır. Bu kapsamda; veri madenciliği algoritmalarından Destek Vektör Makineleri ve Lojistik Regresyon ’un hastalık teşhislerinde nasıl kullanılabileceği konusunda örnek bir çalışma yapılmış ve sonuçları gözlenmiştir. Uygulamada kullanılan veri seti diyabet hastalığı ile ilgilidir. Kullanılan veri seti, bu algoritmalar ile eğitilmiş ve böylece gelecek olan test veri setlerinin diyabet hastası olup olmama olasılığı araştırılmıştır. Yapılan çalışmada veri setindeki “Glikoz” değerinin diyabet için en önemli kriter olduğunu gözlenmiştir. Destek Vektör Makineleri algoritması ile bulunan skor 0.765’dir. Lojistik Regresyon algoritması ile bulunan skor ise 0.766’dır. Yapılan testlerde algoritmaların yüksek doğrulukta çalıştığı saptanmıştır. Lojistik regresyon algoritmasının doğrusal vektör algoritmasına göre daha iyi doğruluk oranı verdiği saptanmıştır.
  • 48. 39 Veri madenciliği ile ilgili metot ve kavramların iyi bilinmesi ileride verilerin daha hızlı düzenlenmesi ve değerlendirilmesi açısından son derece önemlidir. Veri madenciliğinin gelişmesi, hastalık teşhislerinde kullanımına zemin hazırlamış ve gerekliliğini ortaya koymuştur. Bu çalışmada veri madenciliğinin hastalık teşhislerinde kullanımı incelenerek veri madenciliği yöntemlerinin hastalık teşhislerinde fayda sağlayabileceği görülmüştür. 5.2. Tartışma Araştırma kapsamında çıkarılan sonuçlar benzer çalışmalar ile karşılaştırıldığında tutarlılık göstermektedir. Benzer çalışmalarda veri madenciliğinin kullanımının hastalık teşhislerinde aktif rol oynayabileceği ifade edilmektedir. Benzer araştırmalarda veri madenciliği modellerinin diğer alanlarda olduğu gibi sağlık alanında kullanımının önemli olduğu gözlemlenmiştir. Çataloluk (2011) tarafından yapılan çalışmada özellikle tıp alanında veri madenciliğinin, hastalara doğru teşhis koymak için maliyeti yüksek, laboratuvar şartları kısıtlı olan, hasta açısından risk taşıyan yöntemlerin söz konusu olduğu durumlarda ya da tecrübe bakımından yeterli düzeyde olmayan hekimlerin doğru teşhis koymalarına fayda sağlamada önemli bir yardımcı karar destek aracı olarak kullanılabileceği açıklanmıştır. Sevim (2019) tarafından yapılan çalışmada veri madenciliğinde kullanılan ortamın bir öneminin olmadığı, önemli olan en verimli bir şekilde ön işleme yapılması ve en iyi sonuç elde edilmesi olduğu açıklanmıştır. Mevcut veriler ve algoritmalar ile yapılan analizlere bakılarak aynı özellikte ki verilerle yapılacak diğer veri madenciliği çalışmalarının tanımlanmasında kullanılabilir. Böylece analizde kullanılan veriler ışığında, aynı türde yeni veriler ortaya çıktığında bu verilere ilişkin ileriye yönelik tahminler yapılabilecektir. Geleceğin sayısal karar verme ve iş zekâsı yöntemi olan Veri Madenciliğinin konunun uzmanı kişiler tarafından hastalık teşhislerinde kullanımının artması ile sağlık hizmetlerinin daha etkin sunumu ve kaynakların daha verimli kullanımına yol açacaktır.
  • 49. 40 5.3. Öneriler Araştırmada elde edilen sonuçlar ve tartışmalar ışığında araştırma amaç ve alt amaçları doğrultusunda önerilerde bulunulabilir. Bu amaçla yapılan çalışmalarda karşılaşılan en büyük problem veri yığınlarının hatalı veriler içermesi ya da çok sayıda değerinin eksik girilmiş olmasıdır. Bu çalışmada kullanılan veri setinde de bahsi geçen bu problemlerle karşılaşılmıştır. Uygulama sonuçlarının güvenilirliği açısından veri setinin detaylı bir önişleme sürecinden geçirilmesi önerilmektedir. Bu aşamada veri setine; verilerin temizlenmesi, null değeri çok fazla olan satırların veri setinde ortalama ile değiştirilmesi ve veri indirgeme gibi birçok işlemin uygulanması yapılabilir. Veri madenciliğinde birçok algoritma bulunmaktadır. Bu algoritmaların hangisinin daha başarılı olduğu üzerine yapılan birçok araştırma mevcut olup bu araştırmaların sonucu birbirinden farklılık göstermektedir. Bu çalışmada veri setine Lojistik Regresyon ve Karar Destek Vektör algoritması uygulanmış ve her bir algoritma ile birer model oluşturulmuştur. Oluşturulan bu modeller arasında farklı skor değerleri çıkmıştır. Bundan dolayı veri setine ve probleme en uygun modelin seçilerek, yüksek doğruluk oranının kullanılması önerilmektedir. Hastalık teşhislerinde veri madenciliği uygulaması gerçekleştirileceği zaman, eldeki verinin ve çözülmesi amaçlanan problemin çok iyi bir şekilde analiz edilmesi ve anlaşılması gerekir. Gerçekte hasta olan bir kişiye sağlıklı teşhisi koymak veya gerçekte sağlıklı olan bir kişiye hasta teşhisi koyup yanlış tedaviler uygulanmasına sebep olmak sağlık açısından oldukça tehlikelidir. Bu nedenle hastalık teşhisinde kullanılacak olan veri setinin ve veri madenciliği modelinin konunun uzmanları tarafından kararlaştırılıp, uygulanması önerilmektedir.
  • 50. 41 KAYNAKÇA Abidi, S. S. R. (2001). Knowledge management in healthcare: towards ‘knowledge- driven’decision-support services. International journal of medical informatics, 63(1- 2), 5-18. Abidi, S. S. R., & Yu-N, C. (2000). A Convergence of Knowledge Management and Data Mining: Towards ‘Knowledge-Driven’Strategic Services. In 3rd International Conference on the Practical Applications of Knowledge Management, Manchester. Ahmed, K. P. (2017). Analysis of data mining tools for disease prediction. Journal of Pharmaceutical Sciences and Research, 9(10), 1886-1888. Aşuk, C. (2010). A Data-Mınıng Based Fraud Detectıon System For Health Insurance Companıes. (Yüksek lisans Tezi). Marmara Ünı̇versitesı̇ Fen Bilimleri Enstitüsü. Atiktürk Taşdelen, D. (2019). Veri Madenciliğinin Tıp Ve Sağlık Hizmetlerinde Uygulamaları. (Yüksek Lisans Tezi). Ankara Üniversitesi Fen Bilimleri Enstitüsü. Aytaç, M. B., & Bilge, H. Ş. (2013). Tele Pazarlama Verilerinin Birliktelik Kurallarıyla Ve Crısp-Dm Yöntemiyle Analiz Edilmesi. Aksaray Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 5(2), 25-40. Barbone, F., Bovenzi, M., Cavallieri, F., & Stanta, G. (1995). Air pollution and lung cancer in Trieste, Italy. American Journal of Epidemiology, 141(12), 1161-1169. Berry, M. J., & Linoff, G. S. (2004). Data mining techniques: for marketing, sales, and customer relationship management. John Wiley & Sons.. Bukhbinder, G., Krumenaker, M., & Phillips, A. (2005). Insurance Industry Decision Support: Data Marts, OLAP and Predictive Analytics. In Casualty Actuarial Society Forum (pp. 171-197). Chandola, V. (2009). Anomaly detection for symbolic sequences and time series data. University of Minnesota. Charran, E. (2006). Introduction to Data Mining with SQL Server”, http://www.sql-server- performance.com/ec_data_mining.asp. Cox, B. D., Whichelow, M. J., & Prevost, A. T. (1998). The development of cardiovascular disease in relation to anthropometric indices and hypertension in British adults. International journal of obesity, 22(10), 966-973. Çataloluk, H. (2012). Gerçek Tıbbi Veriler Üzerinde Veri Madenciliği Yöntemlerini Kullanarak Hastalık Teşhis. (Yüksek Lisans Tezi). Bilecik Üniversitesi Fen Bilimleri Enstitüsü Bilgisayar Mühendisliği Ana Bilim Dalı Devi, S. K., Krishnapriya, S., & Kalita, D. (2016). Prediction of heart disease using data mining techniques. Indian journal of Science and technology, 9(39), 1-5.
  • 51. 42 Dunham, M. H. (2006). Data mining: Introductory and advanced topics. Pearson Education India. Edelstein H.A. (2001). Pan For Gold In The Clickstream”, InformationWeek March 12, http://www.informationweek.com/828/prmining.htm. Ersöz, F., & Çınar, Y. (2021). Veri Madenciliği ve Makine Öğrenimi Yaklaşımlarının Karşılaştırılması: Tekstil Sektöründe bir Uygulama. Avrupa Bilim ve Teknoloji Dergisi, (29), 397-414. Galfond, G. (2017). Data Mining Can Unearth A Competitive Edge. National Underwriter, 10. Güllüoğlu, S. S. (2011). Tıp ve sağlık hizmetlerinde veri madenciliği çalışmaları: kanser teşhisine yönelik bir ön çalışma. AJIT-e: Bilişim Teknolojileri Online Dergisi, 2(5), 1- 7. Gündoğdu, Ö. E. (2007). Veri madenciliğinde genetik algoritmalar (Master's thesis, Kocaeli Üniversitesi, Fen Bilimleri Enstitüsü). Hall G.V. , Kirk, M.D. , Ashbolt, R. , Stafford, R. , Lalor, K. (2002). Frequency of infectious gastrointestinal illness in Australia, 2002: Regional, seasonal and demographic variation”, Epidemiology and Infection, 134, 111-118 Hand, D., Mannila, H., & Smyth, P. (2001). Principles of Data Mining”. The MIT Press. In A comprehensive, highlytechnical look at the math and science behind extracting useful information from large databases (Vol. 546). Irmak, S., Köksal, C. D., & Asilkan, Ö. (2012). Hastanelerin gelecekteki hasta yoğunluklarının veri madenciliği yöntemleri ile tahmin edilmesi. Uluslararası Alanya İşletme Fakültesi Dergisi, 4(1), 101-114. Jain, D., Singh, V. (2018). Feature selection and classification systems for chronic disease prediction: A review. Egyptian Informatics Journal, 19, 179–189 Kavakiotis I, Tsave O, Salifoglou A, Maglaveras N, Vlahavas I, Chouvarda I. (2017). Machine learning and data mining methods in diabetes research. Computational and structural biotechnology journal, 104-116. Kdnuggets (2004).http://www.kdnuggets.com/polls/2004/data_mining_methodology.htm. Knime (2021). https://www.knime.com/ Konrad R.: “Data mining: Digging user info for gold”, http://zdnet.com.com/2100-11- 528032.html?legacy=zdnn, ZDNET News February 7, (2001) Koyuncugil, A., & Özgülbaş, N. (2009). Veri madenciliği: Tıp ve sağlık hizmetlerinde kullanımı ve uygulamaları. Bilişim Teknolojileri Dergisi, 2(2). Koyuncugil, A.S. (2006). Bulanık veri madenciliği ve sermaye piyasalarına uygulanması. (Doktora tezi). Ankara Üniversitesi, Fen Bilimleri Enstitüsü.
  • 52. 43 Larose D.T. (2005). Discovering Knowledge in Data: An Introduction to Data Mining. John Wiley & Sons. Lee, H. H. (2007). Data Preparation Tool for Exploration in Data Mining. Masters Dissertations: Computer Science , http://dspace.fsktm.um.edu.my/handle/1812/97 (2007). MIT (2001). The Technology Review Ten, MIT Technology Review January/February, Nilashi, M., Ibrahim, O., Ahmadi, H., Shahmoradi, L. (2017). A knowledge-based system for breast cancer classification using fuzzy logic method. Telematics and Informatics, 34(2017) 133-144 Obenshain K. M., (2004) Application of Data Mining Techniques To Healthcare”, Data Infect Control Hosp Epidemiol, 25, 690–695. Orange (2021). https://orange.biolab.si/ Özdemir, A., Aslay, F. Y., & Handan, Ç. (2009). Veri Tabanında Bilgi Keşfi Süreci: Gümüşhane Devlet Hastanesi Uygulaması. Sosyal Ekonomik Araştırmalar Dergisi, 10(20), 347-366. Patil, P. H., Thube, S., Ratnaparkhi, B., & Rajeswari, K. (2014). Analysis of different data mining tools using classification, clustering and association rule mining. International Journal of Computer Applications, 93(8). Rapidminer (2021). https://rapidminer.com/ Santos, V., Datia, N., & Pato, M. P. M. (2014). Ensemble feature ranking applied to medical data. Procedia Technology, 17, 223-230. Seifert, J. W. (2004). Data mining: An overview. National security issues, 201-217. Seker, S. E. (2015). Zaman Serisi Analizi (Time Series Analysis). YBS Ansiklopedi, 2(4), 23-31. Sevim, S. (2019). Makine Öğrenmesi Yöntemiyle Hastalıkların Önceden Belirlenmesi Ve Diyabet Üzerine Bir Uygulama. (Yüksek Lisans Tezi). İstanbul Aydın Üniversitesi Lisansüstü Eğitim Enstitüsü Bilgisayar Mühendisliği Ana Bilim Dalı Sharp D.E. (2003). Customer Relationship Management Systems Handbook. CRC Press, (2003), 114-115. Shaw, M. J., Subramaniam, C., Tan, G. W., & Welge, M. E. (2001). Knowledge management and data mining for marketing. Decision support systems, 31(1), 127-137. Shea, S., Misra, D., Ehrlich, M. H., Field, L., & Francis, C. K. (1992). Predisposing factors for severe, uncontrolled hypertension in an inner-city minority population. New England journal of medicine, 327(11), 776-781.
  • 53. 44 Stewart, B. F., Siscovick, D., Lind, B. K., Gardin, J. M., Gottdiener, J. S., Smith, V. E., ... & Cardiovascular Health Study 1. (1997). Clinical factors associated with calcific aortic valve disease. Journal of the American College of Cardiology, 29(3), 630-634. Tacenur, E. (2006). An Applıcatıon Of Data Mınıng Study; A Way To Improve Busıness Strategıes Of The Company. (Yüksek Lisans Tezi). Marmara Üniversitesi Fen Bilimleri Enstitüsü Mühendislik Yönetimi Ana Bilim Dalı. Taft, M., Krishnan, R., Hornick, M., Muhkin, D., Tang, G., Thomas, S., ... & Venkayla, S. (2005). Oracle Data Mining Concepts, 10g Release 2 (10.2) B14339-01. Taşkın, A. G. D. Ç., & Emel, G. G. (2010). Veri Madenciliğinde Kümeleme Yaklaşimlari Ve Kohonen Ağlari İle Perakendecilik Sektöründe Bir Uygulama. Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 15(3), 395-409. Thearling K. (2005). More Than Algorithms: Data Mining in the Real World. http://www.thearling.com/umass/index_frame.htm (Access date: December 2005) Thearling K. (2006) An Introduction to Data Mining. http://www.thearling.com/text/dmwhite/dmwhite.htm (Access date: January 2006) Usha Rani, D. (2017). Survey on Data Mining Tools and Techniques in Medical Field. International Journal of Advanced Networking &Applications. waikato (2021). http://www.cs.waikato.ac.nz/ml/weka/ Wirth, R., & Hipp, J. (2000, April). CRISP-DM: Towards a standard process model for data mining. In Proceedings of the 4th international conference on the practical applications of knowledge discovery and data mining (Vol. 1, pp. 29-39).