Más contenido relacionado
Similar a ÖNCEL AKADEMİ: ÖZEL KONULAR (20)
Más de Ali Osman Öncel (20)
ÖNCEL AKADEMİ: ÖZEL KONULAR
- 1. Ama zon: h t t p ://aw s.ama zon.com/federal /
Cent r if uge: info @cent r if ugesyst ems.com
©2014 Alt a mir a Techno l o gies Co r po r at io n
Büyük Veriyi Biliyor Musunuz?
•Bilgiyi ayıklamayı bilgisayarlara öğreterek…
! Bir veya birden fazla «bilgi temsili» içinde bilgi konseptleri tanımlayarak ve bunun üzerinde hem fikir olarak (örn.
Belirli bir mantık, otomatik üretilen mantık, kullanıcı tanımlı etiketler…)
! Bilgi temsillerinin içerisindeki yapılandırılmış veriden anlamsal içeriği haritalandırmak için dönüşümler inşa ederek
! Yapılandırılmamış veriden anlamsal veriyi ayıklamak ve bilgi temsillerinin içerisindeki ayıklanmış veriyi
haritalandırmak için sınıflandırma inşa ederek
! Bir bilgi temsilinin içerisindeki bilgiyi haritalandırmak ve hatta daha anlamsal veri üretmek için ayıklanmış anlamsal
içeriğin üzerine tümevarım uygulamak, kaynaştırmak, ilişki kurmak için mantıksal analizler inşa ederek
•Ve geniş bir ölçekte bunu yaparak…
! Bir problemi parçalar bölerek ve paralel işleyerek (örn. MapReduce)
! Akıllı bilgi indeksleri yaparak, böylece daha hızlı araştırma yapılabilecektir…
! Yüksek performanslı bilgisayarlar kullanarak (HPCs) / diğer hızlı elektronik çözümler (örn. FPGAs, ASICs, Optics)
! Yukarıdakilerin karışımı olan sistemler… (örn. Netezza, YarcData, Next Generation Oracle)
Büyük Veriden Bilgiyi Nasıl Ayıklarız?
•Yapılandırılmış •Yarı-Yapılandırılmış •Akış Verisi
! G P S , uzaydaki yer
bilgisi, izler, bölgeler…
•Yapılandırılmamış
! H a m Metin,
Resim, Video, Ses
•Metaveri
! Veri ile ilgili
yapılandırılmış veri, bir
yerden bir yere
•Geçici Veri
! A n l ı k , zaman
içindeki trentleri ve
olayları içeren veri
•Mekansal Data
•Ve daha birçok…
Büyük Verideki Veri Tipleri Nelerdir?
•9 konuyu ele alarak:
1. Veri İhlalleri
2. Veri Kaybı
3. Hesap Ele Geçirme
4. Güvensiz Uygulamalar
5. Servis Reddi
6. Kötü Amaçlı İçerikler
7. İstismar ve Art Niyetli Kullanım
8. Yetersiz Önlem
9. Paylaşılan Teknolojiler Konusu
•Büyük veri güvenliğini sağlamak için
Büyük veriyi kullanarak
! T o p l a m a & veri aktivitelerini analiz
etme, ağ verisi, denetleme, kaynak,tür, köken
•Ve şunları kullanarak:
! R i s k Yönetimi: ICD 503
! E r i ş i m i kontrolleri, biometrik,
fiziksel güvenlik, cell-level security, akıllı
veri, şifreleme
! Anti-Malware, anti-virus
•Veri kullanım istatistiklerindeki parametreleri tahmin edebiliriz, canlandırabiliriz
! Örn. Gözlemsel çalışmalar yoluyla, veriyi açıklayabilir, ilişkileri araştırabilir, şablonları keşfedebilir, sonuçları öngörebiliriz
! Bazı şans unsurlarını tanıyarak, Önyargılar ve Kafa karışıklığı için doğrulamaya ve sorgulamaya ihtiyacımız vardır!
Seçim eğilimi, ölçme sapması, analiz yanılması, hata, kafa karıştırıcı değişkenleri dikkate almaya ihtiyacımız vardır
•Keşfedilen bilgiye karşı aksiyonlar başlatmak için kuralları uygulayabiliriz
Ayıkladığımız Bilgi ile Ne Yaparız?
Gizlilik.Uyumunden emin olmalı:
–Anayasa 4. Değişiklik
–Elektronik İletişim Gizlilik Kanunu
–Dış İstihbarat Gözetleme Yasası
–Gizlilik Yasası
–Kararname 12333
–ABD Yurtseverlik Yasası
Etik. Göz önünde Bulundurmalı:
1. Kişiliğe saygı ve bilgi rızası
2. İyilik
3. Adalet
4. Kanun ve Kamu Yararına Saygı
• George Mason Üniverisitesi
! GMU hem lisans seviyesinde eğtim hem de
2 günlük kurslar vermektedir
•www.oss4ds.com Büyük Veri
araçları ve Veri Bilimi ile ilgili
bilgiler
! Büyük Veri ve Veri Bilimi ile ilgili açık kaynak
yazılımlar ve destek olabilecek uzmanlara
ulaşabilirsiniz
•www.lumify.io Entegre açık kaynak
analitik platformları keşfedin
! Yapılandırılmış veya yapılandırılmamış veriden
link bağlantıları, bilgi çıkarımını öğren
•www.altamiracorp.com
Büyük Veri uygulamaları
ile ilgili daha fazlasını
öğrenebilirsiniz
•Bu araç öngörüyü nasıl yapar?
! c e v a p soldaki tablodaki algoritma listelerine
bakılmalı
•Araç hangi veri tiplerini analiz
eder?
! ö r . yapılandırılmış, yapılandırılmamış, hibrit
•Potansiyel önyargı ya da kafa
karıştırıcı değişkenleri doğrulama için
uygun mudur?
! ö r . her şeyi sayarak ya da şans
unsurlarını tanıtarak
! e ğ e r değilse, yaptığın bir araç tahminler için
şüpheci olmalı
Öngörü Araçları ile İlgili Sorular Neler?
•Hangi veri tiplerini depolayabiliriz?
! Yapılandırılmış, yapılandırılmamış, ilişkisel,
grafikler, varlıklar…
! B ü y ü k Dosyalar (ör. görüntüler)? Küçük
dosyalar (ör. metin)?
•Veri tabanı içine veri nasıl yerleştirilir?
! Gruplandırma? Yığın?
•Veritabanı maliyetleri ne kadar?
! L i s a n s maliyetleri? Operasyonel maliyetler?
Lisans kısıtları?
•Gerekli donanım nedir?
! E m t i a ? Hissedar?
•Veritabanları nasıl ölçülür?
! Gigabytes? Terabytes? Petabytes? Exabytes?
Yottabytes?
•Veritabanı hata toleransı nedir?
! G e r e k l i m i ?
•Veritabanı kullanarak analiz
gerçekleştirebilir miyiz?
! ö r . MapReduce?
•Sorgular ve analizler için gecikme
süresi nedir?
! ö r . milisaniyeler? günler?
•Belirli özellikler için optimize edilir
mi?
! Hızlı yazma? Hızlı okuma? Kullanım kolaylığı?
•Veritabanı güvenli midir?
! Erişim kontrolü sağlar mı? Akredite edilmiş
midir? Hangiseviyeiçin?
Bir çok tanım…
Ne Tür Görsel Teknikler Vardır?
Tür Fayda Artıları Eksileri
Tablolar Tablo verilerini görüntüleme Basit/Yaygın Kalıplar görünmez
Çizelgeler Sayısal verileri görüntüleme Şablon ve Eğilim Görülür Araştırma zordur
Grafikler Ağları keşfetme Güçlü analiz Karmaşık / Yoğun
Coğrafi görünümler Uzaydaki veriyi görüntüleme Sezgisel haritalar Grafikler yoğun
Geçicigörünümler Zamandaki veriyi görüntüleme Şablon/Trend Bulunur Tüm veri geçici değil
Zamansal-Mekansal Hem uzay hem zaman Güçlü analiz Yaygın değil, Yoğun
3D Görüntüler Karmaşık veri görüntüleme Daha fazla çevreleme Grafikler yoğun
• The Multiple V’s: Görselleştirme, Değer, Sağlayıcıların
yanı sıra Hacim, Hız, Çeşitlilik, Doğrulama açısında da bize
zorlukları beraberinden getiren Veri.
• McKinsey: Büyük veri setleri, yakalama, depolama,
yönetme ve analiz etme de klasik veri setleri yeteneklerinin
ötesindedir.
• Economist: Toplum her zaman olduğundan daha çok
bilgiye sahiptir ve biz daha küçük miktarda sahip
olduğumuzda yapamadıklarımızı basit bir şekilde büyük bir
bilgi yapısına sahip olduğumuzdan yapabiliriz.
Ne Tür İstatistiksel Algoritmalar Vardır?
Algoritma Fayda Artıları Eksileri
Lineer Nokta tahminler sağlama Yüksek hassasiyet, kolay Nitel değil, yüksek iyileştirme
sorumluluğu
Non-Lineer Karmaşık sistemler işleme Daha karmaşık sistemleri
destekler, karmaşık
kararlar
Sınırlı çıkarım, yüksek
denetim gerekli
Bulanık Mantık / Sinirsel Son derece karmaşık, nitel
sistemleri temsil etme
Karmaşık sonuç çıkarımı,
Dağınık veri
Daha düşük hassasiyet,
önyargı
Olasılıklı Dağınık, Olasılık odaklı Karmaşık bağımlılıklar,
bulanık kararlar
Daha düşük hassasiyet,
nokta tahmin yok, gerçek
önyargı görünür
Grafik Verinin temsili Büyük setleri temsil, kolay
etkileşim
Sınırlı çıkarım, sayısal
olarak ilgi çekici
• Wikipedia: Büyük Veri, çok büyük ve karmaşık veri
setlerini toplamak için bir terimdir, geleneksel veri işleme
yöntemleri ile ya da el yordamı veritabanı yönetim
araçlarını kullanarak onu işlemek çok zordur.
• Adam Jacobs, 1010data: Boyutu büyük olan veri bizi
denenmiş ve doğrulanmış mevcut yöntemlerin ötesine
bakmaya zorlar.
• Dan Law, Altamira: Geleneksel veri çözümlerinin
kapasitesini aşan potansiyel değer sahip herhangi bir
veri türüdür.
John Eberhardt, Altamira: Tek bir şekilde
yönetilemeyen her veriyi toplamadır.
Büyük Veri Nedir?
GERÇEKTEN BÜYÜK olabilir!:
–Şu anki Internet trafiği her yıl ~5 ZB (IBM)
–1 Zettabayt = 1 Milyar terabayt
–Visa işlemleri her gün 150 milyon işlem (VISA)
–Kongre kütüphanesinde toplam 3,2 PB veri bulunur
–Youtube’da günlük yüklenen veri 207 TB (2012)
–2020’ye kadar İnternete 50 milyar aygıt bağlantısı (IDC)
–2010’da Facebook’ta 50 milyar fotoğraf
–Her gün 400 milyon Tweet (Washington Post)
–2011’de Seagate 330 EB HDD sattı
–CERN’de LHC (Büyük Hadron Çarpıştırıcısı) her gün 500
EB parçacık çarpışma verisi üretir
–iPhone 5s: 76 Gigaflops=Saniyedeki Kayan Nokta İşlemi
–En hızlı süper bilgisayar: 50 Petaflops=Saniyede yaptığı 1
katrilyon işleme denk gelen bilgisayar terimi
Süreci takip et, şunlara dikkat et:
•Büyük veri araçları:
•Hadoop Ekosisteminin anahtar bileşenlerinin seçimi:
–HDFS (Depolama), MapReduce (Dağınık İşleme), Accumulo (Güvenli veri depolama, İndeksleme)
Kişiler ve ekipler özel yeteneklerin
karışımına sahiptir:
–Onlar "T-shaped” dir, yani birbirleriyle
bağlantılıdırlar (yandaki grafikte)
–Onlar tüm temel veri bilimi alanlarında ustadır
• Bilgisayar Programlama
• Matematiksel ve Analitik Yöntem
• Büyük Veri teknolojileri
• İletişim yetenekleri
–Onlar en az belirli bir alanda derinliğe
sahiptirler (grafikteki dikey özellikler)
Popular veri bilimi araçları:
–R, Python, Mahout, Pandas, Many Others…
Veri Bilimi Nedir?
–Takım yetenekleri
–Problem tanımlama
–Deneysel tasarım
–Başarı/Değerlendirme Kriteri
–Veri, İyileştirme & Kalite
–Çözüm tasarımı
• Altyapı
• Depolama
• Analiz
• Görselleştirme
• Güvenlik
• Gizlilik & Etik
• Bütçe & Planlama
Lineer bir süreç değildir
–Çevik bir yaklaşım dene…
AçıkKaynak
Örnekleri
Özel
ÖrneklerÇatıElement KullanımYeri
Öncelikli Büyük Veri Araçları Nelerdir?
Toplama,
Depolama
ve Çıkarım
Veri
İyileştirme ve
Kalite
GüvenceAnaliz
Değerlendirme
Görselleştirme
Problem
Tanımı ve
Deneysel
Tasarım
İletişim
Kov er se: info @kov er se.comAltamir a: Dan Law , dan.l aw @altamir acor p.com Clouder a: 866-843-7207
Datastax : info @dat asta x .com
IBM: 800-333-6705
MarkLogic: info @mar k logic.com
MongoDB: 866-237-8815
Splunk: 866-438-7758
Yar cdata: 925-264-4700
C h a r l i e G r e e n b a c k e r
Veri Bilimi
İstatistikselAnaliz
VeriMadenciliği
MakineÖğrenme
DoğalDilİşleme
SosyalAğAnalizi
VeriGörselleştirme
vb..
Alan Bilgisi & İletişim Yetenekleri
Dağınık İşleme & Büyük Veri
Matematiksel & Analitik Yöntem
Bilgisayar Programlama
Görselleştirme • Kullanıcı arayüzü
• Web-tabanlı araçlar
• D3js, 3js, Gephi, Ozone • Tableau, Centrifuge,
Visual AnalyCcs
Analiz • Makine öğrenici
• İstatistiksel araçlar
• R, Mahout, Titan, OpenCV,
Lumify, Hive, Pig, Spark
• SAS, SPSS, MapR,
PalanCr
Veri Depo • Data & Metadata
• Kaynak Veri
• İndeksler
• HDFS, Accumulo, MongoDB,
Cassandra, Titan, Neo4j,
MySQL
• Oracle, Marklogic,
YarcData, Teradata
İşleme • Dönüştürme/Norm
alleştirme
• Alma / Akışlar
• İşleme
• Storm, Hadoop/MapReduce • Splunk, SAS, Oracle,
IBM
Altyapı • Planlama,
izleme
• Uygulama
Sistemleri
• Bilgisayarla
r, Ağlar
• Linux, OpenShiW,
OpenStack, Puppet,
Zookeeper, Oozie, HDFS,
KaZa, JBoss, Xymon
• AWS, Azure,
Cloudera, Red Hat,
Rackspace, vendor
specific
Büyük Veri Ne Kadar Büyük?
Büyük Veri Çözümlerini Nasıl Uygularız?
Büyük Veri Güvenliğini Nasıl Sağlarız?
Büyük Veride Etik ve Gizlilik Hakkında?
Daha Fazlasını Öğrenmek İster Misin?
Veritabanları ile İlgili Hangi Soruları Sormalıyız?
! Tablolar, anlamsal
ilişkili veriler
! H i b r i d , örn.
Tablolu belgeler
! A k ı ş , yüksek
hızdaki ağ verileri, filmler