1. allegro.tech + Data Science Warsaw
8 marca 2016
Ile informacji jest w danych ?
Paweł Klimczewski
pawel.klimczewski@softstat.pl
2. Ile informacji jest w danych ?
• Uczenie bez nadzoru – problemy klasyfikacji wynikające z
nieobiektywnego skalowania zmiennych
• Julia Language – imponujące środowisko dla Big Data, proste jak
Matlab i szybkie jak C. Za darmo!
• Rozwiązywanie problemów nierozwiązywalnych – metody
genetyczne w poszukiwaniu prawdy
• Wielkie niebezpieczeństwa, jak bardzo komputery nie potrafią
liczyć i jak poważne błędy generują
• Praktyczne możliwość i optymalizacji przekazu, e-mailing, display,
automatyczny dobór kontentu
Informacja (łac. informatio – przedstawienie, wizerunek; informare –
kształtować, przedstawiać)
3. Jakie informacje ? O czym ?
Na rynku mediów dane zawierają
informację o ludziach !
(najczęściej)
4. Ile informacji jest w danych ? 2
• Baza danych jako opis przestrzeni zdarzeń
• Miary podobieństwa w ujęciu geometrycznym
– Nie znamy rzeczywistych skal mierzonych zmiennych
– Nie znamy rzeczywistych funkcji pomiędzy zmiennymi
• Skala ilorazowa daje możliwość budowania przestrzeni
• Zmienne nominalne/porządkowe -> zmienne 0/1
• Alfa Cronbacha
6. Algebra liniowa
Algebra liniowa – dział algebry zajmujący się
badaniem przestrzeni liniowych oraz ich
homomorfizmów, tj. przekształceń liniowych.
Algebra liniowa skupia się głównie na badaniu
przestrzeni skończenie wymiarowych nad ciałami
lub ogólniej, pierścieniami. Do algebry liniowej
można zaliczyć także teorię form kwadratowych,
macierzy, przekształceń półtora- i wieloliniowych.
Dziedzina ta wyrosła w sposób naturalny na
gruncie badania układów równań liniowych.
pl.wikipedia.org
7. Uczenie bez nadzoru
• Uczenie maszynowe, które zakłada brak obecności ludzkiego
nadzoru nad tworzeniem funkcji odwzorowującej wejście systemu
na jego wyjście. pl.wikipedia.org
• Miary podobieństwa, przestrzenie euklidesowe i inne
• Anomalie w przestrzeni zdarzeń jako atrakcyjne cele
• Problemy klasyfikacji wynikające z nieobiektywnego skalowania
zmiennych
1. Liniowe skalowanie zależności nieliniowych, np. „dochody”
2. Braki danych jako 0
3. Błędy maszynowe
8. Metody genetyczne. Czy raczej brak
metody ?
• Założenie 1: Znamy kryterium
• Robiąc bardzo dużo różnych losowych kombinacji
odrzucamy najgorsze rozwiązania
• Selekcja jako metoda na wzór hipotezy doboru
naturalnego zakładającego ślepą zmianę puli
genów(cech)
• Nigdy nie wiemy czy poruszamy się w pobliżu
maksimum lokalnego czy prawdziwego
14. Silnik rekomendacji - idea
• Na podstawie wcześniejszych zachowań
użytkowników znaleźć model predykcyjny dla
dowolnej kampanii
• Silnik reaguje (uczy się ) reakcji pierwszych
odbiorców nowej kampanii przypisując
pozostałym prawdopodobieństwa sukcesu
• Od tego momentu (po nauczeniu) kampanie
kierujemy do adresatów w kolejności jaką
nakazuje ranking prowdopodobieństw
17. Proces uczenia na losowej próbce
Kampania tradycyjna
Kampania optymalizowana
Kliknięcia
Wysłanych
!
? ? ?
Wynik uczenia nie
przesądza o ostatecznym
sukcesie ale go bardzo
przybliża.
19. O firmie
Doświadczenie i precyzja to podstawa sukcesu
• SOFT STAT to całe moje wszechstronne doświadczenie. Od ponad 20 lat z
powodzeniem zajmuję się profesjonalnie największymi w Polsce i na
świecie badaniami rynku, w tym szczególnie badaniami mediów.
Przygotowuję również oprogramowanie statystyczne i raportujące oraz
aplikacje optymalizujące złożone zadania na dużych zbiorach danych.
Paweł Klimczewski
+ 48 503 505 257
19