Ile informacji jest w danych?

allegro.tech + Data Science Warsaw
8 marca 2016
Ile informacji jest w danych ?
Paweł Klimczewski
pawel.klimczewski@softstat.pl

Ile informacji jest w danych ?
• Uczenie bez nadzoru – problemy klasyfikacji wynikające z
nieobiektywnego skalowania zmiennych
• Julia Language – imponujące środowisko dla Big Data, proste jak
Matlab i szybkie jak C. Za darmo!
• Rozwiązywanie problemów nierozwiązywalnych – metody
genetyczne w poszukiwaniu prawdy
• Wielkie niebezpieczeństwa, jak bardzo komputery nie potrafią
liczyć i jak poważne błędy generują
• Praktyczne możliwość i optymalizacji przekazu, e-mailing, display,
automatyczny dobór kontentu
Informacja (łac. informatio – przedstawienie, wizerunek; informare –
kształtować, przedstawiać)

Jakie informacje ? O czym ?
Na rynku mediów dane zawierają
informację o ludziach !
(najczęściej)

Ile informacji jest w danych ? 2
• Baza danych jako opis przestrzeni zdarzeń
• Miary podobieństwa w ujęciu geometrycznym
– Nie znamy rzeczywistych skal mierzonych zmiennych
– Nie znamy rzeczywistych funkcji pomiędzy zmiennymi
• Skala ilorazowa daje możliwość budowania przestrzeni
• Zmienne nominalne/porządkowe -> zmienne 0/1
• Alfa Cronbacha

Arytmetyka vs algebra liniowa
C=(D'*D)/n.-(E(D,1)'*E(D,1))

Algebra liniowa
Algebra liniowa – dział algebry zajmujący się
badaniem przestrzeni liniowych oraz ich
homomorfizmów, tj. przekształceń liniowych.
Algebra liniowa skupia się głównie na badaniu
przestrzeni skończenie wymiarowych nad ciałami
lub ogólniej, pierścieniami. Do algebry liniowej
można zaliczyć także teorię form kwadratowych,
macierzy, przekształceń półtora- i wieloliniowych.
Dziedzina ta wyrosła w sposób naturalny na
gruncie badania układów równań liniowych.
pl.wikipedia.org

Uczenie bez nadzoru
• Uczenie maszynowe, które zakłada brak obecności ludzkiego
nadzoru nad tworzeniem funkcji odwzorowującej wejście systemu
na jego wyjście. pl.wikipedia.org
• Miary podobieństwa, przestrzenie euklidesowe i inne
• Anomalie w przestrzeni zdarzeń jako atrakcyjne cele
• Problemy klasyfikacji wynikające z nieobiektywnego skalowania
zmiennych
1. Liniowe skalowanie zależności nieliniowych, np. „dochody”
2. Braki danych jako 0
3. Błędy maszynowe

Metody genetyczne. Czy raczej brak
metody ?
• Założenie 1: Znamy kryterium
• Robiąc bardzo dużo różnych losowych kombinacji
odrzucamy najgorsze rozwiązania
• Selekcja jako metoda na wzór hipotezy doboru
naturalnego zakładającego ślepą zmianę puli
genów(cech)
• Nigdy nie wiemy czy poruszamy się w pobliżu
maksimum lokalnego czy prawdziwego

Wielkie niebezpieczeństwa:
przykład błędów numerycznych
• x^4 - 4*x^3 + 6*x^2 - 4*x + 1
https://sage.icse.us.edu.pl/home/pub/205/

Silnik rekomendacji - idea
• Na podstawie wcześniejszych zachowań
użytkowników znaleźć model predykcyjny dla
dowolnej kampanii
• Silnik reaguje (uczy się ) reakcji pierwszych
odbiorców nowej kampanii przypisując
pozostałym prawdopodobieństwa sukcesu
• Od tego momentu (po nauczeniu) kampanie
kierujemy do adresatów w kolejności jaką
nakazuje ranking prowdopodobieństw

Schemat
Historia
zachowań
Silnik
Kampania
testowa/pilotażowa
Np. 1 % celowej
REAKCJA
Tablica prawdopodobieństw
(RANKING UŻYTKOWNIKÓW)
System może pracować
w pętli sprzężenia
zwrotnego .
Nadchodzące wyniki
mogą stale, dynamicznie
doskonalić model.

Praktyczne możliwość optymalizacji
Wyniki kolejnych
iteracji/modeli
Wysłane
Otwarte,
Kliknięte,
Itp.

Proces uczenia na losowej próbce
Kampania tradycyjna
Kampania optymalizowana
Kliknięcia
Wysłanych
!
? ? ?
Wynik uczenia nie
przesądza o ostatecznym
sukcesie ale go bardzo
przybliża.

Wysłanych
CTR
Kampania tradycyjna
Kampania optymalizowana
Arbitralna decyzja odcięcia

O firmie
Doświadczenie i precyzja to podstawa sukcesu
• SOFT STAT to całe moje wszechstronne doświadczenie. Od ponad 20 lat z
powodzeniem zajmuję się profesjonalnie największymi w Polsce i na
świecie badaniami rynku, w tym szczególnie badaniami mediów.
Przygotowuję również oprogramowanie statystyczne i raportujące oraz
aplikacje optymalizujące złożone zadania na dużych zbiorach danych.
Paweł Klimczewski
+ 48 503 505 257
19

Ile informacji jest w danych?

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (17)

Similar a Ile informacji jest w danych?

Similar a Ile informacji jest w danych? (8)

Más de Data Science Warsaw

Más de Data Science Warsaw (10)

Ile informacji jest w danych?