SlideShare una empresa de Scribd logo
1 de 19
Descargar para leer sin conexión
allegro.tech + Data Science Warsaw
8 marca 2016
Ile informacji jest w danych ?
Paweł Klimczewski
pawel.klimczewski@softstat.pl
Ile informacji jest w danych ?
• Uczenie bez nadzoru – problemy klasyfikacji wynikające z
nieobiektywnego skalowania zmiennych
• Julia Language – imponujące środowisko dla Big Data, proste jak
Matlab i szybkie jak C. Za darmo!
• Rozwiązywanie problemów nierozwiązywalnych – metody
genetyczne w poszukiwaniu prawdy
• Wielkie niebezpieczeństwa, jak bardzo komputery nie potrafią
liczyć i jak poważne błędy generują
• Praktyczne możliwość i optymalizacji przekazu, e-mailing, display,
automatyczny dobór kontentu
Informacja (łac. informatio – przedstawienie, wizerunek; informare –
kształtować, przedstawiać)
Jakie informacje ? O czym ?
Na rynku mediów dane zawierają
informację o ludziach !
(najczęściej)
Ile informacji jest w danych ? 2
• Baza danych jako opis przestrzeni zdarzeń
• Miary podobieństwa w ujęciu geometrycznym
– Nie znamy rzeczywistych skal mierzonych zmiennych
– Nie znamy rzeczywistych funkcji pomiędzy zmiennymi
• Skala ilorazowa daje możliwość budowania przestrzeni
• Zmienne nominalne/porządkowe -> zmienne 0/1
• Alfa Cronbacha
Arytmetyka vs algebra liniowa
C=(D'*D)/n.-(E(D,1)'*E(D,1))
Algebra liniowa
Algebra liniowa – dział algebry zajmujący się
badaniem przestrzeni liniowych oraz ich
homomorfizmów, tj. przekształceń liniowych.
Algebra liniowa skupia się głównie na badaniu
przestrzeni skończenie wymiarowych nad ciałami
lub ogólniej, pierścieniami. Do algebry liniowej
można zaliczyć także teorię form kwadratowych,
macierzy, przekształceń półtora- i wieloliniowych.
Dziedzina ta wyrosła w sposób naturalny na
gruncie badania układów równań liniowych.
pl.wikipedia.org
Uczenie bez nadzoru
• Uczenie maszynowe, które zakłada brak obecności ludzkiego
nadzoru nad tworzeniem funkcji odwzorowującej wejście systemu
na jego wyjście. pl.wikipedia.org
• Miary podobieństwa, przestrzenie euklidesowe i inne
• Anomalie w przestrzeni zdarzeń jako atrakcyjne cele
• Problemy klasyfikacji wynikające z nieobiektywnego skalowania
zmiennych
1. Liniowe skalowanie zależności nieliniowych, np. „dochody”
2. Braki danych jako 0
3. Błędy maszynowe
Metody genetyczne. Czy raczej brak
metody ?
• Założenie 1: Znamy kryterium
• Robiąc bardzo dużo różnych losowych kombinacji
odrzucamy najgorsze rozwiązania
• Selekcja jako metoda na wzór hipotezy doboru
naturalnego zakładającego ślepą zmianę puli
genów(cech)
• Nigdy nie wiemy czy poruszamy się w pobliżu
maksimum lokalnego czy prawdziwego
Julia Language
Julia Language 2
Julia Language 3
Julia Language 4
Wielkie niebezpieczeństwa:
przykład błędów numerycznych
• x^4 - 4*x^3 + 6*x^2 - 4*x + 1
https://sage.icse.us.edu.pl/home/pub/205/
Silnik rekomendacji - idea
• Na podstawie wcześniejszych zachowań
użytkowników znaleźć model predykcyjny dla
dowolnej kampanii
• Silnik reaguje (uczy się ) reakcji pierwszych
odbiorców nowej kampanii przypisując
pozostałym prawdopodobieństwa sukcesu
• Od tego momentu (po nauczeniu) kampanie
kierujemy do adresatów w kolejności jaką
nakazuje ranking prowdopodobieństw
Schemat
Historia
zachowań
Silnik
Kampania
testowa/pilotażowa
Np. 1 % celowej
REAKCJA
Tablica prawdopodobieństw
(RANKING UŻYTKOWNIKÓW)
System może pracować
w pętli sprzężenia
zwrotnego .
Nadchodzące wyniki
mogą stale, dynamicznie
doskonalić model.
Praktyczne możliwość optymalizacji
Wyniki kolejnych
iteracji/modeli
Wysłane
Otwarte,
Kliknięte,
Itp.
Proces uczenia na losowej próbce
Kampania tradycyjna
Kampania optymalizowana
Kliknięcia
Wysłanych
!
? ? ?
Wynik uczenia nie
przesądza o ostatecznym
sukcesie ale go bardzo
przybliża.
Wysłanych
CTR
Kampania tradycyjna
Kampania optymalizowana
Arbitralna decyzja odcięcia
O firmie
Doświadczenie i precyzja to podstawa sukcesu
• SOFT STAT to całe moje wszechstronne doświadczenie. Od ponad 20 lat z
powodzeniem zajmuję się profesjonalnie największymi w Polsce i na
świecie badaniami rynku, w tym szczególnie badaniami mediów.
Przygotowuję również oprogramowanie statystyczne i raportujące oraz
aplikacje optymalizujące złożone zadania na dużych zbiorach danych.
Paweł Klimczewski
+ 48 503 505 257
19

Más contenido relacionado

Destacado

Destacado (17)

Gost r 53506 2009
Gost r 53506 2009Gost r 53506 2009
Gost r 53506 2009
 
Area reduction in superficial venous insuffiency treatment
Area reduction in superficial venous insuffiency treatmentArea reduction in superficial venous insuffiency treatment
Area reduction in superficial venous insuffiency treatment
 
Que datos realmente le interesan y son esenciales para el cirujano vascular.
Que datos realmente le interesan y son esenciales para el cirujano vascular.Que datos realmente le interesan y son esenciales para el cirujano vascular.
Que datos realmente le interesan y son esenciales para el cirujano vascular.
 
Geolokalizacja i analizy przestrzenne: trzy wymiary a ile pracy dla analityka!
Geolokalizacja i analizy przestrzenne: trzy wymiary a ile pracy dla analityka!Geolokalizacja i analizy przestrzenne: trzy wymiary a ile pracy dla analityka!
Geolokalizacja i analizy przestrzenne: trzy wymiary a ile pracy dla analityka!
 
Data science w ubezpieczeniach
Data science w ubezpieczeniachData science w ubezpieczeniach
Data science w ubezpieczeniach
 
معرفی گروه شرکت‌های عصر ارتباطات مشرق زمین
معرفی گروه شرکت‌های عصر ارتباطات مشرق زمینمعرفی گروه شرکت‌های عصر ارتباطات مشرق زمین
معرفی گروه شرکت‌های عصر ارتباطات مشرق زمین
 
Rozwiązywanie problemów optymalizacyjnych
Rozwiązywanie problemów optymalizacyjnychRozwiązywanie problemów optymalizacyjnych
Rozwiązywanie problemów optymalizacyjnych
 
Asre ertebatate mashregh zamin
Asre ertebatate mashregh zaminAsre ertebatate mashregh zamin
Asre ertebatate mashregh zamin
 
QIIP
QIIPQIIP
QIIP
 
ARTRITIS – ENCEFALITIS CAPRINA
ARTRITIS – ENCEFALITIS CAPRINAARTRITIS – ENCEFALITIS CAPRINA
ARTRITIS – ENCEFALITIS CAPRINA
 
Inspection Activity
Inspection ActivityInspection Activity
Inspection Activity
 
Wizualne budowanie aplikacji na Sparku przy pomocy narzędzia Seahorse
Wizualne budowanie aplikacji na Sparku przy pomocy narzędzia SeahorseWizualne budowanie aplikacji na Sparku przy pomocy narzędzia Seahorse
Wizualne budowanie aplikacji na Sparku przy pomocy narzędzia Seahorse
 
Neptune - narzędzie do monitorowania i zarządzania eksperymentami Machine Lea...
Neptune - narzędzie do monitorowania i zarządzania eksperymentami Machine Lea...Neptune - narzędzie do monitorowania i zarządzania eksperymentami Machine Lea...
Neptune - narzędzie do monitorowania i zarządzania eksperymentami Machine Lea...
 
To się w ram ie nie zmieści
To się w ram ie nie zmieściTo się w ram ie nie zmieści
To się w ram ie nie zmieści
 
CRISP-DM Agile Approach to Data Mining Projects
CRISP-DM Agile Approach to Data Mining ProjectsCRISP-DM Agile Approach to Data Mining Projects
CRISP-DM Agile Approach to Data Mining Projects
 
ENFERMEDADES VESICULARES
ENFERMEDADES VESICULARESENFERMEDADES VESICULARES
ENFERMEDADES VESICULARES
 
Otwarte Miasta
Otwarte MiastaOtwarte Miasta
Otwarte Miasta
 

Similar a Ile informacji jest w danych? (8)

Data science - o co chodzi?
Data science - o co chodzi?Data science - o co chodzi?
Data science - o co chodzi?
 
To co powinniście wiedzieć o Machine Learning
To co powinniście wiedzieć o Machine LearningTo co powinniście wiedzieć o Machine Learning
To co powinniście wiedzieć o Machine Learning
 
Kryminalistyczne apskety wykorzystania technologii data mining w walce z cybe...
Kryminalistyczne apskety wykorzystania technologii data mining w walce z cybe...Kryminalistyczne apskety wykorzystania technologii data mining w walce z cybe...
Kryminalistyczne apskety wykorzystania technologii data mining w walce z cybe...
 
Machine learning and Big Data (lecture in Polish)
Machine learning and Big Data (lecture in Polish)Machine learning and Big Data (lecture in Polish)
Machine learning and Big Data (lecture in Polish)
 
Blok II_Podgrupa II_prezentacja_syntetyczna
Blok II_Podgrupa II_prezentacja_syntetycznaBlok II_Podgrupa II_prezentacja_syntetyczna
Blok II_Podgrupa II_prezentacja_syntetyczna
 
Social media marketing w bibliotece (cyfrowej)
Social media marketing w bibliotece (cyfrowej)Social media marketing w bibliotece (cyfrowej)
Social media marketing w bibliotece (cyfrowej)
 
Sektor3.0 Bariery: Jak sobie radzić z brakiem kompetencji?
Sektor3.0 Bariery: Jak sobie radzić z brakiem kompetencji?Sektor3.0 Bariery: Jak sobie radzić z brakiem kompetencji?
Sektor3.0 Bariery: Jak sobie radzić z brakiem kompetencji?
 
Blok II_PodgrupaII_prezentacja_syntetyczna
Blok II_PodgrupaII_prezentacja_syntetycznaBlok II_PodgrupaII_prezentacja_syntetyczna
Blok II_PodgrupaII_prezentacja_syntetyczna
 

Más de Data Science Warsaw

Más de Data Science Warsaw (10)

Online content popularity prediction
Online content popularity predictionOnline content popularity prediction
Online content popularity prediction
 
Analiza języka naturalnego
Analiza języka naturalnegoAnaliza języka naturalnego
Analiza języka naturalnego
 
How to build your own google
How to build your own googleHow to build your own google
How to build your own google
 
Data Science Warsaw
Data Science WarsawData Science Warsaw
Data Science Warsaw
 
Big Data, Wearable, sztuczna inteligencja i ekonomia współpracy
Big  Data, Wearable, sztuczna inteligencja i ekonomia współpracyBig  Data, Wearable, sztuczna inteligencja i ekonomia współpracy
Big Data, Wearable, sztuczna inteligencja i ekonomia współpracy
 
Ask Data Anything
Ask Data AnythingAsk Data Anything
Ask Data Anything
 
Oracle Big Data Discovery - ludzka twarz Hadoop'a
Oracle Big Data Discovery - ludzka twarz Hadoop'aOracle Big Data Discovery - ludzka twarz Hadoop'a
Oracle Big Data Discovery - ludzka twarz Hadoop'a
 
Data Exchange - the missing link in the big data value chain
Data Exchange - the missing link in the big data value chainData Exchange - the missing link in the big data value chain
Data Exchange - the missing link in the big data value chain
 
Małe dane, duży wpływ - Dominik Batorski ICM
Małe dane, duży wpływ - Dominik Batorski ICMMałe dane, duży wpływ - Dominik Batorski ICM
Małe dane, duży wpływ - Dominik Batorski ICM
 
Data science warsaw inaugural meetup
Data science warsaw   inaugural meetupData science warsaw   inaugural meetup
Data science warsaw inaugural meetup
 

Ile informacji jest w danych?

  • 1. allegro.tech + Data Science Warsaw 8 marca 2016 Ile informacji jest w danych ? Paweł Klimczewski pawel.klimczewski@softstat.pl
  • 2. Ile informacji jest w danych ? • Uczenie bez nadzoru – problemy klasyfikacji wynikające z nieobiektywnego skalowania zmiennych • Julia Language – imponujące środowisko dla Big Data, proste jak Matlab i szybkie jak C. Za darmo! • Rozwiązywanie problemów nierozwiązywalnych – metody genetyczne w poszukiwaniu prawdy • Wielkie niebezpieczeństwa, jak bardzo komputery nie potrafią liczyć i jak poważne błędy generują • Praktyczne możliwość i optymalizacji przekazu, e-mailing, display, automatyczny dobór kontentu Informacja (łac. informatio – przedstawienie, wizerunek; informare – kształtować, przedstawiać)
  • 3. Jakie informacje ? O czym ? Na rynku mediów dane zawierają informację o ludziach ! (najczęściej)
  • 4. Ile informacji jest w danych ? 2 • Baza danych jako opis przestrzeni zdarzeń • Miary podobieństwa w ujęciu geometrycznym – Nie znamy rzeczywistych skal mierzonych zmiennych – Nie znamy rzeczywistych funkcji pomiędzy zmiennymi • Skala ilorazowa daje możliwość budowania przestrzeni • Zmienne nominalne/porządkowe -> zmienne 0/1 • Alfa Cronbacha
  • 5. Arytmetyka vs algebra liniowa C=(D'*D)/n.-(E(D,1)'*E(D,1))
  • 6. Algebra liniowa Algebra liniowa – dział algebry zajmujący się badaniem przestrzeni liniowych oraz ich homomorfizmów, tj. przekształceń liniowych. Algebra liniowa skupia się głównie na badaniu przestrzeni skończenie wymiarowych nad ciałami lub ogólniej, pierścieniami. Do algebry liniowej można zaliczyć także teorię form kwadratowych, macierzy, przekształceń półtora- i wieloliniowych. Dziedzina ta wyrosła w sposób naturalny na gruncie badania układów równań liniowych. pl.wikipedia.org
  • 7. Uczenie bez nadzoru • Uczenie maszynowe, które zakłada brak obecności ludzkiego nadzoru nad tworzeniem funkcji odwzorowującej wejście systemu na jego wyjście. pl.wikipedia.org • Miary podobieństwa, przestrzenie euklidesowe i inne • Anomalie w przestrzeni zdarzeń jako atrakcyjne cele • Problemy klasyfikacji wynikające z nieobiektywnego skalowania zmiennych 1. Liniowe skalowanie zależności nieliniowych, np. „dochody” 2. Braki danych jako 0 3. Błędy maszynowe
  • 8. Metody genetyczne. Czy raczej brak metody ? • Założenie 1: Znamy kryterium • Robiąc bardzo dużo różnych losowych kombinacji odrzucamy najgorsze rozwiązania • Selekcja jako metoda na wzór hipotezy doboru naturalnego zakładającego ślepą zmianę puli genów(cech) • Nigdy nie wiemy czy poruszamy się w pobliżu maksimum lokalnego czy prawdziwego
  • 13. Wielkie niebezpieczeństwa: przykład błędów numerycznych • x^4 - 4*x^3 + 6*x^2 - 4*x + 1 https://sage.icse.us.edu.pl/home/pub/205/
  • 14. Silnik rekomendacji - idea • Na podstawie wcześniejszych zachowań użytkowników znaleźć model predykcyjny dla dowolnej kampanii • Silnik reaguje (uczy się ) reakcji pierwszych odbiorców nowej kampanii przypisując pozostałym prawdopodobieństwa sukcesu • Od tego momentu (po nauczeniu) kampanie kierujemy do adresatów w kolejności jaką nakazuje ranking prowdopodobieństw
  • 15. Schemat Historia zachowań Silnik Kampania testowa/pilotażowa Np. 1 % celowej REAKCJA Tablica prawdopodobieństw (RANKING UŻYTKOWNIKÓW) System może pracować w pętli sprzężenia zwrotnego . Nadchodzące wyniki mogą stale, dynamicznie doskonalić model.
  • 16. Praktyczne możliwość optymalizacji Wyniki kolejnych iteracji/modeli Wysłane Otwarte, Kliknięte, Itp.
  • 17. Proces uczenia na losowej próbce Kampania tradycyjna Kampania optymalizowana Kliknięcia Wysłanych ! ? ? ? Wynik uczenia nie przesądza o ostatecznym sukcesie ale go bardzo przybliża.
  • 19. O firmie Doświadczenie i precyzja to podstawa sukcesu • SOFT STAT to całe moje wszechstronne doświadczenie. Od ponad 20 lat z powodzeniem zajmuję się profesjonalnie największymi w Polsce i na świecie badaniami rynku, w tym szczególnie badaniami mediów. Przygotowuję również oprogramowanie statystyczne i raportujące oraz aplikacje optymalizujące złożone zadania na dużych zbiorach danych. Paweł Klimczewski + 48 503 505 257 19