Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.
Strojové učení  z rychlíku  Devel.cz 2013 Michal Illich
Dnešní menu●   Co to je a k čemu vůbec?●   Obecný princip strojového učení●   Neuronové sítě●   Rozhodovací stromy a lesy
Klasické problémy●   Rozpoznávání obrazu    OCR      vizuální klasifikace     self driving cars●   Rozpoznávání řeči    vo...
Kde se používá na webu - I
Kde se používá na webu - II
Kde se používá na webu - III
Je jen pro velké?●   Ano i ne.●   víceméně všechny velké firmy jej používají●   potřebuje dost dat●   pomůže skoro na všec...
Kdy použít strojové učení?1. Máte víc dat, než zvládne zanalyzovat člověk.  to je u navštěvovaných webů skoro vždy...2. Js...
K čemu? → Jak?
Dvě základní použití          supervidovaného strojového učení●   Předpovídá (číslo)    CTR reklamy     Hodnocení filmu   ...
Kde je to „učení“    Data rozdělíte na (minimálně) 2 hromádky:●   Trénovací    Na nich se strojové učení „učí“.    To jest...
Od obecného k algoritmům...
Umělé neuronové sítě
Neuron
Deep learning●   Klasické neuronové sítě ze 70. let    trénují jen přes „backpropagation“    neumí dobře natrénovat >2 hid...
NN jsou univerzální●   Nejenom na rozpoznávání obrazu●   Na vstupu libovolné pole čísel    všechna data jde převést na čís...
Kde začít – dobré knihovny:●   FANN (C)    http://leenissen.dk/fann/wp/●   cuda-convnet (C++, GPU)    http://code.google.c...
Rozhodovací stromy (a lesy)●   jiná technika strojového učení●   není tak cool jako neuronové sítě●   ale má i výhody:    ...
Příklad
Trénovací data (zjednodušená)
Od stromu k lesům●   takových stromů si uděláme třeba 100●   jejich výsledky zprůměrujeme●   boosting: větší váhu přikládá...
I rozhodovací lesy jsou univerzální●   na vstupu libovolná data    není potřeba normalizovat či převádět texty na čísla●  ...
Kde začít – dobré knihovny:●   gbm (R)    http://cran.r-project.org/web/packages/gbm/●   Weka (Java)    http://www.cs.waik...
Na co nezbyl čas●   SVM (support vector machines)    rychlé, přesné    ideálně na klasifikaci, z číselných vstupů●   CRF /...
Díky!      michal@illich.cz        @michalillichPS: Přijímáme: C, Python, PHP
www.doporucim.cz/mobile/DEVELMICHAL
Zdroje ilustračních obrázků:http://www.cs.toronto.edu/~kriz/cifar.htmlhttp://code.google.com/p/cuda-convnet/http://cl.nais...
Strojové učení z rychlíku
Strojové učení z rychlíku
Strojové učení z rychlíku
Strojové učení z rychlíku
Strojové učení z rychlíku
Próxima SlideShare
Cargando en…5
×

Strojové učení z rychlíku

3.697 visualizaciones

Publicado el

Stručný úvod do strojového učení. Zejména pro vývojáře, kteří se s machine learningem ještě nesetkali.

Publicado en: Tecnología
  • Sé el primero en comentar

Strojové učení z rychlíku

  1. 1. Strojové učení z rychlíku Devel.cz 2013 Michal Illich
  2. 2. Dnešní menu● Co to je a k čemu vůbec?● Obecný princip strojového učení● Neuronové sítě● Rozhodovací stromy a lesy
  3. 3. Klasické problémy● Rozpoznávání obrazu OCR vizuální klasifikace self driving cars● Rozpoznávání řeči voice dial voice search siri● Inteligentní agenti roboti autonomní systémyO tomhle tahle přednáška nebude...
  4. 4. Kde se používá na webu - I
  5. 5. Kde se používá na webu - II
  6. 6. Kde se používá na webu - III
  7. 7. Je jen pro velké?● Ano i ne.● víceméně všechny velké firmy jej používají● potřebuje dost dat● pomůže skoro na všech projektech● není to tak složité, jak to vypadá
  8. 8. Kdy použít strojové učení?1. Máte víc dat, než zvládne zanalyzovat člověk. to je u navštěvovaných webů skoro vždy...2. Jste schopni definovat a změřit cíl. víc objednávek víc prokliků méně odchodů víc konverzí víc dat přesnější predikce žádané věci na skladě ...3. Jste v konkurenčním prostředí. strojové učení není zázrak, „jen“ vám dá náskok
  9. 9. K čemu? → Jak?
  10. 10. Dvě základní použití supervidovaného strojového učení● Předpovídá (číslo) CTR reklamy Hodnocení filmu Relevanci …● Třídí (kategorie) Spam/ham Rubrika Téma Pohlaví Věk ...
  11. 11. Kde je to „učení“ Data rozdělíte na (minimálně) 2 hromádky:● Trénovací Na nich se strojové učení „učí“. To jest hledá vztahy a vytvoří si z nich „model“.● Testovací Na nich ověřujeme, jak dobře model funguje. Tedy zda jsou ty „znalosti“ přenositelné na nová data.
  12. 12. Od obecného k algoritmům...
  13. 13. Umělé neuronové sítě
  14. 14. Neuron
  15. 15. Deep learning● Klasické neuronové sítě ze 70. let trénují jen přes „backpropagation“ neumí dobře natrénovat >2 hidden vrstvy● Convolutional networks ručně navržená topologie sítí, výborná na rozpoznávání obrazu● 2006+ Hinton a další – deep learning umí po vrstvách trénovat velmi hluboké sítě dokáží využít i neoznačkovaná vstupní data (pre-training) RBM, stacked autoencoders a další algoritmy
  16. 16. NN jsou univerzální● Nejenom na rozpoznávání obrazu● Na vstupu libovolné pole čísel všechna data jde převést na čísla...● Na výstupu opět pole čísel může být jeden výstup: predikce nebo mnoho výstupů označující kategorie
  17. 17. Kde začít – dobré knihovny:● FANN (C) http://leenissen.dk/fann/wp/● cuda-convnet (C++, GPU) http://code.google.com/p/cuda-convnet/● Theano (Python, GPU) http://deeplearning.net/software/theano/
  18. 18. Rozhodovací stromy (a lesy)● jiná technika strojového učení● není tak cool jako neuronové sítě● ale má i výhody: – rychleji se učí – není potřeba upravovat vstupní data – model je pochopitelný pro člověka
  19. 19. Příklad
  20. 20. Trénovací data (zjednodušená)
  21. 21. Od stromu k lesům● takových stromů si uděláme třeba 100● jejich výsledky zprůměrujeme● boosting: větší váhu přikládáme datům, u kterých se předchozí stromy spletly
  22. 22. I rozhodovací lesy jsou univerzální● na vstupu libovolná data není potřeba normalizovat či převádět texty na čísla● rychlé a s dobrou přesností● použitelné na mnoho problémů i na fulltext
  23. 23. Kde začít – dobré knihovny:● gbm (R) http://cran.r-project.org/web/packages/gbm/● Weka (Java) http://www.cs.waikato.ac.nz/ml/weka/● Scikit-learn (Python) http://scikit-learn.org/
  24. 24. Na co nezbyl čas● SVM (support vector machines) rychlé, přesné ideálně na klasifikaci, z číselných vstupů● CRF / HMM značkování textů, named entity recognition● Naive Bayes, lineární regrese základní statistické techniky jednoduché, ale dost dobré na spoustu úloh
  25. 25. Díky! michal@illich.cz @michalillichPS: Přijímáme: C, Python, PHP
  26. 26. www.doporucim.cz/mobile/DEVELMICHAL
  27. 27. Zdroje ilustračních obrázků:http://www.cs.toronto.edu/~kriz/cifar.htmlhttp://code.google.com/p/cuda-convnet/http://cl.naist.jp/~kevinduh/notes/duh12deeplearn.pdfhttp://www.positscience.com/media-gallery/detail/161/94+ pozadí koupené ve fotobance

×