2. Obsah Přednášky
• Úvod
o Vysvětlení pojmu
o Motivační příklad
• Přehled typických úloh
• Jak začít
o Prerekvizity
o Implementace
o Knihy + odkazy
Zaměřeno na zodpovězení otázky “Proč?”, opomíjí “Jak?”
3. Strojové Učení
Metodologie pro získávání informací z dat.
Mezní obor mezi umělou inteligencí a statistikou.
Oblasti strojového učení:
• Klasifikace
• Seskupování
• Vyhledávání
• Doporučování
• Hledání vzorů chování
• a další (počítačové vidění, robotika)
5. Roboti (2/3)
Tvar Hlavy Úsměv Ozdoba krku Tvar těla Předmět v ruce Přátelský?
Kruh ne kravata čtverec šavle ne
Čtverec ano motýlek čtverec nic ano
Kruh ne motýlek kruh šavle ano
Trojúhelník ne kravata čtverec balón ne
Kruh ano nic trojúhelník květina ne
Trojúhelník ne nic trojúhelník balón ano
Trojúhelník ano kravata kruh nic ne
Kruh ano kravata kruh nic ano
7. Něco Reálnějšího
Máme web a chceme optimalizovat landing page pro
aktuálního uživatele.
1. Získáme a identifikujeme důležité (historické)
Referrer, page views, přečtení stránky About
1. Vybudujeme rozhodovací strom
2. Sledujeme chování návštšníka a nabízíme promotion
Promotion:
Zvýraznění nejpravděpodobnějšího plánu
Nabídka slevy
...
11. Clustering
Hledání skupin objektů v datech:
• Google News
• Výsledky průzkumů a anket
• Informace o chování zákazníků
• Seznam kupovaných výrobků
V omezeném rozsahu možno využít SQL, pro lepší výsledky
existují specializované algoritmy.
12. Filtering
Výběr potencionálně zajímavých objektů:
• na základě shody obsahu
• na základě podobnosti uživatelů
• Doporučování na Amazonu
• Last.fm doporučení hudebních skupin
• Netflix
• News feed na Facebooku
14. Proč se věnovat strojovému učení
• Součastná řešení jsou tak naivní, že nedá práci vytvořit
lepší
• I ve velmi malém týmu je možno vytvořit velké věci
• Vysoká bariéra pro vstup nových hráčů
• Nenasycenost trhu
15. Prerekvizity
• Znalost formálního zápisu a důkazů (!)
• Matematika:
o Lineární algebra
o Pravděpodobnost
o Statistika
• Informatika:
o Logika (stačí výroková a predikátová)
o Analýza algoritmů, datové struktury, ...
o Teorie grafů
16. Implementace
• Nutná znalost algoritmů
• Většina práce je předzpracování dat a ladění parametrů
• Knihovny pro většinu jazyků:
o Ruby: ai4r
o Python: PyML, SciPy
o Java: Weka, Java-ML
• Nástroje:
o Free: Weka, R, Orange, ...
o Placené: Matlab, SAS, SPSS, Mathematica, ...
17. Typické Problémy
Velké nebezpečí u lidí, kteří tomu rozumí "tak trochem".
• Validita Modelu:
o jsou výsledky správné?
o black-box metody
• Neintuitivnost většiny problémů