SlideShare una empresa de Scribd logo
1 de 12
Extrakce strukturovaných dat
     z webových stránek
       New Media Inspiration 2013



         Michal Illich
Cože?
●   na webu jsou miliardy stránek
●   jsou psané pro lidi
●   stroje jim téměř nerozumí což kupodivu zas tak nevadí
●   ale nemůžeme se tak strojů na nic ptát
    –   Kdy se narodil Václav Havel? Kolik megapixelů má kamera iPhone 5? Jaké je HDP ČR?
        Kde a kdy jsou kurzy jógy v Praze? Kolik stojí kWh elektřiny od ČEZ? Kolik procent
        hlasů získal Schwarzenberg? Kolik je Tomášů na Google+? Jaký je plat poslanců?
        Jaké rychlosti ADSL nabízí Telefonica?   Kdy má otevřeno obchod X?
Už se na tom pracuje
●   Freebase 2005
●   Wikidi (velmi skromně) 2010
●   Siri 2011 v iOS
●   Google Knowledge Graph 2012
●   Microsoft Probase stále research
Kde stojíme
●   nemůžeme konkurovat Googlu ani Applu
●   ale naprostá většina firem neumí ani to co my
●   nápad: poskytneme jim to jako službu
    #cloud #saas #b2b #ai #machinelearning #api

●   pro koho?
    e-shopy   hledání hotelů, realit, práce   ekonomy a analytiky   firemní katalogy ...
Web + příklad
Technicky...
Problém je složitý, zjednodušili jsme ho na:
●   Zákazník zná entity              iPhone 5

●   Zákazník ví co chce rozlišení, výrobce, operační systém, ...
●   Ideálně má i část dat předvyplněných


A my už si automaticky odvodíme strukturu
    Jednotky?   Rozsah hodnot?   Možné kategorie?
Pro každou řádku (entitu)
●   Zeptáme se vyhledávače na relevantní stránky
●   Stáhneme tak 30 až 50 stránek
●   Zanalyzujeme texty na stránce   viz další slide

●   Slejeme informace ze všech stránek
●   A vyplníme tabulku
Samotná extrakce
●   Najdi fragmenty
    Rozlišení: 5 megapixelů

●   Slož z fragmentů kandidáta
    propertyName + number + unitName = super

●   Ohodnoť kandidáty viz další slide
●   Porovnej a sluč nejlepší kandidáty
Strojové učení
●   Ohodnocení kandidátů – váhy nejdřív ručně
●   Ale strojové učení to zpřesní
    Naučí se vztahy      Hodnotí i nelineárně       Jednoduché přidávání dalších dat

●   Boostované rozhodovací lesy
    Dříve i neuronové sítě, teď už je nepoužíváme
Strojové učení i jinde
Jde použít i pro čirá zákaznická data.
 Tedy bez té extrakce dat z webových stránek.
 Takže pozor! Tenhle slide je o něčem jiném než ostatní :)

Např. Jak do newsletteru vybrat nej nabídky?
 To je pro MagicTable taky tabulka.
 Akorát ji nevyplňujeme, ale předpovídáme nějakou hodnotu – např. míru konverze
 Strojové učení se na minulých datech naučí, na čem je konverze závislá.
 A pro budoucí nabídky predikuje míru konverze.
Kde jsme
●   V beta provozu
●   Dva zkušební zákazníci velké české firmy
●   Bereme i další když mají zajímavý problém
●   MagicTable.com miniweb
Díky!

michal@illich.cz

 @michalillich

Más contenido relacionado

Similar a Extrakce strukturovaných dat z webových stránek

Analytika v B2B světě
Analytika v B2B světěAnalytika v B2B světě
Analytika v B2B světěTaste Medio
 
Analýza klíčových slov - Plzeňský Barcamp 2015
Analýza klíčových slov - Plzeňský Barcamp 2015Analýza klíčových slov - Plzeňský Barcamp 2015
Analýza klíčových slov - Plzeňský Barcamp 2015Jakub Kašparů
 
Czech Internet Forum: Kateřina Holnová, Internetový marketing na cestě od tov...
Czech Internet Forum: Kateřina Holnová, Internetový marketing na cestě od tov...Czech Internet Forum: Kateřina Holnová, Internetový marketing na cestě od tov...
Czech Internet Forum: Kateřina Holnová, Internetový marketing na cestě od tov...Effectix.com
 
M. Čevelíček Zlepší svůj web! - Jak optimalizujeme weby
M. Čevelíček Zlepší svůj web! - Jak optimalizujeme webyM. Čevelíček Zlepší svůj web! - Jak optimalizujeme weby
M. Čevelíček Zlepší svůj web! - Jak optimalizujeme webyPražský Barcamp
 
Webová analytika (ČZU - Webdesign, 11. 12. 2013)
Webová analytika (ČZU - Webdesign, 11. 12. 2013)Webová analytika (ČZU - Webdesign, 11. 12. 2013)
Webová analytika (ČZU - Webdesign, 11. 12. 2013)Sherpas
 
Kolik stojí digitální marketing? [Czech Internet Forum, 2011]
Kolik stojí digitální marketing? [Czech Internet Forum, 2011]Kolik stojí digitální marketing? [Czech Internet Forum, 2011]
Kolik stojí digitální marketing? [Czech Internet Forum, 2011]Marek Baco
 
Kolik stojí digitální marketing, H1.cz, Marek Bačo
Kolik stojí digitální marketing, H1.cz, Marek BačoKolik stojí digitální marketing, H1.cz, Marek Bačo
Kolik stojí digitální marketing, H1.cz, Marek BačoH1.cz
 
StartupClub: Úvod do webdesignu (Jan Řezáč)
StartupClub: Úvod do webdesignu (Jan Řezáč)StartupClub: Úvod do webdesignu (Jan Řezáč)
StartupClub: Úvod do webdesignu (Jan Řezáč)JIC
 
Web jako součást obchodního procesu
Web jako součást obchodního procesuWeb jako součást obchodního procesu
Web jako součást obchodního procesuAITOM Digital s.r.o.
 
Prediktivní analytika pro rok 2020
Prediktivní analytika pro rok 2020Prediktivní analytika pro rok 2020
Prediktivní analytika pro rok 2020Taste Medio
 
Pro koho děláme web
Pro koho děláme webPro koho děláme web
Pro koho děláme webSherpas
 
Internship u Google - jaké to bylo a jak se tam dostat + soutěž o ceny
Internship u Google - jaké to bylo a jak se tam dostat + soutěž o cenyInternship u Google - jaké to bylo a jak se tam dostat + soutěž o ceny
Internship u Google - jaké to bylo a jak se tam dostat + soutěž o cenyDavid Vávra
 
Rozvoj webové analytiky díky Universal Analytics
Rozvoj webové analytiky díky Universal AnalyticsRozvoj webové analytiky díky Universal Analytics
Rozvoj webové analytiky díky Universal AnalyticsSherpas
 
Collabim jede! SEOloger 17.10.2018
Collabim jede! SEOloger 17.10.2018Collabim jede! SEOloger 17.10.2018
Collabim jede! SEOloger 17.10.2018Collabim
 
PPC Restart 2021: Olena Romanova - Vaše produktové inzeráty a jejich správná ...
PPC Restart 2021: Olena Romanova - Vaše produktové inzeráty a jejich správná ...PPC Restart 2021: Olena Romanova - Vaše produktové inzeráty a jejich správná ...
PPC Restart 2021: Olena Romanova - Vaše produktové inzeráty a jejich správná ...Taste
 
Propagují vaše produktové inzeráty správné produkty? || ROI Hunter, #ppcresta...
Propagují vaše produktové inzeráty správné produkty? || ROI Hunter, #ppcresta...Propagují vaše produktové inzeráty správné produkty? || ROI Hunter, #ppcresta...
Propagují vaše produktové inzeráty správné produkty? || ROI Hunter, #ppcresta...Olena Romanova
 
Datadriven management
Datadriven managementDatadriven management
Datadriven managementRevoltBI
 
Vizualizace dat mkti
Vizualizace dat mktiVizualizace dat mkti
Vizualizace dat mktiVTom PoUcha
 
Knihovny 2020: Praktické využití principů sémantického webu (projekt Dáme práci)
Knihovny 2020: Praktické využití principů sémantického webu (projekt Dáme práci)Knihovny 2020: Praktické využití principů sémantického webu (projekt Dáme práci)
Knihovny 2020: Praktické využití principů sémantického webu (projekt Dáme práci)Jakub Fiala
 

Similar a Extrakce strukturovaných dat z webových stránek (20)

Analytika v B2B světě
Analytika v B2B světěAnalytika v B2B světě
Analytika v B2B světě
 
Analýza klíčových slov - Plzeňský Barcamp 2015
Analýza klíčových slov - Plzeňský Barcamp 2015Analýza klíčových slov - Plzeňský Barcamp 2015
Analýza klíčových slov - Plzeňský Barcamp 2015
 
Czech Internet Forum: Kateřina Holnová, Internetový marketing na cestě od tov...
Czech Internet Forum: Kateřina Holnová, Internetový marketing na cestě od tov...Czech Internet Forum: Kateřina Holnová, Internetový marketing na cestě od tov...
Czech Internet Forum: Kateřina Holnová, Internetový marketing na cestě od tov...
 
Příručka Aimtečáka 1.01
Příručka Aimtečáka 1.01Příručka Aimtečáka 1.01
Příručka Aimtečáka 1.01
 
M. Čevelíček Zlepší svůj web! - Jak optimalizujeme weby
M. Čevelíček Zlepší svůj web! - Jak optimalizujeme webyM. Čevelíček Zlepší svůj web! - Jak optimalizujeme weby
M. Čevelíček Zlepší svůj web! - Jak optimalizujeme weby
 
Webová analytika (ČZU - Webdesign, 11. 12. 2013)
Webová analytika (ČZU - Webdesign, 11. 12. 2013)Webová analytika (ČZU - Webdesign, 11. 12. 2013)
Webová analytika (ČZU - Webdesign, 11. 12. 2013)
 
Kolik stojí digitální marketing? [Czech Internet Forum, 2011]
Kolik stojí digitální marketing? [Czech Internet Forum, 2011]Kolik stojí digitální marketing? [Czech Internet Forum, 2011]
Kolik stojí digitální marketing? [Czech Internet Forum, 2011]
 
Kolik stojí digitální marketing, H1.cz, Marek Bačo
Kolik stojí digitální marketing, H1.cz, Marek BačoKolik stojí digitální marketing, H1.cz, Marek Bačo
Kolik stojí digitální marketing, H1.cz, Marek Bačo
 
StartupClub: Úvod do webdesignu (Jan Řezáč)
StartupClub: Úvod do webdesignu (Jan Řezáč)StartupClub: Úvod do webdesignu (Jan Řezáč)
StartupClub: Úvod do webdesignu (Jan Řezáč)
 
Web jako součást obchodního procesu
Web jako součást obchodního procesuWeb jako součást obchodního procesu
Web jako součást obchodního procesu
 
Prediktivní analytika pro rok 2020
Prediktivní analytika pro rok 2020Prediktivní analytika pro rok 2020
Prediktivní analytika pro rok 2020
 
Pro koho děláme web
Pro koho děláme webPro koho děláme web
Pro koho děláme web
 
Internship u Google - jaké to bylo a jak se tam dostat + soutěž o ceny
Internship u Google - jaké to bylo a jak se tam dostat + soutěž o cenyInternship u Google - jaké to bylo a jak se tam dostat + soutěž o ceny
Internship u Google - jaké to bylo a jak se tam dostat + soutěž o ceny
 
Rozvoj webové analytiky díky Universal Analytics
Rozvoj webové analytiky díky Universal AnalyticsRozvoj webové analytiky díky Universal Analytics
Rozvoj webové analytiky díky Universal Analytics
 
Collabim jede! SEOloger 17.10.2018
Collabim jede! SEOloger 17.10.2018Collabim jede! SEOloger 17.10.2018
Collabim jede! SEOloger 17.10.2018
 
PPC Restart 2021: Olena Romanova - Vaše produktové inzeráty a jejich správná ...
PPC Restart 2021: Olena Romanova - Vaše produktové inzeráty a jejich správná ...PPC Restart 2021: Olena Romanova - Vaše produktové inzeráty a jejich správná ...
PPC Restart 2021: Olena Romanova - Vaše produktové inzeráty a jejich správná ...
 
Propagují vaše produktové inzeráty správné produkty? || ROI Hunter, #ppcresta...
Propagují vaše produktové inzeráty správné produkty? || ROI Hunter, #ppcresta...Propagují vaše produktové inzeráty správné produkty? || ROI Hunter, #ppcresta...
Propagují vaše produktové inzeráty správné produkty? || ROI Hunter, #ppcresta...
 
Datadriven management
Datadriven managementDatadriven management
Datadriven management
 
Vizualizace dat mkti
Vizualizace dat mktiVizualizace dat mkti
Vizualizace dat mkti
 
Knihovny 2020: Praktické využití principů sémantického webu (projekt Dáme práci)
Knihovny 2020: Praktické využití principů sémantického webu (projekt Dáme práci)Knihovny 2020: Praktické využití principů sémantického webu (projekt Dáme práci)
Knihovny 2020: Praktické využití principů sémantického webu (projekt Dáme práci)
 

Extrakce strukturovaných dat z webových stránek

  • 1. Extrakce strukturovaných dat z webových stránek New Media Inspiration 2013 Michal Illich
  • 2. Cože? ● na webu jsou miliardy stránek ● jsou psané pro lidi ● stroje jim téměř nerozumí což kupodivu zas tak nevadí ● ale nemůžeme se tak strojů na nic ptát – Kdy se narodil Václav Havel? Kolik megapixelů má kamera iPhone 5? Jaké je HDP ČR? Kde a kdy jsou kurzy jógy v Praze? Kolik stojí kWh elektřiny od ČEZ? Kolik procent hlasů získal Schwarzenberg? Kolik je Tomášů na Google+? Jaký je plat poslanců? Jaké rychlosti ADSL nabízí Telefonica? Kdy má otevřeno obchod X?
  • 3. Už se na tom pracuje ● Freebase 2005 ● Wikidi (velmi skromně) 2010 ● Siri 2011 v iOS ● Google Knowledge Graph 2012 ● Microsoft Probase stále research
  • 4. Kde stojíme ● nemůžeme konkurovat Googlu ani Applu ● ale naprostá většina firem neumí ani to co my ● nápad: poskytneme jim to jako službu #cloud #saas #b2b #ai #machinelearning #api ● pro koho? e-shopy hledání hotelů, realit, práce ekonomy a analytiky firemní katalogy ...
  • 6. Technicky... Problém je složitý, zjednodušili jsme ho na: ● Zákazník zná entity iPhone 5 ● Zákazník ví co chce rozlišení, výrobce, operační systém, ... ● Ideálně má i část dat předvyplněných A my už si automaticky odvodíme strukturu Jednotky? Rozsah hodnot? Možné kategorie?
  • 7. Pro každou řádku (entitu) ● Zeptáme se vyhledávače na relevantní stránky ● Stáhneme tak 30 až 50 stránek ● Zanalyzujeme texty na stránce viz další slide ● Slejeme informace ze všech stránek ● A vyplníme tabulku
  • 8. Samotná extrakce ● Najdi fragmenty Rozlišení: 5 megapixelů ● Slož z fragmentů kandidáta propertyName + number + unitName = super ● Ohodnoť kandidáty viz další slide ● Porovnej a sluč nejlepší kandidáty
  • 9. Strojové učení ● Ohodnocení kandidátů – váhy nejdřív ručně ● Ale strojové učení to zpřesní Naučí se vztahy Hodnotí i nelineárně Jednoduché přidávání dalších dat ● Boostované rozhodovací lesy Dříve i neuronové sítě, teď už je nepoužíváme
  • 10. Strojové učení i jinde Jde použít i pro čirá zákaznická data. Tedy bez té extrakce dat z webových stránek. Takže pozor! Tenhle slide je o něčem jiném než ostatní :) Např. Jak do newsletteru vybrat nej nabídky? To je pro MagicTable taky tabulka. Akorát ji nevyplňujeme, ale předpovídáme nějakou hodnotu – např. míru konverze Strojové učení se na minulých datech naučí, na čem je konverze závislá. A pro budoucí nabídky predikuje míru konverze.
  • 11. Kde jsme ● V beta provozu ● Dva zkušební zákazníci velké české firmy ● Bereme i další když mají zajímavý problém ● MagicTable.com miniweb