SlideShare una empresa de Scribd logo
1 de 33
Descargar para leer sin conexión
ZPRACOVÁNÍ DAT Z
VEŘEJNÝCH ZDROJŮ
ONDŘEJ KOKEŠ
1
STÁT SE OTEVÍRÁ
▸ víc než kdy dřív
▸ mění se přístup státu
▸ pomalu, ale jistě
▸ podílíme se na tom my všichni
2
CO S TÍM?
KROK PRVNÍ: STÁHNU DATA
3
NE
4
KROK PRVNÍ: DEFINUJI
PROBLÉM
5
KOLIK UTRATILA MOJE OBEC ZA LOŇSKÝ
ROK?
KOLIK UTRATILA MOJE OBEC ZA LOŇSKÝ
ROK… ZA OPRAVY CHODNÍKŮ?
6
KDO KANDIDUJE POKAŽDÉ ZA JINOU PARTAJ?
KDO SKONČIL POD ČAROU, NEBYL NÁSLEDNĚ
DOSAZEN DO MĚSTSKÉ FIRMY?
7
O ČEM SE MLUVÍ VE SNĚMOVNĚ? NEŠLO BY
TO NĚJAK STROJOVĚ ZPRACOVAT (NLP)?
8
KDO BERE EVROPSKÉ DOTACE?
9
KROK DRUHÝ: NAJÍT DATA
10
KDE NAJDU SEZNAM IČO?
KDE NAJDU ADMINISTRATIVNÍ INFORMACE?
KDE NAJDU DOTACE?
KDE NAJDU ZAKÁZKY?
11
KROK TŘETÍ: TECHNICKY
ZPRACOVAT DATA
12
13
▸ Co je to FoxPro?
13
▸ Co je to FoxPro?
▸ Jak zpracovat milion XML souborů?
13
▸ Co je to FoxPro?
▸ Jak zpracovat milion XML souborů?
▸ ... já chtěl prostě tabulku
13
KROK ČTVRTÝ: ANALYTICKY
ZPRACOVAT DATA
14
15
▸ Proč tu chybí data?
15
▸ Proč tu chybí data?
▸ Můžu bezhlavě agregovat?
15
▸ Proč tu chybí data?
▸ Můžu bezhlavě agregovat?
▸ Kdy podepsali tuto smlouvu?
15
▸ Proč tu chybí data?
▸ Můžu bezhlavě agregovat?
▸ Kdy podepsali tuto smlouvu?
▸ Kdy čerpali peníze?
15
A TO JE VŠE!
16
17
1. Definovat problém
17
1. Definovat problém
2. Najít data
17
1. Definovat problém
2. Najít data
3. Technicky zpracovat data
17
1. Definovat problém
2. Najít data
3. Technicky zpracovat data
4. Analyticky zpracovat data
17
MÁME MÍSTY LUXUSNÍ ZDROJE
▸ administrativní informace
▸ smlouvy
▸ rozpočty
18
ALE STÁLE NARÁŽÍME
▸ je to o lidech
▸ je to o legislativě
▸ je to o nás všech
19
NEMÁ TOHLE VŠECHNO
NĚKDO NA PRÁCI?
20
PROČ O TOM MLUVÍM ZROVNA JÁ?
▸ github.com/kokes/od
▸ github.com/kokes/knod nebo knod.cz
▸ video ukázka
21
DÍKY
22

Más contenido relacionado

Más de Develcz

Tomáš Vondra: Paralelizace dotazu a partitioning v PostgreSQL
Tomáš Vondra: Paralelizace dotazu a partitioning v PostgreSQLTomáš Vondra: Paralelizace dotazu a partitioning v PostgreSQL
Tomáš Vondra: Paralelizace dotazu a partitioning v PostgreSQLDevelcz
 
Tomáš Zvěřina: Flutter.io - multiplatformní vývoj mobilních aplikací
Tomáš Zvěřina: Flutter.io - multiplatformní vývoj mobilních aplikacíTomáš Zvěřina: Flutter.io - multiplatformní vývoj mobilních aplikací
Tomáš Zvěřina: Flutter.io - multiplatformní vývoj mobilních aplikacíDevelcz
 
Jakub Vrána: Dokazatelná bezpečnost
Jakub Vrána: Dokazatelná bezpečnostJakub Vrána: Dokazatelná bezpečnost
Jakub Vrána: Dokazatelná bezpečnostDevelcz
 
Roman Schejbal: From Madness To Reason
Roman Schejbal: From Madness To ReasonRoman Schejbal: From Madness To Reason
Roman Schejbal: From Madness To ReasonDevelcz
 
Michal Illich: Zuri aneb Vývojáři staví letadlo
Michal Illich: Zuri aneb Vývojáři staví letadloMichal Illich: Zuri aneb Vývojáři staví letadlo
Michal Illich: Zuri aneb Vývojáři staví letadloDevelcz
 
Ondřej Šika: Docker, Traefik a CI - Mějte nasazené všeny větve na kterých pra...
Ondřej Šika: Docker, Traefik a CI - Mějte nasazené všeny větve na kterých pra...Ondřej Šika: Docker, Traefik a CI - Mějte nasazené všeny větve na kterých pra...
Ondřej Šika: Docker, Traefik a CI - Mějte nasazené všeny větve na kterých pra...Develcz
 
David Majda: Autoformátování kódu
David Majda: Autoformátování kóduDavid Majda: Autoformátování kódu
David Majda: Autoformátování kóduDevelcz
 
David Grudl: Open source: The Good, the Bad and the Ugly
David Grudl: Open source: The Good, the Bad and the UglyDavid Grudl: Open source: The Good, the Bad and the Ugly
David Grudl: Open source: The Good, the Bad and the UglyDevelcz
 
Ondřej Machulda: Začíná zlatá doba end-to-end testů!
Ondřej Machulda: Začíná zlatá doba end-to-end testů!Ondřej Machulda: Začíná zlatá doba end-to-end testů!
Ondřej Machulda: Začíná zlatá doba end-to-end testů!Develcz
 
Adam Kudrna: Headless WordPress/Drupal
Adam Kudrna: Headless WordPress/DrupalAdam Kudrna: Headless WordPress/Drupal
Adam Kudrna: Headless WordPress/DrupalDevelcz
 
Jaroslav Tulach: GraalVM - z vývoje nejrychlejšího virtuálního stroje na světě
Jaroslav Tulach: GraalVM - z vývoje nejrychlejšího virtuálního stroje na světěJaroslav Tulach: GraalVM - z vývoje nejrychlejšího virtuálního stroje na světě
Jaroslav Tulach: GraalVM - z vývoje nejrychlejšího virtuálního stroje na světěDevelcz
 
Martin Michálek: Bootstrap 4 - Jednou to muselo přijít
Martin Michálek: Bootstrap 4 - Jednou to muselo přijítMartin Michálek: Bootstrap 4 - Jednou to muselo přijít
Martin Michálek: Bootstrap 4 - Jednou to muselo přijítDevelcz
 
Ondřej Mirtes: Usnadněte si práci silně typovaným kódem a statickou analýzou!
Ondřej Mirtes: Usnadněte si práci silně typovaným kódem a statickou analýzou!Ondřej Mirtes: Usnadněte si práci silně typovaným kódem a statickou analýzou!
Ondřej Mirtes: Usnadněte si práci silně typovaným kódem a statickou analýzou!Develcz
 
Karel Smutný: Jak se samo-organizujeme v Brand Embassy
Karel Smutný: Jak se samo-organizujeme v Brand EmbassyKarel Smutný: Jak se samo-organizujeme v Brand Embassy
Karel Smutný: Jak se samo-organizujeme v Brand EmbassyDevelcz
 
Martin Šimeček: Chytré boty do každé rodiny
Martin Šimeček: Chytré boty do každé rodinyMartin Šimeček: Chytré boty do každé rodiny
Martin Šimeček: Chytré boty do každé rodinyDevelcz
 
Richard Fridrich: Třesení stromem v JavaScriptu
Richard Fridrich: Třesení stromem v JavaScriptuRichard Fridrich: Třesení stromem v JavaScriptu
Richard Fridrich: Třesení stromem v JavaScriptuDevelcz
 
Bára Bühnová: Naučte se taktizovat s pomocí bad code smells a quality tactics
Bára Bühnová: Naučte se taktizovat s pomocí bad code smells a quality tacticsBára Bühnová: Naučte se taktizovat s pomocí bad code smells a quality tactics
Bára Bühnová: Naučte se taktizovat s pomocí bad code smells a quality tacticsDevelcz
 
Michal Kovařík: Multiplayer ve Factoriu
Michal Kovařík: Multiplayer ve FactoriuMichal Kovařík: Multiplayer ve Factoriu
Michal Kovařík: Multiplayer ve FactoriuDevelcz
 
Jirka Kosek: CSS Paged Media aneb Gutenberg v prohlížeči
Jirka Kosek:  CSS Paged Media aneb Gutenberg v prohlížečiJirka Kosek:  CSS Paged Media aneb Gutenberg v prohlížeči
Jirka Kosek: CSS Paged Media aneb Gutenberg v prohlížečiDevelcz
 
Karol Danko: IoT z pohľadu programátora
Karol Danko:  IoT z pohľadu programátoraKarol Danko:  IoT z pohľadu programátora
Karol Danko: IoT z pohľadu programátoraDevelcz
 

Más de Develcz (20)

Tomáš Vondra: Paralelizace dotazu a partitioning v PostgreSQL
Tomáš Vondra: Paralelizace dotazu a partitioning v PostgreSQLTomáš Vondra: Paralelizace dotazu a partitioning v PostgreSQL
Tomáš Vondra: Paralelizace dotazu a partitioning v PostgreSQL
 
Tomáš Zvěřina: Flutter.io - multiplatformní vývoj mobilních aplikací
Tomáš Zvěřina: Flutter.io - multiplatformní vývoj mobilních aplikacíTomáš Zvěřina: Flutter.io - multiplatformní vývoj mobilních aplikací
Tomáš Zvěřina: Flutter.io - multiplatformní vývoj mobilních aplikací
 
Jakub Vrána: Dokazatelná bezpečnost
Jakub Vrána: Dokazatelná bezpečnostJakub Vrána: Dokazatelná bezpečnost
Jakub Vrána: Dokazatelná bezpečnost
 
Roman Schejbal: From Madness To Reason
Roman Schejbal: From Madness To ReasonRoman Schejbal: From Madness To Reason
Roman Schejbal: From Madness To Reason
 
Michal Illich: Zuri aneb Vývojáři staví letadlo
Michal Illich: Zuri aneb Vývojáři staví letadloMichal Illich: Zuri aneb Vývojáři staví letadlo
Michal Illich: Zuri aneb Vývojáři staví letadlo
 
Ondřej Šika: Docker, Traefik a CI - Mějte nasazené všeny větve na kterých pra...
Ondřej Šika: Docker, Traefik a CI - Mějte nasazené všeny větve na kterých pra...Ondřej Šika: Docker, Traefik a CI - Mějte nasazené všeny větve na kterých pra...
Ondřej Šika: Docker, Traefik a CI - Mějte nasazené všeny větve na kterých pra...
 
David Majda: Autoformátování kódu
David Majda: Autoformátování kóduDavid Majda: Autoformátování kódu
David Majda: Autoformátování kódu
 
David Grudl: Open source: The Good, the Bad and the Ugly
David Grudl: Open source: The Good, the Bad and the UglyDavid Grudl: Open source: The Good, the Bad and the Ugly
David Grudl: Open source: The Good, the Bad and the Ugly
 
Ondřej Machulda: Začíná zlatá doba end-to-end testů!
Ondřej Machulda: Začíná zlatá doba end-to-end testů!Ondřej Machulda: Začíná zlatá doba end-to-end testů!
Ondřej Machulda: Začíná zlatá doba end-to-end testů!
 
Adam Kudrna: Headless WordPress/Drupal
Adam Kudrna: Headless WordPress/DrupalAdam Kudrna: Headless WordPress/Drupal
Adam Kudrna: Headless WordPress/Drupal
 
Jaroslav Tulach: GraalVM - z vývoje nejrychlejšího virtuálního stroje na světě
Jaroslav Tulach: GraalVM - z vývoje nejrychlejšího virtuálního stroje na světěJaroslav Tulach: GraalVM - z vývoje nejrychlejšího virtuálního stroje na světě
Jaroslav Tulach: GraalVM - z vývoje nejrychlejšího virtuálního stroje na světě
 
Martin Michálek: Bootstrap 4 - Jednou to muselo přijít
Martin Michálek: Bootstrap 4 - Jednou to muselo přijítMartin Michálek: Bootstrap 4 - Jednou to muselo přijít
Martin Michálek: Bootstrap 4 - Jednou to muselo přijít
 
Ondřej Mirtes: Usnadněte si práci silně typovaným kódem a statickou analýzou!
Ondřej Mirtes: Usnadněte si práci silně typovaným kódem a statickou analýzou!Ondřej Mirtes: Usnadněte si práci silně typovaným kódem a statickou analýzou!
Ondřej Mirtes: Usnadněte si práci silně typovaným kódem a statickou analýzou!
 
Karel Smutný: Jak se samo-organizujeme v Brand Embassy
Karel Smutný: Jak se samo-organizujeme v Brand EmbassyKarel Smutný: Jak se samo-organizujeme v Brand Embassy
Karel Smutný: Jak se samo-organizujeme v Brand Embassy
 
Martin Šimeček: Chytré boty do každé rodiny
Martin Šimeček: Chytré boty do každé rodinyMartin Šimeček: Chytré boty do každé rodiny
Martin Šimeček: Chytré boty do každé rodiny
 
Richard Fridrich: Třesení stromem v JavaScriptu
Richard Fridrich: Třesení stromem v JavaScriptuRichard Fridrich: Třesení stromem v JavaScriptu
Richard Fridrich: Třesení stromem v JavaScriptu
 
Bára Bühnová: Naučte se taktizovat s pomocí bad code smells a quality tactics
Bára Bühnová: Naučte se taktizovat s pomocí bad code smells a quality tacticsBára Bühnová: Naučte se taktizovat s pomocí bad code smells a quality tactics
Bára Bühnová: Naučte se taktizovat s pomocí bad code smells a quality tactics
 
Michal Kovařík: Multiplayer ve Factoriu
Michal Kovařík: Multiplayer ve FactoriuMichal Kovařík: Multiplayer ve Factoriu
Michal Kovařík: Multiplayer ve Factoriu
 
Jirka Kosek: CSS Paged Media aneb Gutenberg v prohlížeči
Jirka Kosek:  CSS Paged Media aneb Gutenberg v prohlížečiJirka Kosek:  CSS Paged Media aneb Gutenberg v prohlížeči
Jirka Kosek: CSS Paged Media aneb Gutenberg v prohlížeči
 
Karol Danko: IoT z pohľadu programátora
Karol Danko:  IoT z pohľadu programátoraKarol Danko:  IoT z pohľadu programátora
Karol Danko: IoT z pohľadu programátora
 

Ondřej Kokeš: Zpracování dat z veřejných zdrojů