Prezentace z druhého ročníku konference New Media Inspiration (http://nminspiration.cz), který se konal 19. 1. 2013 v hlavní budově FF UK pod vedením @petrkou, @simindr a @josefslerka.
2. Should I stay or should I go?
● Nebudou hezké obrázky.
● Nebudou nové technologie.
Otázky:
● VasMajetek.cz: proč server o státním majetku?
● Tech: Data mining nad ošklivými daty
● Byznys: Hezký. A z čeho to zaplatit?
3. Prodeje státu
● Ročně stát (obce, kraje..) prodá majetek za 100+ mld. Kč.
(zdroj: ÚFIS)
● Vše je „ na internetu, čili transparentní“
● Reálně:
● tisíce obecních vývěsek
● excelové tabulky s minimem informací
● na každé url pár nabídek ročně..
Sledovat to nemá smysl.
4. VasMajetek.cz – kde jsme?
5/2011 - 1. pivo
● Cíl: sesypat informace na jedno místo
11/2011 - Start serveru
● 30.000+ nabídek, byznys model: platby za bonus content
9/2012 – Měníme byznys model
● Free content
● Orientace na prodejce, úplnost dat.
1/2013 – Integrujeme
● Nástroj pro zveřejňování nabídek majetku ( zInfo.cz – umí to i zakázky )
● Doplňování a distribuce dat na realitní servery
5. Jaká data sbíráme?
● Zdroje: Veřejné dražby, weby obcí, exekuce,
soudy..
● 5 scraperů (ze surového html)
● Zbytek ručně (!)
● Aktuálních nabídek 2600, celkem sebráno
48000 nabídek
● Informace pravidelně scrapujeme / sbíráme,
čistíme, publikujeme
6. Co jsou to ta zprasená data?
● Nestabilní URLs
● Nejednotný formát (i na jednom zdroji)
● HTML – struktura není, nebo se mění
● Klíčová data uvnitř PDF scanů
● Řešení (?): lidská síla, důmyslné scrapery,
sekundární zdroje..
7. Proč dělat se státními daty?
● 40 % ekonomiky je (a bude) stát.
● Zprasená data, zastaralé technologie
.. praxe k nezaplacení.
● Místo konkurence řešíte technické
problémy :)
8. Radostné zítřky státních prodejů
● Nově (polo)povinné dražby
● Elektronizace dražeb
● Bude evidence státních nemovitostí
(ano, to stále není..)
● Nad tím bude bdít Vášmajetek.cz
9. The End
Díky za pozornost
a nakupujte fér
Jirka Skuhrovec
jiri.skuhrovec@vasmajetek.cz