Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Taller d'Introducció a les Dades Obertes

Taller d'Introducció a les Dades Obertes

 1. 1. Taller d’Introducció a lesDades ObertesJulià MinguillónEstudis d’Informàtica, Multimèdia iTelecomunicacióUniversitat Oberta de Catalunya24/4/2013
 2. 2. Big Data Week 2013•Esdeveniment mundial:o 25+ ciutatso 175+ acteso 20000+ participants•Organitzat per media140#bdw13 #barcelona
 3. 3. Estudis dInformàtica, Multimèdia iTelecomunicació de la UOC•Fa 15 anys que tenim 15 anys!Blog: http://eimt.uoc.edu/15/Facebook: https://www.facebook.com/eimtuoc
 4. 4. El grup Catalunya DadesEl grup Catalunya Dades persegueix fer participar la societat en els processos de generacióde valor a partir del coneixement i les dades obertes i està format per Generalitat deCatalunya, ajuntaments de Barcelona, Terrassa, Sabadell, Lleida i Badalona, AmicalViquipèdia, Softcatalà, Comunitat Mozilla, Catdroid, Guifinet, UOC (Universitat Oberta deCatalunya)-EIMT, UPF (Universitat Pompeu Fabra)-OpenCities, media 140, IEEE eGovernmentSTC (Institute of Electrical and Electronics Engineers), XIP (Xarxa d’Innovació Pública), CMT(Comissió del Mercat de Telecomunicacions).Blog: http://catalunyadades.wordpress.comTwitter: @catalunyadades / #catdades
 5. 5. “Lunico modo per non far conoscere agli altri ipropri limiti, è di non oltrepassarli mai”Giacomo Leopardi, 1798-1837DISCLAIMER
 6. 6. Continguts•Objectius del taller•Definicions bàsiques•El cicle de vida de les dades obertes•Exemple de projecte amb dades obertes•Programari “recomanat”•Dinàmica del taller
 7. 7. Objectius del taller•Donar continuïtat a les activitats impulsadesdes del grup Catalunya Dades:– Jornada sobre Dades Obertes– Curs virtual– Taller– ... ← necessitem el vostre feedback!!!•Crear una comunitat de pràctica al voltant deltema → el grup és obert a tothom!
 8. 8. Definicions bàsiques (I)•Què es una dada?24Dada→Informació→Coneixement→Saviesa•Descripció mitjançant metadades!•Estructurades en taules•Altres tipus: documents, tuits, imatges, ...
 9. 9. Definicions bàsiques (II)•Què és obert?•Obert com a sinònim de llibertat:– Per a reutilitzar (accedir)– Per a revisar (manipular)– Per a remesclar (fusionar)– Per a redistribuir•Les 4 Rs de David Wiley
 10. 10. Definicions bàsiques (III)Són dades obertes tots aquells conjunts de dades que esposen a disposició del públic i poden ser reutilitzats sensecap restricció.Les dades són distribuïdes en un format obert que permetla seva manipulació sense cap restricció tècnica ambprogramari obert i sota una llicència i/o condicions d’ús queno impedeixen als usuaris finals revisar-les, remesclar-les iredistribuir-les a tercers.Les dades haurien de satisfer certes condicions associades ala seva descripció, traçabilitat, qualitat, privacitat iinteroperabilitat.
 11. 11. El model de 5* de Tim Berners-Lee* Dades “publicades” (PDF, HTML)**En format taula (Excel, SPSS)***En format taula no propietari (CSV,JSON)****Amb descripcions i enllaços (XML)*****Amb relacions (XML, RDF)
 12. 12. Manipulant dades obertesCicle de vida / Rol (Productors, Infomediadors, Consumidors)➔Generació P➔Descripció + Publicació P, I➔Captura I, C➔Preprocessament I, C➔Anàlisi I, C➔Visualització + Publicació I, C → P, I
 13. 13. • Objectiu: obtenir les dades en brut• Des de portals de dades obertes• Accés a conjunts estàtics• Via consultes dinàmiques• Scraping de publicacions web• Activitat 2.0: Facebook, Twitter, … (APIs)• Activitat web: logs• Altres: triplify, conversors, ...Captura
 14. 14. • APIs: flickr, Twitter, ...• Web scraping:• Usant llenguatges de programació• Scraperwiki (Python / Ruby / PHP)• Yahoo! Query Language• “A lo pobre”: inspeccionar HTML (botó dret / F12)• SPARQL: Dbpedia• Formularis: Google Forms, SurveyMonkey, ...Eines per a la captura
 15. 15. • Una web genial però moltes dades de nivell 1*• Exemple: nom dels nadons nascuts a Catalunyahttp://www.idescat.cat/nadons/• Vídeo:http://www.youtube.com/watch?v=z7vEfwOpYbM• Processament amb bash + awk:http://personal.uoc.edu/opendataviz/nadons/Exemple: IDESCAT
 16. 16. • Objectiu: netejar les dades• Estructurar en format taula (files / columnes)• Filtrar / seleccionar els registres i/o variables• Fusionar taules• Conversions dunitats, formats, ...• Calcular noves variablesPreprocessament
 17. 17. • Google Refine (→ OpenRefine)• Yahoo! Pipes• Llenguatges de programació:• Awk, perl, python• Paquets estadístics: R, ...Eines per al preprocessament
 18. 18. • Objectiu: extreure informació de les dades• Anàlisi estadístic / mineria de dades• Detecció de patrons en les dades• Construcció de models:• Supervisats: arbres de decisió, sistemes de regles, ...• No supervisats: clusteringAnàlisi
 19. 19. • Excel / OpenOffice• Paquets estadístics: R, SPSS, RapidMiner, …• Gephi• Llenguatges de programació:• De propòsit general• Processing• Llibreries: Weka, ...• Recursos online: http://www.socr.ucla.edu/Eines per a lanàlisi
 20. 20. • Objectiu: afegir valor als resultats de lanàlisi• Descripció de les dades / agregats• Millorar la seva interpretació• Afegir context / semàntica (p.e. mapes)• Permetre a lusuari interactuar amb les dadesVisualització
 21. 21. • IBM Many Eyes• Tableau• Llenguatges de programació:• Processing• HTML5 + Javascript• D3.js• Mapes: Google Maps, OpenStreetMap, ...• Altres: Wordle, Tagxedo, ...Eines per a la visualització
 22. 22. Exemple (I)•Visualitzar el tuits de Twitter que portin elhahstag #perSantJordiRegalo i que tinguinuna estructura mínima, p.e.#persantjordiregalo “titol” dautor•Volem saber quins són els llibres més votats
 23. 23. Exemple (II)•Captura+preprocessament: script Python +llibreria tweetstream → fitxer .csv•Anàlisi i visualització en D3.js•Servidor web sota GNU/Linuxhttp://personal.uoc.edu/opendataviz/SantJordi2013/
 24. 24. #! /usr/bin/env python# -*- coding: utf-8 -*-import tweetstreamimport codecsimport sysstream = tweetstream.FilterStream("MAVSELproject", "mavsel12!",track=["#perSantJordiRegalo","#persantjordiregalo"])print "usuari,tuit,llibre"sys.stdout.flush()for tweet in stream:if tweet.has_key("text"):# busquem el llibre entre cometestuit=tweet[text].encode(utf-8,ignore)p1=tuit.find(")if p1 != -1:llibre=tuit[p1+1:]p2=llibre.find(")if p2 != -1:llibre=llibre[0:p2].title()tuitOK=tuit.replace(",")print tweet[user][screen_name].encode(utf-8,ignore)+","+"""+tuitOK+"""+","+"""+llibre+"""sys.stdout.flush()Script en Python
 25. 25. usuari,tuit,llibreCatalunyaRadio,"#PerSantJordiRegalo &quot;A micròfon tancat&quot;,de @llurpi: http://t.co/J5J8ob9lXE","A MicròFon Tancat"fanigrande,"RT @CatalunyaRadio: #PerSantJordiRegalo &quot;A micròfontancat&quot;, de @llurpi: http://t.co/J5J8ob9lXE","A Mevagp91,"#PerSantJordiRegalo &quot;Corazón tan blanco&quot; de JavierMarías","CorazóN Tan Blanco"CatalunyaRadio,"#PerSantJordiRegalo &quot;Dues ratlles vol dirpositiu&quot;, de @joanbotta http://t.co/P1YyB956Ob","Dues Raonadaedicions,"RT @CatalunyaRadio: #PerSantJordiRegalo &quot;Elscontes dEl Club de la Mitjanit&quot;, de<200F> @martigau :EsteveMiralles,"RT @mallauger: #perSantJordiRegalo &quot;Retrobarlànima&quot;, d @EsteveMiralles que recorda al lector qCatalunyaRadio,"#PerSantJordiRegalo &quot;La casa del silenci&quot;,de @blancabusquets http://t.co/NjmqqqI51U","La Casa Deljminguillona,"#perSantJordiRegalo &quot;La vida: instrucciones deuso&quot; de Georges Perec","La Vida: Instrucciones De UsoCatalunyaRadio,"#PerSantJordiRegalo &quot;Els contes dEl Club de laMitjanit&quot;, de<200F> @martigau : http://t.co/FV1Us8AlbertPuigCros,"RT @CatalunyaRadio: #PerSantJordiRegalo &quot;Elcançoner de tothom&quot;, d @AlbertPuigCros: http://t.co/momoselector,"RT @CatalunyaRadio: #PerSantJordiRegalo &quot;Elcançoner de tothom&quot;, d @AlbertPuigCros: http://t.co/tZfontano1622,"#perSantJordiRegalo &quot;Poesia catalana del barroc.Antologia&quot;, edició de P.Valsalobre i A.Rossich. #dejminguillona,"#perSantJordiRegalo &quot;Ultraviolencia&quot; deMiguel Noguera","Ultraviolencia"chechar,"#perSantJordiRegalo &quot;The Signal and The Noise&quot;, deFitxer .CSV resultant
 26. 26. • Google Refine• R + Rcommander / Rstudio• Processing• PythonProgramari “recomanat”
 27. 27. Dinàmica del taller•Instal·lació de programari•Formació de grups 4-6 persones•Establiment objectiu: quines dades es volenmanipular? Quin ha de ser el resultat?•Desenvolupament de la idea: quines einessusaran? Com serà el resultat final?•Presentació de la idea / resultats obtinguts /problemes trobats
 28. 28. Idees dels participants•Migració•Trànsit•Econòmiques / Financeres•Mapa centres educatius / Indicadors sobre educació superior•Mobiliari urbà / Actuacions sobre el territori / Geolocalització•Ús de les TIC / Inclusió digital / Perspectiva de gènere•Twitter•Equipaments / Patrimoni cultural•Eines: scraperwiki, hadoop, timeline, exhibit, sparql
 29. 29. Gràcies!●Lectures recomanades:http://edcp.uoc.edu/symposia/lang/ca/idp2013/bibliography/http://curs.opendata.uoc.edu●Contacte:Julià MinguillónEmail: jminguillona[at]uoc[dot]eduTwitter: @jminguillona

×