Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Carlo Iannò, Paolo Lo Giudice Laboratorio Accademico di Coworking “Barbiana 2.0” - Gli open data di Expo 2015
1. Carlo Iannò – Paolo Lo Giudice
Laboratorio Accademico di Coworking “Barbiana 2.0”
Università «Mediterranea» di Reggio Calabria
28 Ottobre 2016
Gli open data di Expo 2015
Estrazione di conoscenza mediante
QlikView dagli open data di EXPO 2015
2. Indice
1. L’importanza degli Open Data dal punto di vista informatico
2. La Big Data Analytics ed i Magic Quadrant
3. Gli Open Data di Expo 2015
4. Attività di ETL
5. QlikView in azione
6. La conoscenza estratta
7. Conclusioni
Carlo Iannò – Paolo Lo Giudice, Reggio Calabria, 28 Ottobre 2016
3. L’importanza degli Open Data dal punto di vista informatico
3
Carlo Iannò – Paolo Lo Giudice, Reggio Calabria, 28 Ottobre 2016
4. La Big Data Analytics ed i Magic Quadrant
4
Carlo Iannò – Paolo Lo Giudice, Reggio Calabria, 28 Ottobre 2016
5. Gli Open Data di Expo 2015
5
Carlo Iannò – Paolo Lo Giudice, Reggio Calabria, 28 Ottobre 2016
In passato, i dati relativi alla costruzione di opere, alla gestione di eventi o quelli legati alla Pubblica Amministrazione dovevano rimanere relegati nell’ambito dei procedimenti amministrativi per i quali erano stati formati; in tempi più recenti, invece, si è affermata, a livello comunitario, la tendenza a rendere tali informazioni conoscibili anche ad altri soggetti. E’ il fenomeno conosciuto come “open data”.
Dal punto di vista normativo, tale fenomeno è rilevante in relazione all’evoluzione del concetto di trasparenza; Per ciò che concerne il punto di vista informatico ,invece, gli open data sono una collezione di dati relativi ad un caso specifico (grandi opere, eventi, etc.). Poiché la mole di questi dati è spesso enorme, risulta poco adeguato analizzarli tramite i classici database.
Per la gestione di enormi quantità di dati, si ricorre all’utilizzo dei Data Warehouse (letteralmente, magazzini di dati). A differenza dei semplici database, questo nuovo approccio consente la gestione non solo di enormi quantità di dati, ma molto spesso, anche l’elaborazione di dati potenzialmente inconsistenti o, comunque, non “puliti”. Differenza palese tra un classico database e un Data Warehouse è il rifiuto e la non capacità di gestire dati ridondanti, nel primo caso, e, invece, la “quasi richiesta” di ridondanza per i Data Warehouse. il Data Warehouse, oltre a gestire e conservare i dati, è di enorme importanza perché, partendo dai dati al suo interno, è possibile estrarre della conoscenza, che si rivela poi un utilissimo supporto per le strategie decisionali.
L’enorme successo e l’enorme diffusione che hanno caratterizzato i Data Warehouse hanno portato ad enormi investimenti nel settore che, quindi, appare in continuo progresso. Ovviamente, per la gestione dei dati, la costruzione dei Data Warehouse e il suo successivo utilizzo per estrarre la conoscenza di interesse è necessario l’utilizzo di tool specifici e, soprattutto, potenti. Negli ultimi anni, il numero di software creati ad hoc per la creazione e la gestione dei Data Warehouse è cresciuto notevolmente. Enormi cambiamenti nel settore si sono avuti negli ultimi due anni con l’irrompere nella scena di due protagonisti assoluti, ovvero Tableau e QlikView, che hanno portato ad una rivoluzione nel settore che ha messo in crisi i principali attori passati (ad esempio, Oracle e IBM) che, ora, sono costretti a rincorrere.
Ad affermare ciò non sono di certo pareri personali, ma le analisi più prestigiose che si possano pensare per il settore informatico, ovvero quelle riportate dai Magic Quadrant di Gartner. Come possiamo vedere dall’immagine i prodotti vengono classificati in principalmente in base alla completezza ed alla semplicità di utilizzo. QlikView e Tableau sono i leader nel settore insieme a Microsoft che ha da poco iniziato a farsi strada in questo tipo di prodotto.
La dimensione dei Data Werehouse, inoltre, costringe spesso ad adottare delle strategie di analisi specifiche per estrarre conoscenza. Questo è dovuto, in parte, anche al fatto che spesso all’interno dei Data Werehouse troviamo l’unione di dati strutturati (ad esempio quelli provenienti dai database) e quelli non strutturati (ad esempio immagini, tag GPS oppure email).
Questi strumenti appartenenti alla classe della big data analytics, permettono di ridurre i tempi ed i costi della ricerca e, soprattutto, di estrarre preziosa conoscenza dalle informazioni a disposizione.
Expo Milano 2015 è l’Esposizione Universale che l’Italia ha ospitato dal primo maggio al 31 ottobre 2015, ed è stato più grande evento mai realizzato sull’alimentazione e la nutrizione. Per sei mesi Milano è stata una vetrina mondiale in cui i Paesi hanno mostrato il meglio delle proprie tecnologie per dare una risposta concreta a un’esigenza vitale: riuscire a garantire cibo sano, sicuro e sufficiente per tutti i popoli, nel rispetto del Pianeta e dei suoi equilibri.
Open Expo è un’iniziativa di Expo 2015 volta ad assicurare la totale trasparenza all’Esposizione Universale del 2015 attraverso la pubblicazione in formato aperto di tutte le informazioni riguardanti la gestione, la progettazione, l’organizzazione e lo svolgimento dell’evento.
In particolare, il portale openexpo2015.it, tutt’oggi attivo, è diviso in quattro sezioni principali, fortemente collegate tra loro.
Cruscotto lavori, dove è possibile navigare le informazioni sullo stato di avanzamento di ogni singolo cantiere dell’Esposizione Universale. Le informazioni sono navigabili tramite menu oppure attraverso una mappa dinamica.
Catalogo dei dati, dal quale è possibile navigare e scaricare i dataset relativi ad Expo 2015.
Mappa delle opere, tutte le opere di Expo 2015 realizzare e in corso di realizzazione, georeferenziate in una mappa navigabile.
Notizie, dove sono disponibili in questa sezione notizie sempre aggiornate sul progetto e sui temi ad esso collegati.
All’interno di ognuna di queste sezioni sono poi presenti le diverse tipologie di dati utilizzate per le nostre analisi.
L’attività di ETL (Extractraction-Transformation-Loading) ovvero estrazione, trasformazione e caricamento di insiemi di dati è una delle procedure più importanti
da eseguire quando si vuole costruire un Data Warehouse. Quando si ha a che fare con una quantità enorme di dati, è davvero difficile che essi siano già
“pronti all’uso”. Infatti, molto spesso, tali dati risultano “sporchi” e prima di essere dati in ingresso al software che si occuperà di analizzarli, necessitano
di un’accurata revisione e pulizia.
Il vantaggio di avere i CAMPI in COMUNE viene alla luce quando si effettua una selezione. Infatti, cliccando su una tupla (riga) di qualsiasi tabella, in tempo reale, verranno selezionate tutte le tuple delle restanti tabelle ad essa collegata.
E' anche possibile vedere come una tabella interessante potrebbe essere la tabella che ci indica lo stato di un'Area: «in corso» oppure «ultimata».
1.Per ottere grafici a torta, lineari o effettuare grafici combinati ed in 3D è possibile utilizzare QlickView che offre innumerevoli personalizzazioni intrinseche del tool . La scheda “Colori” consente di scegliere i colori che verranno utilizzati per personalizzare il nostro nel grafico.
2.Come è possibile vedere un esempio di grafico a torta ricavato ed aggiornato al 19 Marzo 2015, indica che il 20% delle aree risultava terminato. Come è possibile vedere ogni qualvolta si passerà sopra il grafico col mouse è possibile visualizzare la percentuale di area "in corso", in questo caso vediamo che è pari all'80%.
Questo grafico serve per avere un’idea più precisa di quante siano le gare aggiudicate. In particolare possiamo notare che il RUP che ha avuto più gare è Angelo Paris (348).
1.Per avere una visuale migliore delle aree coinvolte vengono proposte le proroghe sulle «Varianti in Corso d’Opera» che sono delle somme aggiuntive che si vanno a sommare al costo per completare una ben definita area e possoro riferirsi a diversi fattori come: - cause impreviste
- errori od omissioni del progetto
- etc
Come è possibile notare dal grafico si ha un numero di proroghe maggiore sull’area «interferenza» che appunto diventerà l’area da noi studiata in dettaglio e che vedremo tra qualche slide.
2.In questo grafico è possibile visualizzare una seconda area che presentava delle anomalie ovvero la prima area che presenta addirittura un «importo varianti» negativo, stiamo parlando dell’area Piastra.
1.SAL è l’acronimo di «Stato Avanzamento dei Lavori», in particolare i SAL è un documento che attesta l'avvenuta esecuzione di una certa quantità di lavoro di qualsiasi tipo e di qualsiasi misura, al fine di poter calcolare l'importo che il committente del lavoro deve pagare all'azienda commissionata per lo svolgimento del compito.
2. Dai grafici si evince che ci sono diverse aree nelle quali l’importo complessivo dell’intervento supera anche l’importo d’asta in particolare possiamo vedere le ultime due aree che appunto si riferiscono all’area «Interferenza» e all’area «Piastra»
1.L’attenzione, come detto, va focalizzata sullo Stato di Avanzamento Lavori (SAL) che indica l’importo speso fino alla data in questione (in questo caso, 19 Marzo) rispetto all’importo aggiudicato.
Per l’area “Interferenze” in particolare in questa area lo Stato di Avanzamento dei Lavori(figura in giallo) supera, addirittura, l’importo d’asta (figura in blu).
2.Abbiamo sviluppato ulteriori analisi durante il periodo di EXPO e prelevando i dati aggiornati al 29 Maggio 2015 (periodo successivo all’inizio di EXPO) si può visualizzare un confronto effettuando le stesse analisi che risalivano al 19 Marzo e ciò che si evince è riportato in questo grafico:
Le l’importo aggiudicato più le varianti ha superato di circa 40 milioni l’importo d’asta iniziale.
Dal 5 Giugno al 31 Ottobre, la Tabella ExpoBarometro indica l'indice di gradimento dell’evento milanese su base mensile o meglio la social experience dell'evento, in particolare si considerino i mesi tra Giugno 2015 ed Ottobre 2015 espresso in percentuale.
Per monitorare costantemente le proprie performance di una azienda su vari settori come può essere il settore economico-finanziario con risposte in tempi
molto più rapidi rispetto a qualche anno fa si utilizzano i cosiddetti CRUSCOTTI. Un esempio è mostrato appunto nella seguente figura
Il lavoro che abbiamo svolto ci ha permesso di capire quanto possa essere importante avere sempre a disposizione gli OPEN DATA, per qualsiasi evento, opera o che dir si voglia. Si è visto come grazie all’aiuto del software QlikView è stato possibile analizzare questi dati ed ottenere risultati che, senza di esso, non si sarebbero mai potuti ottenere o, comunque, si sarebbero ottenuti con una difficoltà di gran lunga maggiore.