Per què aquesta presentació?
Meteoclim (Wireless DNA) és una empresa amb coneixements basats en l'anàlisi de dades massives, ja que els seus dos principals sectors d'activitat es basen en les telecomunicacions i la meteorologia. Però, com tractar aquestes dades, quines eines estan al nostre abast per treure conclusions adequades que ens ajudin a prendre decisions? Els mapes 2D o 3D, els filtres, els gràfics, les taules, són diferents maneres de mostrar de forma visual les dades, tant mitjançant programari lliure com llenguatges de programació.
A qui va dirigit?
A totes les persones que manegen grans bases de dades i que cerquen pautes per a resoldre problemes de manera ràpida i efectiva. Octavio Jaume s'adaptarà a l'audiència, ja siguin analistes o no, ja que abastarà tots els punts de vista sense entrar en detalls de programació.
Qui és el autor?
Octavio Jaume és un membre de l'equip de Meteoclim. El seu treball està orientat al tractament de dades estadístiques de models, tant meteorològics com climàtics. En concret, el models meteorològics WRF, MM5 i GFS, i climàtics globals utilitzats en els informes de l'IPCC (CMIP5), regionals (Cordex) i projeccions locals, elaborades en el si de Meteoclim per diferents treballs concrets. A més, desenvolupa aplicacions informàtiques de diversos tipus a l'àmbit de la meteorologia i la climatologia, des de mapes geolocalitzats interactius, fins a interfícies de programació, basades en càlculs estadístics.
3. Las predicciones se generan en servidores de alto rendimiento o clúster.
Se obtienen a partir de un modelo meteorológico (WRF), donde a partir de un estado inicial, se
le aplican ecuaciones físicas, para obtener la predicción.
METEOROLOGÍA
INTRODUCCIÓN
WDNA
Figura: Campo de precipitación y nubosidad en Smartweather
4. INTRODUCCIÓN
Se recoge información de las redes de telefonía móvil.
Tratando la información, podemos averiguar la degradación de la
red, u otros parámetros de utilidad.
TELECOMUNICACIONES
Figura: En azul la red actual de
estaciones meteorológicas en
Ciudad de México (9 puntos) y
en amarillo una estimación de
los puntos de observación de
precipitación con la nueva
tecnología desarrollada (más de
2500).
5. INTRODUCCIÓN
BIG DATA
Nuestros datos presentan las 3 ‘v’ típicas del Big Data:
• Volumen. Cada día se generan TERABYTES de información.
• Velocidad. La caducidad de los datos es muy rápida. El
proceso por tanto, necesita realizarse a gran velocidad: Las
predicciones generadas por la mañana, al mediodía ya no
sirven y se sustituyen por otras mas recientes
• Variedad. Los datos provienen de múltiples fuentes en
continuo cambio.
7. TRATAMIENTO DE DATOS
INTRODUCCIÓN
• ¿A quién va orientado?
• ¿Es suficiente la gratuita para lo que voy a usarlo?
• ¿Compensa económicamente?
8. TRATAMIENTO DE DATOS
Para tratar los datos, necesitamos tener en cuenta:
• Almacenamiento
• Entornos
• Optimización
• Filtrado
INTRODUCCIÓN
9. TRATAMIENTO DE DATOS
Ficheros:
• CSV o texto plano
• Otros formatos (.xsl, netcdf, …)
Bases de datos:
• Bases de datos relacionales SQL (MySQL, PostgreSQL,
Oracle,…)
• Bases de datos no relacionales NoSQL (MongoDB,
Cassandra…)
ALMACENAMIENTO
Figura: Formatos de almacenamiento y bases de datos
10. TRATAMIENTO DE DATOS
¿Por qué usar bases de datos no relacionales?
• Mas fáciles de desarrollar
• Su funcionalidad
• Rendimiento a gran escala
• Fácil de paralelilzar
BASE DE DATOS NO RELACIONALES
Figura: MongoDB y cassandra
11. TRATAMIENTO DE DATOS
ENTORNOS
Según la interfaz, distinguiremos 3 tipos de entornos:
• Solo interfaz
• Interfaz mixta
• Sin interfaz
Figura: Ejemplo de interfaz de Entropy
12. TRATAMIENTO DE DATOS
ENTORNOS
SOLO INTERFAZ
Pros:
• Interactivo
• Facilidad
• Inmediatez
Contras:
• Pocas posibilidades *
• Poca personalización *
• Nula integración con otras plataformas *
Solo recomendable si está personalizado para el uso que le dará el usuario.
* Depende de la app
Figura: Panel de control de Smartweather
13. TRATAMIENTO DE DATOS
ENTORNOS
Interfaz ‘Mixta’
Pros:
• Interactivo
• Facilidad relativa
• Inmediatez
• Múltiples posibilidades
Contras:
• Nula integración con otras plataformas *
• Pocas posibilidades de generar scripts automáticos *
* Depende del lenguaje
Figura: Ejemlos de Mathematica y Excel
14. TRATAMIENTO DE DATOS
ENTORNOS
Interfaz ‘Mixta’
Depende del tipo de dato, existen multitud de herramientas:
Matemáticas/Ciencias
• Matlab (de pago)
• Mathematica (de pago)
• GNU Octave (gratuito)
Hojas de cálculo
• Excel (de pago)
• Free Office (gratuito)
GIS
• ArcGIS (de pago)
• QGIS (gratuito)
Figura: Matlab, Mathematica, GNU Octave, Excel, SoftMaker Office, ESRI ArcGis y QGIS
15. TRATAMIENTO DE DATOS
ENTORNOS
Sin interfaz (Lenguajes de programación)
Pros:
• Completa integración con otras plataformas *
• Infinitas posibilidades
• Posibilidad de generar scripts
• Completa personalización
Contras:
• Poca inmediatez
• Nula interacción
• Poca facilidad
* Depende del lenguaje
Figura: Lenguajes de programación
16. TRATAMIENTO DE DATOS
ENTORNOS
Sin interfaz (Lenguajes de programación)
Lenguajes estadísticos:
• R
• Python (con numpy)
• Julia *
Otros:
• C++
• Java
• ….
Cada lenguaje está especializado en un determinado ámbito.
* Lenguaje de programación de reciente creación
Figura: Lenguajes de programación
17. TRATAMIENTO DE DATOS
ENTORNOS
R
Pros:
• Optimizado para el cálculo.
• Infinidad de librerías para el análisis de datos.
• Facilidad para tratar los datos.
Contras:
• Aunque se puede usar como un lenguaje de programación, no es su fortaleza.
.
18. TRATAMIENTO DE DATOS
ENTORNOS
Python
Pros:
• Multitud de paquetes para desarrolladores.
• Permite integración en Web, scripts, …
• Comunidad.
Contras:
• No es tan rico como R a nivel de paquetes para el análisis de datos.
19. TRATAMIENTO DE DATOS
OPTIMIZACIÓN
Optimización de funciones
Se puede reducir drásticamente, facilitando nuevas vías de negocio.
Ejemplo:
• Aplicación de fortran SIN optimizar: 1 punto -> 3 segundos
• Aplicación optimizado en R: 3.000.000puntos -> 0.6 segundos
(Usando apply, which, uso de matrices, …)
Figura: Ruta en Meteosport
Figura: Índices de Confort
20. TRATAMIENTO DE DATOS
OPTIMIZACIÓN
Optimización de la memoria
Lo que se debe de preguntar es:
• ¿Es necesario tratar con todos los datos en ese momento?
• ¿Son independientes los datos?
• ¿Es necesario tantos dígitos / longitud para la unidad de datos?
Ejemplo:
• Memoria necesaria para tratar todos los datos meteorológicos filtrando por
variables: 1376 GB
• Memoria necesaria por cada paso de tiempo: 8 GB
Figura: Representación de memoria RAM
21. TRATAMIENTO DE DATOS
FILTRADO
¿Por qué es importante filtrar los datos?
Facilidad de análisis y representación
Optimización de los recursos
Mayor inmediatez de los resultados
Datos
Filtro
1
Filtro
2
Figura: Representación de filtrado de datos
22. VISUALIZACIÓN DE DATOS
INTRODUCCIÓN
La herramienta definitiva
¿Existe la herramienta definitiva para visualizar datos?
NO
Figura: Centro de control de WDNA
23. VISUALIZACIÓN DE DATOS
INTRODUCCIÓN
La herramienta definitiva
Existen principalmente 3 maneras de visualizar los datos:
• Tablas
• Gráficas
• Mapas
Son herramientas complementarias, y permiten analizar la información desde
distintos puntos de vista. Visualización
Gráficas
MapasTablas
Figura: Métodos de visualización
24. VISUALIZACIÓN DE DATOS
TABLA
Herramientas Javascript
Gratuitas:
• Datatables JQuery
• Datatables.net
• Bootstrap datatables
Pago:
• FancyGrid
• Ag-Grid
Figura: Fancy Grid, Ag-grid y Bootstrap
25. VISUALIZACIÓN DE DATOS
TABLA
Características
Ventajas
- Permite visualizar múltiples variables de distinto tipo
- Permite ver el valor exacto de los datos
- Se pueden tratar muchos datos *
Desventajas
- Es difícil encontrar relaciones
- Es difícil visualizar tendencias
- No permite visualizar datos georeferenciados
* Depende del plug-in y el rendimiento del ordenador.
Figura: Tablas de Entropy
26. VISUALIZACIÓN DE DATOS
GRÁFICAS
Características
Ventajas
- Muy visual
- Es fácil encontrar tendencias
- Es fácil encontrar relaciones
- Existe multitud de gráficas distintas
Desventajas
• Se pierde mucha claridad / utilidad, cuando existen muchos datos
• No permite visualizar datos georeferenciados
Recomiendo está página web donde explica con detalle múltiples gráficas y su
utilidad:
https://www.data-to-viz.com/
* Depende del tipo de gráfica.
Figura: from Data to Viz. Recuperado de http://www-data-to-viz.com
27. VISUALIZACIÓN DE DATOS
GRÁFICAS
Características
Ventajas
- Muy visual
- Es fácil encontrar tendencias
- Es fácil encontrar relaciones
- Existe multitud de gráficas distintas
Desventajas
• Se pierde mucha claridad / utilidad, cuando existen muchos datos *
• No permite visualizar datos georeferenciados
Recomiendo está página web donde explica con detalle múltiples gráficas y su
utilidad:
https://www.data-to-viz.com/
* Depende del tipo de gráfica
Figura: Tipo de gráficas. Recuperado de http://www-data-to-viz.com
28. VISUALIZACIÓN DE DATOS
GRÁFICAS
Herramientas Javascript
Gratuitas:
• D3.js
• RAWGraphs
• Chart.js
• NVD3
Pago:
• Highcharts
• AnyChart
Figura: D3.js, RAWGraphs, Charts.js, Highcharts y AnyChart
33. VISUALIZACIÓN DE DATOS
MAPAS
Características
Ventajas
- Preparado para datos georeferenciados
- Se pueden tratar multitud de datos
Desventajas
- No existen muchas herramientas preparadas para tratar datos georeferenciados
* Depende del plug-in y el rendimiento del ordenador.
34. VISUALIZACIÓN DE DATOS
MAPAS
Herramientas Javascript
Gratuitas:
• Leaflet
Pago:
• Google Maps
• MapBox
• Carto
• eSpatial
Figura: Leaflet, mapbox, Google Maps, Carto y eSpatial
35. VISUALIZACIÓN DE DATOS
MAPAS
Tipos
Existen principalmente 3 tipos de maneras de tratar datos georeferenciados:
• “Markers” (puntos/iconos)
• Imágenes georeferenciadas (Capa WMS, geoTIFF, …)
• Datos vectoriales (Capas WFS, shapefile, …)
Figura: Tiempo real de radar, rayos y estaciones meteorológicas en Smartweather
36. VISUALIZACIÓN DE DATOS
MAPAS
Markers
El principal problema que presentan es cuando se visualiza multitud de puntos.
Existen tres soluciones principalmente:
• Agrupar
• Se muestra el número de markers agrupados
• Se realiza una operación sobre el grupo. (Por ejemplo máximo, mínimo,
media,..)
• Solo mostrar uno dentro de un cierto radio
• Mapa de calor
Figura: Agrupación de iconos de rayos en Smartweather
37. VISUALIZACIÓN DE DATOS
MAPAS
Markers
El principal problema que presentan es cuando se visualiza multitud de puntos.
Existen dos soluciones principalmente:
• Agrupar
• Se muestra el número de markers agrupados
• Se realiza una operación sobre el grupo. (Por ejemplo máximo, mínimo,
media,..)
• Solo mostrar uno dentro de un cierto radio
• Mapa de calor
Figura: Markers de datos de estaciones meteorológicas en Smartweather
38. VISUALIZACIÓN DE DATOS
MAPAS
Markers
El principal problema que presentan es cuando se visualiza multitud de puntos.
Existen dos soluciones principalmente:
• Agrupar
• Se muestra el número de markers agrupados
• Se realiza una operación sobre el grupo. (Por ejemplo máximo, mínimo,
media,..)
• Solo mostrar uno dentro de un cierto radio
• Mapa de calor
Figura: Ejemplo de mapa de calor
39. VISUALIZACIÓN DE DATOS
MAPAS
WMS (Web Map Service) / GeoTIFF
Permite visualizar sobre un mapa imágenes georeferenciadas.
Ventajas
• Se puede representar cualquier tipo de imagen.
• Facilidad de integración
Desventaja
• El servidor debe de generar las imágenes para cada tipo de zoom.
• A mayor zoom, mayor número de imágenes a cargar, y mayor carga para el
servidor
Figura: Campos de viento en Smartweather
40. VISUALIZACIÓN DE DATOS
MAPAS
WMS (Web Map Service) / GeoTIFF
Permite visualizar sobre un mapa imágenes georeferenciadas.
Ventajas
• Se puede representar cualquier tipo de imagen.
• Facilidad de integración
Desventaja
• El servidor debe de generar las imágenes para cada tipo de zoom.
• A mayor zoom, mayor número de imágenes a cargar, y mayor carga para el
servidor
Figura: Grid WMS en Smartweather para dos zoom distintos
41. VISUALIZACIÓN DE DATOS
MAPAS
WMS (Web Map Service) / GeoTIFF
GeoTiff permite que información georeferenciada sea encajada en un archivo de
imagen de format TIFF.
Figura: Campos de viento en Smartweather
42. VISUALIZACIÓN DE DATOS
MAPAS
WFS (Web Feature Service)
Permite visualizar sobre un mapa vectores georeferenciadas.
Ventajas
• No hay prácticamente carga para el servidor
• La calidad es infinita
Desventaja
• No permite visualizar todo tipo de imágenes
• Para integrar colores u otros elementos, debe de programarse
Figura: Predicción de tormenta y rayos en Smartweather
43. VISUALIZACIÓN DE DATOS
MAPAS
WFS (Web Feature Service)
Permite visualizar sobre un mapa vectores georeferenciadas.
Ventajas
• No hay prácticamente carga para el servidor
• La calidad es infinita
Desventaja
• No permite visualizar todo tipo de imágenes
• Para integrar colores u otros elementos, debe de programarse
Figura: Predicción de tormenta en capa WMS y vector de ejemplo de WMS
44. C R E A T I N G S M A R T B U S I N E S S E S W D N A . C O M
GRACIAS