gvSIG Suite aplicada a seguridad, emergencias y protección civil
Experiencias académicas Big Data ULL
1. Big Data: experiencias
(académicas) reales
Marcos Colebrook Santamaría
Carlos J. Pérez González
José L. Roda García
Jornadas #BigDataCanarias 21-22 diciembre 2016
2. Contenidos
■ Un poco de retrospectiva
■ Proyectos Fin de Carrera (PFC) y Trabajos Fin de Grado (TFG)
sobre Big Data:
● PFC: Hadoop + MapReduce (2014)
● TFG: Análisis de ficheros log de la WiFi-ULL (2015)
● TFG: Análisis de los incidentes del 1·1·2 (2016)
● TFG: Módulo BI para la plataforma X4Apps (2016)
● TFG: Despliegue de clúster Spark sobre Docker (2016)
■ PFC y TFG sobre Genómica:
● PFC: IonGAP (2014)
● TFG: QuiimeApp (2016)
● TFG: Notebook de Jupyter para el MinION (2016)
■ Otros proyectos relacionados:
● TFG: Extracción y visualización de info legal (2015)
■ ¿Preguntas?
2
3. Conclusiones:
■ Big Data: tecnología emergente,
pero verdadera oportunidad de
mercado.
■ Data Scientist/Engineer:
● Matemáticas+Estadística
● R, Python, Hadoop, Spark,
D3, Java, etc.
● Curiosidad
● Storytelling: comunicación
de resultados.
■ Tendencias:
● Visualización de datos
● Modelos predictivos
● Social Analytics
● Spark / Storm vs. Hadoop
Un poco de retrospectiva: 16-6-2014
3Jornadas #BigDataCanarias 21-22 diciembre 2016
4. PFC: Hadoop+MapReduce (1)
4Jornadas #BigDataCanarias 21-22 diciembre 2016
Procesando Big Data mediante MapReduce (2014)
Autores: Alejandro Tejera, Jaime Corrales
Directores: José L. Roda, Marcos Colebrook
■ Primer proyecto dirigido en ETSII y una primera
aproximación al tópico Big Data
■ Esquema:
● Introducción a Big Data
● Técnicas y algoritmos
● Hadoop y MapReduce
● Casos de estudio
■ Tecnología: Java y Hadoop 2 sobre los casi 200 PCs
del Centro de Cálculo ETSII.
5. PFC: Hadoop+MapReduce (2)
5Jornadas #BigDataCanarias 21-22 diciembre 2016
■ Resultados interesantes:
● Cálculo de la temperatura máxima de datos
meteorológicos: reducción del tiempo de cómputo
en un 90%.
● Análisis del weblog del Centro de Cálculo:
detección de IPs conflictivas.
● Búsqueda de duplicados en el registro de padrón:
comparando 106
registros (+detalles luego)
● Estudio estadístico del contexto: buenos resultados
con corpus de 4GB y solo 16 nodos.
6. TFG: Análisis de ficheros log de la
WiFi-ULL (1)
6Jornadas #BigDataCanarias 21-22 diciembre 2016
Análisis de ficheros log de la WiFi-ULL usando técnicas
de Big Data (2015)
Autor: Víctor Plaza
Directores: Marcos Colebrook, José L. Roda
■ Objetivo: dado un rango de fechas obtener tuplas
(Fecha, Hora, Acceso Campus Virtual, IP, MAC, Punto acceso, Coord. GPS)
■ Esquema:
● Estado del arte
● Problemática
● Fases y Desarrollo del proyecto
■ Tecnología: Python y Hadoop 2 sobre cluster de 5-7
nodos.
7. TFG: Análisis de ficheros log de la
WiFi-ULL (2)
7Jornadas #BigDataCanarias 21-22 diciembre 2016
■ Resultados interesantes: se pudieron relacionar
diferentes logs de los servidores, del DNS, de la WiFi,
del DHCP, y de la geolocalización de los edificios, en
base a un rango de fechas y horas, para obtener:
■ Para + info: riull.ull.es/xmlui/handle/915/1412
8. TFG: Análisis de ficheros log de la
WiFi-ULL (3)
8Jornadas #BigDataCanarias 21-22 diciembre 2016
9. TFG: Análisis de los incidentes del
1·1·2 (1)
Análisis de los incidentes del CECOES 1·1·2 utilizando
técnicas de Ciencia de los Datos (2016)
Autor: Teno González
Directores: Marcos Colebrook, Carlos J. Pérez
■ Objetivo: creación de una interfaz que muestra info
extraída de los 7 millones de registros (2005-2014)
como gráficas dinámicas o mapas.
■ Esquema:
● Estado del arte
● Problemática
● Fases y desarrollo del proyecto
■ Tecnología: R+Shiny y RStudio para el desarrollo.
9Jornadas #BigDataCanarias 21-22 diciembre 2016
10. TFG: Análisis de los incidentes del
1·1·2 (2)
10Jornadas #BigDataCanarias 21-22 diciembre 2016
■ Resultados interesantes: limpieza y carga optimizada de datos,
además de una web intuitiva (más detalles en la siguiente charla)
■ Para + info: riull.ull.es/xmlui/handle/915/2616
11. TFG: Módulo BI para plataforma
X4Apps (1)
Módulo de Inteligencia de Negocio para la plataforma
X4Apps (2016)
Autor: Sandro Chinea
Director: Marcos Colebrook
■ Objetivo: diseño de un módulo de BI para la
plataforma X4Apps de desarrollo para móviles.
■ Esquema:
● Estado del arte
● Desarrollo de la solución
■ Se analizaron tecnologías como MongoDB, Hadoop, y
Pentaho.
11Jornadas #BigDataCanarias 21-22 diciembre 2016
12. TFG: Módulo BI para plataforma
X4Apps (2)
12Jornadas #BigDataCanarias 21-22 diciembre 2016
■ Resultados interesantes:
13. TFG: Despliegue de clúster Spark
sobre Docker (1)
Despliegue de un clúster Spark sobre Docker para Big
Data (2016)
Autor: Sergio Martín
Directores: Marcos Colebrook, Carlos J. Pérez
■ Objetivo: desarrollo y despliegue de un cluster Spark
2.0.0 sobre Docker 1.12
■ Esquema:
● Análisis del problema
● Solución basada en Docker 1.11
● Solución basada en Docker 1.12
● Ejecución y benchmarks
13Jornadas #BigDataCanarias 21-22 diciembre 2016
14. TFG: Despliegue de clúster Spark
sobre Docker (2)
14Jornadas #BigDataCanarias 21-22 diciembre 2016
■ Resultados interesantes:
■ Para + info: riull.ull.es/xmlui/handle/915/3088
15. PFC y TFG en Bioinformática (1)
15Jornadas #BigDataCanarias 21-22 diciembre 2016
Fuente: www.genome.gov/sequencingcostsdata
16. PFC y TFG en Bioinformática (2)
16Jornadas #BigDataCanarias 21-22 diciembre 2016
17. PFC: IonGAP (1)
IonGAP – an Integrated Genome Assembly Platform for
Ion Torrent Data (2014)
Autor: Adrián Baez
Directores: Marcos Colebrook, José L. Roda
■ Objetivo: desarrollo de una web pública para el ensamblado de
genomas bacterianos y su análisis posterior.
■ Esquema:
● The genome assembler
● A genome assembly and analysis pipeline
● IonGAP web service
● Parallel assembly of large genomes
■ Tecnologías: Django, Apache Web Server,
HTML+CSS+JavaScript y apps libres para análisis genómico.
17Jornadas #BigDataCanarias 21-22 diciembre 2016
19. PFC: IonGAP (3)
IonGAP: integrative bacterial genome analysis for Ion Torrent sequence data
(2015). A. Baez-Ortega, F. Lorenzo-Diaz, M. Hernandez, C.I. Gonzalez-Vila,
J.L. Roda-Garcia, M. Colebrook, C. Flores, Bioinformatics, 31(17).
iongap.hpc.iter.es
19Jornadas #BigDataCanarias 21-22 diciembre 2016
20. TFG: QuiimeApp (1)
QiimeApp – Una plataforma web para análisis
metagenómicos (2016)
Autor: Víctor Juidías
Directores: Marcos Colebrook, José L. Roda
■ Objetivo: desarrollo de app para procesar y analizar datos
metagenómicos obtenidos por secuenciación masiva de ADN.
■ Esquema:
● Estado del arte
● Diseño y desarrollo de la app
● Resultados
■ Tecnologías: la app base es QIIME (Python), la cual permite
realizar análisis metagenómicos sobre comunidades microbianas.
20Jornadas #BigDataCanarias 21-22 diciembre 2016
$ split_libraries_fastq.py -i
lane1_read1.fastq.gz -b
lane1_barcode.fastq.gz
--rev_comp_mapping_barcodes -o
slout_q20/ -m map.txt -q 19
21. PFC: QuiimeApp (2)
21Jornadas #BigDataCanarias 21-22 diciembre 2016
■ Resultados interesantes:
■ Para + info: riull.ull.es/xmlui/handle/915/2614
22. TFG: Notebook de Jupyter para el
MinION (1)
Herramienta bioinformática usando Jupyter para el
secuenciador de ADN MinION (2016)
Autor: Héctor Rodríguez
Directores: Marcos Colebrook, José L. Roda
■ Objetivo: desarrollo de un notebook de Jupyter para trabajar con
el secuenciador MinION de Nanopore.
■ Esquema:
● Estado del arte
● Diseño y desarrollo de la solución
● Resultados
■ Tecnologías: Jupyter (IPython) y varias apps libres y abiertas
específicas del MinION.
22Jornadas #BigDataCanarias 21-22 diciembre 2016
23. TFG: Notebook de Jupyter para el
MinION (2)
23Jornadas #BigDataCanarias 21-22 diciembre 2016
■ Resultados interesantes:
■ Para + info: riull.ull.es/xmlui/handle/915/3089
24. TFG en NLP de textos legales
24Jornadas #BigDataCanarias 21-22 diciembre 2016
25. TFG: Extracción y visualización de
info legal (1)
Extracción y visualización de información de textos
legales (2015)
Autor: Francisco J. Rodríguez
Directores: Isabel Sánchez, Marcos Colebrook
■ Objetivo: visualización de info estructurada a partir de un corpus
de textos de jurisprudencia (CENDOJ) para obtener conclusiones
sobre las sentencias (fav. / desfav. / parcial) usando NLP.
■ Esquema:
● Desarrollo del proyecto
● Diseño e implementación
● Resultados
■ Tecnologías: Java, FreeLing, PDFBox, HTML+CSS+JavaScript,
D3.
25Jornadas #BigDataCanarias 21-22 diciembre 2016
26. TFG: Extracción y visualización de
info legal (2)
26Jornadas #BigDataCanarias 21-22 diciembre 2016
■ Resultados interesantes:
■ Para + info: riull.ull.es/xmlui/handle/915/845
27. ■ Desde 2014, se han propuesto y desarrollado varios PFC y
TFG en Big Data usando herramientas abiertas y de
software libre.
■ Son proyectos piloto o PoC (Proof of Concept) que nos
permiten adquirir know-how para proyectos más
complejos.
■ A partir de estos PFC/TFG, tenemos buena experiencia con
proyectos financiados/subvencionados con contratos
menores (<18K) que permiten contratar becarios al menos
12 meses.
■ Para ello, habrá que firmar un convenio (marco y específico)
de colaboración con ULL.Y la autorización para difundir los
resultados en forma de publicación científica (revista,
congreso, libro).
Conclusiones
27Jornadas #BigDataCanarias 21-22 diciembre 2016