SlideShare una empresa de Scribd logo
1 de 28
Descargar para leer sin conexión
Big Data: experiencias
(académicas) reales
Marcos Colebrook Santamaría
Carlos J. Pérez González
José L. Roda García
Jornadas #BigDataCanarias 21-22 diciembre 2016
Contenidos
■ Un poco de retrospectiva
■ Proyectos Fin de Carrera (PFC) y Trabajos Fin de Grado (TFG)
sobre Big Data:
● PFC: Hadoop + MapReduce (2014)
● TFG: Análisis de ficheros log de la WiFi-ULL (2015)
● TFG: Análisis de los incidentes del 1·1·2 (2016)
● TFG: Módulo BI para la plataforma X4Apps (2016)
● TFG: Despliegue de clúster Spark sobre Docker (2016)
■ PFC y TFG sobre Genómica:
● PFC: IonGAP (2014)
● TFG: QuiimeApp (2016)
● TFG: Notebook de Jupyter para el MinION (2016)
■ Otros proyectos relacionados:
● TFG: Extracción y visualización de info legal (2015)
■ ¿Preguntas?
2
Conclusiones:
■ Big Data: tecnología emergente,
pero verdadera oportunidad de
mercado.
■ Data Scientist/Engineer:
● Matemáticas+Estadística
● R, Python, Hadoop, Spark,
D3, Java, etc.
● Curiosidad
● Storytelling: comunicación
de resultados.
■ Tendencias:
● Visualización de datos
● Modelos predictivos
● Social Analytics
● Spark / Storm vs. Hadoop
Un poco de retrospectiva: 16-6-2014
3Jornadas #BigDataCanarias 21-22 diciembre 2016
PFC: Hadoop+MapReduce (1)
4Jornadas #BigDataCanarias 21-22 diciembre 2016
Procesando Big Data mediante MapReduce (2014)
Autores: Alejandro Tejera, Jaime Corrales
Directores: José L. Roda, Marcos Colebrook
■ Primer proyecto dirigido en ETSII y una primera
aproximación al tópico Big Data
■ Esquema:
● Introducción a Big Data
● Técnicas y algoritmos
● Hadoop y MapReduce
● Casos de estudio
■ Tecnología: Java y Hadoop 2 sobre los casi 200 PCs
del Centro de Cálculo ETSII.
PFC: Hadoop+MapReduce (2)
5Jornadas #BigDataCanarias 21-22 diciembre 2016
■ Resultados interesantes:
● Cálculo de la temperatura máxima de datos
meteorológicos: reducción del tiempo de cómputo
en un 90%.
● Análisis del weblog del Centro de Cálculo:
detección de IPs conflictivas.
● Búsqueda de duplicados en el registro de padrón:
comparando 106
registros (+detalles luego)
● Estudio estadístico del contexto: buenos resultados
con corpus de 4GB y solo 16 nodos.
TFG: Análisis de ficheros log de la
WiFi-ULL (1)
6Jornadas #BigDataCanarias 21-22 diciembre 2016
Análisis de ficheros log de la WiFi-ULL usando técnicas
de Big Data (2015)
Autor: Víctor Plaza
Directores: Marcos Colebrook, José L. Roda
■ Objetivo: dado un rango de fechas obtener tuplas
(Fecha, Hora, Acceso Campus Virtual, IP, MAC, Punto acceso, Coord. GPS)
■ Esquema:
● Estado del arte
● Problemática
● Fases y Desarrollo del proyecto
■ Tecnología: Python y Hadoop 2 sobre cluster de 5-7
nodos.
TFG: Análisis de ficheros log de la
WiFi-ULL (2)
7Jornadas #BigDataCanarias 21-22 diciembre 2016
■ Resultados interesantes: se pudieron relacionar
diferentes logs de los servidores, del DNS, de la WiFi,
del DHCP, y de la geolocalización de los edificios, en
base a un rango de fechas y horas, para obtener:
■ Para + info: riull.ull.es/xmlui/handle/915/1412
TFG: Análisis de ficheros log de la
WiFi-ULL (3)
8Jornadas #BigDataCanarias 21-22 diciembre 2016
TFG: Análisis de los incidentes del
1·1·2 (1)
Análisis de los incidentes del CECOES 1·1·2 utilizando
técnicas de Ciencia de los Datos (2016)
Autor: Teno González
Directores: Marcos Colebrook, Carlos J. Pérez
■ Objetivo: creación de una interfaz que muestra info
extraída de los 7 millones de registros (2005-2014)
como gráficas dinámicas o mapas.
■ Esquema:
● Estado del arte
● Problemática
● Fases y desarrollo del proyecto
■ Tecnología: R+Shiny y RStudio para el desarrollo.
9Jornadas #BigDataCanarias 21-22 diciembre 2016
TFG: Análisis de los incidentes del
1·1·2 (2)
10Jornadas #BigDataCanarias 21-22 diciembre 2016
■ Resultados interesantes: limpieza y carga optimizada de datos,
además de una web intuitiva (más detalles en la siguiente charla)
■ Para + info: riull.ull.es/xmlui/handle/915/2616
TFG: Módulo BI para plataforma
X4Apps (1)
Módulo de Inteligencia de Negocio para la plataforma
X4Apps (2016)
Autor: Sandro Chinea
Director: Marcos Colebrook
■ Objetivo: diseño de un módulo de BI para la
plataforma X4Apps de desarrollo para móviles.
■ Esquema:
● Estado del arte
● Desarrollo de la solución
■ Se analizaron tecnologías como MongoDB, Hadoop, y
Pentaho.
11Jornadas #BigDataCanarias 21-22 diciembre 2016
TFG: Módulo BI para plataforma
X4Apps (2)
12Jornadas #BigDataCanarias 21-22 diciembre 2016
■ Resultados interesantes:
TFG: Despliegue de clúster Spark
sobre Docker (1)
Despliegue de un clúster Spark sobre Docker para Big
Data (2016)
Autor: Sergio Martín
Directores: Marcos Colebrook, Carlos J. Pérez
■ Objetivo: desarrollo y despliegue de un cluster Spark
2.0.0 sobre Docker 1.12
■ Esquema:
● Análisis del problema
● Solución basada en Docker 1.11
● Solución basada en Docker 1.12
● Ejecución y benchmarks
13Jornadas #BigDataCanarias 21-22 diciembre 2016
TFG: Despliegue de clúster Spark
sobre Docker (2)
14Jornadas #BigDataCanarias 21-22 diciembre 2016
■ Resultados interesantes:
■ Para + info: riull.ull.es/xmlui/handle/915/3088
PFC y TFG en Bioinformática (1)
15Jornadas #BigDataCanarias 21-22 diciembre 2016
Fuente: www.genome.gov/sequencingcostsdata
PFC y TFG en Bioinformática (2)
16Jornadas #BigDataCanarias 21-22 diciembre 2016
PFC: IonGAP (1)
IonGAP – an Integrated Genome Assembly Platform for
Ion Torrent Data (2014)
Autor: Adrián Baez
Directores: Marcos Colebrook, José L. Roda
■ Objetivo: desarrollo de una web pública para el ensamblado de
genomas bacterianos y su análisis posterior.
■ Esquema:
● The genome assembler
● A genome assembly and analysis pipeline
● IonGAP web service
● Parallel assembly of large genomes
■ Tecnologías: Django, Apache Web Server,
HTML+CSS+JavaScript y apps libres para análisis genómico.
17Jornadas #BigDataCanarias 21-22 diciembre 2016
PFC: IonGAP (2)
18Jornadas #BigDataCanarias 21-22 diciembre 2016
■ Resultados interesantes:
PFC: IonGAP (3)
IonGAP: integrative bacterial genome analysis for Ion Torrent sequence data
(2015). A. Baez-Ortega, F. Lorenzo-Diaz, M. Hernandez, C.I. Gonzalez-Vila,
J.L. Roda-Garcia, M. Colebrook, C. Flores, Bioinformatics, 31(17).
iongap.hpc.iter.es
19Jornadas #BigDataCanarias 21-22 diciembre 2016
TFG: QuiimeApp (1)
QiimeApp – Una plataforma web para análisis
metagenómicos (2016)
Autor: Víctor Juidías
Directores: Marcos Colebrook, José L. Roda
■ Objetivo: desarrollo de app para procesar y analizar datos
metagenómicos obtenidos por secuenciación masiva de ADN.
■ Esquema:
● Estado del arte
● Diseño y desarrollo de la app
● Resultados
■ Tecnologías: la app base es QIIME (Python), la cual permite
realizar análisis metagenómicos sobre comunidades microbianas.
20Jornadas #BigDataCanarias 21-22 diciembre 2016
$ split_libraries_fastq.py -i
lane1_read1.fastq.gz -b
lane1_barcode.fastq.gz
--rev_comp_mapping_barcodes -o
slout_q20/ -m map.txt -q 19
PFC: QuiimeApp (2)
21Jornadas #BigDataCanarias 21-22 diciembre 2016
■ Resultados interesantes:
■ Para + info: riull.ull.es/xmlui/handle/915/2614
TFG: Notebook de Jupyter para el
MinION (1)
Herramienta bioinformática usando Jupyter para el
secuenciador de ADN MinION (2016)
Autor: Héctor Rodríguez
Directores: Marcos Colebrook, José L. Roda
■ Objetivo: desarrollo de un notebook de Jupyter para trabajar con
el secuenciador MinION de Nanopore.
■ Esquema:
● Estado del arte
● Diseño y desarrollo de la solución
● Resultados
■ Tecnologías: Jupyter (IPython) y varias apps libres y abiertas
específicas del MinION.
22Jornadas #BigDataCanarias 21-22 diciembre 2016
TFG: Notebook de Jupyter para el
MinION (2)
23Jornadas #BigDataCanarias 21-22 diciembre 2016
■ Resultados interesantes:
■ Para + info: riull.ull.es/xmlui/handle/915/3089
TFG en NLP de textos legales
24Jornadas #BigDataCanarias 21-22 diciembre 2016
TFG: Extracción y visualización de
info legal (1)
Extracción y visualización de información de textos
legales (2015)
Autor: Francisco J. Rodríguez
Directores: Isabel Sánchez, Marcos Colebrook
■ Objetivo: visualización de info estructurada a partir de un corpus
de textos de jurisprudencia (CENDOJ) para obtener conclusiones
sobre las sentencias (fav. / desfav. / parcial) usando NLP.
■ Esquema:
● Desarrollo del proyecto
● Diseño e implementación
● Resultados
■ Tecnologías: Java, FreeLing, PDFBox, HTML+CSS+JavaScript,
D3.
25Jornadas #BigDataCanarias 21-22 diciembre 2016
TFG: Extracción y visualización de
info legal (2)
26Jornadas #BigDataCanarias 21-22 diciembre 2016
■ Resultados interesantes:
■ Para + info: riull.ull.es/xmlui/handle/915/845
■ Desde 2014, se han propuesto y desarrollado varios PFC y
TFG en Big Data usando herramientas abiertas y de
software libre.
■ Son proyectos piloto o PoC (Proof of Concept) que nos
permiten adquirir know-how para proyectos más
complejos.
■ A partir de estos PFC/TFG, tenemos buena experiencia con
proyectos financiados/subvencionados con contratos
menores (<18K) que permiten contratar becarios al menos
12 meses.
■ Para ello, habrá que firmar un convenio (marco y específico)
de colaboración con ULL.Y la autorización para difundir los
resultados en forma de publicación científica (revista,
congreso, libro).
Conclusiones
27Jornadas #BigDataCanarias 21-22 diciembre 2016
¡¡ GRACIAS !!
¿Preguntas?
28Jornadas #BigDataCanarias 21-22 diciembre 2016

Más contenido relacionado

Similar a Experiencias académicas Big Data ULL

2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigData2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigDataKEEDIO
 
Inteligencia del dato aplicada al negocio de las telecomunicaciones - LibreCo...
Inteligencia del dato aplicada al negocio de las telecomunicaciones - LibreCo...Inteligencia del dato aplicada al negocio de las telecomunicaciones - LibreCo...
Inteligencia del dato aplicada al negocio de las telecomunicaciones - LibreCo...LibreCon
 
Jornadas data science Centic Info 2017
Jornadas data science Centic Info 2017Jornadas data science Centic Info 2017
Jornadas data science Centic Info 2017Manuel Garrido Peña
 
Software Libre y de Código Abierto y los Sistemas de Información Geográfica A...
Software Libre y de Código Abierto y los Sistemas de Información Geográfica A...Software Libre y de Código Abierto y los Sistemas de Información Geográfica A...
Software Libre y de Código Abierto y los Sistemas de Información Geográfica A...Carlos Gabriel Asato
 
Geomática Libre en Venezuela - Presentación a José Sosa (CNTI)
Geomática Libre en Venezuela - Presentación a José Sosa (CNTI)Geomática Libre en Venezuela - Presentación a José Sosa (CNTI)
Geomática Libre en Venezuela - Presentación a José Sosa (CNTI)Carlos Gustavo Ruiz
 
Panorama del ecosistema de software libre GIS 2009
Panorama del ecosistema de software libre GIS 2009Panorama del ecosistema de software libre GIS 2009
Panorama del ecosistema de software libre GIS 2009Miguel Montesinos
 
Hackahton smart cities 2016 (Mayo 2016)
Hackahton smart cities 2016 (Mayo 2016)Hackahton smart cities 2016 (Mayo 2016)
Hackahton smart cities 2016 (Mayo 2016)Pablo García Sánchez
 
#Conversatorio - Datos, datos abiertos y big data: después del proyecto LEARN...
#Conversatorio - Datos, datos abiertos y big data: después del proyecto LEARN...#Conversatorio - Datos, datos abiertos y big data: después del proyecto LEARN...
#Conversatorio - Datos, datos abiertos y big data: después del proyecto LEARN...Aprender 3C
 
12 integración de la solución de gestión documental opensource en la empresa ...
12 integración de la solución de gestión documental opensource en la empresa ...12 integración de la solución de gestión documental opensource en la empresa ...
12 integración de la solución de gestión documental opensource en la empresa ...Neurowork
 
Piacere presentation in Databeers
Piacere presentation in DatabeersPiacere presentation in Databeers
Piacere presentation in DatabeersPIACERE
 
Descubriendo el poder de la Ciencia de Datos.pdf
Descubriendo el poder de la Ciencia de Datos.pdfDescubriendo el poder de la Ciencia de Datos.pdf
Descubriendo el poder de la Ciencia de Datos.pdfCarlos Fuentes
 
03 Infraestructura Caja Guadalajara Neurowork Why Floss
03   Infraestructura Caja Guadalajara   Neurowork   Why Floss03   Infraestructura Caja Guadalajara   Neurowork   Why Floss
03 Infraestructura Caja Guadalajara Neurowork Why FlossNeurowork
 
Big Data in Smart Port
Big Data in Smart PortBig Data in Smart Port
Big Data in Smart PortGIS_ULPGC
 
Amazon y genexus lecciones aprendidas
Amazon y genexus lecciones aprendidasAmazon y genexus lecciones aprendidas
Amazon y genexus lecciones aprendidasGeneXus
 
Amazon y GeneXus: Lecciones Aprendidas
Amazon y GeneXus: Lecciones AprendidasAmazon y GeneXus: Lecciones Aprendidas
Amazon y GeneXus: Lecciones AprendidasGeneXus
 
Presentación programas de Inteligencia de negocio y Big data_UOCssió_setemb...
Presentación programas de Inteligencia de negocio y Big data_UOCssió_setemb...Presentación programas de Inteligencia de negocio y Big data_UOCssió_setemb...
Presentación programas de Inteligencia de negocio y Big data_UOCssió_setemb...Pepi Pedrero Rojo
 
gvSIG Suite aplicada a seguridad, emergencias y protección civil
gvSIG Suite aplicada a seguridad, emergencias y protección civilgvSIG Suite aplicada a seguridad, emergencias y protección civil
gvSIG Suite aplicada a seguridad, emergencias y protección civilAlvaro Anguix
 

Similar a Experiencias académicas Big Data ULL (20)

2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigData2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigData
 
Presentacion Máster universitario en Ciencia de datos
Presentacion Máster universitario en Ciencia de datosPresentacion Máster universitario en Ciencia de datos
Presentacion Máster universitario en Ciencia de datos
 
Inteligencia del dato aplicada al negocio de las telecomunicaciones - LibreCo...
Inteligencia del dato aplicada al negocio de las telecomunicaciones - LibreCo...Inteligencia del dato aplicada al negocio de las telecomunicaciones - LibreCo...
Inteligencia del dato aplicada al negocio de las telecomunicaciones - LibreCo...
 
Jornadas data science Centic Info 2017
Jornadas data science Centic Info 2017Jornadas data science Centic Info 2017
Jornadas data science Centic Info 2017
 
Software Libre y de Código Abierto y los Sistemas de Información Geográfica A...
Software Libre y de Código Abierto y los Sistemas de Información Geográfica A...Software Libre y de Código Abierto y los Sistemas de Información Geográfica A...
Software Libre y de Código Abierto y los Sistemas de Información Geográfica A...
 
Presentacion3
Presentacion3Presentacion3
Presentacion3
 
Geomática Libre en Venezuela - Presentación a José Sosa (CNTI)
Geomática Libre en Venezuela - Presentación a José Sosa (CNTI)Geomática Libre en Venezuela - Presentación a José Sosa (CNTI)
Geomática Libre en Venezuela - Presentación a José Sosa (CNTI)
 
Panorama del ecosistema de software libre GIS 2009
Panorama del ecosistema de software libre GIS 2009Panorama del ecosistema de software libre GIS 2009
Panorama del ecosistema de software libre GIS 2009
 
Hackahton smart cities 2016 (Mayo 2016)
Hackahton smart cities 2016 (Mayo 2016)Hackahton smart cities 2016 (Mayo 2016)
Hackahton smart cities 2016 (Mayo 2016)
 
#Conversatorio - Datos, datos abiertos y big data: después del proyecto LEARN...
#Conversatorio - Datos, datos abiertos y big data: después del proyecto LEARN...#Conversatorio - Datos, datos abiertos y big data: después del proyecto LEARN...
#Conversatorio - Datos, datos abiertos y big data: después del proyecto LEARN...
 
12 integración de la solución de gestión documental opensource en la empresa ...
12 integración de la solución de gestión documental opensource en la empresa ...12 integración de la solución de gestión documental opensource en la empresa ...
12 integración de la solución de gestión documental opensource en la empresa ...
 
Piacere presentation in Databeers
Piacere presentation in DatabeersPiacere presentation in Databeers
Piacere presentation in Databeers
 
Descubriendo el poder de la Ciencia de Datos.pdf
Descubriendo el poder de la Ciencia de Datos.pdfDescubriendo el poder de la Ciencia de Datos.pdf
Descubriendo el poder de la Ciencia de Datos.pdf
 
03 Infraestructura Caja Guadalajara Neurowork Why Floss
03   Infraestructura Caja Guadalajara   Neurowork   Why Floss03   Infraestructura Caja Guadalajara   Neurowork   Why Floss
03 Infraestructura Caja Guadalajara Neurowork Why Floss
 
Big Data in Smart Port
Big Data in Smart PortBig Data in Smart Port
Big Data in Smart Port
 
Amazon y genexus lecciones aprendidas
Amazon y genexus lecciones aprendidasAmazon y genexus lecciones aprendidas
Amazon y genexus lecciones aprendidas
 
Amazon y GeneXus: Lecciones Aprendidas
Amazon y GeneXus: Lecciones AprendidasAmazon y GeneXus: Lecciones Aprendidas
Amazon y GeneXus: Lecciones Aprendidas
 
Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Taller de Big Data y Ciencia de Datos en COLMEX dia 1 Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Taller de Big Data y Ciencia de Datos en COLMEX dia 1
 
Presentación programas de Inteligencia de negocio y Big data_UOCssió_setemb...
Presentación programas de Inteligencia de negocio y Big data_UOCssió_setemb...Presentación programas de Inteligencia de negocio y Big data_UOCssió_setemb...
Presentación programas de Inteligencia de negocio y Big data_UOCssió_setemb...
 
gvSIG Suite aplicada a seguridad, emergencias y protección civil
gvSIG Suite aplicada a seguridad, emergencias y protección civilgvSIG Suite aplicada a seguridad, emergencias y protección civil
gvSIG Suite aplicada a seguridad, emergencias y protección civil
 

Experiencias académicas Big Data ULL

  • 1. Big Data: experiencias (académicas) reales Marcos Colebrook Santamaría Carlos J. Pérez González José L. Roda García Jornadas #BigDataCanarias 21-22 diciembre 2016
  • 2. Contenidos ■ Un poco de retrospectiva ■ Proyectos Fin de Carrera (PFC) y Trabajos Fin de Grado (TFG) sobre Big Data: ● PFC: Hadoop + MapReduce (2014) ● TFG: Análisis de ficheros log de la WiFi-ULL (2015) ● TFG: Análisis de los incidentes del 1·1·2 (2016) ● TFG: Módulo BI para la plataforma X4Apps (2016) ● TFG: Despliegue de clúster Spark sobre Docker (2016) ■ PFC y TFG sobre Genómica: ● PFC: IonGAP (2014) ● TFG: QuiimeApp (2016) ● TFG: Notebook de Jupyter para el MinION (2016) ■ Otros proyectos relacionados: ● TFG: Extracción y visualización de info legal (2015) ■ ¿Preguntas? 2
  • 3. Conclusiones: ■ Big Data: tecnología emergente, pero verdadera oportunidad de mercado. ■ Data Scientist/Engineer: ● Matemáticas+Estadística ● R, Python, Hadoop, Spark, D3, Java, etc. ● Curiosidad ● Storytelling: comunicación de resultados. ■ Tendencias: ● Visualización de datos ● Modelos predictivos ● Social Analytics ● Spark / Storm vs. Hadoop Un poco de retrospectiva: 16-6-2014 3Jornadas #BigDataCanarias 21-22 diciembre 2016
  • 4. PFC: Hadoop+MapReduce (1) 4Jornadas #BigDataCanarias 21-22 diciembre 2016 Procesando Big Data mediante MapReduce (2014) Autores: Alejandro Tejera, Jaime Corrales Directores: José L. Roda, Marcos Colebrook ■ Primer proyecto dirigido en ETSII y una primera aproximación al tópico Big Data ■ Esquema: ● Introducción a Big Data ● Técnicas y algoritmos ● Hadoop y MapReduce ● Casos de estudio ■ Tecnología: Java y Hadoop 2 sobre los casi 200 PCs del Centro de Cálculo ETSII.
  • 5. PFC: Hadoop+MapReduce (2) 5Jornadas #BigDataCanarias 21-22 diciembre 2016 ■ Resultados interesantes: ● Cálculo de la temperatura máxima de datos meteorológicos: reducción del tiempo de cómputo en un 90%. ● Análisis del weblog del Centro de Cálculo: detección de IPs conflictivas. ● Búsqueda de duplicados en el registro de padrón: comparando 106 registros (+detalles luego) ● Estudio estadístico del contexto: buenos resultados con corpus de 4GB y solo 16 nodos.
  • 6. TFG: Análisis de ficheros log de la WiFi-ULL (1) 6Jornadas #BigDataCanarias 21-22 diciembre 2016 Análisis de ficheros log de la WiFi-ULL usando técnicas de Big Data (2015) Autor: Víctor Plaza Directores: Marcos Colebrook, José L. Roda ■ Objetivo: dado un rango de fechas obtener tuplas (Fecha, Hora, Acceso Campus Virtual, IP, MAC, Punto acceso, Coord. GPS) ■ Esquema: ● Estado del arte ● Problemática ● Fases y Desarrollo del proyecto ■ Tecnología: Python y Hadoop 2 sobre cluster de 5-7 nodos.
  • 7. TFG: Análisis de ficheros log de la WiFi-ULL (2) 7Jornadas #BigDataCanarias 21-22 diciembre 2016 ■ Resultados interesantes: se pudieron relacionar diferentes logs de los servidores, del DNS, de la WiFi, del DHCP, y de la geolocalización de los edificios, en base a un rango de fechas y horas, para obtener: ■ Para + info: riull.ull.es/xmlui/handle/915/1412
  • 8. TFG: Análisis de ficheros log de la WiFi-ULL (3) 8Jornadas #BigDataCanarias 21-22 diciembre 2016
  • 9. TFG: Análisis de los incidentes del 1·1·2 (1) Análisis de los incidentes del CECOES 1·1·2 utilizando técnicas de Ciencia de los Datos (2016) Autor: Teno González Directores: Marcos Colebrook, Carlos J. Pérez ■ Objetivo: creación de una interfaz que muestra info extraída de los 7 millones de registros (2005-2014) como gráficas dinámicas o mapas. ■ Esquema: ● Estado del arte ● Problemática ● Fases y desarrollo del proyecto ■ Tecnología: R+Shiny y RStudio para el desarrollo. 9Jornadas #BigDataCanarias 21-22 diciembre 2016
  • 10. TFG: Análisis de los incidentes del 1·1·2 (2) 10Jornadas #BigDataCanarias 21-22 diciembre 2016 ■ Resultados interesantes: limpieza y carga optimizada de datos, además de una web intuitiva (más detalles en la siguiente charla) ■ Para + info: riull.ull.es/xmlui/handle/915/2616
  • 11. TFG: Módulo BI para plataforma X4Apps (1) Módulo de Inteligencia de Negocio para la plataforma X4Apps (2016) Autor: Sandro Chinea Director: Marcos Colebrook ■ Objetivo: diseño de un módulo de BI para la plataforma X4Apps de desarrollo para móviles. ■ Esquema: ● Estado del arte ● Desarrollo de la solución ■ Se analizaron tecnologías como MongoDB, Hadoop, y Pentaho. 11Jornadas #BigDataCanarias 21-22 diciembre 2016
  • 12. TFG: Módulo BI para plataforma X4Apps (2) 12Jornadas #BigDataCanarias 21-22 diciembre 2016 ■ Resultados interesantes:
  • 13. TFG: Despliegue de clúster Spark sobre Docker (1) Despliegue de un clúster Spark sobre Docker para Big Data (2016) Autor: Sergio Martín Directores: Marcos Colebrook, Carlos J. Pérez ■ Objetivo: desarrollo y despliegue de un cluster Spark 2.0.0 sobre Docker 1.12 ■ Esquema: ● Análisis del problema ● Solución basada en Docker 1.11 ● Solución basada en Docker 1.12 ● Ejecución y benchmarks 13Jornadas #BigDataCanarias 21-22 diciembre 2016
  • 14. TFG: Despliegue de clúster Spark sobre Docker (2) 14Jornadas #BigDataCanarias 21-22 diciembre 2016 ■ Resultados interesantes: ■ Para + info: riull.ull.es/xmlui/handle/915/3088
  • 15. PFC y TFG en Bioinformática (1) 15Jornadas #BigDataCanarias 21-22 diciembre 2016 Fuente: www.genome.gov/sequencingcostsdata
  • 16. PFC y TFG en Bioinformática (2) 16Jornadas #BigDataCanarias 21-22 diciembre 2016
  • 17. PFC: IonGAP (1) IonGAP – an Integrated Genome Assembly Platform for Ion Torrent Data (2014) Autor: Adrián Baez Directores: Marcos Colebrook, José L. Roda ■ Objetivo: desarrollo de una web pública para el ensamblado de genomas bacterianos y su análisis posterior. ■ Esquema: ● The genome assembler ● A genome assembly and analysis pipeline ● IonGAP web service ● Parallel assembly of large genomes ■ Tecnologías: Django, Apache Web Server, HTML+CSS+JavaScript y apps libres para análisis genómico. 17Jornadas #BigDataCanarias 21-22 diciembre 2016
  • 18. PFC: IonGAP (2) 18Jornadas #BigDataCanarias 21-22 diciembre 2016 ■ Resultados interesantes:
  • 19. PFC: IonGAP (3) IonGAP: integrative bacterial genome analysis for Ion Torrent sequence data (2015). A. Baez-Ortega, F. Lorenzo-Diaz, M. Hernandez, C.I. Gonzalez-Vila, J.L. Roda-Garcia, M. Colebrook, C. Flores, Bioinformatics, 31(17). iongap.hpc.iter.es 19Jornadas #BigDataCanarias 21-22 diciembre 2016
  • 20. TFG: QuiimeApp (1) QiimeApp – Una plataforma web para análisis metagenómicos (2016) Autor: Víctor Juidías Directores: Marcos Colebrook, José L. Roda ■ Objetivo: desarrollo de app para procesar y analizar datos metagenómicos obtenidos por secuenciación masiva de ADN. ■ Esquema: ● Estado del arte ● Diseño y desarrollo de la app ● Resultados ■ Tecnologías: la app base es QIIME (Python), la cual permite realizar análisis metagenómicos sobre comunidades microbianas. 20Jornadas #BigDataCanarias 21-22 diciembre 2016 $ split_libraries_fastq.py -i lane1_read1.fastq.gz -b lane1_barcode.fastq.gz --rev_comp_mapping_barcodes -o slout_q20/ -m map.txt -q 19
  • 21. PFC: QuiimeApp (2) 21Jornadas #BigDataCanarias 21-22 diciembre 2016 ■ Resultados interesantes: ■ Para + info: riull.ull.es/xmlui/handle/915/2614
  • 22. TFG: Notebook de Jupyter para el MinION (1) Herramienta bioinformática usando Jupyter para el secuenciador de ADN MinION (2016) Autor: Héctor Rodríguez Directores: Marcos Colebrook, José L. Roda ■ Objetivo: desarrollo de un notebook de Jupyter para trabajar con el secuenciador MinION de Nanopore. ■ Esquema: ● Estado del arte ● Diseño y desarrollo de la solución ● Resultados ■ Tecnologías: Jupyter (IPython) y varias apps libres y abiertas específicas del MinION. 22Jornadas #BigDataCanarias 21-22 diciembre 2016
  • 23. TFG: Notebook de Jupyter para el MinION (2) 23Jornadas #BigDataCanarias 21-22 diciembre 2016 ■ Resultados interesantes: ■ Para + info: riull.ull.es/xmlui/handle/915/3089
  • 24. TFG en NLP de textos legales 24Jornadas #BigDataCanarias 21-22 diciembre 2016
  • 25. TFG: Extracción y visualización de info legal (1) Extracción y visualización de información de textos legales (2015) Autor: Francisco J. Rodríguez Directores: Isabel Sánchez, Marcos Colebrook ■ Objetivo: visualización de info estructurada a partir de un corpus de textos de jurisprudencia (CENDOJ) para obtener conclusiones sobre las sentencias (fav. / desfav. / parcial) usando NLP. ■ Esquema: ● Desarrollo del proyecto ● Diseño e implementación ● Resultados ■ Tecnologías: Java, FreeLing, PDFBox, HTML+CSS+JavaScript, D3. 25Jornadas #BigDataCanarias 21-22 diciembre 2016
  • 26. TFG: Extracción y visualización de info legal (2) 26Jornadas #BigDataCanarias 21-22 diciembre 2016 ■ Resultados interesantes: ■ Para + info: riull.ull.es/xmlui/handle/915/845
  • 27. ■ Desde 2014, se han propuesto y desarrollado varios PFC y TFG en Big Data usando herramientas abiertas y de software libre. ■ Son proyectos piloto o PoC (Proof of Concept) que nos permiten adquirir know-how para proyectos más complejos. ■ A partir de estos PFC/TFG, tenemos buena experiencia con proyectos financiados/subvencionados con contratos menores (<18K) que permiten contratar becarios al menos 12 meses. ■ Para ello, habrá que firmar un convenio (marco y específico) de colaboración con ULL.Y la autorización para difundir los resultados en forma de publicación científica (revista, congreso, libro). Conclusiones 27Jornadas #BigDataCanarias 21-22 diciembre 2016
  • 28. ¡¡ GRACIAS !! ¿Preguntas? 28Jornadas #BigDataCanarias 21-22 diciembre 2016