SlideShare una empresa de Scribd logo
1 de 17
Descargar para leer sin conexión
Hadoop y algoritmos MapReduce de
paralelización aplicados a genotipado de
secuencias nucleotídicas
Cristian	Pérez García
Miguel	González	Acera
MSc.	Bioinformatics 2015/16
1. MapReduce
• Algoritmo
• Framework: Hadoop
• Ejemplos
2. Aplicaciones
• Genotipado en NGS
• Alineamiento múltiple de secuencias
• Otros
1
Big	Data
• Exoma	->	10Gb	de	datos
• Genoma	->	cerca	de	1	TB	de	datos
Búsquedas en	google	desde	2005	del	término	Bioinformatics contra	Big	Data
Introducción
2
Creado	por	Google	para	el	procesamiento	de	grandes	cantidades	de	
datos.
• Procesamiento	de	grandes	cantidades	de	datos
• Paralelización y	ejecución	automática	de	los	procesos	en	
grandes	clústeres	de	ordenadores.
1. MapReduce
3
• Input
• Map Function: procesa	un	fichero	
como	valores	key/value para	devolver	un	
nuevo	set	de	datos	como	key/value.
• Shuffle & sort: Ordena los datos y
manda los de misma key al mismo
nodo.
• Reduce function: une	todos	los	valores	
intermedios	con	la	misma	key.
• Output
1.1. Algoritmo MapReduce
4
HDFS (Hadoop Distributed File System)
• Escalable
• Distribuido
Los datos se encuentran distribuidos de
manera redundante 2x o 3x entre los distintos
nodos del clúster (algo parecido al sistema RAID)
1.2. Hadoop
5
1.3. Ejemplos
6
<					,	26>
<					,	11>
<					,	11>
<					,	4>
7
NODE	1 NODE	2
8
NODE	1 NODE	2
<					,	11><					,	20>
<					,	9>
<					,	12> <					,	10>
<					,	2> <					,	6>
1.3. Ejemplos: Mapping
9
NODE	1 NODE	2
<					,	12>
<					,	20> <					,	11>
<					,	6>
<					,	10>
<					,	2>
<					,	9>
<					,	32><					,	17> <					,	10> <					,	11>
1.3. Ejemplos: Shuffle and Sort1.3. Ejemplos: Reduce
10
<					,	32> <					,	17>
<					,	10> <					,	11>
1.3. Ejemplos: Output
11
Gran cantidad de datos, sobre todo en genoma
• Procesos altamente paralelizables
• Posibilidad de aplicar MapReduce para resolver este problema
• Mapeo de reads en NGS
• Alineamiento múltiple de secuencias
2. Aplicaciones
12
2.1. Aplicaciones: Mapeo de Reads en NGS
13
• Permutaciones de secuencias
• Alineamiento con Needleman-Wunsch de dos
secuencias
• Alineamiento de una tercera con las secuencias ya
alineadas
• Reducir
• Repetir
2.2. Aplicaciones: Alineamiento Múltiple de Secuencias
14
• Obtención de la distancia Robinson-Foulds de
diferencias topológicas entre t árboles filogenéticos
• Paralelización de algoritmos de Machine Learning
2.3. Aplicaciones: Otras aplicaciones
15
Gracias por vuestra atención

Más contenido relacionado

Destacado (9)

La hipoteca y la prenda infografia
La hipoteca y la prenda infografiaLa hipoteca y la prenda infografia
La hipoteca y la prenda infografia
 
широкая масленица!
широкая масленица!широкая масленица!
широкая масленица!
 
Presentacion jbi
Presentacion jbiPresentacion jbi
Presentacion jbi
 
день смеха
день смехадень смеха
день смеха
 
General Resume
General ResumeGeneral Resume
General Resume
 
CV
CVCV
CV
 
газета с днем рожденья, родничок!
газета с днем рожденья, родничок!газета с днем рожденья, родничок!
газета с днем рожденья, родничок!
 
EventTech 2015: Connecting With Superfans
EventTech 2015: Connecting With SuperfansEventTech 2015: Connecting With Superfans
EventTech 2015: Connecting With Superfans
 
день семьи 1
день семьи   1день семьи   1
день семьи 1
 

Similar a MapReduce for Bioinformatics

Big data Jornada Fundación Ramón Areces
Big data Jornada Fundación Ramón ArecesBig data Jornada Fundación Ramón Areces
Big data Jornada Fundación Ramón Areces
Joaquín Salvachúa
 

Similar a MapReduce for Bioinformatics (20)

Diseño de Algoritmos Paralelos.pdf
Diseño de Algoritmos Paralelos.pdfDiseño de Algoritmos Paralelos.pdf
Diseño de Algoritmos Paralelos.pdf
 
01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf
 
Hadoop en accion
Hadoop en accionHadoop en accion
Hadoop en accion
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión I
 
Paralela9
Paralela9Paralela9
Paralela9
 
Programación Disribuida
Programación DisribuidaProgramación Disribuida
Programación Disribuida
 
Big data Jornada Fundación Ramón Areces
Big data Jornada Fundación Ramón ArecesBig data Jornada Fundación Ramón Areces
Big data Jornada Fundación Ramón Areces
 
Un universo de datos. El fenómeno Big Data y la Ciencia
Un universo de datos. El fenómeno Big Data y la CienciaUn universo de datos. El fenómeno Big Data y la Ciencia
Un universo de datos. El fenómeno Big Data y la Ciencia
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
 
69 claves para conocer Big Data
69 claves para conocer Big Data69 claves para conocer Big Data
69 claves para conocer Big Data
 
Big Data Mining with Mahout
Big Data Mining with MahoutBig Data Mining with Mahout
Big Data Mining with Mahout
 
Manual Base Datos
Manual Base DatosManual Base Datos
Manual Base Datos
 
BigData 101 / Cursillo (Parte2)
BigData 101 / Cursillo (Parte2)BigData 101 / Cursillo (Parte2)
BigData 101 / Cursillo (Parte2)
 
An evening with... Apache hadoop Meetup
An evening with...  Apache hadoop MeetupAn evening with...  Apache hadoop Meetup
An evening with... Apache hadoop Meetup
 
BigData
BigDataBigData
BigData
 
G te c sesion3b- mapreduce
G te c sesion3b- mapreduceG te c sesion3b- mapreduce
G te c sesion3b- mapreduce
 
Introducción al procesamiento del Big Data
Introducción al procesamiento del Big DataIntroducción al procesamiento del Big Data
Introducción al procesamiento del Big Data
 
Cluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura LambdaCluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura Lambda
 
Actividad 14: Diseño de Algoritmos Paralelos
Actividad 14: Diseño de Algoritmos ParalelosActividad 14: Diseño de Algoritmos Paralelos
Actividad 14: Diseño de Algoritmos Paralelos
 
Aplicaciones Difusas Map Reduce
Aplicaciones Difusas Map ReduceAplicaciones Difusas Map Reduce
Aplicaciones Difusas Map Reduce
 

Último

Soporte vital basico maniobras de soporte vital basico
Soporte vital basico maniobras de soporte vital basicoSoporte vital basico maniobras de soporte vital basico
Soporte vital basico maniobras de soporte vital basico
NAYDA JIMENEZ
 
Derivadas- sus aplicaciones en la vida cotidiana
Derivadas- sus aplicaciones en la vida cotidianaDerivadas- sus aplicaciones en la vida cotidiana
Derivadas- sus aplicaciones en la vida cotidiana
pabv24
 
DILATADORES ESOFAGICOS estenosis benignas (1).pptx
DILATADORES ESOFAGICOS estenosis benignas (1).pptxDILATADORES ESOFAGICOS estenosis benignas (1).pptx
DILATADORES ESOFAGICOS estenosis benignas (1).pptx
GabyCrespo6
 

Último (20)

Origen y evolución del hombre, teorías..
Origen y evolución del hombre, teorías..Origen y evolución del hombre, teorías..
Origen y evolución del hombre, teorías..
 
Pelos y fibras. Criminalistica pelos y fibras
Pelos y fibras. Criminalistica pelos y fibrasPelos y fibras. Criminalistica pelos y fibras
Pelos y fibras. Criminalistica pelos y fibras
 
Antequera, L. - Historia desconocida del descubrimiento de América [2021].pdf
Antequera, L. - Historia desconocida del descubrimiento de América [2021].pdfAntequera, L. - Historia desconocida del descubrimiento de América [2021].pdf
Antequera, L. - Historia desconocida del descubrimiento de América [2021].pdf
 
PRESENTACION PRE-DEFENSA PROYECTO I.pptx
PRESENTACION PRE-DEFENSA PROYECTO I.pptxPRESENTACION PRE-DEFENSA PROYECTO I.pptx
PRESENTACION PRE-DEFENSA PROYECTO I.pptx
 
REINO FUNGI: CONCEPTO, CARACTERISTICAS, ETC
REINO FUNGI: CONCEPTO, CARACTERISTICAS, ETCREINO FUNGI: CONCEPTO, CARACTERISTICAS, ETC
REINO FUNGI: CONCEPTO, CARACTERISTICAS, ETC
 
Soporte vital basico maniobras de soporte vital basico
Soporte vital basico maniobras de soporte vital basicoSoporte vital basico maniobras de soporte vital basico
Soporte vital basico maniobras de soporte vital basico
 
Musculos Paraproteticos, protesis, musculos
Musculos Paraproteticos, protesis, musculosMusculos Paraproteticos, protesis, musculos
Musculos Paraproteticos, protesis, musculos
 
ATENCIÓN DEL TRABAJO DE PARTO, GINECOLOGIA Y OBSTETRICIA
ATENCIÓN DEL TRABAJO DE PARTO, GINECOLOGIA Y OBSTETRICIAATENCIÓN DEL TRABAJO DE PARTO, GINECOLOGIA Y OBSTETRICIA
ATENCIÓN DEL TRABAJO DE PARTO, GINECOLOGIA Y OBSTETRICIA
 
Derivadas- sus aplicaciones en la vida cotidiana
Derivadas- sus aplicaciones en la vida cotidianaDerivadas- sus aplicaciones en la vida cotidiana
Derivadas- sus aplicaciones en la vida cotidiana
 
Mapa-conceptual-de-la-Seguridad-y-Salud-en-el-Trabajo-3.pptx
Mapa-conceptual-de-la-Seguridad-y-Salud-en-el-Trabajo-3.pptxMapa-conceptual-de-la-Seguridad-y-Salud-en-el-Trabajo-3.pptx
Mapa-conceptual-de-la-Seguridad-y-Salud-en-el-Trabajo-3.pptx
 
Mapa Conceptual Modelos de Comunicación .pdf
Mapa Conceptual Modelos de Comunicación .pdfMapa Conceptual Modelos de Comunicación .pdf
Mapa Conceptual Modelos de Comunicación .pdf
 
1890 –7 de junio - Henry Marmaduke Harris obtuvo una patente británica (Nº 88...
1890 –7 de junio - Henry Marmaduke Harris obtuvo una patente británica (Nº 88...1890 –7 de junio - Henry Marmaduke Harris obtuvo una patente británica (Nº 88...
1890 –7 de junio - Henry Marmaduke Harris obtuvo una patente británica (Nº 88...
 
desequilibrio acido baseEE Y TEORIA ACIDO BASICO DE STEWART
desequilibrio acido baseEE Y TEORIA ACIDO BASICO DE STEWARTdesequilibrio acido baseEE Y TEORIA ACIDO BASICO DE STEWART
desequilibrio acido baseEE Y TEORIA ACIDO BASICO DE STEWART
 
Matemáticas Aplicadas usando Python
Matemáticas Aplicadas   usando    PythonMatemáticas Aplicadas   usando    Python
Matemáticas Aplicadas usando Python
 
Glaeser, E. - El triunfo de las ciudades [2011].pdf
Glaeser, E. - El triunfo de las ciudades [2011].pdfGlaeser, E. - El triunfo de las ciudades [2011].pdf
Glaeser, E. - El triunfo de las ciudades [2011].pdf
 
PRUEBA CALIFICADA 4º sec biomoleculas y bioelementos .docx
PRUEBA CALIFICADA 4º sec biomoleculas y bioelementos .docxPRUEBA CALIFICADA 4º sec biomoleculas y bioelementos .docx
PRUEBA CALIFICADA 4º sec biomoleculas y bioelementos .docx
 
El Gran Atractor, la misteriosa fuerza que está halando a la Vía Láctea.pptx
El Gran Atractor, la misteriosa fuerza que está halando a la Vía Láctea.pptxEl Gran Atractor, la misteriosa fuerza que está halando a la Vía Láctea.pptx
El Gran Atractor, la misteriosa fuerza que está halando a la Vía Láctea.pptx
 
Estructura, propiedades, usos y reacciones del benceno.pptx
Estructura, propiedades, usos y reacciones del benceno.pptxEstructura, propiedades, usos y reacciones del benceno.pptx
Estructura, propiedades, usos y reacciones del benceno.pptx
 
Homo Ergaster. Evolución y datos del hominido
Homo Ergaster. Evolución y datos del hominidoHomo Ergaster. Evolución y datos del hominido
Homo Ergaster. Evolución y datos del hominido
 
DILATADORES ESOFAGICOS estenosis benignas (1).pptx
DILATADORES ESOFAGICOS estenosis benignas (1).pptxDILATADORES ESOFAGICOS estenosis benignas (1).pptx
DILATADORES ESOFAGICOS estenosis benignas (1).pptx
 

MapReduce for Bioinformatics