MapReduce for Bioinformatics

Hadoop y algoritmos MapReduce de
paralelización aplicados a genotipado de
secuencias nucleotídicas
Cristian Pérez García
Miguel González Acera
MSc. Bioinformatics 2015/16

1. MapReduce
• Algoritmo
• Framework: Hadoop
• Ejemplos
2. Aplicaciones
• Genotipado en NGS
• Alineamiento múltiple de secuencias
• Otros
1

Big Data
• Exoma -> 10Gb de datos
• Genoma -> cerca de 1 TB de datos
Búsquedas en google desde 2005 del término Bioinformatics contra Big Data
Introducción
2

Creado por Google para el procesamiento de grandes cantidades de
datos.
• Procesamiento de grandes cantidades de datos
• Paralelización y ejecución automática de los procesos en
grandes clústeres de ordenadores.
1. MapReduce
3

• Input
• Map Function: procesa un fichero
como valores key/value para devolver un
nuevo set de datos como key/value.
• Shuffle & sort: Ordena los datos y
manda los de misma key al mismo
nodo.
• Reduce function: une todos los valores
intermedios con la misma key.
• Output
1.1. Algoritmo MapReduce
4

HDFS (Hadoop Distributed File System)
• Escalable
• Distribuido
Los datos se encuentran distribuidos de
manera redundante 2x o 3x entre los distintos
nodos del clúster (algo parecido al sistema RAID)
1.2. Hadoop
5

< , 26>
< , 11>
< , 11>
< , 4>
7

NODE 1 NODE 2
< , 11>< , 20>
< , 9>
< , 12> < , 10>
< , 2> < , 6>
1.3. Ejemplos: Mapping
9

NODE 1 NODE 2
< , 12>
< , 20> < , 11>
< , 6>
< , 10>
< , 2>
< , 9>
< , 32>< , 17> < , 10> < , 11>
1.3. Ejemplos: Shuffle and Sort1.3. Ejemplos: Reduce
10

< , 32> < , 17>
< , 10> < , 11>
1.3. Ejemplos: Output
11

Gran cantidad de datos, sobre todo en genoma
• Procesos altamente paralelizables
• Posibilidad de aplicar MapReduce para resolver este problema
• Mapeo de reads en NGS
• Alineamiento múltiple de secuencias
2. Aplicaciones
12

2.1. Aplicaciones: Mapeo de Reads en NGS
13

• Permutaciones de secuencias
• Alineamiento con Needleman-Wunsch de dos
secuencias
• Alineamiento de una tercera con las secuencias ya
alineadas
• Reducir
• Repetir
2.2. Aplicaciones: Alineamiento Múltiple de Secuencias
14

• Obtención de la distancia Robinson-Foulds de
diferencias topológicas entre t árboles filogenéticos
• Paralelización de algoritmos de Machine Learning
2.3. Aplicaciones: Otras aplicaciones
15

MapReduce for Bioinformatics

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (9)

Similar a MapReduce for Bioinformatics

Similar a MapReduce for Bioinformatics (20)

Último

Último (20)

MapReduce for Bioinformatics