1. Hadoop y algoritmos MapReduce de
paralelización aplicados a genotipado de
secuencias nucleotídicas
Cristian Pérez García
Miguel González Acera
MSc. Bioinformatics 2015/16
2. 1. MapReduce
• Algoritmo
• Framework: Hadoop
• Ejemplos
2. Aplicaciones
• Genotipado en NGS
• Alineamiento múltiple de secuencias
• Otros
1
5. • Input
• Map Function: procesa un fichero
como valores key/value para devolver un
nuevo set de datos como key/value.
• Shuffle & sort: Ordena los datos y
manda los de misma key al mismo
nodo.
• Reduce function: une todos los valores
intermedios con la misma key.
• Output
1.1. Algoritmo MapReduce
4
6. HDFS (Hadoop Distributed File System)
• Escalable
• Distribuido
Los datos se encuentran distribuidos de
manera redundante 2x o 3x entre los distintos
nodos del clúster (algo parecido al sistema RAID)
1.2. Hadoop
5
13. Gran cantidad de datos, sobre todo en genoma
• Procesos altamente paralelizables
• Posibilidad de aplicar MapReduce para resolver este problema
• Mapeo de reads en NGS
• Alineamiento múltiple de secuencias
2. Aplicaciones
12
15. • Permutaciones de secuencias
• Alineamiento con Needleman-Wunsch de dos
secuencias
• Alineamiento de una tercera con las secuencias ya
alineadas
• Reducir
• Repetir
2.2. Aplicaciones: Alineamiento Múltiple de Secuencias
14
16. • Obtención de la distancia Robinson-Foulds de
diferencias topológicas entre t árboles filogenéticos
• Paralelización de algoritmos de Machine Learning
2.3. Aplicaciones: Otras aplicaciones
15