SlideShare una empresa de Scribd logo
Fast comparison of microbial genomes using the Chaos
Games Representation for metagenomic applications
Jhon Trujillo
Seminario Gebix
John Trujillo - Universidad Del Valle - Cali
jhon.trujillo@univalle.edu.co
24 de abril de 2014
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 1 / 54
Overview
1 Abstract
2 Introduction
3 Metodolog´ıa
Datos gen´omicos usados
Usando los CGR para comprar genomas
Usando los CGR para comprar genomas
4 Resultados
Tama˜nos de los fragmentos de las secuencias
Comparaci´on con Blast
Comparaci´on con Blast
Comparaci´on con Blast
5 Discussion and future work
6 Conclusiones
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 2 / 54
Abstract
Genome sequencing technology.
Secuenciamiento de genomas genera grandes bases de datos.
El Hardware existente no es suficiente y es muy costo.
Se requiere de algoritmos eficientes.
Se propone un m´etodo eficiente : Teor´ıa del Caos y an´alisis
Multifractral.
Realizar b´usquedas y filtrar datos.
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 3 / 54
Ejemplo
Conjunto de 1500 genomas.
Blast puede tomar hasta 25 horas en buscar esta secuencia con
fragmentos grandes, por ejemplo de 100k.
Usando el m´etodo propuesto reduce el conjunto de b´usqueda en un
95 %. (1500 a 50) en solo 15 minutos.
Predice una secuencia con un 67 % de exactitud.
La idea es demostrar que este m´etodo es mas r´apido para comprar
secuencias en grandes conjuntos de datos.
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 4 / 54
Introduction
El Secuenciamiento de genomas genera grandes datos.
La secuenciaci´on por nanoporos genera grandes “reads” de 100.000
pb en longitudes de 100kb.
El poder computacional no es suficiente : Una opci´on es usar Blast.
Segunda opci´on es usar: la teor´ıa del caos y el an´alisis
multifractral.
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 5 / 54
Introduction
Cada secuencia tiene una representaci´on fractal. Una combinaci´on de
nucle´otidos tiene una escala independiente.
Un CGR puede ser usado para visualizar estas representaciones.
El CGR puede mostrar la frecuencia de una “word” del c´odigo
gen´etico usando una imagen simple donde un conjunto de pixels
puede representar la frecuencia de una”word”. Mostrando la
frecuencia de cada palabra con un color determinado.
Luego, un an´alisis multifractral puede ser aplicado al CGR.
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 6 / 54
Introduction
Figura : Diagrama representativo a la Introducci´on del Paper
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 7 / 54
Introduction
Demostrar [Z.-G.Yu,V.Anh,K.-S.Lau] donde usaron esta metodolog´ıa para
clasificar 33 genomas bacterianos.
Los autores mostraron la similaridad filogen´etica de las bacterias
agrupadas en 2 y 3 dimensiones ( Estas dimensiones fueron derivadas
a partir de la dimensi´on fractal ).
Usaron conceptos como el Heat Capacity para distinguir exones e
intrones en el genoma bacteriano.
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 8 / 54
Introduction
La dimensi´on fractal era mas alta en secuencias no codificantes que
en secuencias codificantes.
Similares aproximaciones fueron realizadas para el genoma humano y
distinguir los genomas del HIV-1 [A.Pandit,A.Dasanna] .
No es claro como escalar este tipo de an´alisis a los cientos de
genomas presentes en los repositorios p´ublicos.
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 9 / 54
Secuenciaci´on
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 10 / 54
Secuenciaci´on
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 11 / 54
Secuenciaci´on
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 12 / 54
Secuenciaci´on
El Secuenciamiento moderno solo hace lecturas muy peque˜nas.
Unir cada palabra es un juego de rompecabezas.
¿C´omo saber cual es el mejor m´etodo de ensamblaje?.
¿C´omo saber que tan bueno es el ensamblaje y su correcta
organizaci´on?.
Se compararon ambos genomas relacionados por medio de sus atributos
taxon´omicos :
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 13 / 54
Secuenciaci´on
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 14 / 54
Secuenciaci´on
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 15 / 54
Secuenciaci´on
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 16 / 54
Secuenciaci´on
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 17 / 54
Introduction
Objetivo
Investigar la utilidad de los CGR para comparar y estudiar metagenomas
donde los fragmentos de cientos de genomas necesitan ser clasificados
taxon´omicamente e identificados.
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 18 / 54
Metodolog´ıa
Se presenta un breve resumen de la metodolog´ıa.
Un gr´afico CGR en dos dimensiones se representa con un cuadrado de
dos dimensiones y cada v´ertice del cuadrado representa uno de los 4
nucle´otidos base(g).
A=(0,0)
T=(1,0)
C=(0,1)
G=(1,1)
Ejemplo : ATGCGAGTGT.
Figura : Representaci´on CGRJhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 19 / 54
Metodolog´ıa
Una secuencia puede ser graficada dentro del ´area del cuadrado, de tal
manera que la posicion de un nucle´otido i corresponde a una posicion Ri .
ri = 0,5 ∗ (r(i − 1) + gi )
Donde el primer nucle´otido dibujado en el cuadrado es graficado en el
centro del cuadrado, en la posicion (0.5 , 0.5).
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 20 / 54
Introduction
Ejemplo : ATGCGAGTGT.
Figura : Representaci´on CGR
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 21 / 54
Metodolog´ıa
Cada sub-cuadrado tiene definido un tama˜no r.
Por ejemplo:
Un cuadrado con 100
sub-cuadrados tiene
un r = 1/10
Ejemplo : ATGCGAGTGT.
Figura : Resoluci´on de la 8-esima coordenada en la
secuencia. Cada coordenada tiene una precisi´on de 4 bits.
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 22 / 54
Metodolog´ıa
Suma de Particiones
Zr (q) =
i
(Pi )q
(1)
Donde q pertenece a los Reales y se usa para indicar las regiones con
mucha y poca densidad. En este paper : −15 <= q <= 15
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 23 / 54
Metodolog´ıa
Exponente de escalamiento del espectrum
τq = l´ım
r→0
log(Zr (q))
log(r)
(2)
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 24 / 54
Metodolog´ıa
Dimensi´on fractal en funci´on del espectrum
Para q diferente de 1.
Dq =
τ
q − 1
(3)
Para q igual a 1.
Dq = l´ım
r→0
(Pi ) ∗ log(Zr (q))
log(r)
(4)
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 25 / 54
Metodolog´ıa
Exponente de escalamiento del espectrum
Calculado la segunda derivada diferencial de τ con respecto a q.
Cq =
δ2 ∗ τq
δ ∗ q2
= 2 ∗ τq − τ(q − 1) − τ(q + 1) (5)
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 26 / 54
Metodolog´ıa
Figura : CGR con r de diferentes tama˜nos y un k-mer determinado
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 27 / 54
Metodolog´ıa
Figura : CGR con r de diferentes tama˜nos y un k-mer determinado
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 28 / 54
Metodolog´ıa
Figura : Figuras donde se observa la dimension fractal y el Heat Capacity en
funci´on de q y de diferentes tama˜nos de r = 1/8, 1/16, 1/32, 1/64, 1/128
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 29 / 54
Fuente de los Datos
Se obtuvieron los datos del programa GENOMETA.
de 2550 genomas se sacaron 1551 genomas donde cada uno de ellos
son de una especie diferente (species-target).
Los genomas restantes (999 genomas) se usaron como datos de
consulta.
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 30 / 54
Usando los CGR
Se usaron varios tama˜nos para los r y las siguientes propiedades de los
CGRs:
1 La densidad de la caja Pi .
2 2. La dimensi´on Fractal Di .
3 El heat Capacity Cq.
Por cada una de estas medidas se uso un RMSD de la siguiente forma:
Nb
i,j
(di − dj )2
Nb
(6)
Para este caso di y dj son las densidades de los cuadrados i y j en cada
uno de los dos CGRs.
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 31 / 54
Usando los CGR
De igual manera se usa para medir las otras dos propiedades:
Para la dimensi´on fractal di y dj hacen referencia a la dimensi´on.
Para el Heat Capacity di y dj hacen referencia al hear capacity en un
determinado q.
La Sumatoria se da en funci´on de promedio de todos los valores de q.
Yo propongo las siguientes ecuaciones ( el paper no las presenta ):
Nq
i,j
(deni − denj )2
Nq
(7)
Nq
i,j
(Ci − Cj )2
Nq
(8)
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 32 / 54
¡ Recordar !
Que el string-query no se encuentra en la secuencia target.
Un emparejamiento exacto entre dos secuencias no es posible
Por lo tanto :
El menor valor medido por el RMSD (menor diferencia) deber´ıa identificar
el genoma desde el conjunto Target.
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 33 / 54
¿C´omo validar la presici´on del proceso ?
Usandoinformaci´on taxon´omica descargada desde el NCBI
(ftp://ftp.ncbi.nih.gov/pub/taxonomy/) de cada genoma.
Y usando un algoritmo para la construcci´on del ´arbol taxon´omico.
Se compararon ambos genomas relacionados por medio de sus atributos
taxon´omicos :
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 34 / 54
¿C´omo validar la presici´on del proceso ?
Especies.
Genus
family
order
Phylum
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 35 / 54
Resultados
Para calibrar y la evaluaci´on del m´etodo se evaluaron los siguientes
experimentos se realizar´on:
Tama˜nos de los fragmentos de las secuencias.
Comparaci´on con Blast.
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 36 / 54
Resultados
Tener en cuenta que :
Un CGR generado a partir de una fracci´on de una secuencia de un
genoma es similar la secuencia completa.
Se sabe que una dimensi´on fractal difiere significativamente para
CGRs generados para regiones codificantes y no codificantes.
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 37 / 54
Resultados
El objetivo de esta prueba consiste en :
Determinar cuanto varia la identificaci´on de una secuencia de un
genoma dependiendo del tama˜no del fragmento usado a partir de la
secuencia.
En otras palabras determinar el m´ınimo tama˜no del fragmento sin que
haya un cambio significativo.
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 38 / 54
Resultados
Tama˜nos de las secuencias : 3.2kb hasta 20kb (E-coli) .
Fragmentos de cada tama˜no fueron tomados en intervalos irregulares.
Cada fragmento fue sobre-lapado en un 50 % con el fragmento
anterior
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 39 / 54
Resultados
El promedio de los RMSD es igual para casi todos los cuadrados de
diferentes tama˜nos
Sin embargo, si hay una variabilidad si cambia con respecto al tama˜no
de cada fragmento hasta tama˜nos de 50kb.
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 40 / 54
Resultados
Usando el M´aximo de los RMSD los cambios son mucho mas altos
con respecto a los promedios.
Usar el M´aximo de los RMSD puede no ser adecuado para identificar
secuencias.
Fragmentos peque˜nos hay una gran diferencia. r <= 1/8.
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 41 / 54
Resultados
Importante :
Para fragmentos de tama˜no 100kb o mas, el RMSD para cualquier
tama˜no r tienden a converger.
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 42 / 54
Resultados
Usando el M´aximo de los RMSD los cambios son mucho mas altos
con respecto a los promedios.
Usar el M´aximo de los RMSD puede no ser adecuado para identificar
secuencias.
Fragmentos peque˜nos hay una gran diferencia. r <= 1/8.
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 43 / 54
Resultados
Los gr´aficos que se presentan en el heat capacity no son muy
adecuados.
Esto puede indicar la presencia de ruido que pueden debilitar el poder
discriminatorio de estas dos medidas.
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 44 / 54
Resultados Blast
¿ Podr´ıamos clasificar la especie taxon´omica de un genoma correctamente
dentro de un sub-conjunto de datos predicho a partir de un Numero N de
Hits determinados ?
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 45 / 54
Resultados Blast
Lado Izquierdo : N´umero de clasificaciones correctas con N=1.
Lado Derecho : Indica el conjunto de “top ranked” que podr´ıa
contener la clasificaci´on correcta.
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 46 / 54
Resultados Blast
Podr´ıamos decir que un CGR de densidad podr´ıa ser usado para reducir un
conjunto de datos de 1550 genomas a un conjunto de datos de 50( Al
menos uno de estos 50 seria la clasificaci´on correcta para el genoma
buscado ). Luego aplicar Blast.
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 47 / 54
Resultados Blast
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 48 / 54
Resultados Blast
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 49 / 54
Resultados Blast
Comparison of timings using CGR box densities and BLAST.
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 50 / 54
Discusi´on y trabajo futuro
Las comunidades cient´ıficas trabajan fragmentos peque˜nos de lecturas
(100pb).
El desaf´ıo esta en poder usar fragmentos peque˜nos por que seria mas
preciso: Identificar secuencias novel y raras.
Los procesos de secuenciaci´on aun generan “reads” muy peque˜nos.
En este estudio se uso una funci´on RMSD muy sencilla.
Se deber´ıa aplicar un m´etodo que pretermita identificar puntos clave
en los CGR.
Aplicar conceptos estad´ısticos mas fuertes como los propuestos en
algunos papers de referencia que ellos recomiendan.
Desarrollar algoritmos de computer visi´on que permitan extraer
informaci´on importante del CGR.
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 51 / 54
Discusi´on y trabajo futuro
La teor´ıa del caos para representar genomas fue introducida hace mas
de dos d´ecadas. Es una forma conveniente para visualizar y comprar
genomas de secuencias.
Estos resultados pueden ser usados por otros m´etodos para el
alineamiento de las secuencias.
Aun falta muchas pruebas con los nuevos m´etodos de secuenciaci´on
existentes.
Se mostro que la propiedad CGR Density Box puede ser usada como
un m´etodo para filtrar espacios de b´usqueda.
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 52 / 54
References
Z.-G.Yu,V.Anh,K.-S.Lau (2001)
Measure representation and multifractal analysis of complete genomes
Phys.Rev.E64 (2001) 031903.
A.Pandit,A.Dasanna,S.Sinha, (2012)
Multifractal analysis of hiv-1 genomes.
MolPhylogenet Evol 62 (2) (2012) 756–63..
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 53 / 54
¡Gracias!
Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 54 / 54

Más contenido relacionado

Último

CEFALEAS CLASIFICACIÓN, TRATAMIENTO Y PREVENCION
CEFALEAS CLASIFICACIÓN, TRATAMIENTO Y PREVENCIONCEFALEAS CLASIFICACIÓN, TRATAMIENTO Y PREVENCION
CEFALEAS CLASIFICACIÓN, TRATAMIENTO Y PREVENCION
do4alexwell
 
Tipos-de-Fracciones-Algebraicas1234.pptx
Tipos-de-Fracciones-Algebraicas1234.pptxTipos-de-Fracciones-Algebraicas1234.pptx
Tipos-de-Fracciones-Algebraicas1234.pptx
JonathanMorales422812
 
8VO - ESTUDIOS SOCIALES - 1ER - TRIMESTRE.docx
8VO - ESTUDIOS SOCIALES - 1ER - TRIMESTRE.docx8VO - ESTUDIOS SOCIALES - 1ER - TRIMESTRE.docx
8VO - ESTUDIOS SOCIALES - 1ER - TRIMESTRE.docx
YULI557869
 
ESTADO DE CHOQUE. Hipovolemico, cardiogenico, obstructivo, distributivo
ESTADO DE CHOQUE. Hipovolemico, cardiogenico, obstructivo, distributivoESTADO DE CHOQUE. Hipovolemico, cardiogenico, obstructivo, distributivo
ESTADO DE CHOQUE. Hipovolemico, cardiogenico, obstructivo, distributivo
renoaco97
 
Estudio de la respiración celular en diferentes tipos de tejidos .pptx
Estudio de la respiración celular en diferentes tipos de tejidos .pptxEstudio de la respiración celular en diferentes tipos de tejidos .pptx
Estudio de la respiración celular en diferentes tipos de tejidos .pptx
JoseAlbertoArmenta
 
5+La+alimentación+de+la+trucha+arcoíris+_versión+final+(1).pdf
5+La+alimentación+de+la+trucha+arcoíris+_versión+final+(1).pdf5+La+alimentación+de+la+trucha+arcoíris+_versión+final+(1).pdf
5+La+alimentación+de+la+trucha+arcoíris+_versión+final+(1).pdf
EdsonCienfuegos
 
Diapositivas sobre Trauma Músculo-Esquelético
Diapositivas sobre Trauma Músculo-EsqueléticoDiapositivas sobre Trauma Músculo-Esquelético
Diapositivas sobre Trauma Músculo-Esquelético
etaguirrees
 
CANCER DE PROSTATA lllllllllllllllll.pptx
CANCER DE PROSTATA lllllllllllllllll.pptxCANCER DE PROSTATA lllllllllllllllll.pptx
CANCER DE PROSTATA lllllllllllllllll.pptx
PerlaOvando
 
Modonesi, M. (coord.) - La revolución pasiva [2021].pdf
Modonesi, M. (coord.) - La revolución pasiva [2021].pdfModonesi, M. (coord.) - La revolución pasiva [2021].pdf
Modonesi, M. (coord.) - La revolución pasiva [2021].pdf
frank0071
 
Estudio de la respiración celular en diferentes tipos de tejidos .pptx
Estudio de la respiración celular en diferentes tipos de tejidos .pptxEstudio de la respiración celular en diferentes tipos de tejidos .pptx
Estudio de la respiración celular en diferentes tipos de tejidos .pptx
JoseAlbertoArmenta
 
Estructura de los compuestos orgánicos. UNAJ
Estructura de los compuestos orgánicos. UNAJEstructura de los compuestos orgánicos. UNAJ
Estructura de los compuestos orgánicos. UNAJ
GuillermoTabeni
 
Modonesi, M. - El Principio Antagonista [2016].pdf
Modonesi, M. - El Principio Antagonista [2016].pdfModonesi, M. - El Principio Antagonista [2016].pdf
Modonesi, M. - El Principio Antagonista [2016].pdf
frank0071
 
Hablame-de-tus-fuentes-luisa-garcia-tellez-libro.pdf
Hablame-de-tus-fuentes-luisa-garcia-tellez-libro.pdfHablame-de-tus-fuentes-luisa-garcia-tellez-libro.pdf
Hablame-de-tus-fuentes-luisa-garcia-tellez-libro.pdf
OmarArgaaraz
 
VIRUS COXSACKIE, CASOS CLÍNICOS, ANÁLISIS, MORFOLOGÍA ENTRE OTROS
VIRUS COXSACKIE, CASOS CLÍNICOS, ANÁLISIS, MORFOLOGÍA ENTRE OTROSVIRUS COXSACKIE, CASOS CLÍNICOS, ANÁLISIS, MORFOLOGÍA ENTRE OTROS
VIRUS COXSACKIE, CASOS CLÍNICOS, ANÁLISIS, MORFOLOGÍA ENTRE OTROS
alexacruz1502
 
Homodinos y Heterodinos concepto y tipos y informacion general
Homodinos y Heterodinos concepto y tipos y informacion generalHomodinos y Heterodinos concepto y tipos y informacion general
Homodinos y Heterodinos concepto y tipos y informacion general
202001530
 
Historia Electromagnetismo .... Física M
Historia Electromagnetismo .... Física MHistoria Electromagnetismo .... Física M
Historia Electromagnetismo .... Física M
RichardVasquez80
 
10 razones para estudiar filosofia1.pptx
10 razones para estudiar filosofia1.pptx10 razones para estudiar filosofia1.pptx
10 razones para estudiar filosofia1.pptx
2024311042
 
Ultrasonido Fast y métodos DX trauma.pptx
Ultrasonido Fast y métodos DX trauma.pptxUltrasonido Fast y métodos DX trauma.pptx
Ultrasonido Fast y métodos DX trauma.pptx
LuisAlfredoChavarra
 
CAPACITACION EN INSEMINACION ARTIFICIAL.pdf
CAPACITACION EN INSEMINACION ARTIFICIAL.pdfCAPACITACION EN INSEMINACION ARTIFICIAL.pdf
CAPACITACION EN INSEMINACION ARTIFICIAL.pdf
mcadillo1
 
La oratoria forense utilizando cada una de las tres reglas especiales y donde...
La oratoria forense utilizando cada una de las tres reglas especiales y donde...La oratoria forense utilizando cada una de las tres reglas especiales y donde...
La oratoria forense utilizando cada una de las tres reglas especiales y donde...
FreddyTuston1
 

Último (20)

CEFALEAS CLASIFICACIÓN, TRATAMIENTO Y PREVENCION
CEFALEAS CLASIFICACIÓN, TRATAMIENTO Y PREVENCIONCEFALEAS CLASIFICACIÓN, TRATAMIENTO Y PREVENCION
CEFALEAS CLASIFICACIÓN, TRATAMIENTO Y PREVENCION
 
Tipos-de-Fracciones-Algebraicas1234.pptx
Tipos-de-Fracciones-Algebraicas1234.pptxTipos-de-Fracciones-Algebraicas1234.pptx
Tipos-de-Fracciones-Algebraicas1234.pptx
 
8VO - ESTUDIOS SOCIALES - 1ER - TRIMESTRE.docx
8VO - ESTUDIOS SOCIALES - 1ER - TRIMESTRE.docx8VO - ESTUDIOS SOCIALES - 1ER - TRIMESTRE.docx
8VO - ESTUDIOS SOCIALES - 1ER - TRIMESTRE.docx
 
ESTADO DE CHOQUE. Hipovolemico, cardiogenico, obstructivo, distributivo
ESTADO DE CHOQUE. Hipovolemico, cardiogenico, obstructivo, distributivoESTADO DE CHOQUE. Hipovolemico, cardiogenico, obstructivo, distributivo
ESTADO DE CHOQUE. Hipovolemico, cardiogenico, obstructivo, distributivo
 
Estudio de la respiración celular en diferentes tipos de tejidos .pptx
Estudio de la respiración celular en diferentes tipos de tejidos .pptxEstudio de la respiración celular en diferentes tipos de tejidos .pptx
Estudio de la respiración celular en diferentes tipos de tejidos .pptx
 
5+La+alimentación+de+la+trucha+arcoíris+_versión+final+(1).pdf
5+La+alimentación+de+la+trucha+arcoíris+_versión+final+(1).pdf5+La+alimentación+de+la+trucha+arcoíris+_versión+final+(1).pdf
5+La+alimentación+de+la+trucha+arcoíris+_versión+final+(1).pdf
 
Diapositivas sobre Trauma Músculo-Esquelético
Diapositivas sobre Trauma Músculo-EsqueléticoDiapositivas sobre Trauma Músculo-Esquelético
Diapositivas sobre Trauma Músculo-Esquelético
 
CANCER DE PROSTATA lllllllllllllllll.pptx
CANCER DE PROSTATA lllllllllllllllll.pptxCANCER DE PROSTATA lllllllllllllllll.pptx
CANCER DE PROSTATA lllllllllllllllll.pptx
 
Modonesi, M. (coord.) - La revolución pasiva [2021].pdf
Modonesi, M. (coord.) - La revolución pasiva [2021].pdfModonesi, M. (coord.) - La revolución pasiva [2021].pdf
Modonesi, M. (coord.) - La revolución pasiva [2021].pdf
 
Estudio de la respiración celular en diferentes tipos de tejidos .pptx
Estudio de la respiración celular en diferentes tipos de tejidos .pptxEstudio de la respiración celular en diferentes tipos de tejidos .pptx
Estudio de la respiración celular en diferentes tipos de tejidos .pptx
 
Estructura de los compuestos orgánicos. UNAJ
Estructura de los compuestos orgánicos. UNAJEstructura de los compuestos orgánicos. UNAJ
Estructura de los compuestos orgánicos. UNAJ
 
Modonesi, M. - El Principio Antagonista [2016].pdf
Modonesi, M. - El Principio Antagonista [2016].pdfModonesi, M. - El Principio Antagonista [2016].pdf
Modonesi, M. - El Principio Antagonista [2016].pdf
 
Hablame-de-tus-fuentes-luisa-garcia-tellez-libro.pdf
Hablame-de-tus-fuentes-luisa-garcia-tellez-libro.pdfHablame-de-tus-fuentes-luisa-garcia-tellez-libro.pdf
Hablame-de-tus-fuentes-luisa-garcia-tellez-libro.pdf
 
VIRUS COXSACKIE, CASOS CLÍNICOS, ANÁLISIS, MORFOLOGÍA ENTRE OTROS
VIRUS COXSACKIE, CASOS CLÍNICOS, ANÁLISIS, MORFOLOGÍA ENTRE OTROSVIRUS COXSACKIE, CASOS CLÍNICOS, ANÁLISIS, MORFOLOGÍA ENTRE OTROS
VIRUS COXSACKIE, CASOS CLÍNICOS, ANÁLISIS, MORFOLOGÍA ENTRE OTROS
 
Homodinos y Heterodinos concepto y tipos y informacion general
Homodinos y Heterodinos concepto y tipos y informacion generalHomodinos y Heterodinos concepto y tipos y informacion general
Homodinos y Heterodinos concepto y tipos y informacion general
 
Historia Electromagnetismo .... Física M
Historia Electromagnetismo .... Física MHistoria Electromagnetismo .... Física M
Historia Electromagnetismo .... Física M
 
10 razones para estudiar filosofia1.pptx
10 razones para estudiar filosofia1.pptx10 razones para estudiar filosofia1.pptx
10 razones para estudiar filosofia1.pptx
 
Ultrasonido Fast y métodos DX trauma.pptx
Ultrasonido Fast y métodos DX trauma.pptxUltrasonido Fast y métodos DX trauma.pptx
Ultrasonido Fast y métodos DX trauma.pptx
 
CAPACITACION EN INSEMINACION ARTIFICIAL.pdf
CAPACITACION EN INSEMINACION ARTIFICIAL.pdfCAPACITACION EN INSEMINACION ARTIFICIAL.pdf
CAPACITACION EN INSEMINACION ARTIFICIAL.pdf
 
La oratoria forense utilizando cada una de las tres reglas especiales y donde...
La oratoria forense utilizando cada una de las tres reglas especiales y donde...La oratoria forense utilizando cada una de las tres reglas especiales y donde...
La oratoria forense utilizando cada una de las tres reglas especiales y donde...
 

Destacado

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Christy Abraham Joy
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
Vit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
MindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
 

Destacado (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Fast comparison of microbial genomes using the Chaos Games Representation for metagenomic applications

  • 1. Fast comparison of microbial genomes using the Chaos Games Representation for metagenomic applications Jhon Trujillo Seminario Gebix John Trujillo - Universidad Del Valle - Cali jhon.trujillo@univalle.edu.co 24 de abril de 2014 Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 1 / 54
  • 2. Overview 1 Abstract 2 Introduction 3 Metodolog´ıa Datos gen´omicos usados Usando los CGR para comprar genomas Usando los CGR para comprar genomas 4 Resultados Tama˜nos de los fragmentos de las secuencias Comparaci´on con Blast Comparaci´on con Blast Comparaci´on con Blast 5 Discussion and future work 6 Conclusiones Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 2 / 54
  • 3. Abstract Genome sequencing technology. Secuenciamiento de genomas genera grandes bases de datos. El Hardware existente no es suficiente y es muy costo. Se requiere de algoritmos eficientes. Se propone un m´etodo eficiente : Teor´ıa del Caos y an´alisis Multifractral. Realizar b´usquedas y filtrar datos. Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 3 / 54
  • 4. Ejemplo Conjunto de 1500 genomas. Blast puede tomar hasta 25 horas en buscar esta secuencia con fragmentos grandes, por ejemplo de 100k. Usando el m´etodo propuesto reduce el conjunto de b´usqueda en un 95 %. (1500 a 50) en solo 15 minutos. Predice una secuencia con un 67 % de exactitud. La idea es demostrar que este m´etodo es mas r´apido para comprar secuencias en grandes conjuntos de datos. Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 4 / 54
  • 5. Introduction El Secuenciamiento de genomas genera grandes datos. La secuenciaci´on por nanoporos genera grandes “reads” de 100.000 pb en longitudes de 100kb. El poder computacional no es suficiente : Una opci´on es usar Blast. Segunda opci´on es usar: la teor´ıa del caos y el an´alisis multifractral. Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 5 / 54
  • 6. Introduction Cada secuencia tiene una representaci´on fractal. Una combinaci´on de nucle´otidos tiene una escala independiente. Un CGR puede ser usado para visualizar estas representaciones. El CGR puede mostrar la frecuencia de una “word” del c´odigo gen´etico usando una imagen simple donde un conjunto de pixels puede representar la frecuencia de una”word”. Mostrando la frecuencia de cada palabra con un color determinado. Luego, un an´alisis multifractral puede ser aplicado al CGR. Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 6 / 54
  • 7. Introduction Figura : Diagrama representativo a la Introducci´on del Paper Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 7 / 54
  • 8. Introduction Demostrar [Z.-G.Yu,V.Anh,K.-S.Lau] donde usaron esta metodolog´ıa para clasificar 33 genomas bacterianos. Los autores mostraron la similaridad filogen´etica de las bacterias agrupadas en 2 y 3 dimensiones ( Estas dimensiones fueron derivadas a partir de la dimensi´on fractal ). Usaron conceptos como el Heat Capacity para distinguir exones e intrones en el genoma bacteriano. Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 8 / 54
  • 9. Introduction La dimensi´on fractal era mas alta en secuencias no codificantes que en secuencias codificantes. Similares aproximaciones fueron realizadas para el genoma humano y distinguir los genomas del HIV-1 [A.Pandit,A.Dasanna] . No es claro como escalar este tipo de an´alisis a los cientos de genomas presentes en los repositorios p´ublicos. Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 9 / 54
  • 10. Secuenciaci´on Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 10 / 54
  • 11. Secuenciaci´on Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 11 / 54
  • 12. Secuenciaci´on Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 12 / 54
  • 13. Secuenciaci´on El Secuenciamiento moderno solo hace lecturas muy peque˜nas. Unir cada palabra es un juego de rompecabezas. ¿C´omo saber cual es el mejor m´etodo de ensamblaje?. ¿C´omo saber que tan bueno es el ensamblaje y su correcta organizaci´on?. Se compararon ambos genomas relacionados por medio de sus atributos taxon´omicos : Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 13 / 54
  • 14. Secuenciaci´on Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 14 / 54
  • 15. Secuenciaci´on Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 15 / 54
  • 16. Secuenciaci´on Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 16 / 54
  • 17. Secuenciaci´on Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 17 / 54
  • 18. Introduction Objetivo Investigar la utilidad de los CGR para comparar y estudiar metagenomas donde los fragmentos de cientos de genomas necesitan ser clasificados taxon´omicamente e identificados. Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 18 / 54
  • 19. Metodolog´ıa Se presenta un breve resumen de la metodolog´ıa. Un gr´afico CGR en dos dimensiones se representa con un cuadrado de dos dimensiones y cada v´ertice del cuadrado representa uno de los 4 nucle´otidos base(g). A=(0,0) T=(1,0) C=(0,1) G=(1,1) Ejemplo : ATGCGAGTGT. Figura : Representaci´on CGRJhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 19 / 54
  • 20. Metodolog´ıa Una secuencia puede ser graficada dentro del ´area del cuadrado, de tal manera que la posicion de un nucle´otido i corresponde a una posicion Ri . ri = 0,5 ∗ (r(i − 1) + gi ) Donde el primer nucle´otido dibujado en el cuadrado es graficado en el centro del cuadrado, en la posicion (0.5 , 0.5). Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 20 / 54
  • 21. Introduction Ejemplo : ATGCGAGTGT. Figura : Representaci´on CGR Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 21 / 54
  • 22. Metodolog´ıa Cada sub-cuadrado tiene definido un tama˜no r. Por ejemplo: Un cuadrado con 100 sub-cuadrados tiene un r = 1/10 Ejemplo : ATGCGAGTGT. Figura : Resoluci´on de la 8-esima coordenada en la secuencia. Cada coordenada tiene una precisi´on de 4 bits. Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 22 / 54
  • 23. Metodolog´ıa Suma de Particiones Zr (q) = i (Pi )q (1) Donde q pertenece a los Reales y se usa para indicar las regiones con mucha y poca densidad. En este paper : −15 <= q <= 15 Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 23 / 54
  • 24. Metodolog´ıa Exponente de escalamiento del espectrum τq = l´ım r→0 log(Zr (q)) log(r) (2) Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 24 / 54
  • 25. Metodolog´ıa Dimensi´on fractal en funci´on del espectrum Para q diferente de 1. Dq = τ q − 1 (3) Para q igual a 1. Dq = l´ım r→0 (Pi ) ∗ log(Zr (q)) log(r) (4) Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 25 / 54
  • 26. Metodolog´ıa Exponente de escalamiento del espectrum Calculado la segunda derivada diferencial de τ con respecto a q. Cq = δ2 ∗ τq δ ∗ q2 = 2 ∗ τq − τ(q − 1) − τ(q + 1) (5) Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 26 / 54
  • 27. Metodolog´ıa Figura : CGR con r de diferentes tama˜nos y un k-mer determinado Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 27 / 54
  • 28. Metodolog´ıa Figura : CGR con r de diferentes tama˜nos y un k-mer determinado Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 28 / 54
  • 29. Metodolog´ıa Figura : Figuras donde se observa la dimension fractal y el Heat Capacity en funci´on de q y de diferentes tama˜nos de r = 1/8, 1/16, 1/32, 1/64, 1/128 Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 29 / 54
  • 30. Fuente de los Datos Se obtuvieron los datos del programa GENOMETA. de 2550 genomas se sacaron 1551 genomas donde cada uno de ellos son de una especie diferente (species-target). Los genomas restantes (999 genomas) se usaron como datos de consulta. Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 30 / 54
  • 31. Usando los CGR Se usaron varios tama˜nos para los r y las siguientes propiedades de los CGRs: 1 La densidad de la caja Pi . 2 2. La dimensi´on Fractal Di . 3 El heat Capacity Cq. Por cada una de estas medidas se uso un RMSD de la siguiente forma: Nb i,j (di − dj )2 Nb (6) Para este caso di y dj son las densidades de los cuadrados i y j en cada uno de los dos CGRs. Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 31 / 54
  • 32. Usando los CGR De igual manera se usa para medir las otras dos propiedades: Para la dimensi´on fractal di y dj hacen referencia a la dimensi´on. Para el Heat Capacity di y dj hacen referencia al hear capacity en un determinado q. La Sumatoria se da en funci´on de promedio de todos los valores de q. Yo propongo las siguientes ecuaciones ( el paper no las presenta ): Nq i,j (deni − denj )2 Nq (7) Nq i,j (Ci − Cj )2 Nq (8) Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 32 / 54
  • 33. ¡ Recordar ! Que el string-query no se encuentra en la secuencia target. Un emparejamiento exacto entre dos secuencias no es posible Por lo tanto : El menor valor medido por el RMSD (menor diferencia) deber´ıa identificar el genoma desde el conjunto Target. Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 33 / 54
  • 34. ¿C´omo validar la presici´on del proceso ? Usandoinformaci´on taxon´omica descargada desde el NCBI (ftp://ftp.ncbi.nih.gov/pub/taxonomy/) de cada genoma. Y usando un algoritmo para la construcci´on del ´arbol taxon´omico. Se compararon ambos genomas relacionados por medio de sus atributos taxon´omicos : Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 34 / 54
  • 35. ¿C´omo validar la presici´on del proceso ? Especies. Genus family order Phylum Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 35 / 54
  • 36. Resultados Para calibrar y la evaluaci´on del m´etodo se evaluaron los siguientes experimentos se realizar´on: Tama˜nos de los fragmentos de las secuencias. Comparaci´on con Blast. Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 36 / 54
  • 37. Resultados Tener en cuenta que : Un CGR generado a partir de una fracci´on de una secuencia de un genoma es similar la secuencia completa. Se sabe que una dimensi´on fractal difiere significativamente para CGRs generados para regiones codificantes y no codificantes. Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 37 / 54
  • 38. Resultados El objetivo de esta prueba consiste en : Determinar cuanto varia la identificaci´on de una secuencia de un genoma dependiendo del tama˜no del fragmento usado a partir de la secuencia. En otras palabras determinar el m´ınimo tama˜no del fragmento sin que haya un cambio significativo. Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 38 / 54
  • 39. Resultados Tama˜nos de las secuencias : 3.2kb hasta 20kb (E-coli) . Fragmentos de cada tama˜no fueron tomados en intervalos irregulares. Cada fragmento fue sobre-lapado en un 50 % con el fragmento anterior Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 39 / 54
  • 40. Resultados El promedio de los RMSD es igual para casi todos los cuadrados de diferentes tama˜nos Sin embargo, si hay una variabilidad si cambia con respecto al tama˜no de cada fragmento hasta tama˜nos de 50kb. Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 40 / 54
  • 41. Resultados Usando el M´aximo de los RMSD los cambios son mucho mas altos con respecto a los promedios. Usar el M´aximo de los RMSD puede no ser adecuado para identificar secuencias. Fragmentos peque˜nos hay una gran diferencia. r <= 1/8. Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 41 / 54
  • 42. Resultados Importante : Para fragmentos de tama˜no 100kb o mas, el RMSD para cualquier tama˜no r tienden a converger. Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 42 / 54
  • 43. Resultados Usando el M´aximo de los RMSD los cambios son mucho mas altos con respecto a los promedios. Usar el M´aximo de los RMSD puede no ser adecuado para identificar secuencias. Fragmentos peque˜nos hay una gran diferencia. r <= 1/8. Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 43 / 54
  • 44. Resultados Los gr´aficos que se presentan en el heat capacity no son muy adecuados. Esto puede indicar la presencia de ruido que pueden debilitar el poder discriminatorio de estas dos medidas. Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 44 / 54
  • 45. Resultados Blast ¿ Podr´ıamos clasificar la especie taxon´omica de un genoma correctamente dentro de un sub-conjunto de datos predicho a partir de un Numero N de Hits determinados ? Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 45 / 54
  • 46. Resultados Blast Lado Izquierdo : N´umero de clasificaciones correctas con N=1. Lado Derecho : Indica el conjunto de “top ranked” que podr´ıa contener la clasificaci´on correcta. Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 46 / 54
  • 47. Resultados Blast Podr´ıamos decir que un CGR de densidad podr´ıa ser usado para reducir un conjunto de datos de 1550 genomas a un conjunto de datos de 50( Al menos uno de estos 50 seria la clasificaci´on correcta para el genoma buscado ). Luego aplicar Blast. Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 47 / 54
  • 48. Resultados Blast Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 48 / 54
  • 49. Resultados Blast Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 49 / 54
  • 50. Resultados Blast Comparison of timings using CGR box densities and BLAST. Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 50 / 54
  • 51. Discusi´on y trabajo futuro Las comunidades cient´ıficas trabajan fragmentos peque˜nos de lecturas (100pb). El desaf´ıo esta en poder usar fragmentos peque˜nos por que seria mas preciso: Identificar secuencias novel y raras. Los procesos de secuenciaci´on aun generan “reads” muy peque˜nos. En este estudio se uso una funci´on RMSD muy sencilla. Se deber´ıa aplicar un m´etodo que pretermita identificar puntos clave en los CGR. Aplicar conceptos estad´ısticos mas fuertes como los propuestos en algunos papers de referencia que ellos recomiendan. Desarrollar algoritmos de computer visi´on que permitan extraer informaci´on importante del CGR. Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 51 / 54
  • 52. Discusi´on y trabajo futuro La teor´ıa del caos para representar genomas fue introducida hace mas de dos d´ecadas. Es una forma conveniente para visualizar y comprar genomas de secuencias. Estos resultados pueden ser usados por otros m´etodos para el alineamiento de las secuencias. Aun falta muchas pruebas con los nuevos m´etodos de secuenciaci´on existentes. Se mostro que la propiedad CGR Density Box puede ser usada como un m´etodo para filtrar espacios de b´usqueda. Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 52 / 54
  • 53. References Z.-G.Yu,V.Anh,K.-S.Lau (2001) Measure representation and multifractal analysis of complete genomes Phys.Rev.E64 (2001) 031903. A.Pandit,A.Dasanna,S.Sinha, (2012) Multifractal analysis of hiv-1 genomes. MolPhylogenet Evol 62 (2) (2012) 756–63.. Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 53 / 54
  • 54. ¡Gracias! Jhon Trujillo (Univalle) Seminario Gebix - JTrujillo 24 de abril de 2014 54 / 54