Este documento describe los pasos para analizar secuencias obtenidas mediante pirosecuenciación, incluyendo la reducción de ruido, detección de quimeras, comprobación de calidad, identificación taxonómica y análisis de datos. Los pasos incluyen la generación de archivos SFF, reducción de ruido, agrupamiento de secuencias, comparación con bases de datos para determinar taxones y producir un resumen de la diversidad microbiana.
2. Roche 454 FLX/FLX+ platform
Novais & Thorstenson (2011)
Because the added nucleotide is known, the sequence of the template can be
determined (Ronaghi, 2001)
3. 1. Calidad y eliminación del ruido, de las
secuencias
2. Análisis de diversidad
http://www.researchandtesting.com/sequencing-services.php
4. 1. Generación de archivos SFF
2. Reducción del ruido y chequeo de quimeras
3. Chequeos de calidad y formato FASTA /
Generación de archivos de "calidad“
4. Identificación taxonómica
5. Análisis de datos
5. .SFF
Archivo binario:
1. Flujograma
2. Puntuación de calidad
3. Secuencias, con longitudes definidas
Representa los datos en bruto y muchos incluyen
lecturas que pueden haber sido excluidas
(longitud o detección de quimeras)
Mothur o BioPython
6. DENOISING &
CHIMERA CHECKING
(Reducción del ruido & Chequeo de quimeras)
1. Ajuste de calidad (Limpiar los extremos)
2. Clustering (Agrupar/eliminar reads)
3. Chequeo de quimeras (Detectar/eliminar)
4. Denoising (Corrección de errores)
7. QUALITY CHECKING & FASTA
FORMATTED SEQUENCE/QUALITY
FILE GENERATION
(Generación de archivos de "calidad“)
Los reads tratados se agrupan en FASTA
>IS7-nosZ::HX8YCVF03F7TDH rank=0276239 x=2432.5 y=995.0 length=304
AAAACAACCGCTGTTCATCGACAGCCAGCACGACGAGCGAAACTTGCTGATGCAACACCGCCTGCATC
1. Secuencias error
2. Secuencias con bajos valores de calidad
3. Secuencias de < longitud a la esperada (o de 250 bp)
8. TAXONOMIC IDENTIFICATION
(Determinación de la identidad)
1. Ordenamiento de secuencias de > a < longitud
2. Agrupación en OTU´s con 100% de identidad (USEARCH)
3. Cada OTU se archiva en formato FASTA
4. Cada OTU se contrasta con secuencias de la NCBI, usando una
distribucion .NET que usa BLASTN+
5. % de identidad = nivel taxonómico
% Nivel taxonómico
> 97 Especie
95 – 97 Genero
90 – 95 Familia
80 – 85 Clase
77 – 80 Phylum
< 77 % son descartadas
HSP ≥ 75 %
DE LA SECUENCIA
CONSULTADA
9. Bibliografía
• Laboratory Research & Testing. (2012). Data Analysis
Methodology. Lubbock, TX, USA. Recuperado en Agosto del
2014, de:
http://www.researchandtesting.com/docs/Data_Analysis_M
etho dology.pdf
• Novais RC, & Thorstenson YR. (2011) The evolution of
Pyrosequencing (R) for microbiology: From genes to genomes.
J Microbiol Meth. 86: 1–7.
• Ronaghi, M., 2001. Pyrosequencing sheds light on DNA
sequencing. Genome Res. 11, 3–11.