Bioinformática y COVID-19

Todavía estás a tiempo de convertirte
en un bioinformático anticovídico
M. Gonzalo Claros
Departamento de Biología Molecular y Bioquímica
Plataforma Andaluza de Bioinformática-SCBI.
IHSM «La Mayora» (CSIC-UMA).
IBIMA & CIBERER.
@MGClaros Jornadas de Orientación Profesional y Fomento del Emprendimiento #JOPFE21
BioIn4Next
http://about.me/mgclaros/
@MGClaros

¿Que han aportado la
bioinformática a la pandemia
de COVID-19?
2
@MGClaros #JOPFE21

polyprotein (pp1ab),which is proteolytically cleaved into
16 non-structural proteins that are involved in transcrip-
tion and virus replication. Most of these SARS-CoV-2
non-structural proteins have greater than 85% amino
acid sequence identity with SARS-CoV25
.
The phylogenetic analysis for the whole genome
shows that SARS-CoV-2 is clustered with SARS-CoV
and SARS-related coronaviruses (SARSr-CoVs) found
in bats, placing it in the subgenus Sarbecovirus of the
genus Betacoronavirus. Within this clade, SARS-CoV-2
is grouped in a distinct lineage together with four horse-
shoe bat coronavirus isolates (RaTG13, RmYN02, ZC45
and ZXC21) as well as novel coronaviruses recently iden-
tified in pangolins, which group parallel to SARS-CoV
Coronaviridae Study Group of the International
Committee on Taxonomy of Viruses estimated the
pairwise patristic distances between SARS-CoV-2 and
known coronaviruses, and assigned SARS-CoV-2 to
the existing species SARSr-CoV17
. Although phyloge-
netically related, SARS-CoV-2 is distinct from all other
coronaviruses from bats and pangolins in this species.
The SARS-CoV-2 S protein has a full size of
1,273 amino acids, longer than that of SARS-CoV
(1,255 amino acids) and known bat SARSr-CoVs
(1,245–1,269 amino acids). It is distinct from the S pro-
teins of most members in the subgenus Sarbecovirus,
sharing amino acid sequence similarities of 76.7–
77.0% with SARS-CoVs from civets and humans,
Bat SARSr-CoV BM48-31
Bat Hp-betacoronavirus Zhejiang2013
Rousettus bat coronavirus HKU9
Rousettus bat coronavirus GCCDC1
Pipistrellus bat coronavirus HKU5
Tylonycteris bat coronavirus HKU4
MERS-CoV
Human coronavirus HKU1
Murine hepatitis virus
Human coronavirus OC43
100
100
100
100
100
100
100
100
100
100
99
84
100
100
100
75
100
100
88
100
100
91
100
0.05
Nobecovirus
Merbecovirus
Embecovirus
SARS-CoV-
related
lineage
SARS-CoV-2-
related
lineage
SARS-CoV GZ02
SARS-CoV SZ3
SARS-CoV Tor2
SARS-CoV BJ01
Bat SARSr-CoV Rs4231
Bat SARSr-CoV SHC014
Bat SARSr-CoV WIV1
Bat SARSr-CoV YN2018C
Bat SARSr-CoV Rp3
Bat SARSr-CoV HKU3-1
85
Sarbecovirus
Hibecovirus
Pangolin coronavirus Guangxi
Bat coronavirus ZXC21
Bat coronavirus ZC45
Pangolin coronavirus Guangdong
Bat coronavirus RmYN02
Bat coronavirus RaTG13
SARS-CoV-2 China/Shenzhen/SZTH002/202001
SARS-CoV-2 USA/CA1/202001
SARS-CoV-2 Singapore/14Clin/202002
SARS-CoV-2 Japan/DP0346/202002
SARS-CoV-2 Australia/VIC04/202003
SARS-CoV-2 Germany/NRW06/202002
SARS-CoV-2 China/Wuhan/WIV04/201912
SARS-CoV-2 Vietnam/CM295/202003
SARS-CoV-2 Italy/CDG1/202002
SARS-CoV-2 USA/NYUMC8/202003
Fig. 2 | Phylogenetic tree of the full-length genome sequences of SARS-CoV-2, SARSr-CoVs and other
betacoronaviruses. The construction was performed by the neighbour joining method with use of the program MEGA6
with bootstrap values being calculated from 1,000 trees. Severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2)
clusterswithcloselyrelatedvirusesinbatsandpangolinsandtogetherwithSARS-CoVandbatSARS-relatedcoronaviruses
(SARSr-CoVs) forms the sarbecoviruses. The sequences were downloaded from the GISAID database and GenBank.
MERS-CoV,MiddleEastrespiratorysyndromecoronavirus.
MICROBIOLOGY VOLUME 19 | MARCH 2021 | 143
Sabemos que el
SARS-CoV-2 es una
zoonosis desde los
murciélagos
SARS
COVID-19
En la COVID-19 se usó la bioinformática desde el inicio
3
@MGClaros
5. UMA.ES
5.2. Variaciones de la marca uma.es
VERSIÓN DOS TINTAS EN POSITIVO
#JOPFE21
Filogenia del virus Epidemiología de las variantes
Dónde varía más el genoma

Detalles de la espícula
4
@MGClaros
5. UMA.ES
#JOPFE21
Las variantes se
acumulan en el sitio de
fijación al receptor ACE2
Unión Fusión
Escisión de S1 y S2
Peplómero
Proteína S
Espícula
Espiga

Las variantes se agrupan en haplotipos
5
@MGClaros
5. UMA.ES
#JOPFE21
L (muy agresivo) y S (menos agresivo)
S es el más parecido al
original, el de
murciélagos y pangolines
https://www.soundhealthandlastingwealth.com/health-news/coronavirus-
is-mutating-with-a-second-strain-identified-by-scientists/
L ← S
El SARS-CoV-2 está
evolucionando para
infectarnos mejor

Los resultados se ofrecen en portales
6
@MGClaros
5. UMA.ES
#JOPFE21
Genomas https://www.gisaid.org
Recursos https://datascience.nih.gov/
covid-19-open-access-resources
Mutantes https://outbreak.info/situation-reports
https://covid19dataportal.es
En España
Impresionante

Biología de sistemas para fármacos y dianas
7
@MGClaros
5. UMA.ES
#JOPFE21
https://doi.org/10.1007/s13258-020-01021-8
Screening druggable targets and predicting therapeutic drugs for COVID-19
via integrated bioinformatics analysis (2021) Genes & Genomics 43, 55–67
other organisms or external biotic stimulus, virus, defense
response, and positive regulation of IL-6, IL-8, and IFN-β;
(2) for molecular function (MF), these genes were highly
associated with signaling receptor binding, among which 3
genes (TLR4, TLR7, and TLR9) had the potential to regulate
the PRRs activity; (3) for cellular component (CC), identi-
fied genes were significantly enriched in the extracellular
region, endoplasmic reticulum, and endosome (Fig. 3a).
Fig. 2 The drug-gene interaction network and the PPI network. a A
drug-gene interaction network. b A PPI network constructed using
STRING online database. The red diamond node denoted the drug.
Seleccionamos los fármacos que se sabe
que actúan sobre genes clave del proceso
Reunimos información
de enfermedades,
genes y fármacos
Priorizamos enfermedades y
genes para seleccionar fármacos

Recolocación (repurposing) de fármacos
8
@MGClaros
5. UMA.ES
#JOPFE21
Fig. 1 Summary of the drug repurposing strategy and the results obtained. a Schema of the procedure followed for ﬁnding drug targets that
affect the COVID-19 disease map. b Two different patterns of circuits affected by six drugs (see text). c Radar plot representing the impact of
the most relevant drugs listed in Supplementary Table S3 over the different COVID-19 hallmarks, quantiﬁed as the number of circuits of the
Letter
2
Detección de vías
afectadas por 6
fármacos
Predecimos los fármacos que no sabíamos
que pudieran alterar al SARS-CoV-2
La replicación es lo más
afectado en el SARS-CoV-2
La hidroxicloroquina
y la ciclosporina
parecen idóneos
https://doi.org/10.1038/s41392-020-00417-y
https://doi.org/10.1093/bib/bbaa416
http://doi.org/10.35652/IGJPS.2020.10102

La bioinformática acelera las vacunas
9
@MGClaros
5. UMA.ES
#JOPFE21

9
@MGClaros
5. UMA.ES
#JOPFE21
https://doi.org/10.1371/
journal.pcbi.1008790
Sikora et al (2021) Computational
epitope map of SARS-CoV-2
spike protein. PLoS Comput Biol
17(4): e1008790
¿Cuáles son sus posibles epítopos expuestos?
Glucosilaciones
Chen, et al. (2020) Bioinformatics analysis of epitope-based vaccine
design against the novel SARS-CoV-2. Infect Dis Poverty 9, 88
https://doi.org/10.1186/s40249-020-00713-3
Los mejores péptidos con
los que inmunizarnos
Proteína S para
anticuerpos
Nucleocápsida
para citotoxicidad

10
@MGClaros
5. UMA.ES
#JOPFE21

10
@MGClaros
5. UMA.ES
#JOPFE21
Las pseudouridinas (ψ) en lugar
de uracilo (U) aportan estabilidad
GAGAAΨAAAC ΨAGΨAΨΨCΨΨ CΨGGΨCCCCA CAGACΨCAGA GAGAACCCGC 50
CACCAΨGΨΨC GΨGΨΨCCΨGG ΨGCΨGCΨGCC ΨCΨGGΨGΨCC AGCCAGΨGΨG 100
ΨGAACCΨGAC CACCAGAACA CAGCΨGCCΨC CAGCCΨACAC CAACAGCΨΨΨ 150
ACCAGAGGCG ΨGΨACΨACCC CGACAAGGΨG ΨΨCAGAΨCCA GCGΨGCΨGCA 200
CΨCΨACCCAG GACCΨGΨΨCC ΨGCCΨΨΨCΨΨ CAGCAACGΨG ACCΨGGΨΨCC 250
...
ΨGCCAGCCAC ACCCΨGGAGC ΨAGCAAAAAA AAAAAAAAAA AAAAAAAAAA 4200
AAAAGCAΨAΨ GACΨAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA 4250
AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAA 4284
Vacunas de RNA

Propuesta
bioinformática de
fármacos, diagnóstico
preciso (COVID-19,
neumonía),
pronóstico...
Hacia una estrategia integral
11
@MGClaros
5. UMA.ES
#JOPFE21
Atención médica:
diagnóstico
Hacer pública toda la
información recogida
Bioinformática pura y
dura con signos y
síntomas, radiografías,

anállisis bioquímicos,

genómica,

interacciones...
Data science in unveiling COVID-19
pathogenesis and diagnosis (2021)
Briefings in Bioinformatics 22(2), 855–872

Propuesta
bioinformática de
fármacos, diagnóstico
preciso (COVID-19,
neumonía),
pronóstico...
Hacia una estrategia integral
11
@MGClaros
5. UMA.ES
#JOPFE21
QuasiFlow
Colaboración
con UGR
CONSEJERÍA DE CONOCIMIENTO, INVESTIGACIÓN Y
Secretaría General de Universidades, Investigación y Tecnología
12 | 16
permitiendo una mayor fiabilidad en la predicción que la que se puede obtener con cada modelo
por separado.
La arquitectura de cada submodelo es dependiente del tipo de dato usado y es totalmente
modular, pudiendo cambiar uno de estos submodelos sin alterar ninguno de los demás modelos.
Debido a esta modularidad, cualquier nuevo tipo de información del que se disponga para hacer
frente al problema de la detección del virus puede ser rápidamente integrado, mejorando aún
más la eficiencia del modelo. Siendo más específicos, los submodelos basados en imágenes
estarán basados en CNNs, aplicando transfer learning a grandes modelos conocidos pre-
entrenados en otras bases (VGG o ResNet [HE16], por ejemplo). El modelo MSIM usará una
red neuronal densa de varias capas para realizar la predicción final a partir de los vectores de
características de los distintos sub-clasificadores. Un esquema de la arquitectura propuesta
puede observarse en la Figura 5.
Un estudio reciente [CHE19] utilizó un enfoque similar al propuesto en este proyecto
par la predicción del pronóstico de pancancer con resultados esperanzadores. Las fuentes de
información utilizadas fueron imágenes histopatológicas, fuentes transcriptómicas y de historial
del paciente. El análisis del rendimiento de esta arquitectura sirvió de inspiración al diseño
propuesto en este proyecto, teniendo en cuenta las diferencias existentes tanto en las fuentes de
datos usadas como en los tipos de clasificadores de partida. En nuestro caso se pretende que los
clasificadores componentes que serán entrenados conjuntamente con la red global. En un
trabajo inicial realizado por el grupo de trabajo, se emplearon dos clasificadores tipo CNN
conjuntamente para mejorar un clasificador global para un mismo paciente MSIM [MOR20].
Figura 5. Estructura esquemática del modelo de integración de información. Se consiguen
unos vectores de características para cada modelo utilizado con un tipo de dato distinto y es
con esta unión de características con la que realiza la predicción.
Adicionalmente, el modelo MSIM incluirá el uso de un sistema de dropout multimodal
[CHE19] para los casos en los que para un mismo paciente, se disponga de información parcial
del mismo. Con este método, por ejemplo, si inicialmente sobre el paciente solo se dispone de
información de imagen médica, con ella se trabajará y se tratará de analizar, determinar y
Atención médica:
diagnóstico
Hacer pública toda la
información recogida
Bioinformática pura y
dura con signos y
síntomas, radiografías,

anállisis bioquímicos,

genómica,

interacciones...
Data science in unveiling COVID-19
pathogenesis and diagnosis (2021)
Briefings in Bioinformatics 22(2), 855–872

QuasiFlow: nuestro grano de arena
12
@MGClaros
5. UMA.ES
#JOPFE21
Raw
reads
Reference
genome
ORF
coordinates
Task 1: Quality-control &
pre-processing
FastQC, SeqTrimBB
T1_U_rd
Useful
reads
Rejected
reads
Task 2: Recombination
events
ViReMa, BWA
T2_sR:
Single
recombination
T2_dR:
Double
recombination
Task 3: Variant
calling per ORF
VirVarSeq
T3_vcl:
Variants at
codon level
Task 4: Mapping
BWA, samtools,
samstats, Qualimap
T4_pile:
Pileup of
BAM files
Task 5: Haplotype
reconstruction
Haploclique
T5_Ht:
Haplotypes
Task 6: Variant calling
VarScan2, VCFtools
T6_mut:
Mutations
T6_ind:
Indels
Task 7: Crossvalidation, diversity indices, and networking
Clustal Ω, Haploclique, CanvasXpress
T7_Supp_Ht:
Haplotypes
T7_DivI:
Diversity indices
HTML
report
Flujo de trabajo

Puntos calientes
de recombinación
QuasiFlow: nuestro grano de arena
12
@MGClaros
5. UMA.ES
#JOPFE21
... y mucho
más
Reconstrucción
de haplotipos
Raw
reads
Reference
genome
ORF
coordinates
Task 1: Quality-control &
pre-processing
FastQC, SeqTrimBB
T1_U_rd
Useful
reads
Rejected
reads
Task 2: Recombination
events
ViReMa, BWA
T2_sR:
Single
recombination
T2_dR:
Double
recombination
Task 3: Variant
calling per ORF
VirVarSeq
T3_vcl:
Variants at
codon level
Task 4: Mapping
BWA, samtools,
samstats, Qualimap
T4_pile:
Pileup of
BAM files
Task 5: Haplotype
reconstruction
Haploclique
T5_Ht:
Haplotypes
Task 6: Variant calling
VarScan2, VCFtools
T6_mut:
Mutations
T6_ind:
Indels
Task 7: Crossvalidation, diversity indices, and networking
Clustal Ω, Haploclique, CanvasXpress
T7_Supp_Ht:
Haplotypes
T7_DivI:
Diversity indices
HTML
report
Flujo de trabajo
Mutagénesis
letal

Bioinformática y COVID-19

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Bioinformática y COVID-19

Similar a Bioinformática y COVID-19 (20)

Más de M. Gonzalo Claros

Más de M. Gonzalo Claros (20)

Último

Último (20)

Bioinformática y COVID-19