descifrando el código de la vida computación de altas prestaciones en biología Alberto Labarga 17 de Diciembre de 2008, Univ. De Granada
alberto leyre Julia Information architect
 
La vida puede verse como un proceso de almacenamiento y transmisión de información biológica.  El ADN es la molécula portadora de esta información.  Para entender la vida debemos identificar estas moléculas y descifrar el código
 
 
 
 
“ We wish to propose a structure for the salt of desoxyribose nucleic acid (DNA). This structure has novel features which are of considerable biological interest” “ It has not escaped our attention that the specific pairing we have postulated immediately suggests a possible copying mechanism for the genetic material.”
 
En 1955 Ochoa publica en  Journal of the American Chemical Society  el descubrimiento de la  polinucleótido-fosforilasa En 1959 recibe el premio Nobel junto a su discípulo Arthur Kornberg.
Sanger determinó la secuencia de los aminoácidos de la insulina en 1955. Al hacerlo, demostró que las proteínas tienen estructuras específicas. Este resultado le valió su primer Premio Nobel de química en 1958
Cuando Perutz llegó a Cambridge la estructura molecular más grande que se había resuelto era la del pigmento natural ficocianina, de 58 átomos. El tema escogido por Perutz para su tesis fue otra proteína, la hemoglobina, el transportador de oxígeno que da color rojo a nuestra sangre.
La hemoglobina tiene  11.000  átomos.
190x
 
 
Tardó  23   años.
Wilkins, Perutz, Crick, Steinbeck, Watson, Kendrew
El primer Atlas of Protein Sequence and Structure, contenía información de 65 proteinas
En 1966 se presenta el código genético. Este código asocia a cada triplete de bases del ADN, llamado codón, un aminoácido concreto.
El DOGMA CENTRAL de la biología
En 1971 se crea el Protein Data Bank.  En 1974 tiene 12 estructuras myoglobin hemoglobin papain  ribonuclease  lactate dehydrogenase carboxypeptidase A
Frederick Sanger  publica en 1975 un método para la "Secuenciación del ADN mediante síntesis enzimática".
El primer genoma de ADN completamente secuenciado fue el del bacteriófago φX174, en 1977
5,386 bases
11 genes
en Andre Marion y Sam Eletr de Hewlett Packard crean Applied Biosystems en 1982 En 1987 comercializan la primera máquina de secuenciación automatizada, el modelo ABI 370.
En 1984 el DoE invita a 20 investigadores a Alta, Utah, para discutir los efectos de la radiación en el ADN. Por la noche, entre cerveza y cerveza, alguien comenta,  “¿por que no dedican el dinero a algo util, como secuenciar el genoma humano? “
Ejercicio 1: Imagine  varias copias de un libro, cortadas en 10 millones de trocitos cada una, de manera que los trocitos se solapan. Supongamos que 1 millón de trocitos se han perdido, y que los otros 9 millones están manchados de tinta.  Recupere el texto original.
 
1995.- El primer genoma completo de un organismo  vivo ,  Hemophilus influenzae
1,830,137 bases
3,000 genes
340x
1996.- El genoma de la levadura (eukaryota). 12.000.000 de bases y 6000 genes
1997.- El genoma de la bacteria E. Coli. 4.500.000 de bases y 4600 genes
1998.- El genoma del gusano C. Elegans. 100.000.000 de bases y 18.000 genes
1999.- Se consigue la secuencia completa del cromosoma 22. 49,000,000 bp. (sólo 300 genes) (en realidad, 673)
2000.- La mosca de la fruta; 170 millones de nucleotidos y 13,000 genes
2000.- Arabidopsis thaliana. Tiene 100 millones de nucleótidos, y unos 20,000 genes
15 de Febrero de 2001: se publica el borrador de la secuencia del genoma humano
3,000,830,137  bases
600.000x
25,000 genes
11 años
3,000,000,000 $
 
 
“ What makes you think you can do a better job with life and genetics than God?”
We have computers!
1953: IBM presenta su primera computadora electrónica comercial, la IBM 701 con una memoria total de una memoria total de 2048 palabras de 36 bits
1977: “ No hay necesidad de tener un ordenador en cada casa", Ken Olsen, fundador de Digital Equipment
1981: IBM PC  A Intel 8088 processor running at 4.77 MHz. Basic in ROM. 16K RAM.  MS-DOS 1.0
"Nadie va a necesitar más de 640 Kb de memoria en su ordenador personal"
En 1981 se crea EMBL Nucleotide Sequence Data Library. Version 2 contenia 811 secuencias, cerca de un millón de bases que fueron introducidas a mano.
En 1986 se crea Swissprot , una base de datos de proteinas curada a mano.
En 1990, Tim y su grupo desarrollaron el lenguaje HTML (HyperText Markup Language), el protocolo HTTP (HyperText Transfer Protocol); y  el URL (Universal Resource Locator).
Hello everybody out there using minix - I'm doing a (free) operating system (just a hobby, won't be big and professional like gnu) for 386(486) AT clones. This has been brewing since april, and is starting to get ready. I'd like any feedback on things people like/dislike in minix, as my OS resembles it somewhat (same physical layout of the file-system (due to practical reasons) among other things). I've currently ported  bash(1.08)  and  gcc(1.40) , and things seem to work. This implies that I'll get something practical within a few months, and I'd like to know what features most people would want. Any suggestions are welcome, but I won't promise I'll implement them :-) Linus ( [email_address] ) PS. Yes – it's free of any minix code, and it has a multi-threaded fs. It is NOT portable (uses 386 task switching etc), and it probably never will support anything other than AT-harddisks, as that's all I have :-(. El 25 de agosto de 1991, apareció este mensaje en el grupo de noticias comp.os.minix de Usenet
En 1992 se crea el Sanger Center
En 1995 se crea el Instituto Europeo de Bioinformática
Gestiona y pone a disposición de los investigadores más de 200 bases de datos biológicos
 
La capacidad de almacenamiento se duplica cada 2 años Ley de Moore: el número de transistores en un chip se duplica cada 18 meses El ancho de banda se duplica cada 18 meses
 
2560 JS21 blade computing nodes, each with 2 dual-core, 2.3 GHz, IBM 64-bit PowerPC 970MP processors  10240 CPUs | 20 TB of RAM | 280 TB of external disk
62.63 teraflops
myGrid
un gran poder viene acompañado de una gran responsabilidad disponibilidad accesibilidad estabilidad responsabilidad
Contingency cluster backup engines +storage 8 X ES40 + 2 x DS20 SAN attached Tape silos SAN Backup/ mirrors Ensembl cluster 8 X ES40, 6 X ES40 Large scale assembly, sequencing & trace data 19 X ES40, 4 X DS20 360 ds10 alpha Oracle Cluster 6xDS20 2xES40 Informatics Development 5xES40 PFAM SAN attached Tape libraries Extranet  Web Cluster 2X ES40 0.5Tb disk FIREWALL DMZ The ‘Internet’ Mail-hub, local ftp, secure login,  Aceserver, Dial-in hubs  Ensembl web  Blast services 12 ES40 + 6TB storage Cancer Project X-linked disease 4 X ES40 4Tb disk High throughput Farm 768 RLX nodes Humgen 8 X ES45 Front-end Compute  Servers Desk top devices Pathogen 15 x ES40 GS320 32-way 128GB mem. Internal Router GS320 32-way 128GB mem. User X at  Institute Y
 
Sequencing    Fragment assembly problem    The Shortest Superstring Problem    Velvet (Zerbino, 2008)  Gene finding    Hidden Markov Models, pattern recognition methods    GenScan (Burge & Karlin, 1997) Sequence comparison    pairwise and multiple sequence alignments    dynamic algorithm, heuristic methods    PSI- BLAST (Altschul et. al., 1997) ( SSAHA, 2001)  ( MUMmerGPU, 2008)
S.F. Altschul,  et al. (1990) , "Basic Local Alignment Search Tool,"  J. Molec. Biol. , 215(3): 403-10, 1990. 15,306 citations
J. Thompson, T. Gibson, D. Higgins (1994),  CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment.  Nuc. Acids. Res. 22, 4673 - 4680
 
Golub et. al. Science 286:531-537. (1999)
 
 
 
Relational data mining Text mining Spectrum data mining Chemical sequence data model Visualizing relational data clusters Visualizing multidimensional data Visualizing sequence data Visualizing pathway data Text mining visualization Visualizing cluster statistics Visualizing serial/spectrum data Decision tree model of metabonomic profile Chemical structure visualization
Data Integration via caIntegrator
curation submission dataflow workflow ws ws ws ws ws Advanced Search Retrieve data Submit data
 
 
esto no ha hecho más que empezar!!
2002: mus musculus
2003: mus musculus
2005: mus musculus
2006: opposum
2007: platypus
2008: mammoth
2008: homo neardenthalensis
2008: Watson personal genome
2 meses
2,000,000 $
100x 1500x
 
<2%
 
98% ADN basura
¿basura?
ENCyclopedia Of DNA Elements
 
99,9% idénticos
VARIACIÓN EN LA SECUENCIA HUMANA DE DNA Tasa de mutación = 10 -8  /sitio/generación Nº generaciones ancestro común-humano actual: 10 4 -10 5
10.000.000 SNPs
 
 
$10-million award for the first privately funded team that can sequence  100 human genomes  in  10 days  for less than  10.000$
 
Applied Biosystems  ABI 3730XL 1 Mb / day  Illumina / Solexa  Genetic Analyzer 2000 Mb / run Applied Biosystems SOLiD 3000 Mb / run Roche / 454  Genome Sequencer  FLX 100 Mb / run
3000x
 
10X dual core Linux cluster  con 15 terabytes de disco
60.000$
50.000x
2 semanas
800x
1/10000   bits image/bits secuence
10.000x
At $150,000, the Polonator is the cheapest instrument on the market, says Harvard University's George Church, whose lab developed the technology in conjunction with Dover Systems, Plus, the tool uses five-fold less reagents than other platforms, and is the smallest instrument available.  http://www.polonator.org/
 
La información científica disponible en 2010 se duplicará cada 72 horas
hay que empezar ya es decir, vamos con retraso
what is the  impossible  thing we are going to do today?
El mayor peligro no es que nuestro objetivo sea demasiado ambicioso y no lo consigamos, sino que sea  demasiado humilde  y lo alcancemos.  Michelangelo
muchas gracias
scientifik.info

Introduccion a la Bioinformatica

  • 1.
    descifrando el códigode la vida computación de altas prestaciones en biología Alberto Labarga 17 de Diciembre de 2008, Univ. De Granada
  • 2.
    alberto leyre JuliaInformation architect
  • 3.
  • 4.
    La vida puedeverse como un proceso de almacenamiento y transmisión de información biológica. El ADN es la molécula portadora de esta información. Para entender la vida debemos identificar estas moléculas y descifrar el código
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
    “ We wishto propose a structure for the salt of desoxyribose nucleic acid (DNA). This structure has novel features which are of considerable biological interest” “ It has not escaped our attention that the specific pairing we have postulated immediately suggests a possible copying mechanism for the genetic material.”
  • 10.
  • 11.
    En 1955 Ochoapublica en Journal of the American Chemical Society el descubrimiento de la polinucleótido-fosforilasa En 1959 recibe el premio Nobel junto a su discípulo Arthur Kornberg.
  • 12.
    Sanger determinó lasecuencia de los aminoácidos de la insulina en 1955. Al hacerlo, demostró que las proteínas tienen estructuras específicas. Este resultado le valió su primer Premio Nobel de química en 1958
  • 13.
    Cuando Perutz llegóa Cambridge la estructura molecular más grande que se había resuelto era la del pigmento natural ficocianina, de 58 átomos. El tema escogido por Perutz para su tesis fue otra proteína, la hemoglobina, el transportador de oxígeno que da color rojo a nuestra sangre.
  • 14.
    La hemoglobina tiene 11.000 átomos.
  • 15.
  • 16.
  • 17.
  • 18.
    Tardó 23 años.
  • 19.
    Wilkins, Perutz, Crick,Steinbeck, Watson, Kendrew
  • 20.
    El primer Atlasof Protein Sequence and Structure, contenía información de 65 proteinas
  • 21.
    En 1966 sepresenta el código genético. Este código asocia a cada triplete de bases del ADN, llamado codón, un aminoácido concreto.
  • 22.
    El DOGMA CENTRALde la biología
  • 23.
    En 1971 secrea el Protein Data Bank. En 1974 tiene 12 estructuras myoglobin hemoglobin papain ribonuclease lactate dehydrogenase carboxypeptidase A
  • 24.
    Frederick Sanger publica en 1975 un método para la &quot;Secuenciación del ADN mediante síntesis enzimática&quot;.
  • 25.
    El primer genomade ADN completamente secuenciado fue el del bacteriófago φX174, en 1977
  • 26.
  • 27.
  • 28.
    en Andre Mariony Sam Eletr de Hewlett Packard crean Applied Biosystems en 1982 En 1987 comercializan la primera máquina de secuenciación automatizada, el modelo ABI 370.
  • 29.
    En 1984 elDoE invita a 20 investigadores a Alta, Utah, para discutir los efectos de la radiación en el ADN. Por la noche, entre cerveza y cerveza, alguien comenta, “¿por que no dedican el dinero a algo util, como secuenciar el genoma humano? “
  • 30.
    Ejercicio 1: Imagine varias copias de un libro, cortadas en 10 millones de trocitos cada una, de manera que los trocitos se solapan. Supongamos que 1 millón de trocitos se han perdido, y que los otros 9 millones están manchados de tinta. Recupere el texto original.
  • 31.
  • 32.
    1995.- El primergenoma completo de un organismo vivo , Hemophilus influenzae
  • 33.
  • 34.
  • 35.
  • 36.
    1996.- El genomade la levadura (eukaryota). 12.000.000 de bases y 6000 genes
  • 37.
    1997.- El genomade la bacteria E. Coli. 4.500.000 de bases y 4600 genes
  • 38.
    1998.- El genomadel gusano C. Elegans. 100.000.000 de bases y 18.000 genes
  • 39.
    1999.- Se consiguela secuencia completa del cromosoma 22. 49,000,000 bp. (sólo 300 genes) (en realidad, 673)
  • 40.
    2000.- La moscade la fruta; 170 millones de nucleotidos y 13,000 genes
  • 41.
    2000.- Arabidopsis thaliana.Tiene 100 millones de nucleótidos, y unos 20,000 genes
  • 42.
    15 de Febrerode 2001: se publica el borrador de la secuencia del genoma humano
  • 43.
  • 44.
  • 45.
  • 46.
  • 47.
  • 48.
  • 49.
  • 50.
    “ What makesyou think you can do a better job with life and genetics than God?”
  • 51.
  • 52.
    1953: IBM presentasu primera computadora electrónica comercial, la IBM 701 con una memoria total de una memoria total de 2048 palabras de 36 bits
  • 53.
    1977: “ Nohay necesidad de tener un ordenador en cada casa&quot;, Ken Olsen, fundador de Digital Equipment
  • 54.
    1981: IBM PC A Intel 8088 processor running at 4.77 MHz. Basic in ROM. 16K RAM. MS-DOS 1.0
  • 55.
    &quot;Nadie va anecesitar más de 640 Kb de memoria en su ordenador personal&quot;
  • 56.
    En 1981 secrea EMBL Nucleotide Sequence Data Library. Version 2 contenia 811 secuencias, cerca de un millón de bases que fueron introducidas a mano.
  • 57.
    En 1986 secrea Swissprot , una base de datos de proteinas curada a mano.
  • 58.
    En 1990, Timy su grupo desarrollaron el lenguaje HTML (HyperText Markup Language), el protocolo HTTP (HyperText Transfer Protocol); y el URL (Universal Resource Locator).
  • 59.
    Hello everybody outthere using minix - I'm doing a (free) operating system (just a hobby, won't be big and professional like gnu) for 386(486) AT clones. This has been brewing since april, and is starting to get ready. I'd like any feedback on things people like/dislike in minix, as my OS resembles it somewhat (same physical layout of the file-system (due to practical reasons) among other things). I've currently ported bash(1.08) and gcc(1.40) , and things seem to work. This implies that I'll get something practical within a few months, and I'd like to know what features most people would want. Any suggestions are welcome, but I won't promise I'll implement them :-) Linus ( [email_address] ) PS. Yes – it's free of any minix code, and it has a multi-threaded fs. It is NOT portable (uses 386 task switching etc), and it probably never will support anything other than AT-harddisks, as that's all I have :-(. El 25 de agosto de 1991, apareció este mensaje en el grupo de noticias comp.os.minix de Usenet
  • 60.
    En 1992 secrea el Sanger Center
  • 61.
    En 1995 secrea el Instituto Europeo de Bioinformática
  • 62.
    Gestiona y ponea disposición de los investigadores más de 200 bases de datos biológicos
  • 63.
  • 64.
    La capacidad dealmacenamiento se duplica cada 2 años Ley de Moore: el número de transistores en un chip se duplica cada 18 meses El ancho de banda se duplica cada 18 meses
  • 65.
  • 66.
    2560 JS21 bladecomputing nodes, each with 2 dual-core, 2.3 GHz, IBM 64-bit PowerPC 970MP processors 10240 CPUs | 20 TB of RAM | 280 TB of external disk
  • 67.
  • 68.
  • 69.
    un gran poderviene acompañado de una gran responsabilidad disponibilidad accesibilidad estabilidad responsabilidad
  • 70.
    Contingency cluster backupengines +storage 8 X ES40 + 2 x DS20 SAN attached Tape silos SAN Backup/ mirrors Ensembl cluster 8 X ES40, 6 X ES40 Large scale assembly, sequencing & trace data 19 X ES40, 4 X DS20 360 ds10 alpha Oracle Cluster 6xDS20 2xES40 Informatics Development 5xES40 PFAM SAN attached Tape libraries Extranet Web Cluster 2X ES40 0.5Tb disk FIREWALL DMZ The ‘Internet’ Mail-hub, local ftp, secure login, Aceserver, Dial-in hubs Ensembl web Blast services 12 ES40 + 6TB storage Cancer Project X-linked disease 4 X ES40 4Tb disk High throughput Farm 768 RLX nodes Humgen 8 X ES45 Front-end Compute Servers Desk top devices Pathogen 15 x ES40 GS320 32-way 128GB mem. Internal Router GS320 32-way 128GB mem. User X at Institute Y
  • 71.
  • 72.
    Sequencing  Fragment assembly problem  The Shortest Superstring Problem  Velvet (Zerbino, 2008) Gene finding  Hidden Markov Models, pattern recognition methods  GenScan (Burge & Karlin, 1997) Sequence comparison  pairwise and multiple sequence alignments  dynamic algorithm, heuristic methods  PSI- BLAST (Altschul et. al., 1997) ( SSAHA, 2001) ( MUMmerGPU, 2008)
  • 73.
    S.F. Altschul, et al. (1990) , &quot;Basic Local Alignment Search Tool,&quot; J. Molec. Biol. , 215(3): 403-10, 1990. 15,306 citations
  • 74.
    J. Thompson, T.Gibson, D. Higgins (1994), CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment. Nuc. Acids. Res. 22, 4673 - 4680
  • 75.
  • 76.
    Golub et. al.Science 286:531-537. (1999)
  • 77.
  • 78.
  • 79.
  • 80.
    Relational data miningText mining Spectrum data mining Chemical sequence data model Visualizing relational data clusters Visualizing multidimensional data Visualizing sequence data Visualizing pathway data Text mining visualization Visualizing cluster statistics Visualizing serial/spectrum data Decision tree model of metabonomic profile Chemical structure visualization
  • 81.
  • 82.
    curation submission dataflowworkflow ws ws ws ws ws Advanced Search Retrieve data Submit data
  • 83.
  • 84.
  • 85.
    esto no hahecho más que empezar!!
  • 86.
  • 87.
  • 88.
  • 89.
  • 90.
  • 91.
  • 92.
  • 93.
  • 94.
  • 95.
  • 96.
  • 97.
  • 98.
  • 99.
  • 100.
  • 101.
  • 102.
  • 103.
  • 104.
  • 105.
    VARIACIÓN EN LASECUENCIA HUMANA DE DNA Tasa de mutación = 10 -8 /sitio/generación Nº generaciones ancestro común-humano actual: 10 4 -10 5
  • 106.
  • 107.
  • 108.
  • 109.
    $10-million award forthe first privately funded team that can sequence 100 human genomes in 10 days for less than 10.000$
  • 110.
  • 111.
    Applied Biosystems ABI 3730XL 1 Mb / day Illumina / Solexa Genetic Analyzer 2000 Mb / run Applied Biosystems SOLiD 3000 Mb / run Roche / 454 Genome Sequencer FLX 100 Mb / run
  • 112.
  • 113.
  • 114.
    10X dual coreLinux cluster con 15 terabytes de disco
  • 115.
  • 116.
  • 117.
  • 118.
  • 119.
    1/10000 bits image/bits secuence
  • 120.
  • 121.
    At $150,000, thePolonator is the cheapest instrument on the market, says Harvard University's George Church, whose lab developed the technology in conjunction with Dover Systems, Plus, the tool uses five-fold less reagents than other platforms, and is the smallest instrument available. http://www.polonator.org/
  • 122.
  • 123.
    La información científicadisponible en 2010 se duplicará cada 72 horas
  • 124.
    hay que empezarya es decir, vamos con retraso
  • 125.
    what is the impossible thing we are going to do today?
  • 126.
    El mayor peligrono es que nuestro objetivo sea demasiado ambicioso y no lo consigamos, sino que sea demasiado humilde y lo alcancemos. Michelangelo
  • 127.
  • 128.