SlideShare una empresa de Scribd logo
1 de 30
Descargar para leer sin conexión
Otros c´digos Clusterizaci´n ADN Retos Grupo
       o                  o




   Palabras clave en el ADN y predicci´n
                                      o
  computacional de elementos reguladores

                                    Jos´ L. Oliver
                                       e

                   Grupo de Gen´mica Evolutiva y Bioinform´tica
                                o                         a
                                Dpto. de Gen´tica
                                             e
                             Universidad de Granada
                           http://www.ugr.es/˜oliver/




                                Jos´ L. Oliver
                                   e             Palabras clave y predicci´n computacional de elementos reguladores
                                                                          o
Otros c´digos Clusterizaci´n ADN Retos Grupo
                o                  o                      Evidencias Funci´n y ADN no-codificador
                                                                          o


Evidencias de otros c´digos en el ADN
                     o

  Tras la secuenciaci´n del genoma humano, sabemos que:
                     o
      S´lo hay 20.000-25.000 genes para prote´
       o                                     ınas
      Equivalen al 2 % del genoma
      Sin embargo, el 57-80 % del genoma se transcribe
      Evidencias indirectas:
            ADN no-codificador pero conservado evolutivamente
            Selecci´n purificadora en el 20-30 % del ADN no-codificador
                   o

                   Hay otras capas de informaci´n en el genoma
                                               o

  C´digo regulador: promotores, sitios de uni´n a factores de
    o                                          o
  transcripci´n o TFBSs, enhancers, represores, microRNAs, RNAi,
              o
  or´
    ıgenes de replicaci´n, secuencias centrom´ricas, elementos separadores,
                       o                     e
  etc... y los que no conocemos.


                                         Jos´ L. Oliver
                                            e             Palabras clave y predicci´n computacional de elementos reguladores
                                                                                   o
Otros c´digos Clusterizaci´n ADN Retos Grupo
                o                  o                      Evidencias Funci´n y ADN no-codificador
                                                                          o


Evidencias de otros c´digos en el ADN
                     o

  Tras la secuenciaci´n del genoma humano, sabemos que:
                     o
      S´lo hay 20.000-25.000 genes para prote´
       o                                     ınas
      Equivalen al 2 % del genoma
      Sin embargo, el 57-80 % del genoma se transcribe
      Evidencias indirectas:
            ADN no-codificador pero conservado evolutivamente
            Selecci´n purificadora en el 20-30 % del ADN no-codificador
                   o

                   Hay otras capas de informaci´n en el genoma
                                               o

  C´digo regulador: promotores, sitios de uni´n a factores de
    o                                          o
  transcripci´n o TFBSs, enhancers, represores, microRNAs, RNAi,
              o
  or´
    ıgenes de replicaci´n, secuencias centrom´ricas, elementos separadores,
                       o                     e
  etc... y los que no conocemos.


                                         Jos´ L. Oliver
                                            e             Palabras clave y predicci´n computacional de elementos reguladores
                                                                                   o
Otros c´digos Clusterizaci´n ADN Retos Grupo
                o                  o                      Evidencias Funci´n y ADN no-codificador
                                                                          o


Tres principios para predecir funci´n
                                   o

  Sobre-abundancia de ciertas palabras (motifs).
      Problema: se asume su independencia, ignorando las relaciones
      espaciales entre diferentes motivos. Es decir, s´lo se toman en cuenta
                                                      o
      las frecuencias de las palabras, pero no su organizaci´n espacial.
                                                              o
  Conservaci´n evolutiva: las regiones conservadas en distintas especies
            o
  deben tener un papel funcional.
      Problema: casi la mitad de los elementos funcionales
      no-codificadores en las regiones ENCODE no est´n conservados
                                                     a
      evolutivamente.




                                         Jos´ L. Oliver
                                            e             Palabras clave y predicci´n computacional de elementos reguladores
                                                                                   o
Otros c´digos Clusterizaci´n ADN Retos Grupo
                o                  o                      Evidencias Funci´n y ADN no-codificador
                                                                          o


Tres principios para predecir funci´n
                                   o

  Sobre-abundancia de ciertas palabras (motifs).
      Problema: se asume su independencia, ignorando las relaciones
      espaciales entre diferentes motivos. Es decir, s´lo se toman en cuenta
                                                      o
      las frecuencias de las palabras, pero no su organizaci´n espacial.
                                                              o
  Conservaci´n evolutiva: las regiones conservadas en distintas especies
            o
  deben tener un papel funcional.
      Problema: casi la mitad de los elementos funcionales
      no-codificadores en las regiones ENCODE no est´n conservados
                                                     a
      evolutivamente.
  Grupos de genes co-regulados: los genes con el mismo perfil de expresi´n
                                                                       o
  (activaci´n/silenciamiento) comparten elementos reguladores.
           o
      Problema: incertidumbre en cuanto al n´mero de grupos,
                                              u
      naturaleza combinatoria de la regulaci´n.
                                            o



                                         Jos´ L. Oliver
                                            e             Palabras clave y predicci´n computacional de elementos reguladores
                                                                                   o
Otros c´digos Clusterizaci´n ADN Retos Grupo
                o                  o                      Evidencias Funci´n y ADN no-codificador
                                                                          o


Tres principios para predecir funci´n
                                   o

  Sobre-abundancia de ciertas palabras (motifs).
      Problema: se asume su independencia, ignorando las relaciones
      espaciales entre diferentes motivos. Es decir, s´lo se toman en cuenta
                                                      o
      las frecuencias de las palabras, pero no su organizaci´n espacial.
                                                              o
  Conservaci´n evolutiva: las regiones conservadas en distintas especies
            o
  deben tener un papel funcional.
      Problema: casi la mitad de los elementos funcionales
      no-codificadores en las regiones ENCODE no est´n conservados
                                                     a
      evolutivamente.
  Grupos de genes co-regulados: los genes con el mismo perfil de expresi´n
                                                                       o
  (activaci´n/silenciamiento) comparten elementos reguladores.
           o
      Problema: incertidumbre en cuanto al n´mero de grupos,
                                              u
      naturaleza combinatoria de la regulaci´n.
                                            o



                                         Jos´ L. Oliver
                                            e             Palabras clave y predicci´n computacional de elementos reguladores
                                                                                   o
Otros c´digos Clusterizaci´n ADN Retos Grupo
                o                  o                      Evidencias Funci´n y ADN no-codificador
                                                                          o


Un nuevo principio para predecir funci´n
                                      o


  Basado en la extrapolaci´n a textos de una t´cnica para medir desorden
                          o                        e
  en sistemas cu´nticos (Carpena et al., Physical Review E 79, 035102-4, 2009):
                a
       Las palabras relevantes/funcionales est´n clusterizadas, mientras que
                                                a
       las palabras comunes se distribuyen al azar.
       Se tienen en cuenta tanto la composici´n (frecuencias) como la
                                                o
       estructura (distribuci´n espacial) del texto gen´tico.
                             o                         e
       Genes, islas CpG, y sitios de uni´n a factores de transcripci´n est´n
                                        o                           o     a
       clusterizados ⇒ este principio podr´ funcionar tambi´n en el
                                           ıa                 e
       genoma.
  El m´todo para extraer palabras clave en el ADN se basa en lo que
      e
  hemos aprendido analizando textos literarios normales y textos ”sin
  comas”(como el ADN!):
  tatcattcactttcagccaccaattcactttca...



                                         Jos´ L. Oliver
                                            e             Palabras clave y predicci´n computacional de elementos reguladores
                                                                                   o
Otros c´digos Clusterizaci´n ADN Retos Grupo
                o                  o                      Evidencias Funci´n y ADN no-codificador
                                                                          o


Un nuevo principio para predecir funci´n
                                      o


  Basado en la extrapolaci´n a textos de una t´cnica para medir desorden
                          o                        e
  en sistemas cu´nticos (Carpena et al., Physical Review E 79, 035102-4, 2009):
                a
       Las palabras relevantes/funcionales est´n clusterizadas, mientras que
                                                a
       las palabras comunes se distribuyen al azar.
       Se tienen en cuenta tanto la composici´n (frecuencias) como la
                                                o
       estructura (distribuci´n espacial) del texto gen´tico.
                             o                         e
       Genes, islas CpG, y sitios de uni´n a factores de transcripci´n est´n
                                        o                           o     a
       clusterizados ⇒ este principio podr´ funcionar tambi´n en el
                                           ıa                 e
       genoma.
  El m´todo para extraer palabras clave en el ADN se basa en lo que
      e
  hemos aprendido analizando textos literarios normales y textos ”sin
  comas”(como el ADN!):
  tatcattcactttcagccaccaattcactttca...



                                         Jos´ L. Oliver
                                            e             Palabras clave y predicci´n computacional de elementos reguladores
                                                                                   o
Otros c´digos Clusterizaci´n ADN Retos Grupo
              o                  o                      Espectros Medida Textos Sin comas


El espectro de una palabra en un texto




     Para cada palabra, se determinan sus posiciones en el texto (su
     espectro).
     Por ejemplo, en la siguiente frase el espectro de la palabra a ser´
                                                                       ıa
     (1,6,10):

         A great scientist must be a good teacher and a good
     researcher




                                       Jos´ L. Oliver
                                          e             Palabras clave y predicci´n computacional de elementos reguladores
                                                                                 o
Otros c´digos Clusterizaci´n ADN Retos Grupo
                o                  o                            Espectros Medida Textos Sin comas


El espectro de dos palabras equifrecuentes
  Espectros de las palabras Quixote y but en las 50.000 primeras palabras
  de la versi´n inglesa del Quijote:
             o


                       'Quixote'
                           (288
                        occurrences)




                           'but'
                           (248
                        occurrences)



                                       0    10000       20000       30000       40000       50000
                                                       position (words)



                 Frequencia similar pero estructura muy diferente
                    Las palabras relevantes est´n clusterizadas
                                               a


                                           Jos´ L. Oliver
                                              e                 Palabras clave y predicci´n computacional de elementos reguladores
                                                                                         o
Otros c´digos Clusterizaci´n ADN Retos Grupo
                  o                  o                       Espectros Medida Textos Sin comas


Cuantificando la clusterizaci´n: σ y σnor
                            o


  Ortu˜o, Carpena, Bernaola et al.
      n                                                (Europhysics Letters 57, 759-764, 2002):


                                                   σ ≡ s/ d                                                            (1)
                                                              d2 − d           2
  siendo d la distancia media y s =                                                la desviaci´n standard
                                                                                              o
  de P(d).

  Sin embargo, σ depende de la frecuencia de la palabra. Dicha
  dependencia se elimina mediante normalizaci´n (Physical Review E 79: 035102-4,
                                             o
  2009):

                                                              σ
                                              σnor = √                                                                 (2)
                                                             1−p
  siendo p = n/N la probabilidad de la palabra en el texto.




                                           Jos´ L. Oliver
                                              e              Palabras clave y predicci´n computacional de elementos reguladores
                                                                                      o
Otros c´digos Clusterizaci´n ADN Retos Grupo
                  o                  o                       Espectros Medida Textos Sin comas


Cuantificando la clusterizaci´n: σ y σnor
                            o


  Ortu˜o, Carpena, Bernaola et al.
      n                                                (Europhysics Letters 57, 759-764, 2002):


                                                   σ ≡ s/ d                                                            (1)
                                                              d2 − d           2
  siendo d la distancia media y s =                                                la desviaci´n standard
                                                                                              o
  de P(d).

  Sin embargo, σ depende de la frecuencia de la palabra. Dicha
  dependencia se elimina mediante normalizaci´n (Physical Review E 79: 035102-4,
                                             o
  2009):

                                                              σ
                                              σnor = √                                                                 (2)
                                                             1−p
  siendo p = n/N la probabilidad de la palabra en el texto.




                                           Jos´ L. Oliver
                                              e              Palabras clave y predicci´n computacional de elementos reguladores
                                                                                      o
Otros c´digos Clusterizaci´n ADN Retos Grupo
                o                  o                             Espectros Medida Textos Sin comas


Efecto de la normalizaci´n de σ
                        o
  Simulaci´n de textos aleatorios:
          o


              a)      1.00

                                                    p = 0.01          p = 0.05         p = 0.1
                      0.98
                                         1.00
                      0.96
             <σnor>


                                         0.96

                                      <σ>
                      0.94
                                         0.92
                      0.92
                                         0.88
                      0.90
                                         0.84
                      0.88                      0       200     400     600      800   1000
                                                              n (word count)
                      0.86
                             0   100 200 300 400 500 600 700 800 900 1000
                                                n (word count)
                                                                                                  √
                                                                                                      1 − p.
          Las l´
               ıneas horizontales son los valores esperados

                                         Jos´ L. Oliver
                                            e                    Palabras clave y predicci´n computacional de elementos reguladores
                                                                                          o
Otros c´digos Clusterizaci´n ADN Retos Grupo
              o                  o                       Espectros Medida Textos Sin comas


Significaci´n estad´
          o       ıstica: la medida C

     Otra mejora importante que hemos incorporado ha sido asociar a
     σnor una significaci´n estad´
                        o       ıstica.
     Para ello, dada una palabra con frecuencia n, definimos la medida C
     como un z-score:
                                                        σnor − σnor (n)
                                 C (σnor , n) ≡                                                                    (3)
                                                          sd(σnor )(n)

     C mide la desviaci´n de σnor con respecto al valor esperado en un
                        o
     texto aleatorio ( σnor (n)) en unidades de la desviaci´n standard
                                                           o
     esperada (sd(σnor )(n)).

     C = 0 → Distribuci´n aleatoria
                       o
     C > 0 → Clusterizaci´n
                         o
     C < 0 → Repulsi´n
                    o


                                       Jos´ L. Oliver
                                          e              Palabras clave y predicci´n computacional de elementos reguladores
                                                                                  o
Otros c´digos Clusterizaci´n ADN Retos Grupo
              o                  o                       Espectros Medida Textos Sin comas


Significaci´n estad´
          o       ıstica: la medida C

     Otra mejora importante que hemos incorporado ha sido asociar a
     σnor una significaci´n estad´
                        o       ıstica.
     Para ello, dada una palabra con frecuencia n, definimos la medida C
     como un z-score:
                                                        σnor − σnor (n)
                                 C (σnor , n) ≡                                                                    (3)
                                                          sd(σnor )(n)

     C mide la desviaci´n de σnor con respecto al valor esperado en un
                        o
     texto aleatorio ( σnor (n)) en unidades de la desviaci´n standard
                                                           o
     esperada (sd(σnor )(n)).

     C = 0 → Distribuci´n aleatoria
                       o
     C > 0 → Clusterizaci´n
                         o
     C < 0 → Repulsi´n
                    o


                                       Jos´ L. Oliver
                                          e              Palabras clave y predicci´n computacional de elementos reguladores
                                                                                  o
Otros c´digos Clusterizaci´n ADN Retos Grupo
               o                  o                      Espectros Medida Textos Sin comas


Palabras clave en textos literarios

      La medida C permite extraer palabras clave de textos literarios
      (novela, poes´ libros cient´
                   ıa,           ıficos...)
      Por ejemplo, en el libro The Origin of Species...

                                word            Counts     σnor        C
                                sterility       122        6.018       58.00
                                hybrids         152        5.14        53.04
                                varieties       486        3.13        47.64
                                instincts       100        4.87        40.93
                                species         1922       1.91        39.87
                                plants          471        2.64        36.23
                                crossed         116        3.97        33.65
                                bees            92         4.18        32.36
                                island          69         4.57        32.01
                                instinct        79         4.33        31.65
                                pollen          121        3.66        30.73
                                fertility       93         3.97        30.38
                                selection       559        2.27        30.37
                                organs          224        2.97        30.30
                                forms           565        2.22        29.37



                                        Jos´ L. Oliver
                                           e             Palabras clave y predicci´n computacional de elementos reguladores
                                                                                  o
Otros c´digos Clusterizaci´n ADN Retos Grupo
              o                  o                      Espectros Medida Textos Sin comas


Textos ’sin comas’


     El m´todo funciona tambi´n en textos ’sin comas’ (sin espacios ni
          e                  e
     se˜ales de puntuaci´n).
       n                o
     Era de esperar porque, aunque se eliminen los espacios, las distancias
     entre palabras relevantes y comunes siguen siendo diferentes.
     Puesto que se desconoce la longitud de palabra, se toman todos los
     k-mers con longitud entre 2 y 35.
     El resultado son linajes de palabras: cada palabra contiene palabras
     m´s cortas y est´ contenida a su vez en otras palabras m´s largas.
       a             a                                         a
     Por ejemplo, para la palabra ventero en El Quijote encontramos
     venter o entero (hijos) y lventero o venteroy (padres).
     Para eliminar la redundancia, cada linaje se organiza en un gr´fico
                                                                   a
     ac´
       ıclico dirigido (DAG) y se eligen las palabras que sobrepasan cierto
     umbral de C (percentiles 50, 75 ´ 95).
                                       o



                                       Jos´ L. Oliver
                                          e             Palabras clave y predicci´n computacional de elementos reguladores
                                                                                 o
Otros c´digos Clusterizaci´n ADN Retos Grupo
              o                  o                      Espectros Medida Textos Sin comas


Textos ’sin comas’


     El m´todo funciona tambi´n en textos ’sin comas’ (sin espacios ni
          e                  e
     se˜ales de puntuaci´n).
       n                o
     Era de esperar porque, aunque se eliminen los espacios, las distancias
     entre palabras relevantes y comunes siguen siendo diferentes.
     Puesto que se desconoce la longitud de palabra, se toman todos los
     k-mers con longitud entre 2 y 35.
     El resultado son linajes de palabras: cada palabra contiene palabras
     m´s cortas y est´ contenida a su vez en otras palabras m´s largas.
       a             a                                         a
     Por ejemplo, para la palabra ventero en El Quijote encontramos
     venter o entero (hijos) y lventero o venteroy (padres).
     Para eliminar la redundancia, cada linaje se organiza en un gr´fico
                                                                   a
     ac´
       ıclico dirigido (DAG) y se eligen las palabras que sobrepasan cierto
     umbral de C (percentiles 50, 75 ´ 95).
                                       o



                                       Jos´ L. Oliver
                                          e             Palabras clave y predicci´n computacional de elementos reguladores
                                                                                 o
Otros c´digos Clusterizaci´n ADN Retos Grupo
                o                  o                      Espectros Medida Textos Sin comas


Relativity: The Special and General Theory, by A. Einstein
  Palabras clave extra´
                      ıdas tras eliminar del texto los espacios y las se˜ales
                                                                        n
  de puntuaci´n:
              o
                        word                              Counts       σnor        C
                        energy                            23           4.29        19.10
                        theuniverse                       20           3.84        15.76
                        erical                            26           3.25        13.74
                        project                           35           2.73        11.85
                        alongthe                          17           2.92        10.28
                        econtinuum                        23           2.70        10.04
                        thegravitationalfield              27           2.60        10.01
                        sphere                            16           2.8         9.79
                        electron                          13           2.92        9.54
                        geometry                          31           2.45        9.54
                        theprincipleofrelativity          33           2.41        9.48
                        specific                           11           2.91        9.11
                        theembankment                     40           2.25        9.09
                        square                            28           2.41        8.92
                        thetheoryofrelativity             32           2.31        8.78
                        velocityv                         17           2.60        8.63
                        referencebody                     56           2.01        8.50
                        materialpoint                     12           2.69        8.29
                        thelorentztransformation          33           2.22        8.26
                        fourdimensional                   26           2.33        8.25


                                         Jos´ L. Oliver
                                            e             Palabras clave y predicci´n computacional de elementos reguladores
                                                                                   o
Otros c´digos Clusterizaci´n ADN Retos Grupo
              o                  o                                Espectros Medida Textos Sin comas




                                     http://bioinfo2.ugr.es/TextKeywords/

Libros analizados, con y sin espacios (tomados del proyecto Gutenberg):
    Espa˜ol
        n
             Don Quijote, Miguel de Cervantes
             La Celestina, Fernando de Rojas

    Ingl´s
        e
             Relativity: the especial and general theory, Albert Einstein
             The Origin of Species by means of Natural Selection, Charles Darwin
             Don Quixote, Miguel de Cervantes
             The Odyssey, Homero
             The Jungle Book, Rudyard Kipling
             Moby Dick, Herman Melville
             The Three Musketeers, Alejandro Dumas

    Alem´n
        a
             Faust: Der Trag¨die erster Teil, Johann Wolfgang von Goethe
                            o
             Faust: Der Trag¨die zweiter Teil, Johann Wolfgang von Goethe
                            o

    Italiano
             La Divina Commedia di Dante, Dante Alighieri

    Lat´
       ın
             De Bello Gallico, Julio Caesar




                                              Jos´ L. Oliver
                                                 e                Palabras clave y predicci´n computacional de elementos reguladores
                                                                                           o
Otros c´digos Clusterizaci´n ADN Retos Grupo
               o                  o                      Unfolding DNAKeywords Funci´n biol´gica Sobreabundancia
                                                                                    o      o


Clusterizaci´n en el ADN
            o


  La analog´ entre textos ’sin comas’ y ADN es s´lo aproximada:
           ıa                                   o
      Diferencia de tama˜o: 2-3 Mb en textos frente a los 150 Mb de un
                        n
      cromosoma medio.
      El ADN es un texto de autor m´ltiple: se reescribe continuamente
                                      u
      por puntos diferentes y con estilos (sesgos mutacionales) diferentes.
      ⇒ Mezcla de distribuciones ⇒ Clusterizaci´n trivial
                                                  o


      La clusterizaci´n trivial la eliminamos mediante unfolding: la σ se
                     o
      normaliza usando medias locales (a cierta escala s) en vez de la
      media global (Bohigas et al., Physical Review Letters 52, 1-4, 1984).
      En el genoma humano, una escala entre 20 y 50 permite eliminar la
      clusterizaci´n trivial.
                  o




                                        Jos´ L. Oliver
                                           e             Palabras clave y predicci´n computacional de elementos reguladores
                                                                                  o
Otros c´digos Clusterizaci´n ADN Retos Grupo
               o                  o                      Unfolding DNAKeywords Funci´n biol´gica Sobreabundancia
                                                                                    o      o


Clusterizaci´n en el ADN
            o


  La analog´ entre textos ’sin comas’ y ADN es s´lo aproximada:
           ıa                                   o
      Diferencia de tama˜o: 2-3 Mb en textos frente a los 150 Mb de un
                        n
      cromosoma medio.
      El ADN es un texto de autor m´ltiple: se reescribe continuamente
                                      u
      por puntos diferentes y con estilos (sesgos mutacionales) diferentes.
      ⇒ Mezcla de distribuciones ⇒ Clusterizaci´n trivial
                                                  o


      La clusterizaci´n trivial la eliminamos mediante unfolding: la σ se
                     o
      normaliza usando medias locales (a cierta escala s) en vez de la
      media global (Bohigas et al., Physical Review Letters 52, 1-4, 1984).
      En el genoma humano, una escala entre 20 y 50 permite eliminar la
      clusterizaci´n trivial.
                  o




                                        Jos´ L. Oliver
                                           e             Palabras clave y predicci´n computacional de elementos reguladores
                                                                                  o
Otros c´digos Clusterizaci´n ADN Retos Grupo
                  o                  o                      Unfolding DNAKeywords Funci´n biol´gica Sobreabundancia
                                                                                       o      o


Un vocabulario para el genoma humano



  DNAkeywords contiene datos de clusterizaci´n para los k-mers (k = 2 − 12) de los 24 cromosomas
                                            o
  del genoma humano (hg18, NCBI Build 36.1):




                                           Jos´ L. Oliver
                                              e             Palabras clave y predicci´n computacional de elementos reguladores
                                                                                     o
Otros c´digos Clusterizaci´n ADN Retos Grupo
               o                  o                      Unfolding DNAKeywords Funci´n biol´gica Sobreabundancia
                                                                                    o      o


Palabras clave en el genoma humano



    N´mero de palabras clave en la secuencia de referencia (hg18, NCBI
     u
                  Build 36.1, k-mers para k = 2 − 12)

      Escala       Umbral de C              N (24 cromosomas)                     No-redundantes
        20                  50                        599.964                            207.650
        ”                   75                        294.475                            119.925
        ”                   95                         52.312                             28.145
        50                  50                        592.729                            199.860
        ”                   75                        263.941                            102.865
        ”                   95                         26.532                             15.690




                                        Jos´ L. Oliver
                                           e             Palabras clave y predicci´n computacional de elementos reguladores
                                                                                  o
Otros c´digos Clusterizaci´n ADN Retos Grupo
              o                  o                                                                      Unfolding DNAKeywords Funci´n biol´gica Sobreabundancia
                                                                                                                                   o      o


Clusterizaci´n y funci´n biol´gica
            o         o      o

                                                                                                                                      k = 2 − 8, s = 50


                                                                           80


                    o f w o r d s w ith in th e g e n o m e e le m e n t
                                                                           70



                                                                           60



                                                                           50



                                                                           40
                                                                                                                   TFBSs
                                                                                                                   Promoters
                                                                                                                   CpG islands
                                                                           30

                                                                                                                   PhastCons
                    %




                                                                           20
                                                                                0     1          2         3           4         5
                                                                                              Clusterización (C)




        Muchos elementos gen´micos son ricos en palabras clave
                            o

                                                                                    Jos´ L. Oliver
                                                                                       e                Palabras clave y predicci´n computacional de elementos reguladores
                                                                                                                                 o
Otros c´digos Clusterizaci´n ADN Retos Grupo
              o                  o                                                                      Unfolding DNAKeywords Funci´n biol´gica Sobreabundancia
                                                                                                                                   o      o


En algunos elementos, no se ve tal relaci´n
                                         o


                                                                                                                                      k = 2 − 8, s = 50


                                                                          80
                   o f w o r d s w ith in th e g e n o m e e le m e n t


                                                                          70


                                                                          60


                                                                          50


                                                                          40


                                                                          30


                                                                                                                   miRNAs
                                                                          20

                                                                                                                   F3' flanks
                                                                          10
                   %




                                                                            0
                                                                                0     1          2         3           4        5
                                                                                              Clusterización (C)




                                                                                    Jos´ L. Oliver
                                                                                       e                Palabras clave y predicci´n computacional de elementos reguladores
                                                                                                                                 o
Otros c´digos Clusterizaci´n ADN Retos Grupo
               o                  o                      Unfolding DNAKeywords Funci´n biol´gica Sobreabundancia
                                                                                    o      o


Sobreabundancia estad´
                     ıstica
  Para cada elemento, se determina la frecuencia observada de cada
  palabra, y se compara con la frecuencia en 100 segmentos (de la misma
  longitud y elegidos al azar) del resto del genoma:




                                        Jos´ L. Oliver
                                           e             Palabras clave y predicci´n computacional de elementos reguladores
                                                                                  o
Otros c´digos Clusterizaci´n ADN Retos Grupo
                     o                  o                             Unfolding DNAKeywords Funci´n biol´gica Sobreabundancia
                                                                                                 o      o


Proporci´n de palabras sobreabundantes (z-score > 2.33)
        o
  Cromosomas 19-22, N = 2000, s = 50, percentil 95:
     1    TFBSs conserved in the human/mouse/rat alignment → (21.60 %)
     2    CpG islands predicted by CpGcluster → (65.35 %)
     3    Promoter region of RefSeq Genes, (200 bp around the TSS) → (43.80 %)
     4    Promoter region from DBTSS (200 bp around the TSS) → (39.70 %)
     5    Curated regulatory regions, TFBSs, and regulatory polymorphisms → (19.00 %)
     6    TSSs predicted by the program Eponine → (23.95 %)
     7    ESPERR Regulatory Potential → (21.25 %)
     8    Vista HMR-Conserved Non-coding Human Enhancers from LBNL → (0.85 %)
     9    Conserved mammalian microRNA regulatory target sites for conserved microRNA families in the 3’ UTR regions of Refseq Genes,
          as predicted by TargetScanS → (1.60 %)
    10 microRNAs, C/D and H/ACA Box snoRNAs and scaRNAs from miRBase and snoRNABase → (0.90 %)

    11 poly(A) Sites, both reported and predicted → (1.35 %)
    12 Experimentally identified human genomic insulators → (38.95 %)

    13 Exons from RefSeq → (39.50 %)
    14 Introns from RefSeq → (11.75 %)

    15 Repeats by RepeatMasker → (29.60 %)

    16 PhastCons Conserved Elements → (21.85 %)



         El 80 % de las palabras clave detectadas se puede relacionar con alguno de los
                                elementos gen´micos conocidos
                                              o


                                                  Jos´ L. Oliver
                                                     e                Palabras clave y predicci´n computacional de elementos reguladores
                                                                                               o
Otros c´digos Clusterizaci´n ADN Retos Grupo
               o                  o


Para el futuro




      B´squedas no-exactas (fuzzy), obteniendo la distribuci´n compuesta
       u                                                    o
      de distancias antes de calcular la clusterizaci´n.
                                                     o
      Localizaci´n y organizaci´n de los clusters (homo- y heterot´
                o              o                                  ıpicos)
      de palabras en el cromosoma: combinatoria de la regulaci´n.
                                                               o
      Desarrollo de predictores espec´
                                     ıficos para distintos elementos
      funcionales.




                                        Jos´ L. Oliver
                                           e             Palabras clave y predicci´n computacional de elementos reguladores
                                                                                  o
Otros c´digos Clusterizaci´n ADN Retos Grupo
               o                  o


Grupo


    F´
     ısica Aplicada II, M´laga:
                         a
           Pedro Bernaola
           Pedro Carpena
           Ana V. Coronado
    Gen´tica, Granada:
       e
           Michael Hackenberg (posdoctoral)
           Guillermo Barturen (predoctoral)
           Teresa Galera (predoctoral)
           Angel Mart´ Alganza (administrador del sistema)
                      ın



                                               GRACIAS!




                                        Jos´ L. Oliver
                                           e             Palabras clave y predicci´n computacional de elementos reguladores
                                                                                  o

Más contenido relacionado

Similar a Palabras clave en el ADN y predicción computacional de elementos reguladores.

Clase x bloque iv epigenetica, genoma y tecnologia del adn 2015
Clase x bloque iv epigenetica, genoma y tecnologia del adn 2015Clase x bloque iv epigenetica, genoma y tecnologia del adn 2015
Clase x bloque iv epigenetica, genoma y tecnologia del adn 2015clauciencias
 
Relación Entre Genética y Comportamiento
Relación Entre Genética y Comportamiento Relación Entre Genética y Comportamiento
Relación Entre Genética y Comportamiento LIZZETHYULIANACARRIL
 
La definición de un gen
La definición de un genLa definición de un gen
La definición de un genNataly Cepeda
 
Bioinformatica calidad y alineamiento de secuencia de adn y generacion de a...
Bioinformatica   calidad y alineamiento de secuencia de adn y generacion de a...Bioinformatica   calidad y alineamiento de secuencia de adn y generacion de a...
Bioinformatica calidad y alineamiento de secuencia de adn y generacion de a...leticiamorales38
 
Genetica humana ucn JACG
Genetica humana ucn JACGGenetica humana ucn JACG
Genetica humana ucn JACGricardolopez503
 

Similar a Palabras clave en el ADN y predicción computacional de elementos reguladores. (9)

Clase x bloque iv epigenetica, genoma y tecnologia del adn 2015
Clase x bloque iv epigenetica, genoma y tecnologia del adn 2015Clase x bloque iv epigenetica, genoma y tecnologia del adn 2015
Clase x bloque iv epigenetica, genoma y tecnologia del adn 2015
 
Mm ppt
Mm pptMm ppt
Mm ppt
 
Relación Entre Genética y Comportamiento
Relación Entre Genética y Comportamiento Relación Entre Genética y Comportamiento
Relación Entre Genética y Comportamiento
 
Regulación de genes
Regulación de genesRegulación de genes
Regulación de genes
 
La definición de un gen
La definición de un genLa definición de un gen
La definición de un gen
 
ADN
ADNADN
ADN
 
Bioinformatica calidad y alineamiento de secuencia de adn y generacion de a...
Bioinformatica   calidad y alineamiento de secuencia de adn y generacion de a...Bioinformatica   calidad y alineamiento de secuencia de adn y generacion de a...
Bioinformatica calidad y alineamiento de secuencia de adn y generacion de a...
 
Concepto de gen
Concepto de genConcepto de gen
Concepto de gen
 
Genetica humana ucn JACG
Genetica humana ucn JACGGenetica humana ucn JACG
Genetica humana ucn JACG
 

Más de Alberto Labarga

El Salto Communities - EditorsLab 2017
El Salto Communities - EditorsLab 2017El Salto Communities - EditorsLab 2017
El Salto Communities - EditorsLab 2017Alberto Labarga
 
Shokesu - Premio Nobel de Literatura a Bob Dylan
Shokesu - Premio Nobel de Literatura a Bob DylanShokesu - Premio Nobel de Literatura a Bob Dylan
Shokesu - Premio Nobel de Literatura a Bob DylanAlberto Labarga
 
Genome visualization challenges
Genome visualization challengesGenome visualization challenges
Genome visualization challengesAlberto Labarga
 
SocialLearning: descubriendo contenidos educativos de manera colaborativa
SocialLearning: descubriendo contenidos educativos de manera colaborativaSocialLearning: descubriendo contenidos educativos de manera colaborativa
SocialLearning: descubriendo contenidos educativos de manera colaborativaAlberto Labarga
 
Hacksanfermin 2015 :: Dropcoin Street
Hacksanfermin 2015 :: Dropcoin StreetHacksanfermin 2015 :: Dropcoin Street
Hacksanfermin 2015 :: Dropcoin StreetAlberto Labarga
 
hacksanfermin 2015 :: Parking inteligente
hacksanfermin 2015 :: Parking inteligentehacksanfermin 2015 :: Parking inteligente
hacksanfermin 2015 :: Parking inteligenteAlberto Labarga
 
Vidas Contadas :: Visualizar 2015
Vidas Contadas :: Visualizar 2015Vidas Contadas :: Visualizar 2015
Vidas Contadas :: Visualizar 2015Alberto Labarga
 
Periodismo de datos y visualización de datos abiertos #siglibre9
Periodismo de datos y visualización de datos abiertos #siglibre9Periodismo de datos y visualización de datos abiertos #siglibre9
Periodismo de datos y visualización de datos abiertos #siglibre9Alberto Labarga
 
Arduino: Control de motores
Arduino: Control de motoresArduino: Control de motores
Arduino: Control de motoresAlberto Labarga
 
Entrada/salida analógica con Arduino
Entrada/salida analógica con ArduinoEntrada/salida analógica con Arduino
Entrada/salida analógica con ArduinoAlberto Labarga
 
Práctica con Arduino: Simon Dice
Práctica con Arduino: Simon DicePráctica con Arduino: Simon Dice
Práctica con Arduino: Simon DiceAlberto Labarga
 
Entrada/Salida digital con Arduino
Entrada/Salida digital con ArduinoEntrada/Salida digital con Arduino
Entrada/Salida digital con ArduinoAlberto Labarga
 
Presentación Laboratorio de Fabricación Digital UPNA 2014
Presentación Laboratorio de Fabricación Digital UPNA 2014Presentación Laboratorio de Fabricación Digital UPNA 2014
Presentación Laboratorio de Fabricación Digital UPNA 2014Alberto Labarga
 
Conceptos de electrónica - Laboratorio de Fabricación Digital UPNA 2014
Conceptos de electrónica - Laboratorio de Fabricación Digital UPNA 2014Conceptos de electrónica - Laboratorio de Fabricación Digital UPNA 2014
Conceptos de electrónica - Laboratorio de Fabricación Digital UPNA 2014Alberto Labarga
 
Introducción a la plataforma Arduino - Laboratorio de Fabricación Digital UPN...
Introducción a la plataforma Arduino - Laboratorio de Fabricación Digital UPN...Introducción a la plataforma Arduino - Laboratorio de Fabricación Digital UPN...
Introducción a la plataforma Arduino - Laboratorio de Fabricación Digital UPN...Alberto Labarga
 
Introducción a la impresión 3D
Introducción a la impresión 3DIntroducción a la impresión 3D
Introducción a la impresión 3DAlberto Labarga
 

Más de Alberto Labarga (20)

El Salto Communities - EditorsLab 2017
El Salto Communities - EditorsLab 2017El Salto Communities - EditorsLab 2017
El Salto Communities - EditorsLab 2017
 
Shokesu - Premio Nobel de Literatura a Bob Dylan
Shokesu - Premio Nobel de Literatura a Bob DylanShokesu - Premio Nobel de Literatura a Bob Dylan
Shokesu - Premio Nobel de Literatura a Bob Dylan
 
Genome visualization challenges
Genome visualization challengesGenome visualization challenges
Genome visualization challenges
 
SocialLearning: descubriendo contenidos educativos de manera colaborativa
SocialLearning: descubriendo contenidos educativos de manera colaborativaSocialLearning: descubriendo contenidos educativos de manera colaborativa
SocialLearning: descubriendo contenidos educativos de manera colaborativa
 
Hacksanfermin 2015 :: Dropcoin Street
Hacksanfermin 2015 :: Dropcoin StreetHacksanfermin 2015 :: Dropcoin Street
Hacksanfermin 2015 :: Dropcoin Street
 
hacksanfermin 2015 :: Parking inteligente
hacksanfermin 2015 :: Parking inteligentehacksanfermin 2015 :: Parking inteligente
hacksanfermin 2015 :: Parking inteligente
 
jpd5 big data
jpd5 big datajpd5 big data
jpd5 big data
 
Vidas Contadas :: Visualizar 2015
Vidas Contadas :: Visualizar 2015Vidas Contadas :: Visualizar 2015
Vidas Contadas :: Visualizar 2015
 
Periodismo de datos y visualización de datos abiertos #siglibre9
Periodismo de datos y visualización de datos abiertos #siglibre9Periodismo de datos y visualización de datos abiertos #siglibre9
Periodismo de datos y visualización de datos abiertos #siglibre9
 
myHealthHackmedicine
myHealthHackmedicinemyHealthHackmedicine
myHealthHackmedicine
 
Big Data y Salud
Big Data y SaludBig Data y Salud
Big Data y Salud
 
Arduino: Control de motores
Arduino: Control de motoresArduino: Control de motores
Arduino: Control de motores
 
Entrada/salida analógica con Arduino
Entrada/salida analógica con ArduinoEntrada/salida analógica con Arduino
Entrada/salida analógica con Arduino
 
Práctica con Arduino: Simon Dice
Práctica con Arduino: Simon DicePráctica con Arduino: Simon Dice
Práctica con Arduino: Simon Dice
 
Entrada/Salida digital con Arduino
Entrada/Salida digital con ArduinoEntrada/Salida digital con Arduino
Entrada/Salida digital con Arduino
 
Presentación Laboratorio de Fabricación Digital UPNA 2014
Presentación Laboratorio de Fabricación Digital UPNA 2014Presentación Laboratorio de Fabricación Digital UPNA 2014
Presentación Laboratorio de Fabricación Digital UPNA 2014
 
Conceptos de electrónica - Laboratorio de Fabricación Digital UPNA 2014
Conceptos de electrónica - Laboratorio de Fabricación Digital UPNA 2014Conceptos de electrónica - Laboratorio de Fabricación Digital UPNA 2014
Conceptos de electrónica - Laboratorio de Fabricación Digital UPNA 2014
 
Introducción a la plataforma Arduino - Laboratorio de Fabricación Digital UPN...
Introducción a la plataforma Arduino - Laboratorio de Fabricación Digital UPN...Introducción a la plataforma Arduino - Laboratorio de Fabricación Digital UPN...
Introducción a la plataforma Arduino - Laboratorio de Fabricación Digital UPN...
 
Introducción a la impresión 3D
Introducción a la impresión 3DIntroducción a la impresión 3D
Introducción a la impresión 3D
 
Vidas Contadas
Vidas ContadasVidas Contadas
Vidas Contadas
 

Último

PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofJuancarlosHuertasNio1
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...FacuMeza2
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...JaquelineJuarez15
 
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...AlanCedillo9
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersIván López Martín
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 

Último (20)

PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sof
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
 
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 

Palabras clave en el ADN y predicción computacional de elementos reguladores.

  • 1. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Palabras clave en el ADN y predicci´n o computacional de elementos reguladores Jos´ L. Oliver e Grupo de Gen´mica Evolutiva y Bioinform´tica o a Dpto. de Gen´tica e Universidad de Granada http://www.ugr.es/˜oliver/ Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o
  • 2. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Evidencias Funci´n y ADN no-codificador o Evidencias de otros c´digos en el ADN o Tras la secuenciaci´n del genoma humano, sabemos que: o S´lo hay 20.000-25.000 genes para prote´ o ınas Equivalen al 2 % del genoma Sin embargo, el 57-80 % del genoma se transcribe Evidencias indirectas: ADN no-codificador pero conservado evolutivamente Selecci´n purificadora en el 20-30 % del ADN no-codificador o Hay otras capas de informaci´n en el genoma o C´digo regulador: promotores, sitios de uni´n a factores de o o transcripci´n o TFBSs, enhancers, represores, microRNAs, RNAi, o or´ ıgenes de replicaci´n, secuencias centrom´ricas, elementos separadores, o e etc... y los que no conocemos. Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o
  • 3. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Evidencias Funci´n y ADN no-codificador o Evidencias de otros c´digos en el ADN o Tras la secuenciaci´n del genoma humano, sabemos que: o S´lo hay 20.000-25.000 genes para prote´ o ınas Equivalen al 2 % del genoma Sin embargo, el 57-80 % del genoma se transcribe Evidencias indirectas: ADN no-codificador pero conservado evolutivamente Selecci´n purificadora en el 20-30 % del ADN no-codificador o Hay otras capas de informaci´n en el genoma o C´digo regulador: promotores, sitios de uni´n a factores de o o transcripci´n o TFBSs, enhancers, represores, microRNAs, RNAi, o or´ ıgenes de replicaci´n, secuencias centrom´ricas, elementos separadores, o e etc... y los que no conocemos. Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o
  • 4. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Evidencias Funci´n y ADN no-codificador o Tres principios para predecir funci´n o Sobre-abundancia de ciertas palabras (motifs). Problema: se asume su independencia, ignorando las relaciones espaciales entre diferentes motivos. Es decir, s´lo se toman en cuenta o las frecuencias de las palabras, pero no su organizaci´n espacial. o Conservaci´n evolutiva: las regiones conservadas en distintas especies o deben tener un papel funcional. Problema: casi la mitad de los elementos funcionales no-codificadores en las regiones ENCODE no est´n conservados a evolutivamente. Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o
  • 5. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Evidencias Funci´n y ADN no-codificador o Tres principios para predecir funci´n o Sobre-abundancia de ciertas palabras (motifs). Problema: se asume su independencia, ignorando las relaciones espaciales entre diferentes motivos. Es decir, s´lo se toman en cuenta o las frecuencias de las palabras, pero no su organizaci´n espacial. o Conservaci´n evolutiva: las regiones conservadas en distintas especies o deben tener un papel funcional. Problema: casi la mitad de los elementos funcionales no-codificadores en las regiones ENCODE no est´n conservados a evolutivamente. Grupos de genes co-regulados: los genes con el mismo perfil de expresi´n o (activaci´n/silenciamiento) comparten elementos reguladores. o Problema: incertidumbre en cuanto al n´mero de grupos, u naturaleza combinatoria de la regulaci´n. o Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o
  • 6. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Evidencias Funci´n y ADN no-codificador o Tres principios para predecir funci´n o Sobre-abundancia de ciertas palabras (motifs). Problema: se asume su independencia, ignorando las relaciones espaciales entre diferentes motivos. Es decir, s´lo se toman en cuenta o las frecuencias de las palabras, pero no su organizaci´n espacial. o Conservaci´n evolutiva: las regiones conservadas en distintas especies o deben tener un papel funcional. Problema: casi la mitad de los elementos funcionales no-codificadores en las regiones ENCODE no est´n conservados a evolutivamente. Grupos de genes co-regulados: los genes con el mismo perfil de expresi´n o (activaci´n/silenciamiento) comparten elementos reguladores. o Problema: incertidumbre en cuanto al n´mero de grupos, u naturaleza combinatoria de la regulaci´n. o Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o
  • 7. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Evidencias Funci´n y ADN no-codificador o Un nuevo principio para predecir funci´n o Basado en la extrapolaci´n a textos de una t´cnica para medir desorden o e en sistemas cu´nticos (Carpena et al., Physical Review E 79, 035102-4, 2009): a Las palabras relevantes/funcionales est´n clusterizadas, mientras que a las palabras comunes se distribuyen al azar. Se tienen en cuenta tanto la composici´n (frecuencias) como la o estructura (distribuci´n espacial) del texto gen´tico. o e Genes, islas CpG, y sitios de uni´n a factores de transcripci´n est´n o o a clusterizados ⇒ este principio podr´ funcionar tambi´n en el ıa e genoma. El m´todo para extraer palabras clave en el ADN se basa en lo que e hemos aprendido analizando textos literarios normales y textos ”sin comas”(como el ADN!): tatcattcactttcagccaccaattcactttca... Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o
  • 8. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Evidencias Funci´n y ADN no-codificador o Un nuevo principio para predecir funci´n o Basado en la extrapolaci´n a textos de una t´cnica para medir desorden o e en sistemas cu´nticos (Carpena et al., Physical Review E 79, 035102-4, 2009): a Las palabras relevantes/funcionales est´n clusterizadas, mientras que a las palabras comunes se distribuyen al azar. Se tienen en cuenta tanto la composici´n (frecuencias) como la o estructura (distribuci´n espacial) del texto gen´tico. o e Genes, islas CpG, y sitios de uni´n a factores de transcripci´n est´n o o a clusterizados ⇒ este principio podr´ funcionar tambi´n en el ıa e genoma. El m´todo para extraer palabras clave en el ADN se basa en lo que e hemos aprendido analizando textos literarios normales y textos ”sin comas”(como el ADN!): tatcattcactttcagccaccaattcactttca... Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o
  • 9. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Espectros Medida Textos Sin comas El espectro de una palabra en un texto Para cada palabra, se determinan sus posiciones en el texto (su espectro). Por ejemplo, en la siguiente frase el espectro de la palabra a ser´ ıa (1,6,10): A great scientist must be a good teacher and a good researcher Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o
  • 10. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Espectros Medida Textos Sin comas El espectro de dos palabras equifrecuentes Espectros de las palabras Quixote y but en las 50.000 primeras palabras de la versi´n inglesa del Quijote: o 'Quixote' (288 occurrences) 'but' (248 occurrences) 0 10000 20000 30000 40000 50000 position (words) Frequencia similar pero estructura muy diferente Las palabras relevantes est´n clusterizadas a Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o
  • 11. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Espectros Medida Textos Sin comas Cuantificando la clusterizaci´n: σ y σnor o Ortu˜o, Carpena, Bernaola et al. n (Europhysics Letters 57, 759-764, 2002): σ ≡ s/ d (1) d2 − d 2 siendo d la distancia media y s = la desviaci´n standard o de P(d). Sin embargo, σ depende de la frecuencia de la palabra. Dicha dependencia se elimina mediante normalizaci´n (Physical Review E 79: 035102-4, o 2009): σ σnor = √ (2) 1−p siendo p = n/N la probabilidad de la palabra en el texto. Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o
  • 12. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Espectros Medida Textos Sin comas Cuantificando la clusterizaci´n: σ y σnor o Ortu˜o, Carpena, Bernaola et al. n (Europhysics Letters 57, 759-764, 2002): σ ≡ s/ d (1) d2 − d 2 siendo d la distancia media y s = la desviaci´n standard o de P(d). Sin embargo, σ depende de la frecuencia de la palabra. Dicha dependencia se elimina mediante normalizaci´n (Physical Review E 79: 035102-4, o 2009): σ σnor = √ (2) 1−p siendo p = n/N la probabilidad de la palabra en el texto. Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o
  • 13. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Espectros Medida Textos Sin comas Efecto de la normalizaci´n de σ o Simulaci´n de textos aleatorios: o a) 1.00 p = 0.01 p = 0.05 p = 0.1 0.98 1.00 0.96 <σnor> 0.96 <σ> 0.94 0.92 0.92 0.88 0.90 0.84 0.88 0 200 400 600 800 1000 n (word count) 0.86 0 100 200 300 400 500 600 700 800 900 1000 n (word count) √ 1 − p. Las l´ ıneas horizontales son los valores esperados Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o
  • 14. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Espectros Medida Textos Sin comas Significaci´n estad´ o ıstica: la medida C Otra mejora importante que hemos incorporado ha sido asociar a σnor una significaci´n estad´ o ıstica. Para ello, dada una palabra con frecuencia n, definimos la medida C como un z-score: σnor − σnor (n) C (σnor , n) ≡ (3) sd(σnor )(n) C mide la desviaci´n de σnor con respecto al valor esperado en un o texto aleatorio ( σnor (n)) en unidades de la desviaci´n standard o esperada (sd(σnor )(n)). C = 0 → Distribuci´n aleatoria o C > 0 → Clusterizaci´n o C < 0 → Repulsi´n o Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o
  • 15. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Espectros Medida Textos Sin comas Significaci´n estad´ o ıstica: la medida C Otra mejora importante que hemos incorporado ha sido asociar a σnor una significaci´n estad´ o ıstica. Para ello, dada una palabra con frecuencia n, definimos la medida C como un z-score: σnor − σnor (n) C (σnor , n) ≡ (3) sd(σnor )(n) C mide la desviaci´n de σnor con respecto al valor esperado en un o texto aleatorio ( σnor (n)) en unidades de la desviaci´n standard o esperada (sd(σnor )(n)). C = 0 → Distribuci´n aleatoria o C > 0 → Clusterizaci´n o C < 0 → Repulsi´n o Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o
  • 16. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Espectros Medida Textos Sin comas Palabras clave en textos literarios La medida C permite extraer palabras clave de textos literarios (novela, poes´ libros cient´ ıa, ıficos...) Por ejemplo, en el libro The Origin of Species... word Counts σnor C sterility 122 6.018 58.00 hybrids 152 5.14 53.04 varieties 486 3.13 47.64 instincts 100 4.87 40.93 species 1922 1.91 39.87 plants 471 2.64 36.23 crossed 116 3.97 33.65 bees 92 4.18 32.36 island 69 4.57 32.01 instinct 79 4.33 31.65 pollen 121 3.66 30.73 fertility 93 3.97 30.38 selection 559 2.27 30.37 organs 224 2.97 30.30 forms 565 2.22 29.37 Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o
  • 17. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Espectros Medida Textos Sin comas Textos ’sin comas’ El m´todo funciona tambi´n en textos ’sin comas’ (sin espacios ni e e se˜ales de puntuaci´n). n o Era de esperar porque, aunque se eliminen los espacios, las distancias entre palabras relevantes y comunes siguen siendo diferentes. Puesto que se desconoce la longitud de palabra, se toman todos los k-mers con longitud entre 2 y 35. El resultado son linajes de palabras: cada palabra contiene palabras m´s cortas y est´ contenida a su vez en otras palabras m´s largas. a a a Por ejemplo, para la palabra ventero en El Quijote encontramos venter o entero (hijos) y lventero o venteroy (padres). Para eliminar la redundancia, cada linaje se organiza en un gr´fico a ac´ ıclico dirigido (DAG) y se eligen las palabras que sobrepasan cierto umbral de C (percentiles 50, 75 ´ 95). o Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o
  • 18. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Espectros Medida Textos Sin comas Textos ’sin comas’ El m´todo funciona tambi´n en textos ’sin comas’ (sin espacios ni e e se˜ales de puntuaci´n). n o Era de esperar porque, aunque se eliminen los espacios, las distancias entre palabras relevantes y comunes siguen siendo diferentes. Puesto que se desconoce la longitud de palabra, se toman todos los k-mers con longitud entre 2 y 35. El resultado son linajes de palabras: cada palabra contiene palabras m´s cortas y est´ contenida a su vez en otras palabras m´s largas. a a a Por ejemplo, para la palabra ventero en El Quijote encontramos venter o entero (hijos) y lventero o venteroy (padres). Para eliminar la redundancia, cada linaje se organiza en un gr´fico a ac´ ıclico dirigido (DAG) y se eligen las palabras que sobrepasan cierto umbral de C (percentiles 50, 75 ´ 95). o Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o
  • 19. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Espectros Medida Textos Sin comas Relativity: The Special and General Theory, by A. Einstein Palabras clave extra´ ıdas tras eliminar del texto los espacios y las se˜ales n de puntuaci´n: o word Counts σnor C energy 23 4.29 19.10 theuniverse 20 3.84 15.76 erical 26 3.25 13.74 project 35 2.73 11.85 alongthe 17 2.92 10.28 econtinuum 23 2.70 10.04 thegravitationalfield 27 2.60 10.01 sphere 16 2.8 9.79 electron 13 2.92 9.54 geometry 31 2.45 9.54 theprincipleofrelativity 33 2.41 9.48 specific 11 2.91 9.11 theembankment 40 2.25 9.09 square 28 2.41 8.92 thetheoryofrelativity 32 2.31 8.78 velocityv 17 2.60 8.63 referencebody 56 2.01 8.50 materialpoint 12 2.69 8.29 thelorentztransformation 33 2.22 8.26 fourdimensional 26 2.33 8.25 Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o
  • 20. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Espectros Medida Textos Sin comas http://bioinfo2.ugr.es/TextKeywords/ Libros analizados, con y sin espacios (tomados del proyecto Gutenberg): Espa˜ol n Don Quijote, Miguel de Cervantes La Celestina, Fernando de Rojas Ingl´s e Relativity: the especial and general theory, Albert Einstein The Origin of Species by means of Natural Selection, Charles Darwin Don Quixote, Miguel de Cervantes The Odyssey, Homero The Jungle Book, Rudyard Kipling Moby Dick, Herman Melville The Three Musketeers, Alejandro Dumas Alem´n a Faust: Der Trag¨die erster Teil, Johann Wolfgang von Goethe o Faust: Der Trag¨die zweiter Teil, Johann Wolfgang von Goethe o Italiano La Divina Commedia di Dante, Dante Alighieri Lat´ ın De Bello Gallico, Julio Caesar Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o
  • 21. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Unfolding DNAKeywords Funci´n biol´gica Sobreabundancia o o Clusterizaci´n en el ADN o La analog´ entre textos ’sin comas’ y ADN es s´lo aproximada: ıa o Diferencia de tama˜o: 2-3 Mb en textos frente a los 150 Mb de un n cromosoma medio. El ADN es un texto de autor m´ltiple: se reescribe continuamente u por puntos diferentes y con estilos (sesgos mutacionales) diferentes. ⇒ Mezcla de distribuciones ⇒ Clusterizaci´n trivial o La clusterizaci´n trivial la eliminamos mediante unfolding: la σ se o normaliza usando medias locales (a cierta escala s) en vez de la media global (Bohigas et al., Physical Review Letters 52, 1-4, 1984). En el genoma humano, una escala entre 20 y 50 permite eliminar la clusterizaci´n trivial. o Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o
  • 22. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Unfolding DNAKeywords Funci´n biol´gica Sobreabundancia o o Clusterizaci´n en el ADN o La analog´ entre textos ’sin comas’ y ADN es s´lo aproximada: ıa o Diferencia de tama˜o: 2-3 Mb en textos frente a los 150 Mb de un n cromosoma medio. El ADN es un texto de autor m´ltiple: se reescribe continuamente u por puntos diferentes y con estilos (sesgos mutacionales) diferentes. ⇒ Mezcla de distribuciones ⇒ Clusterizaci´n trivial o La clusterizaci´n trivial la eliminamos mediante unfolding: la σ se o normaliza usando medias locales (a cierta escala s) en vez de la media global (Bohigas et al., Physical Review Letters 52, 1-4, 1984). En el genoma humano, una escala entre 20 y 50 permite eliminar la clusterizaci´n trivial. o Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o
  • 23. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Unfolding DNAKeywords Funci´n biol´gica Sobreabundancia o o Un vocabulario para el genoma humano DNAkeywords contiene datos de clusterizaci´n para los k-mers (k = 2 − 12) de los 24 cromosomas o del genoma humano (hg18, NCBI Build 36.1): Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o
  • 24. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Unfolding DNAKeywords Funci´n biol´gica Sobreabundancia o o Palabras clave en el genoma humano N´mero de palabras clave en la secuencia de referencia (hg18, NCBI u Build 36.1, k-mers para k = 2 − 12) Escala Umbral de C N (24 cromosomas) No-redundantes 20 50 599.964 207.650 ” 75 294.475 119.925 ” 95 52.312 28.145 50 50 592.729 199.860 ” 75 263.941 102.865 ” 95 26.532 15.690 Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o
  • 25. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Unfolding DNAKeywords Funci´n biol´gica Sobreabundancia o o Clusterizaci´n y funci´n biol´gica o o o k = 2 − 8, s = 50 80 o f w o r d s w ith in th e g e n o m e e le m e n t 70 60 50 40 TFBSs Promoters CpG islands 30 PhastCons % 20 0 1 2 3 4 5 Clusterización (C) Muchos elementos gen´micos son ricos en palabras clave o Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o
  • 26. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Unfolding DNAKeywords Funci´n biol´gica Sobreabundancia o o En algunos elementos, no se ve tal relaci´n o k = 2 − 8, s = 50 80 o f w o r d s w ith in th e g e n o m e e le m e n t 70 60 50 40 30 miRNAs 20 F3' flanks 10 % 0 0 1 2 3 4 5 Clusterización (C) Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o
  • 27. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Unfolding DNAKeywords Funci´n biol´gica Sobreabundancia o o Sobreabundancia estad´ ıstica Para cada elemento, se determina la frecuencia observada de cada palabra, y se compara con la frecuencia en 100 segmentos (de la misma longitud y elegidos al azar) del resto del genoma: Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o
  • 28. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Unfolding DNAKeywords Funci´n biol´gica Sobreabundancia o o Proporci´n de palabras sobreabundantes (z-score > 2.33) o Cromosomas 19-22, N = 2000, s = 50, percentil 95: 1 TFBSs conserved in the human/mouse/rat alignment → (21.60 %) 2 CpG islands predicted by CpGcluster → (65.35 %) 3 Promoter region of RefSeq Genes, (200 bp around the TSS) → (43.80 %) 4 Promoter region from DBTSS (200 bp around the TSS) → (39.70 %) 5 Curated regulatory regions, TFBSs, and regulatory polymorphisms → (19.00 %) 6 TSSs predicted by the program Eponine → (23.95 %) 7 ESPERR Regulatory Potential → (21.25 %) 8 Vista HMR-Conserved Non-coding Human Enhancers from LBNL → (0.85 %) 9 Conserved mammalian microRNA regulatory target sites for conserved microRNA families in the 3’ UTR regions of Refseq Genes, as predicted by TargetScanS → (1.60 %) 10 microRNAs, C/D and H/ACA Box snoRNAs and scaRNAs from miRBase and snoRNABase → (0.90 %) 11 poly(A) Sites, both reported and predicted → (1.35 %) 12 Experimentally identified human genomic insulators → (38.95 %) 13 Exons from RefSeq → (39.50 %) 14 Introns from RefSeq → (11.75 %) 15 Repeats by RepeatMasker → (29.60 %) 16 PhastCons Conserved Elements → (21.85 %) El 80 % de las palabras clave detectadas se puede relacionar con alguno de los elementos gen´micos conocidos o Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o
  • 29. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Para el futuro B´squedas no-exactas (fuzzy), obteniendo la distribuci´n compuesta u o de distancias antes de calcular la clusterizaci´n. o Localizaci´n y organizaci´n de los clusters (homo- y heterot´ o o ıpicos) de palabras en el cromosoma: combinatoria de la regulaci´n. o Desarrollo de predictores espec´ ıficos para distintos elementos funcionales. Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o
  • 30. Otros c´digos Clusterizaci´n ADN Retos Grupo o o Grupo F´ ısica Aplicada II, M´laga: a Pedro Bernaola Pedro Carpena Ana V. Coronado Gen´tica, Granada: e Michael Hackenberg (posdoctoral) Guillermo Barturen (predoctoral) Teresa Galera (predoctoral) Angel Mart´ Alganza (administrador del sistema) ın GRACIAS! Jos´ L. Oliver e Palabras clave y predicci´n computacional de elementos reguladores o