Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Enio

913 visualizaciones

Publicado el

  • Sé el primero en comentar

Enio

  1. 1. Medida de la Expresi ón de Genes mediante Microarreglos (Microarrays) Jos é Luis Vicente Villardón Departamento de Estadística mapa conceptual del dogma de labiologia molecular
  2. 2. Introducci ón Los experimentos con microarreglos (microarrys) forman parte de lo que se ha dado en llamar Bioinformática. En ésta se integran métodos matemáticos, estadísticos y de ciencias de la computación, para analizar datos que provienen de la biología molecular. La tecnología de los microarreglos tiene una importancia creciente, en especial debido al avance de los resultados de la genómica estructural (el mapa genómico humano fue completado en 2003 con el secuenciamiento de los pares de bases que constituyen el ADN cromosómico). Es parte de la genómica funcional en la que se desarrollan modelos para explicar el funcionamiento de las diferentes secuencias genómicas. El n úmero de publicaciones científicas relacionadas con el tema ha crecido exponencialmente en los últimos años.
  3. 3. El dogma central de la biolog ía molecular El dogma central de la biolog í a molecular se describe mediante un proceso en dos pasos, transcripci ó n y translaci ó n, por los que la informaci ó n contenida en los genes se transforma en proteinas: DNA -> RNA -> proteina. http://www.phschool.com/science/biology_place/biocoach/transcription/overview.html Transcripci ón es la síntesis de una copia de RNA a partir de un segmento de DNA. El RNA se sintetiza mediante la enzima RNA polimerasa. Translaci ón es la síntesis de un polipéptido especificado por un mRNA
  4. 4. Transcripci ó n y Traslaci ó n en C élulas En una c élula procariota la transcripción y la traslación están emparejadas; esto es, el proceso de traslación comienza cuando el mRNA está siendo aún sintetizado. En una célula eucariota, la transcripción se realiza en el núcleo mientras que la traslación se realiza en el citoplasma. Debido a que no hay n úcleo para separar los procesos de transcripción y traslación, cuando se transcriben los genes de las bacterias, sus transcripciones pueden trasladarse inmediatamente. En las c élulas eucariotas ambos procesos están espacial y temporalmente separados; la transcripción se lleva acabo en el núcleo produciendo una molécula de pre-mRNA. La molécula de pre-mRNA se procesa para producir el mRNA maduro, que sale del núcleo y es trasladado en el citoplasma.
  5. 5. Diferentes genes para diferentes RNAs Hay 4 tipos de RNA. El DNA gen ómico contiene toda la información de la estructura y funcionamiento de un organismo. En cada célula, solamente algunos de los genes se expresan, es decir se transcriben en RNA. <ul><li>Hay 4 tipos de RNA, cada uno codificado por un tipo de gen: </li></ul><ul><li>mRNA - RNA mensajero: Codifica la secuencia de amino ácidos de un polipéptido. </li></ul><ul><li>tRNA - RNA transferente: Lleva los amino ácidos a los ribosomas durante la traslación. </li></ul><ul><li>rRNA - RNA ribos ómico : Con proteinas ribos ómicas, constituye los ribosomas, encargados de la traslación de mRNA. </li></ul><ul><li>snRNA - RNA pequeño nuclear: Est á implicado en el proceso de maduración del RNA en las células eucariotas. </li></ul>
  6. 6. Estructura b ásica de un gen codificador de proteínas Un gen codificador de prote í nas consiste en un promotor, seguido de la secuencia de codificaci ón de la proteína y de un terminador. El promotor es una secuencia de pares de bases que especifica d ónde debe comenzar la transcripción. El terminador es una secuencia que especifica el final de la transcripción en mRNA.
  7. 7. La Mol écula de RNA Los nucle ótidos de DNA y RNA tienen estructuras similares El RNA es estructuralmente similar al DNA.
  8. 8. El proceso de Transcripci ón La RNA polimerasa cataliza una reacci ón química que resulta en la síntesis de RNA a partir de la cadena patrón de DNA. La s íntesis de RNA implica la separación de las cadenas de DNA y la síntesis de una molécula de RNA, mediante la enzima RNA polimerasa, utilizando las cadenas de DNA como patrón. En los pares complementarios, A, T, G, y C en la cadena patr ón de DNA se convierten en U, A, C, y G, respectivamente, en la cadena de RNA que est á siendo sintetizada .
  9. 9. Transcripci ón completa de una molécula de RNA La transcripci ón comienza en el promotor, por toda la región de codificación, y se acaba en el terminador.
  10. 10. mRNA en C élulas Procari otas La secuencia de un gen codificador de prote í nas en una c élula procariota es colinear con el mRNA trasladado; esto es, la transcripción del gen es la molécula que se traslada en un polipéptido.
  11. 11. mRNA en C élulas Eucari otas La secuencia de un gen codificador de prote í nas en una c élula eucariota no es normalmente colineal con el mRNA trasladado; esto es, la transcripción de un gen es una molécula que debe ser procesada para eliminar las secuencias extra (intrones) antes de trasladarlo en un polipéptido.
  12. 12. Procesado del pre-mRNA (Splicing) La mayor parte de los genes codificadores de prote ínas en las células eucariotas contienen segmentos denominados intrones, que dividen la secuencia codificadora de aminoácidos en segmentos denominados exones. La transcripción de estos genes es pre-mRNA (mRNA precursor). El pre-mRNA es procesado en el núcleo para eliminar los intrones y unir los exones en una cadena de mRNA trasladable. Este mRNA sale del núcleo y se traslada en el citoplasma.
  13. 13. Medida de la presencia y/o expresi ón de genes (Microarrays) <ul><li>Medida de la expresi ón de genes (mRNA microarrays) </li></ul><ul><ul><li>Plataformas de un color </li></ul></ul><ul><ul><li>Plataforma de dos colores </li></ul></ul><ul><li>Medida de la presencia de DNA (DNA microarrays) </li></ul><ul><li>Medida de la expresión de proteínas </li></ul>
  14. 14. Medida de la expresi ón de genes (mRNA microarrays)- Introducción El proyecto Genoma Humano ha documentado nuestra secuencia gen ética y ha descubierto que es idéntica en un 99.9% en todos los seres humanos. Sin embargo, incluso pequeñas diferencias en la secuencia de DNA pueden tener un efecto importante sobre la salud y la enfermedad. El mismo gen puede trabajar correctamente en una persona, pero una mutación puede causar que no trabaje correctamente en otra. Aunque todas las células poseen el código genético completo, no todos los genes producen proteínas (se expresan) en todas las células. Esto es lo que determina la diferencia en las funciones específicas de cada célula el los distintas partes del cuerpo.
  15. 15. Medida de la expresi ón de genes (mRNA microarrays) - Introducción Con respecto a la enfermedad, la diferencia del 0.1% ciertamente contribuye, pero las influencias ambientales juegan un papel igualmente importante en determinar cuales de nuestros genes se expresan de manera diferente. Por ejemplo, la exposici ón al humo del tabaco o los rayos X puede cambiar la forma en que se expresan los genes, resultando en la aparición de enfermedades como el cáncer. Aunque todas las células del cuerpo tienen la misma secuencia, cada célula no está afectada de la misma manera. Esto puede producir enfermedades más específicas como cánceres de pulmón, colon, piel, etc. Los investigadores estudian la expresión de genes midiendo la cantidad de copias de mRNA que produce un gen. El microarray de expresión de genes es una herramienta que nos dice la cantidad de RNA que cada gen está fabricando, si es que lo está fabricando. Comparando la expresión del gen con la de una persona sana, el microarray ayuda a los científicos a encontrar que genes están fabricando demasiado o demasiado poco RNA en la persona enferma, ayudándoles a asociar un gen o grupo de genes con una enfermedad así como a a desarrollar drogas para tratar la enfermedad y pruebas diagnósticas para detectar o clasificar la enfermedad.
  16. 16. Medida de la expresi ón de genes (mRNA microarrays) - Introducción La expresi ón de genes ha sido utilizados para estudiar casi todos los tipos de enfermedad en la esperanza de encontrar una base molecular que permita el tratamiento. La revoluci ón proporcionada por los microarrys es que permiten al investigador comenzar sin ninguna hipótesis previa. Los microarrays permiten a los investigadores medir la expresión de cada gen del genoma humano, incluso aquellos con funciones desconocidas. Estudiando los patrones de expresión de genes de, por ejemplo, 100 personas sanas y 100 enfermas los científicos pueden pueden investigar rápidamente las diferencias en los patrones. Si observan un patrón de genes expresado (o no expresado) en los pacientes con la enfermedad, ahí es dónde deben comenzar su búsqueda. El proceso de expresión de genes en RNA es conocido desde 1963. Hasta 1977 no se desarrolló un procedimiento práctico de medida, que sólo permitía un gen. En 1989 se desarrollan, basados en la tecnología de construcción de microchips, que permiten fijar millones de cadenas de DNA sobre una placa (los microarrays).
  17. 17. Medida de la expresi ón de genes (mRNA microarrays) - Hibridación Como ya vimos, cuando una cadena de DNA (ATCATG) se corresponde con una cadena de RNA (UAGUAC), la dos cadenas son complementarias y pueden pegarse la una a la otra. Sin embargo, si las bases no son complementarias, no pueden unirse. Con una sola base que no sea complementaria, ambas cadenas no se unen Los microarrays usa esta propiedad de atracci ón de los pares de bases - conocida como hibridación- para ayudar a los investigadores a identificar que secuencias de RNA están presentes en una muestra y cual es la medida de la expresión de los mismos.
  18. 18. mRNA microarrays - Probes El primer paso consiste en fijar una cadena corta de DNA en la superficie de cristal del microarray. Estas cadenas son denominadas sondas (o probes en inglés). La cadena est á formada por sólo 25 bases de las 100 que podría tener el gen. Las cadenas se comprueban para asegurarse de que no está presente en ningún otro gen, de esta manera, cuando una molécula de RNA se une al probe los científicos saben que el gen se ha expresado. Es como identidicar una canción con sólo unos compases. Para asegurarse de que se est á midiendo el gen correcto, los chips de Affimetrix toman 11 cadenas cortas pertenecientes al mismo gen.
  19. 19. mRNA microarrays - Pareja de probes Los probes buscan un “alineamiento perfecto” con el RNA que se trata de detectar. Por cada uno de los probes para alineamiento perfecto, se coloca un probe modificado (mismatch) en el que la base central se modifica para que no haya un alineamiento perfecto con el gen objetivo. Esto se hace as í porque, aunque en teoría solo se adhieren al probe las secuencias complementarias, en la práctica se producen errores de adherencia no específicos. Se añade el probe modificado para saber si estos errores se producen. Si el RNA se adhiere al probe modificado, es posible que la medida no sea fiable. Si solo se adhiere al probe objetivo podemos decir que el gen se est á expresando realmente. Sin este procedimiento es difícil saber si se está alineando el RNA correcto o una secuencia ligeramente diferente.
  20. 20. mRNA microarrays - Probes por gen En total hay 22 probes diferentes, o puntos de datos, usados para asegurarse de que el microarray est á detectando la cadena correcta de RNA. Midiendo dicho RNA con 11 pares de probes podemos estar absolutamente seguros de que el gen que pensamos es el que se expresa realmente. Si
  21. 21. mRNA microarrays - Features y probes La superficie de un microarray es como un tablero de ajedrez gigante que ha sido comprimido al tamaño de un solo cuadro. Cada uno de los cuadrados del tablero contiene un único tipo de probe. Cada probe se construye molécula a molécula, usando el mismo tipo de tecnología que la que se utiliza para construir semiconductores de ordenador. Las moléculas se van construyendo base a base añadiendo una encima de la otra. El microarray más reciente de Affimetrix para el genoma humano tiene 1.3 millones de cuadrados denominados “features”. Representa aproximadamente 47000 RNAs diferentes, prácticamente todos los que pueden expresarse y producir proteínas. Cada feature sobre el arreglo tiene un lado de 11 micrones, la quinta parte de un cabello humano. A efectos de simplicidad hemos representado aqu í solo un cuadrado y hemos reducido la longitud del probe a 6 bases , ATCATG.
  22. 22. mRNA microarrays - Extracción y preparación del RNA Una vez que hemos diseñado un probe para medir la expresi ón de RNA, tenemos que extraer el RNA de una muestra de sangre o saliva, por ejemplo. Los investigadores extraen RNA de la muestra y hacen miles de copias en un proceso en varios pasos. Copiar el RNA permite que sea más facilmente detectable sobre el array. Al mismo tiempo que se copia el RNA, se adjuntan a cada cadena moléculas de biotina (copa naranja en el dibujo). Estas moléculas de biotina actúan como un pegamento molecular para moléculas fluorescentes que posteriormente se lavarán sobre el array. Cuando los investigadores pasen un scanner láser sobre el array, las moléculas fluorescentes brillarán, mostrando donde se han fijado las muestras de RNA sobre los probes de DNA del array. Usando otro proceso químico, se fragmentan las cadenas de RNA en millones de piezas más cortas que todavía tienen las moléculas de biotina adheridas.
  23. 23. mRNA microarrays - Lavado de la muestra sobre el array Las muestras preparadas del RNA se lavan sobre el array por un periodo de 14 a 16 horas. El n úmero de moléculas implicado en el proceso es enorme. Hay millones de copias de cada probe de DNA (ATCATG) en cada cuadrado del chip, y miles de millones de moléculas de RNA de cada gen que se expresa en la muestra. Una parte de las mol éculas de RNA encontrarán su complemento. Si la secuencia de bases del RNA encaja en la del probe de DNA, habrá un alineamiento perfecto y la muestra se pegará al probe.
  24. 24. mRNA microarrays - Marcando el RNA Supongamos que tenemos alineamientos y que el RNA de la muestra se ha unido a los probes colocados en el array. Entonces aclaramos el array para eliminar el RNA que no se ha alineado. Recordemos que el RNA hab ía sido marcado con biotina. Como no podemos ver el RNA, no podemos saber cuanto se ha pegado en cada probe. S ólo una cadena, o quizás 1000000. Para poderlo ver haremos que brille en la oscuridad usando un tinte fluorescente que se pegue a la biotina.
  25. 25. mRNA microarrays - Un gen expresado La mol éculas fluorescentes se pegarán solamente en aquellos puntos donde se produjo un alineamiento de RNA. Tras aclarar el tinte se pasa una luz láser sobre el array, haciendo que el tinte fluorescente brille. Si el gen está altamente expresado, muchas moléculas de RNA se pegarán al probe, y su posición brillará intensamente al pasar el láser. Si en gen se expresa en un nivel inferior, se pegar á menos RNA al probe, y por comparación, el punto será mucho menos brillante cuando se pase el láser.
  26. 26. mRNA microarrays - Un gen no expresado Si la muestra de RNA no se complementa, será rechazada por el probe del array. Sabemos que el gen no se ha expresado porque el punto correspondiente no brilla.
  27. 27. mRNA microarrays - Expresión simultánea de todos los genes El chip puede medir la expresión de cientos de genes. Veamos solo unos pocos (4). En el ejemplo los genes 1, 2 y 3 se expresan porque el RNA fluorescente se ha unido a los probes. Como los genomas humanos son casi idénticos, todo el mundo tiene estos tres genes, aunque no se expresan de la misma manera en todos los humanos. De esta forma, aunque no conozcamos su funcionamiento, es posible determinar que genes se expresan diferente en personas enfermas y sanas. El paso siguiente es investigar como afectan las proteínas que producen en el desarrollo de la enfermedad.
  28. 28. mRNA microarrays - Comparación de la expresión El objetivo es, entonces, comparar la expresión de los genes en dos muestras (enfermos y sanos, por ejemplo). Para presentar esto se utilizan mapas de color, normalmente los genes con expresiones altas se codifican en colores rojos y los genes con expresiones bajas en azul. Los genes que tienen el mismo color en todos los pacientes enfermos son los que se expresan diferente en ellos. Los genes no relacionados con la enfermedad no muestran patrones de color claros.
  29. 29. mRNA microarrays - La imagen real de un microarray En la realidad, los arrays de expresión de genes humanos tienen 1.3 millones de probes diferentes usados para detectar casi 50000 secuencias diferentes de RNA. El resultado final es una imagen como la que aparece a la izquierda. La fluorescencia de cada uno de los cuadrados le dice al investigador si el gen se ha expresado o no. Algunos de los probes miden altas concentraciones (altas intensidades, cuadrados rojos y blancos) y otros no (bajas intensidades, cuadros azules y negros.
  30. 30. mRNA microarrays - La imagen real de un microarray
  31. 31. mRNA microarrays - El equipo
  32. 32. DNA microarrays - El problema El mismo gen puede trabajar correctamente en una persona, pero una pequeña mutación puede hacer que no trabaje en absoluto en otra. Para encontrar las mutaciones que pueden causar una enfermedad los investigadores usan microarray para “genotipar” el DNA de los pacientes y determinar la secuencia exacta — A, T, C, or G — para miles de polimorfismos de un solo nucleótido (SNPs) distribuidos a través del genoma. Supongamos que queremos encontrar un tratamiento para una determinada enfermedad, primero tendremos que encontrar la causa, una mutación o una disfunción en uno o varios genes, pero no tenemos investigaciones previas, y no tenemos ninguna idea de que genes presentan la mutación o disfunción que causa la enfermedad. La mutación que buscamos puede estar en cualquiera de los 3.1 billones de pares de bases en el genoma humano. ¿Dónde comenzamos?. Antes de la aparición de los microarrays los investigadores buscaban una conexión con enfermedades similares suficientemente documentadas. Ahora es posible mirar directamente al DNA para explorar todo el genoma y buscar similitudes entre las personas que padecen la enfermedad. Es posible buscar entre 10000 o 100000 SNPs para determinar que gen o grupo de genes que contribuyen a la enfermedad. Por ejemplo, si un grupo de 500 enfermos comparten media docena de SNPs que no tiene un grupo de 500 sanos, los investigadores comenzarán a buscar, por mutaciones tras la enfermedad, entre estos SNPs. Los SNPs no dan la mutación exacta, pero indican en que parte del genoma buscar la mutación. Esta forma de proceder es posible solamente con microarrys de alta densidad.
  33. 33. DNA microarrays - Funcionamiento. El procedimiento básico es el mismo que en los chips de expresión, es decir, se basan en los procesos de hibridación. La diferencia básica es que utilizan DNA en lugar de mRNA ya que aquel está presente en todas las células. El trabajo de secuenciación del genoma humano nos dice la secuencia existente alrededor de cada uno de los SNPs que queremos buscar. Los microarrys usan esa información para determinar los SNPs presentes en el genotipo. Como vemos, el SNP está en el centro de la cadena. Por el procedimiento habitual sabremos cual de los dos genotipos está presente en el paciente. En este caso se utilizan 40 probes para determinar cada SNP.
  34. 34. DNA microarrays - La muestra. Extraemos ahora una muestra de DNA del paciente, al contrario que en caso anterior en el que no todos los genes se expresan en cada célula, ahora el DNA está presente en todas por lo que la muestra puede ser de cualquier parte (saliva, sangre, etc.) Antes de continuar es necesario hacer miles de copias del DNA. El resto del proceso es similar al ya descrito.
  35. 35. cDNA microarrays - Dos colores El procedimiento básico es similar con la diferencia de que las cadenas de DNA utilizadas son más largas y que en el mismo array se comparan muestras de tejido enfermo y sano procedentes del mismo tejido y del mismo paciente.
  36. 36. cDNA microarrays - Código de colores Los puntos del array son circulares en lugar de cuadrículas. Si se utilizo el color verde para los sanos y el rojo para los enfermos, los puntos que aparecen en rojo corresponderán a los genes que se expresan con mayor intensidad en los enfermos, los puntos verdes a los que se expresan con mayor intensidad en sanos y los amarillos a los que se expresan de forma similar en ambos. Como medida final se suele utilizar el cociente entre las expresiones en ambos canales o su logaritmo.
  37. 37. cDNA microarrays - La imagen
  38. 38. cDNA microarrays - La imagen real
  39. 39. Microarrays - Procesamiento de la imagen <ul><li>B úsqueda de los puntos (spots) </li></ul><ul><li>Segmentación </li></ul><ul><li>Cuantificación </li></ul><ul><li>Calidad de la medida </li></ul>
  40. 40. B úsqueda de los puntos <ul><li>Manual </li></ul><ul><li>Semiautomática </li></ul><ul><li>Automática </li></ul>Como conocemos de antemano cuantos puntos hay, el patrón con el que se imprimieron y su tamaño, en principio un programa de ordenador simple podría procesar la imagen superponiendo una matriz de círculos (rectángulos) con las dimensiones y el espaciado dado en la imagen. Los pixels contenidos en los círculos serían la señal y los que están fuera, el fondo. En el mundo real la localización exacta puede variar en distintos chips incluso aunque las cuadrículas fueran perfectas, que no lo son. En la práctica hay diversas imperfecciones debidas a los procesos mecánicos de construcción del chip, a la lectura de la imagen y a la necesidad de imprimirla en un dispositivo de baja resolución.
  41. 41. Segmentaci ón <ul><li>Espacial </li></ul><ul><li>Basada en la intensidad </li></ul><ul><li>Mann-Whitney </li></ul><ul><li>Combinada (espacial-Intensidad) </li></ul>Segmentación es el proceso de partir una imagen en un conjunto de regiones no solapadas cuya unión es la imagen completa. El propósito de la segmentación es descomponer la imagen de forma que los puntos con información queden separados del fondo.
  42. 42. Cuantificaci ón <ul><li>El propósito es combinar los valores de la intensidad en una única medida cuantitativa que pueda usarse para representar el nivel de expresión del gen depositado en la cuadrícula. Normalmente se cuantifica utilizando el total, la media, la mediana o la moda de las intensidades de todos los pixels. </li></ul><ul><li>En condiciones ideales la intensidad total debería ser proporcional a la magnitud de la expresión. </li></ul><ul><li>La concentración de cDNA (mRNA) se hace correctamente de forma que su concentración es proporcional a la del tejido. </li></ul><ul><li>La hibridación se hace adecuadamente de forma que la concentración que se adhiere a las cuadrículas es proporcional a la que hay en el tejido. </li></ul><ul><li>La cantidad de DNA depositada en cada cuadrícula, en el proceso de fabricación, es constante. </li></ul><ul><li>No hay contaminación. </li></ul><ul><li>Los pixels se leen correctamente en el procesamiento de la imagen. </li></ul><ul><li>En general supondremos que las dos primeras condiciones se cumplen, esto se consigue diseñando correctamente el experimento. En la mayor parte de los casos las dos últimas condiciones no se verifican. </li></ul>
  43. 43. Medidas de la intensidad <ul><li>Intensidad total: </li></ul><ul><ul><li>Sensible a la cantidad de DNA depositada, la contaminación y las anomalías en la lectura de la imagen. </li></ul></ul><ul><li>Media: </li></ul><ul><ul><li>Utilizar la media reduce el problema de la cantidad de DNA al no depender del tamaño. </li></ul></ul><ul><ul><li>Buena sin contaminación o con la contaminación separada. </li></ul></ul><ul><ul><li>Muy sensible a los outliers. </li></ul></ul><ul><li>Mediana: </li></ul><ul><ul><li>Resistente a los outliers (Reduce problemas de contaminación y procesamiento). </li></ul></ul><ul><ul><li>Muy útil cuando el software no distingue bien entre señal, fondo y contaminación. </li></ul></ul><ul><ul><li>Una alternativa es la media truncada (Media eliminando los valores extremos en ambas colas) </li></ul></ul><ul><li>Moda </li></ul><ul><ul><li>Resistente a los outliers. </li></ul></ul><ul><ul><li>Muy sesgada en distribuciones multimodales. </li></ul></ul><ul><li>Volumen: Suma de la intensidad de la señal por encima del fondo. </li></ul><ul><ul><li>(media de la señal - media del fondo) x area de la señal. </li></ul></ul><ul><ul><li>Supone que la señal tiene una componente aditiva debida al alineamiento no específico igual a la del fondo. </li></ul></ul><ul><li>Cociente (dos canales): Cociente entre la media mediana o moda de los dos canales. </li></ul><ul><ul><li>No sensible a la cantidad exacta de DNA depositada al ser un cociente. </li></ul></ul>
  44. 44. Medidas de la calidad del punto <ul><li>Raz ón entre el área de la señal y el área del punto. </li></ul><ul><ul><li>El área del punto es el área de la señal más el área contaminada colindante. </li></ul></ul><ul><ul><li>Información sobre el área ignorada. </li></ul></ul><ul><ul><li>Menor razón implica mayor área ignorada y menor calidad. </li></ul></ul><ul><ul><li>Medida de la contaminación local. </li></ul></ul><ul><li>Regularidad de las formas </li></ul><ul><ul><li>Razón del número de pixels eliminados entre el área del círculo. </li></ul></ul><ul><li>Razón entre el área del punto y el perímetro. </li></ul><ul><ul><li>Máxima para los puntos perfectamente circulares. </li></ul></ul><ul><li>Desplazamiento </li></ul><ul><ul><li>Distancia desde el centro esperado hasta su localización real. </li></ul></ul><ul><li>Uniformidad del punto </li></ul><ul><ul><li>1-(varianza/media) </li></ul></ul><ul><ul><li>Un punto perfecto tendría una varianza 0 y uniformidad 1. </li></ul></ul><ul><ul><li>Varianzas grandes en la intensidad producen índices de calidad pequeños. </li></ul></ul><ul><ul><li>Se divide por la media porque los puntos con mayor intensidad tienen mayor variabilidad. </li></ul></ul>
  45. 45. Procesamiento de los microarrays de Affimetrix - Introducci ón <ul><li>Como ya vimos, este tipo de microarrys utiliza secuencias m ás cortas para detectar los genes. Para compensar esto se utilizan varias de dichas secuencias. El primer problema es cómo combinar los resultados para obtener una única medida. </li></ul><ul><li>La segunda diferencia es que en éstos no hay fondo, toda la superficie del chip está cubierta por los probes y no puede usarse un valor de fondo como indicación de nivel de intensidad cuando no hay hibridación. En lugar de esto se utilizan secuencias en las que se ha cambiado una de las bases (mismatch, MM) junto con las que se desea medir (perfect match, PM). Los RNAs se consideran presentes si la mezcla de señales de los probes PM están significativamente por encima del fondo después de restarle las intensidades de la señal de los MM. </li></ul><ul><li>Para cada gen tenemos entonces un conjunto de pares de probes PM/MM. </li></ul><ul><li>Un gen está presente si la mayor parte de valores de PM son mayores que los MM el gen es considerado “presente”; si la mayor parte son menores “ausente” y si es el 50% aproximadamente “marginal”. La fiabilidad de la clasificación se mide mediante un p-valor procedente de un test U de Mann-Whitney. </li></ul>
  46. 46. Procesamiento de los microarrays de Affimetrix - Medida cuantitativa <ul><li>El prop ósito final consiste en calcular una medida cuantitativa que sea proporcional a la expresión del gen. </li></ul><ul><li>Una medida común es la media de las diferencias entre los valores PM y MM. </li></ul><ul><li>Pueden detectarse diferencias entre la clasificación cualitativa y la cuantificación numérica en el sentido de que una llamada “ausente” puede tener valores mayores en la cuantificación. </li></ul>
  47. 47. Microarrays - Preprocesamiento y Normalización <ul><li>Pre-procesamiento: Paso inicial que permite extraer caracteristicas significativas de los datos, prepar ándolos para el análisis posterior. Por ejemplo tomar logaritmos de los valores originales. </li></ul><ul><li>Normalización: Un tipo particular de preprocesamiento para eliminar las diferencias sistemáticas entre conjuntos de datos. Por ejemplo, modificar los valores para compensar las diferencias en las eficiencias de los dos canales en los experimentos con dos colores. </li></ul><ul><li>Algunos de los métodos sirven para todos los microarrays, otros son específicos de cada plataforma. </li></ul>
  48. 48. Microarrays - Técnicas generales de preprocesamiento <ul><li>Transformaci ón logaritmica. </li></ul><ul><ul><li>Valores más interpretables desde el punto de vista biológico. </li></ul></ul><ul><ul><li>Simetriza la distribución de la expresión. </li></ul></ul><ul><ul><li>La base del logaritmo es normalmente 2. </li></ul></ul><ul><li>Combinación de réplicas y eliminación de outliers. </li></ul><ul><ul><li>Promedio de diferentes spots en el mismo array o valores diferentes de diferentes arrays. </li></ul></ul><ul><ul><li>Conlleva una pérdida de información y debe hacerse con cuidado. </li></ul></ul><ul><ul><li>Conviene guardar medidas adicionales al promedio: número de réplicas, variabilidad, …. </li></ul></ul><ul><li>Normalización por array : Para hacerlos comparables. </li></ul><ul><ul><li>Dividir por la media del array (o la mediana, o la moda) </li></ul></ul><ul><ul><li>Restar la media (con logaritmos) </li></ul></ul><ul><ul><li>Utilizar puntos de control con valores similares en distintos arrays. </li></ul></ul><ul><ul><li>Regresión lineal iterativa con los dos canales </li></ul></ul>
  49. 49. Microarrays - Normalización en cDNA <ul><li>Correcci ón con el fondo. </li></ul><ul><ul><li>Local. </li></ul></ul><ul><ul><li>Subgrid. </li></ul></ul><ul><ul><li>Con grupos de puntos. </li></ul></ul><ul><ul><li>Con puntos sin información. </li></ul></ul><ul><ul><li>Puntos de control. </li></ul></ul><ul><li>Otros preprocesados a nivel de punto. </li></ul><ul><ul><li>Descartar los puntos no fiables </li></ul></ul><ul><li>Normalización de color </li></ul><ul><ul><li>Se basa en el hecho de que la mayor parte de los genes no cambian y por tanto hay una relación lineal en los dos colores). </li></ul></ul><ul><ul><li>Ajuste de curvas y corrección posterior. </li></ul></ul><ul><ul><li>LOWESS/LOESS (LOcally WEighted polinomial regreSSion). </li></ul></ul><ul><ul><li>Normalización a trozos (ajuste lineal a por trozoa). </li></ul></ul>
  50. 50. Microarrays - Normalización Affimetrix <ul><li>Correcci ón con el fondo. </li></ul><ul><ul><li>No hay fondo propiamente dicho. </li></ul></ul><ul><ul><li>Se corrige con la zonas adyacentes a cada cuadrícula. </li></ul></ul><ul><li>Cálculo de la señal. </li></ul><ul><ul><li>Corrección con la hibridación no específica. </li></ul></ul><ul><li>Detección calls </li></ul><ul><ul><li>Clasificación en categorías: Presente, ausente y marginal. </li></ul></ul><ul><ul><li>Utiliza el test U de Mann-Whitney. </li></ul></ul><ul><li>Valores relativos de la expresión </li></ul>
  51. 51. Microarrays - Análisis Estadístico <ul><li>Estadística Descriptiva. </li></ul><ul><li>Comparaci ón de medias. </li></ul><ul><li>Diseño de Experimentos (ANOVAS). </li></ul><ul><li>Correcciones para comparaciones múltiples. </li></ul><ul><li>Descomposición en valores singulares : Componentes principales, correspondencias. </li></ul><ul><li>Métodos de clasificación: Análisis Discriminante y variantes. </li></ul><ul><li>ANALISIS DE CLUSTER. </li></ul><ul><li>ANALISIS DE CLUSTER DE INDIVIDUOS Y GENES SIMULTANEAMENTE. </li></ul>
  52. 52. Clasificación de cánceres Aunque la clasificación del cáncer ha mejorado en los últimos años, no hay una forma general de identificar nuevos tipos de cáncer (class discovery) o de asignar tumores a tipos ya conocidos (class prediction). Una metodología prometedora es la utilización de microarrays de DNA (mRNA) para detectar los genes alterados, es decir con expresión diferencial en tipos distintos de cáncer y en células sanas. Si bien ésta no es la solución completa del problema, al menos es una forma d empezar a buscar los genes diferenciados que permiten iniciar la investigación en causas concretas, tratamiento basados en los genes y nuevos métodos de diagnóstico.
  53. 53. Leucemias ALL-AML <ul><li>Clasifiación de Leucemias </li></ul><ul><li>Acute myeloid leukemia (AML) </li></ul><ul><li>Acute lymphoblastic leukemia (ALL) </li></ul>
  54. 54. Gen U29656_at 1 cgctcccgca ccgccatcat gatctgcctg gtgctgacca tcttcgctaa cctcttcccc 61 gcggcctgca ccggcgcaca cgaacgcacc ttcctggccg tgaagccgga cggcgtgcag 121 cggcggctgg tgggcgagat tgtgcggcgc ttcgagagga agggcttcaa gttggtggcg 181 ctgaagctgg tgcagtcctc cgaggagctg ctgcgtgagc actacgccga gctgcgtgaa 241 cgcccgttct acggccgcct tgtcaagtat atggcctccg ggccggtggt ggccatggtt 301 tggcaggggc tggacgtggt gcgcacctcg cgggcgctca tcggagccac gaacccggcc 361 gacgccccgc ccggcaccat ccgcggggat ttctgcatcg aggttggcaa cctgattcac 421 ggcagcgact cggtggagag tgcccgccgc gagatcgctc tctggttccg cgcagacgag 481 ctcctctgct gggaggacag cgctgggcac tggctgtatg agtagcccgg cagatgcgcg 541 tcacagaggc tctcacattc cagcctcctc cagggcccag gtgggcggct tctggcccca 601 ccccacagcg cttggagcat ccctttggac gggctgctga acatccacct gtctggacgt 661 tgcatggagg gtggcgcagc ctctccaatc cctggcgtac agggtttcct gcccgaggac 721 ctgctccagg agcctgcgcg gctcgcctgg aaacgtgcca ggagcactgt cctggtgccc 781 agcccaacgt ggtccaaggt ttttttataa ttaaagtcct cgttttcgtt aaaaaaaaaa 841 aaaaaaaaa <ul><li>Summary </li></ul><ul><li>Official Symbol </li></ul><ul><ul><li>NME3 </li></ul></ul><ul><li>Official Full Name </li></ul><ul><ul><li>protein expressed in non-metastatic cells 3 </li></ul></ul><ul><ul><li>Primary source </li></ul></ul><ul><ul><li>HGNC:7851 </li></ul></ul><ul><li>See related </li></ul><ul><ul><li>HPRD:03488 ; MIM:601817 </li></ul></ul><ul><li>Gene type </li></ul><ul><ul><li>protein coding </li></ul></ul><ul><ul><li>Location : 16q13 </li></ul></ul><ul><li>RefSeq status </li></ul><ul><ul><li>Validated </li></ul></ul><ul><li>Organism </li></ul><ul><ul><li>Homo sapiens </li></ul></ul><ul><li>Lineage </li></ul><ul><ul><li>Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini; Catarrhini; Hominidae; Homo </li></ul></ul><ul><li>Also known as </li></ul><ul><ul><li>DR-nm23; KIAA0516; c371H6.2 </li></ul></ul>
  55. 55. Descriptiva ALL AML U29656_at Estadístico Error típ. Estadístico Error típ. Media 441.85 29.472 718.76 55.765 Intervalo de confianza para la media al 95% Límite inferior 382.53 603.67 Límite superior 501.18 833.85 Media recortada al 5% 428.85 710.93 Mediana 425.00 759.00 Varianza 40824.434 77742.023 Desv. típ. 202.051 278.823 Mínimo 117 102 Máximo 1114 1531 Rango 997 1429 Amplitud intercuartil 273 344 Asimetría 1.058 .347 .482 .464 Curtosis 1.753 .681 2.272 .902
  56. 56. Histograma U29656_at Estadístico Error típ. Estadístico Error típ. Media 441.85 29.472 718.76 55.765
  57. 57. Estimadores M (robustos)
  58. 58. Normalidad-Homoscedastidad
  59. 59. Tallo y Hojas U29656_at Stem-and-Leaf Plot for leucemia= ALL Frequency Stem & Leaf 3.00 1 . 149 9.00 2 . 023344559 9.00 3 . 013456777 12.00 4 . 012556666788 7.00 5 . 4467788 3.00 6 . 117 1.00 7 . 9 2.00 8 . 58 1.00 Extremes (>=1114) Stem width: 100 Each leaf: 1 case(s) U29656_at Stem-and-Leaf Plot for leucemia= AML Frequency Stem & Leaf 1.00 Extremes (=<102) 2.00 3 . 48 1.00 4 . 1 5.00 5 . 11669 3.00 6 . 889 4.00 7 . 5899 3.00 8 . 135 4.00 9 . 0137 1.00 10 . 1 1.00 Extremes (>=1531) Stem width: 100 Each leaf: 1 case(s)
  60. 60. Gráficos de normalidad
  61. 61. Box-Plot
  62. 62. Barras de error
  63. 63. Diagrama de dispersión
  64. 64. Contraste t – Datos Independientes
  65. 65. Varianzas distintas
  66. 66. U de Mann-Whitney

×