Data Mining en Cáncer de Próstata

Introducción al DataMining 2011 AplicandoDataMining a datos de cáncer de próstata Laura Vera Fernando López Sebastián Vallejo

Data Mining en Cáncer de Próstata ,[object Object]

Tratamientosradicales. Radioterapia externa

Efectocrónico (SOMA),[object Object]

Data Mining en Cáncer de Próstata ,[object Object],De julio 2008 a julio 2011: reclutamos 86 pacientesportadores de cáncer de próstatalocalizado y querecibierontratamiento radical de radioterapiaexterna. Se mide el efectosecundario rectal en diferentestiempos antes, durante y después del tratamiento, con un seguimiento de 6 meses.

Data Mining en Cáncer de Próstata ,[object Object],VariablesDosimétricas Variables Clínicas DOSISTOTAL: dosis total que se eroga DOSISMEDIARECTO: dosis media que recibe el volúmen del recto DOSISMAXIMARECTO: dosis máxima que recibe el 10% del recto CTV: volumen irradiado VOLUMENRECTO: volúmen de recto irradiado EDAD: edad al diagnóstico HTA: antecedente de hipertensión HIPOTENSORES: recibe hipotensores DIABETES: antecedente de diabetes PSA: valor de PSA al diagnóstico GLEASSON: clasificación histológico TCLINICO: clasificación clínica CLASE DE RIESGO: clasificación oncológica RTOGANTESTTRAT: score RTOG antes de comenzar el tratamiento

Data Mining en Cáncer de Próstata ,[object Object],RTOGRECTO30DIAS: score RTOG rectal a 30 días de finalizado el tratamiento RTOGRECTO90DIAS: score RTOG rectal a 90 días de finalizado el tratamiento SOMARECTO3MESES: score SOMA recto a 3 meses SOMARECTO6MESES: score SOMA recto a 6 meses EFECTO: score resúmen de los 4 anteriores.

Data Mining en Cáncer de Próstata Proceso de Carga Datawarehouse Base de datos

Data Mining en Cáncer de Próstata ,[object Object],Se realizó el análisis de componentes principales con R. > summary(datosTodas.pca) Importance of components: PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 SD= 228.1608 55.69933 29.16359 23.57287 14.77512 8.82476 6.21400 2.70058 0.98123 PropVar= 0.9147 0.05451 0.01494 0.00976 0.00384 0.00137 0.00068 0.00013 0.00002 PropAcm= 0.9147 0.96923 0.98417 0.99394 0.99777 0.99914 0.99982 0.99995 0.99997 PC10 PC11 PC12 PC13 PC14 PC15 PC16 PC17 PC18 PC19 SD= 0.82732 0.62516 0.5045 0.3984 0.3494 0.2955 0.262 0.2203 0.215 0.1713 PropVar= 0.00001 0.00001 0.0000 0.0000 0.0000 0.0000 0.000 0.0000 0.000 0.0000 PropAcm= 0.99998 0.99999 1.0000 1.0000 1.0000 1.0000 1.000 1.0000 1.000 1.0000  PC1 y PC2 concentran el 96.9% de la varianza.

Data Mining en Cáncer de Próstata ,[object Object], PC1 PC2__________ EDAD 8.412217e-05 -0.0235835955 RTOGANTESTRAT 3.890869e-04 0.0008205255 HTA 4.292231e-04 0.0010296031 HIPOTENSORES 3.875716e-04 0.0005592113 DIABETES 2.174564e-04 0.0003746969 DOSISTOTAL 9.984603e-01 -0.0491475861 CTV -2.357671e-02 0.0335591384 VOLUMENRECTO -4.972085e-02 -0.9958485224 DOSISMEDIARECTO 8.573440e-04 0.0360738012 DOSISMAXIMARECTO 1.656430e-03 0.0005784759 CLASEDERIESGO 6.784801e-04 -0.0022775732 PSA 6.472753e-03 0.0522737644 GLEASSON -5.188838e-05 -0.0042670384 TCLINICO 1.649459e-03 -0.0113159998  DOSISTOTAL (en PC1) y VOLUMENRECTO (en PC2) tienen una ponderación de mayor orden de magnitud que las demás variables.

Data Mining en Cáncer de Próstata Análisis de Componentes Múltiples (ACM) Se tomaron las variables Diabetes y DosisTotal continua y discretizada) y se compararon con los outcomes La clase no efecto secundario esta cerca de diabetes y de las variables dosimétricas

Data Mining en Cáncer de Próstata Clasificación supervisada: análisis de FISHER Análisis discriminante lineal: es un modelo matemático ideado por Fisher. Realiza la proyección bidimensional de las instancias que separan mejor las clases Se tomaron todas las variables, como entrada y como outcome para separar las clases el SOMARECTO6MESES (score SOMA para recto a los 6 meses de seguimiento). Las variables que se vinculan a la clase efecto secundario son: dosimétricas (volumenrecto, dosismaximarecto, dosistotal, dosismediarecto) y en las variables clínicas (Tclinico) y paraclinicas (Gleasson, clase de riesgo). se realizó con Orange python

Data Mining en Cáncer de Próstata ,[object Object],[object Object],[object Object]

Data Mining en Cáncer de Próstata Versión animada de componentes principales 3D

Data Mining en Cáncer de Próstata Orange ofrece un algoritmoVizRankqueanaliza todaslasproyecciones de las variables con el método k vecinosmascercanos (10), tomadas de a 4 y lasclasificasegún un score. La proyecciónquemasseparalasclasestiene 100 Representación lineal de la proyección con mas score

Data Mining en Cáncer de Próstata De ambos análisis surge la variable Volumen derecto y las dosis sobre recto como relevantes. Además de varaibles gleasson, Tclinico y clase de riesgo que suponemos sean combinación lineal. ,[object Object],[object Object],[object Object]

La función TestLearner de Orange con cross over de 10 devolvió los siguientes parámetros. CA: Perfección de la clasificación Sensibilidad: cantidad de casos detectados positivos entre los positivos Especificidad: Proporción de los ejemplos detectados negativos entre los casos negativos AUC: área bajo de la curva de ROC: recomendable no menor a 5, para modelos predictivos Brier: es la precisión de la probabilidad de evaluación, mide el promedio de la desviación de la probabilidad medida entre las probabilidades predichas de los eventos y los eventos reales

Data Mining en Cáncer de Próstata Utilizando método cross- over Utilizando leave one out

Data Mining en Cáncer de Próstata ,[object Object],[object Object]

Data Mining en Cáncer de Próstata ,[object Object],Para las 14 variables de entrada, aplicando k-means se obtiene un número de 10 clusters. Nota.- Para la aplicación de k-means, se tomaron como numéricas todas las variables discretas. > fit$centers EDAD RTOGANTESTRAT HTA HIPOTENSORES DIABETES DOSISTOTAL CTV VOLUMENRECTO 1 70.50000 1.500000 0.5000000 0.5000000 0.7500000 6590.000 88.20000 167.42500 2 69.66667 1.111111 0.5555556 0.5555556 1.0000000 7560.000 58.47778 67.52222 3 71.35294 1.117647 0.4705882 0.4705882 0.8235294 7380.000 104.39412 110.01765 4 74.00000 1.000000 0.0000000 0.0000000 1.0000000 7380.000 50.55000 331.35000 5 63.33333 1.250000 0.5833333 0.5000000 1.0000000 7365.000 69.11667 64.33333 6 69.45455 1.000000 0.4545455 0.4545455 0.9090909 7387.273 56.75455 118.76364 7 58.00000 1.000000 1.0000000 1.0000000 1.0000000 7560.000 74.00000 69.50000 8 69.75000 1.125000 0.6250000 0.7500000 1.0000000 7560.000 70.31250 126.43750 9 70.44444 1.222222 0.7777778 0.6666667 0.8888889 7735.556 68.78889 113.12222 10 68.00000 1.250000 0.3333333 0.4166667 0.8333333 7380.000 82.45833 177.25833 DOSISMEDIARECTO DOSISMAXIMARECTO CLASEDERIESGO PSA GLEASSON TCLINICO fit.cluster 1 38.25750 72.25000 2.500000 21.432500 6.750000 3.000000 5.000000 2 37.88889 69.88889 3.111111 19.766667 6.444444 4.555556 2.000000 3 45.58824 76.38824 3.352941 25.110588 6.882353 4.588235 1.000000 4 35.50000 76.50000 4.000000 11.050000 8.500000 10.000000 10.000000 5 49.07500 76.83333 3.250000 18.681667 6.750000 5.083333 5.000000 6 47.04545 76.13636 3.272727 21.746364 6.454545 3.636364 3.454545 7 45.50000 76.50000 4.000000 170.000000 7.000000 7.000000 9.000000 8 46.41250 73.43750 3.500000 29.653750 7.125000 6.000000 3.000000 9 42.38889 78.94444 3.000000 8.847778 6.444444 4.777778 7.000000 10 39.90000 71.59167 3.333333 15.670833 7.083333 6.333333 8.000000

Data Mining en Cáncer de Próstata AnálisisDiscriminanteLogístico Sin considerar la constante, el valor de p mas bajo es para DOSIS TOTAL Y DIABETES

Data Mining en Cáncer de Próstata Estadísticos de evaluación de la predicción Error medio -1.0884e-012 Error cuadrático medio 0.14472 Raíz del Error cuadrático medio 0.38042 Error absoluto medio 0.2909 Proporción de sesgo, UM 8.186e-024 Proporción de regresión, UR 8.3614e-005 Proporción de perturbación, UD 0.99992 Gráfico de residuos

Data Mining en Cáncer de Próstata ,[object Object],Se utilizaron los algoritmos forward-backward implementados en Matlab - fjsvarsearch: obtiene la cantidad mínima de variables que “explican”, para un porcentaje de acierto determinado, la clasificación realizada - fjsvarsearchCND: variante del anterior, donde las variables “oscurecidas” son reemplazadas por la media condicional, en lugar de la media marginal Previamente, se realizó kmeans sobre las observaciones.

EDAD RTOGANTESTRAT HTA HIPOTENSORES DIABETES DOSISTOTAL CTV VOLUMENRECTO DOSISMEDIARECTO DOSISMAXIMARECTO CLASEDERIESGO PSA GLEASSON TCLINICO EFECTO

EDAD RTOGANTESTRAT HTA HIPOTENSORES DIABETES DOSISTOTAL CTV VOLUMENRECTO DOSISMEDIARECTO DOSISMAXIMARECTO CLASEDERIESGO PSA GLEASSON TCLINICO SOMARECTO6MESES(0,1) ,[object Object]

EDAD RTOGANTESTRAT HTA HIPOTENSORES DIABETES DOSISTOTAL CTV VOLUMENRECTO DOSISMEDIARECTO DOSISMAXIMARECTO CLASEDERIESGO PSA GLEASSON TCLINICO SOMARECTO6MESES(0,1) RTOGRECTO30DIAS RTOGRECTO90DIAS,[object Object]

Utilizamos la distribución Chi-cuadrado y el ReliefF, el cual se define como un algoritmoqueestima el éxito de un atributo, y daunavisiónunificada de la capacidad de estimación de un atributo en clasificación y regresión. ReliefFtiene la particularidad de no asumirdependencia entre los atributos de maneraquepuedeestimar la calidad de los atributos en problemas con fuertedependencia entre ellos. Estoresuelve un problemafrecuente en aprendizajeautomático.,[object Object]

Data Mining en Cáncer de Próstata ,[object Object],ReliefF Chi-cuadrado

Data Mining en Cáncer de Próstata No efectosecundario ,[object Object],Efecto secundario

Data Mining en Cáncer de Próstata ,[object Object],CTV – DOSIS TOTAL CTV – VOLUMEN RECTO

Data Mining en Cáncer de Próstata VOLUMEN RECTO – DOSIS TOTAL CTV- VOLUMEN RECTO – DOSIS TOTAL

Data Mining en Cáncer de Próstata Componentes principales con selección de variables

Data Mining en Cáncer de Próstata ,[object Object],La matriz de distancias con score de Pearson chi-cuadrado Este muestra una relación entre CTV y el Volumen del Recto irradiado, no así la Dosis total, que es de las variables que tiene mayor incidencia global en el proceso pero sin poder aún demostrar su relación exacta como predictor, muy probablemente por el bajo N. Clúster jerárquico de estas variables

Data Mining en Cáncer de Próstata

Data Mining en Cáncer de Próstata

Recomendados

Recomendados

Más contenido relacionado

Similar a Data Mining en Cáncer de Próstata

Similar a Data Mining en Cáncer de Próstata (20)

Último

Último (20)

Data Mining en Cáncer de Próstata