Este documento presenta un estudio sobre la aplicación de técnicas de minería de datos al cáncer de próstata, con el objetivo de predecir efectos secundarios rectales después del tratamiento de radioterapia. Se analizaron datos de 86 pacientes, incluyendo variables dosimétricas, clínicas y de seguimiento. Se realizaron análisis de componentes principales, árboles de decisión y clasificación para identificar las variables más predictivas, como la dosis de radiación y el volumen de recto irradiado.
10. Data Mining en Cáncer de Próstata Proceso de Carga Datawarehouse Base de datos
11.
12.
13. Data Mining en Cáncer de Próstata Análisis de Componentes Múltiples (ACM) Se tomaron las variables Diabetes y DosisTotal continua y discretizada) y se compararon con los outcomes La clase no efecto secundario esta cerca de diabetes y de las variables dosimétricas
14. Data Mining en Cáncer de Próstata Clasificación supervisada: análisis de FISHER Análisis discriminante lineal: es un modelo matemático ideado por Fisher. Realiza la proyección bidimensional de las instancias que separan mejor las clases Se tomaron todas las variables, como entrada y como outcome para separar las clases el SOMARECTO6MESES (score SOMA para recto a los 6 meses de seguimiento). Las variables que se vinculan a la clase efecto secundario son: dosimétricas (volumenrecto, dosismaximarecto, dosistotal, dosismediarecto) y en las variables clínicas (Tclinico) y paraclinicas (Gleasson, clase de riesgo). se realizó con Orange python
15.
16. Data Mining en Cáncer de Próstata Versión animada de componentes principales 3D
17. Data Mining en Cáncer de Próstata Orange ofrece un algoritmoVizRankqueanaliza todaslasproyecciones de las variables con el método k vecinosmascercanos (10), tomadas de a 4 y lasclasificasegún un score. La proyecciónquemasseparalasclasestiene 100 Representación lineal de la proyección con mas score
18.
19. La función TestLearner de Orange con cross over de 10 devolvió los siguientes parámetros. CA: Perfección de la clasificación Sensibilidad: cantidad de casos detectados positivos entre los positivos Especificidad: Proporción de los ejemplos detectados negativos entre los casos negativos AUC: área bajo de la curva de ROC: recomendable no menor a 5, para modelos predictivos Brier: es la precisión de la probabilidad de evaluación, mide el promedio de la desviación de la probabilidad medida entre las probabilidades predichas de los eventos y los eventos reales
20. Data Mining en Cáncer de Próstata Utilizando método cross- over Utilizando leave one out
21.
22.
23.
24.
25. Data Mining en Cáncer de Próstata AnálisisDiscriminanteLogístico Sin considerar la constante, el valor de p mas bajo es para DOSIS TOTAL Y DIABETES
26. Data Mining en Cáncer de Próstata Estadísticos de evaluación de la predicción Error medio -1.0884e-012 Error cuadrático medio 0.14472 Raíz del Error cuadrático medio 0.38042 Error absoluto medio 0.2909 Proporción de sesgo, UM 8.186e-024 Proporción de regresión, UR 8.3614e-005 Proporción de perturbación, UD 0.99992 Gráfico de residuos