SlideShare una empresa de Scribd logo
1 de 277
Descargar para leer sin conexión
-
Alfredo Daza Vergaray
,
MINERIA DE DATOS
MINERiA DE DATOS
Peru · Mexico . Colombia . Chile . Ecu dor . E paiia . Bolivi<1 - Uruguay · Guat rnala - Costa Rica
Data mining
Minerfa de datos
Autor: Atfredo Daza Vergaray
e Derechos de autor registrados:
Empresa Editora Macro EIRL
~ Oerechos de edici6n, arte grafico y diagramaci6n reservados:
Empresa Editora Macro EIRL
Coordinaci6n de edici6n:
Magaly Ramon Quiroz
Diseno de portada:
Rudy Herrera Torres
Correcci6n de estilo:
Martin Vargas Canchanya
Oiagramaci6n:
Julissa Ventocilla Fernandez
Edici6n a cargo de:
© Empresa Editora Macro EIRL
Av. Paseo de la Republica N.• 5613, Miraflores, Lima, Peru
(. Telefono: (511) 748 0560
2l E-mail: proyectoeditorial@editorialmacro.com
~ Pagina web: www.edrtorialmacro.com
Primera edici6n: julio 2016
Tiraje: 1200 ejemplares
lmpresi6n
Talleres graficos de la Empresa Editora Macro EIRL
Jr. San Agustin N.° 612-624, Surquillo, Lima, Peru
ISBN N.° 978-612-304-417-6
Hecho el dep6sito legal en la Biblioteca Nacional del Peru N."2016-08276
Prohibida la reproducci6n parcial o total, por cualquier medic o metodo, de este libro sin previa
autorizaci6n de la Empresa Editora Macro EIRL.
Alfredo Daza Vergaray
lngeniero de Sistemas e Informatica egresado de la Universidad Nacional del Santa,
cuenta con estudios de Doctorado en lngenierfa de Sistemas en la Universidad
Nacional de lngenierfa (UNI}. Especialista en el manejo de bases de datos, en data
warehouse yen sistemas de gesti6n de datos como SQL Server y Oracle.
A lo largo de su trayectoria profesional se ha dedicado activamente ala docencia en
diversas instituciones publicas y privadas. Asimismo, ha trabajado como consulter,
analista de sistemas y capacitador en temas de informatica. Actualmente, es
profesor en la Facultad de lngenierfa de la Universidad Cesar Vallejo.
Entre sus areas de interes estan el uso de las tecnologfas de la informaci6n
en el ambito empresarial (base de datos, data warehouse, minerfa de datos,
text mining, web mining y big data) y la implementaci6n de herramientas de
software para el sector educativo.
Dedicatoria
Este libro esta dedicado · da m1 pa re Alfredo Daza Vasquez por ser un eJemplo a
seguir, por todos los maravillosos valores que me ensen6 y por la fuerza que e dio
para poder afrontar los mementos mas dificiles que me tocaron vivir. Tambien es a
dedicado a mi madre Rosa Margarita Vergaray Armijo, quien, aunque nu ca estu o
ffsicamente, permaneci6 en mi mente yen mi coraz6n. A ella, en donde sea que se
encuentre quiero que sepa que todos los dias la siento en mi coraz6n.
Dedico este libro, ademas, a mi hermana Ana Rosa Daza Vergaray, quien es na
persona a la que respeto y admire mucho por los consejos que me brind6 en
diferentes etapas de mi vida y por ser alguien a quien siempre tomare coma ejemplo
para poder mejorar siempre.
Tambien quisiera dedicarle este Iibro a mi esposa Nataly Yessenia Risco Bocanegra, a
quien admiro y me siento orgulloso. A ella nunca me cansare de decirle que la amo
y de agradecerle por ser paciente mientras yo cumplia mis metas y por darme dos
hermosos hijos que me recuerdan a ella cada vez que los miro.
Por ultimo, quisiera dedicar este libro a mi hijo Aaron Alfredo Daza Risco, quien fue
mi inspiraci6n para poder seguir estudiando cuando todos pensaban que habia
enterrado mis suefios; con el podre decir que lo logramos juntos en una etapa de la
vida. Por otro lado, tambien tengo muy presente a mi hijo Luis Alfredo Daza Risco,
quien es un regalo que Dios me dio para poder veneer una etapa muy dificil de mi
vida en la cual el fue mi primer apoyo con sus tiernas Ydulces palabras que me hacian
reir, y por acompafiarme mientras escribia el Iibro e imitarme con una sonrisa cuando
tecleaba en la laptop.
Gracias a Dios por poner en mi camino a estas personas maravillosas y darme la
alegria de poder cumplir mis suefios a tan temprana edad Ypoder decir que lo logre
antes de haber terminado mi camino.
Agradecirnientos
Agradezco a la Universidad Cesar Vallejo por permitirme mejorar profesionalmente y
realizar trabajos de investigaci6n en el campo de la mineria de datos ya la Universidad
Nacional de lngenierfa por incentivarme a investigar este tema, el cual forma parte de
mi tesis doctoral en lngenieria de Sistemas.
I
Il
lI
l: nceptos b11si 'O~ de mineda de dato"- ................................ 1
at ............................................................................................................... 15
DD ..................................................................................1
RI P ............................................................................................................17
e ..............................................................................................................................20
MCl1<1e1l'O hibrid ..................................................................................................................20
icci ·n ..........................................................................................................................21
,n;,,~de da (d ta ~vareh use).................................................................................21
men .................................................................................................................................. 22
LO --= T nicns y aplic d ·n d la n1inerfa. de datos........................25
elos de mineria de datos ............................................................................................27
de mineria de datos ...........................................................................................27
i a i "ndelamineriadedatos......................................................................................37
..1 i eria e d t sen la educa ion ............................................................................39
e men ...................................................................................................................................57
PITULO 3: Presentaci6n gene.ml de SPSS Clen1entine............................ 61
· 1 SP Oementine ............................................................................................................... 63
3. .1 tor bli ......................................................................................................... 63
.1. CRM......................................................................................................................... 64
.1.3 e mii ing ............................................................................................................. 64
.4 Desarroll de farnlacos ........................................................................................... 5
Resu en .................................................................................................................................. 66
CAP' LO 4: Inte.rftu y <.."Utegorias de SPSS Clen1entine ............................67
'll Elementos de la interfaz de SPSS Clementine .................................................................. 69
",l, Q I entine treanl an ..................................................................................... 69
41. Nod ._ P lette ...........................................................................................................70
''-1.3 e-n,entine M nager ...................................................................•...•.....•••....•..••..•..70
4.1.4 Clementine Proye ts ..........................................................••....•••....--....··..··•···--·....· 7
.................................................... 7
. d SPSS Clementine................................. ... 3
4.2 Categonas e .................................................................... 74
4.2.1 Categorfa Source................................. ............................................. ·,
c t oria Record Ops ............................................ ····· S
4.2.2 a eg .......................................................... 75
4
.2.3 categoria Field Ops...................................... ............................................. ··
74.2.4 Categoria Output................................................... ..... 6
4.2.5 Categoria Graphs ....................................................................................................77
4.2.6 Categoria Modeling..........................................................········....................··......... 78
4.2.7 Categoria Export ............................................................................················•·...... 79
Resumen ....................................................................................................................... ........... 80
CAPITULO 5: Instalaci6n de SPSS Clementine ··········..·······················........81
5.1 lnstalaci6n del programa SPSS Clementine ...................................................................... 83
5.1.1 Pases para la instalaci6n del programa SPSS Clementine ......................................83
Resumen ...................................................................................................................................92
CAPiTULO 6: Aplicaciones con diferentes tecnicas de mineria de datos........93
6.1 Caso n.0
1: Predicci6n de juego de tenis (arboles de decision) ......................................... 95
6.2 Caso n.0
2: Predicci6n de planta iris................................................................................ 109
6.3 Caso n.0
3: Predicci6n de farmacos................................................................................. 122
6.4 Caso n.0
4: Problemas de cluster (caso empleados Memolum Web).............................. 136
6.5 Cason.° 5: Agrupamientos en relaci6n a las ventas ........................................................141
6.6 Caso n.0
6: Datos err6neos y faltantes (caso empleados Memolum Web) ......................147
6.7 Caso n.0
7: Obtener y transformar datos a traves de ODBC
(conexi6n de base de datos abierta) ..............................................................166
6.8 Caso n.
0
8: Catalog_forecast (series de tiempo) ..............................................................176
6.9 Caso n.
0
9: Computer hardware data set.........................................................................181
6.10 Caso n.
0
10: Detecci6n de fraude.................................................................................. 187
6.11 Caso n.
0
11: Validaci6n del modelo Drug con datos nuevos 195
6.12 Caso n.0
12: lntegraci6n y partici6n de datos ............................................................... 200
613 ° .........................................
6.14 CCaso n.o 13: Col.um~~ vertebral (partici6n de datos) .....................................................210
· aso n. 14: Vahdac,on cruzada.................................. 220
6.15 Caso n.o 15: Trabajar con pocos registros ... ................................................... 224
6.16 Caso n.o 16: Reglas de asociaci6n y depend~~~i~...........................................................233
6.17 Cason o17· Reg . , I , . .........................................................
6.18 Caso n.o 18·· Predr~s,~~ og1stica (telecomunicaciones churn) ........................................243
· · 1cc1on secuencial S4
6 19 Caso n o19 E ....................................... ..... 2· · : xporta · ' d .......·..·......................·..
6 20 o . c1on e modelos y resultados. 261
. Cason. 20: Series de tiempo (pronosticar) .......................................................267
Resumen ...................................................................
................................................................... 279
BIBLIOGRAFfA ..............................................................
.......................................... 282
·····································································
lntroducci6n
, I it t'll<l t' t1h,s ,· )1)$l 1lllyi' llll,l pi,l Hr,l de .in,li ,is ~lie p rmil: oblener un
,--. t'II 11 , :I c- )n •i1 lit'lll l' 1111prn t11nk ,1 p.1rtir del mJn jo de la inforrnacion
'='' 1H ,, dl' uth1 ,11,111 ,1:;t cit' t ,t ~. Fl bjctivo u, , t, libro cs ofr cer al lector
t 1lsi ' l' ·tc1 ilcll idad prira, mediant su apli acion, obtener
ir n m ls pr f rn1ulrir pr di cion a partir de las cuales poder
u v z. lri t rna ci d i i n s c1I int rior de una empresa.
El s nt "' lib e cii id n s .i apftulos. En el primero se definiran algunos
n ~ t - vin ul d s ci la 1ninena d datos, asi como tambien los pasos de la
d I 1a RI P, I m · u ada n I mercado y aquella con la cual actualmente
se plic ci nes tanto a nivel academico como empresarial.
En el se und cap1tulo se explicara que es un modelo de mineria de datos y
se mencionaran las tecnicas mas usadas en este campo tales coma las arboles
de decision v las redes neuronales. Por otro lado, se mencionaran tambien
los campos en los que la mineria de datos ha sido aplicada y se comentaran
algunas investigaciones hechas a nivel mundial con esta herramienta en cuanto
al ambito de la educacion superior.
En el tercer capitulo se describiran las caracterfsticas del software SPSS
Clementine, el cual constituye hoy en dfa una de las herramientas mas populares
en el mercado para elaborar aplicaciones de minerfa de datos. Al mismo tiempo,
y coma complemento de lo anterior, se detallaran algunas de las contribuciones
que este programa viene hacienda en distintos sectores coma la administracion
publica, la actividad de CRM, el web mining y la bioinformatica.
En el cuarto capitulo se explicaran las partes principales del entorno del software
SPSS Clementine. Tambien se definiran y se detallaran las formas de emplear los
nodos mas usados presentes en cada una de las categorias y subcategorias de
su interfaz, las cuales se caracterizan por permitir armar un proyecto como si se
tratara de un flujograma.
En el quinto capitulo se ensenaran las pasos correctos de instalaci6n del SPSS
Clementine. Para ello, el lector contara con la opci6n de revisar el video de
instalacion que viene como parte de las recursos en lfnea asociados a este libro,
los cuales estan disponibles en la pagina web de Editorial Macro.
En el sexto capftulo se plantearan veinte casos practicos, los cuales estan
desarrollados de manera facil Ysencilla para servir al lector como ejemplos qu
le orienten a la hora de desarrollar aplicaciones de minerfa de datos mediante la:
diferentes tecnicas propuestas por el SPSS Clementine, entre ellas los arboles de
decision, las redes neuronales, los clusteres, las series de tiempo, la asociacion
dependencia, la validacion de datos err6neos Yla integracion Ypartici6n de datot
A traves de todos estos aportes, el presente libro quiere servir al lector corno
un manual que le permita introducirse en el mundo de la minerfa de datos a ,
, Si
com~ una gufa que le ayude a realizar proyectos academicos y empresariales
medrante esta, en especial, a partir de las herramientas provefdas por el software
SPSS Clementine.
1
Conceptos basicos
de mineria de datos
Contenido
Objetivos
En este capftulo el lector aprendera los conceptos clave de la minerfa de
datos que son necesarios para crear aplicaciones tanto a nivel academico
como empresarial. Asimismo, conocera los pasos de la metodolog1a
CRISP, la cual es hoy la mas usada en el mercado en cuanto a la aplicac,on
de esta disciplina.
1.1 Minerfa de datos
1.2 Procesos de minerfa de datos (KOO)
1.3 Metodologfa CRISP
1.4 Modelo
1.5 Modelo hfbrido
1.6 Predicci6n
1.7 Almacen de datos (data warehouse)
/
Capitulo I: onceptos ba !cos de mlnerfa de datos lS
1_1 Mineria de datos
La mineria de datos se ha definido de diferentes maneras. Acontinuaci6n, se mencionaran
algunos de estos -~oncepto~ para un mejor entendimiento, en especial, por aquellas
personas que recien se esten iniciando en el maravilloso mundo de la extracci6n del
c nocimiento:
A. Primera definici6n
La mineria de datos se define como aquel proceso que consiste en extraer conocimiento util
ycomprensible, previamente desconocido, desdegrandes cantidades de datosalmacenados
en distintos formatos. En ese sentido, la tarea fundamental de la mineria de datos es
encontrar modelos inteligibles a partir de los datos recogidos (Hernandez et al., 2004).
B. Segunda definici6n
Segun Hernandez et al. (2004), la minerfa de datos implica un proceso de
descubrimiento de nuevas y significativas relaciones, patrones y tendencias que son
observadas al examinar grandes cantidades de informaci6n.
C. Tercera definici6n
Segun Han y Kamber (2006) la minerfa de datos se refiere a la extracci6n de
conocimiento o «mineria» de grandes cantidades de datos. Sin embargo, de acuerdo
con su perspectiva el nombre seria, en realidad, inapropiado, ya que, por ejemplo, la
actividad minera que extrae oro de las rocas ode la arena se conoce como «minerfa de
oro» en vez de «mineria de roca» o «de extracci6n de arena». Por ende, partiendo de
una 16gica similar, la mineria de datos deberia haber recibido el nombre mas apropiado
de «minerfa de datos del conocimiento», el cual, por desgracia, es un poco largo.
Ahora bien, sucede que «minerfa» es una palabra que porta la idea de un proceso por
el cual se extrae un pequeno conjunto de elementos (pepitas) poseedores de una
cierta cantidad de materia prima (metales preciosos). Asi, a pesar de ser un nombre
poco apropiado, al vincular las ideas de datos y extracci6n, «mineria de datos» se
ha convertido en una opci6n mas popular. Frente a esto, lo unico que cabe advertir
es que existen muchas otras expresiones similares a esta, las cuales, empero, tienen
un diferente matiz de sentido, tales coma la mineria de datos de conocimiento, la
extracci6n de conocimientos, analisis de datos, analisis de patrones, arqueologfa de
datos y filtraci6n de informaci6n.
D. Cuarta definici6n
Segun Gonzalez (2005), la mineria de datos es el proceso por el cual se genera un
modelo util para la predicci6n. Dicho modelose construye teniendo coma fundamento
los datos que se encuentran en una base de datos, a las cuales se le ha aplicado algun
algoritmo justamente con el fin de plantear un modelo.
rlJ d , It qu lumin, rl, d , d;m 'i ~, un pro QU lntegra los datos
nt , ( 11 rvPr, rJ Ir•, r r.l, Pt .) par , p •"t ri rrnente, extraer un
n 1ml nl , ''1 dN Ir, 1(1 •nt1fi1 i1r Inf rm t:16n tr nd nt , vallosa Yutil, a
JI I {, Ir tltu I r,c• v n J p d r l m, r lgun lgnlfi tiva decisi6n.
1.2 Pro ·r os d~ rnlnerla I · latoR (KDD)
datobo ·
~ ln1 IIOll
-
II, lf,101
l ul ,r
◄
16n d
'''" 11 J ll'I
pr 0111•)•.11If-I fo 11 11u11u11
• - •
d, d_to I mpr son las mismas
I onjunto de las partes de este
«KD » (knowledge discovery in
d d tos»), es descrito de la
D,,111 Int rpretar1on/
Mlninlj ~valuation
I,.,..,,.·.,....,,.,,I,,""''"·......,I Pil ll N n
I Knowledge
I)111 l l).rl. l
Flsura 1.1 D J, ·rip i6n ec.•t101'JI tit• I ~ J)d',1 ·, q 11(' OW,tlt 11yf'l1 (•I pr KDD
Fuente : ravv J er uf. (19%).
El proceso de KDD Int ra tlv It r tlv ( on much d cislones tomadas por el
usuario) impllca num ro o Pi'.ISOS ciu :1
1. Aprendizaje d I domlnlo d Ir pll In luy la adqu isici6n del
conociml nto pr -vlo r IC)vant y I plant bJ ·tivos d I aplica ion.
2. creacl6n de un onjun d dc. to· I d .li no: por m di d _st 5
de dato - o ellg!) -1 ub onjunto d v.._ rlc bl o muest·ras d ""d, t
descubriml nto e v c1 r alll r.
3. Umpieza de dato y pr pr I iJn ll •nto: Ql lf dr n Ir p ;) lon-s basl a C mo
la ellmina 16n de ruldo, la rr. ,ogldJ d ' l.i lnforn a 16n n . sc, 1
-.,.. d
1
. 1.,
. c, n Pera mo e rH, "
det rmina 16n de •~;tralJ•glu" pJr.1 1J n 1.:iIwjn C' I >s i1ITl •) s d d ·t f It 1 ,
~ t . e ~ .os qu ,1 11 ,
la contabllldad d li:1 lnformt1 Ion 1n Ilr-1npo Y s ' ltf'ncl ci" I bi ..rl ,-, , ._, cm on L' I o:-,
la d cl i6n :.n torno al LI ' o ti ' DBM. (Li l s .on1o tlpos df' d I _ ) I~
d
~ , 0 . y ~quemz1s I •
signacl6n d valore de• i:lp,1rr ·1 osy rlfl},-ono .Id .
4 R due Ion d date><; y d ' ptuyc:c: 1611 : I'll (''.; ( (I l)Ll ll tQ s llcv ·1 ' b I. t ' . i . .Jt'
, , , . ,
1
_ , . r ' .) d lUSqlJP( ,I ( I
I carac terbttca ut-111.1~ p:°lr;J ,rpr' ,1ntJr I s tk1t os fi r:Jf"ndi "111i d I b . i 11
I
, I ,
1
,J.. ' r- • e o jPtwn vt 1' •
tarer Para ello, :) c·jc 111.J ,) II, ( II C'.t 111·1df' cll,nt nsln111l1r1lrJ ~ . .J
. • , . ' ' . ' , , II ()!,(' npll ilf"I llll ( ()ll ( l!, (re'
tran fortrW ,on que tJl'rltti l..1 11 .1rrH l ,11 "I nu111L'I O f'lf',~tlvo df' 1 ('
_ . , , 1 , I , .i Wlt lr1bl, s n ,~,llldto a
ncontrar la,· r -•prest! t1lt.1<.I0111 t, IW ,ll i,, Jlfl:, p.11,1 los rL,t os.
5_Elecci6n de la funci6n d miner/ad da1 0 ,, : ,-J trr1 r.:·. dr· (·'.Ir, ,.,. dr·, Id(· r·I 1,,ripr'i,.lt(
del modelo derivado por medi d I lgoritmo d . mi ,ul;J r:Jr· rJr1i r,•. (r,1,r r·wrripl<,, lei
clasiflcaci6n, la regresi6n, y la, grup 16n).
6. Elecci6n del algoritmo de minerfa de fato'.: r::ri ,.,,1;J p;,r1,. '.r· r·llµ,,-11 1,1,. , , 1:I 1rJ,y.
que van a ser utilizados para la bu~qu da d1;: p i-r ri :'. r:r1 1: I c inJi.1riro rJ<- lo:, rJ1110 .,
tales como decidir que modelos y param trcs pu -rJ~n ',r·r ;:ir;rrip1odu•. (r,ur t )1·rnplu,
modelos para los datos categ6ricos d1f renti:::.; d. lo•) murkier. <·r1 Ir>', vu.1r,r1 ·<, r11r'i•,
reales) y establecer con que m ·todo de min12rfa _',to·. p1Jr:rJr:r1 ':r·r ,,pl1r.t1dr !. (pen
ejemplo, el usuario puede estar mas int r d en la cornprr;r1',i(iri rJr: I rnodr·lo rw<: ·r1
sus capacidades de predicci6n).
7. Realizaci6n de mineria de datos: aqui s da la bu qu da de pr- tr<nr:<: d •lrd<:r •• d •r,tr"O
de una forma de representaci6n particular o el conjunto de tal • l rcr,rc~1.c:rili1c.i n , ,
en el cual se incluyen las reglas de clasificaci6n o arbol '"' , la regr<-:!.i6n, I c/ucl(.:rfn(j, ·I
modelado secuencia, la dependencia y el analisis lineal.
8. lnterpretaci6n: en este paso se realiza la interpretaci6n de lo~ patrnne<: d ·tt .t do y,
en algunos casos, tambien se vuelve a cualquiera de los mom n oc anterior · . Lu go
de ello, se hace la visualizaci6n de los posibles patrones extrafdos, la limina .i6n d lo
patrones redundantes o irrelevantes y la traducci6n de los patrone utll s a t °'rminos
que sean comprensibles para los usuarios.
9. Utilizaci6n del conocimiento descubierto: este ultimo paso implica la incorporaci6n
de los conocimientos extraidos en pro del rendimiento del sisterna, tomando acciones
basadas en dicho conocimiento o simplemente documentandolo e informandolo a
las partes interesadas. Asimismo, tambien se comprueban y resuelven los conflictos
potenciales a partir de lo extraido de este conocimiento.
1.3 Metodologia CRISP
El metodo CRISP fue disenado para dar una guia a inexpertos en DM y proveer asi
un modelo generico que pudiera especializarse segun las necesidades de cualquier
compania o sector en particular, permitiendo a los analistas tener una razonable
seguridad de que sus esfuerzos van a ser utiles y validos (Llombart, Metodologfa de
data minning CRISP).
Para definir con mas detalle esta metodologia, a continuaci6n, se ha considerado
oportuno insertar el siguiente fragmento que forma parte de la tesis de Guillermo
Molero (2008):
/
[El) CRISP-OM (Chapman et al., 2000) consta de cuatro niveles, organizados de forma
jerarquica en tareas que van desde el nivel mas general hasta los casos mas especff1cos.
En el nivel general, el proceso esta organizado en seis fases: analisis del problema, anallsis
de datos, preparaci6n de datos, modelado, evaluaci6n e implementacl6n. A su vez, cada
fase consta de tareas generales de un segundo nivel (Figura 2.5). Estas tareas generales se
proyectan a tareas espedficas, donde se describen las acciones que se deben desarrollar
para cada situaci6n especifica.
[
a
( I
~ :
tareas
para res
at
Modelo
generico
IPro ecc16n
lModelo
especifico
era! es limpie a de datos , en el tercer ni el se especificarian
le-a de at numericos y/o limpieza de datos categ6ricos.
iv I se detem ina el njunto de acciones y decisiones a realizar
ivel anterior Sumathi & Sivanandam, 2006).
se eden re resentar coma un ciclo, como se muestra
·, ca a u a e las fases re resenta el analisis del problema, el analisisde
e araci · e da , el ela . la e" luaci6n, y la implementaci6n de estos. La
a uraleza itera  I gia CRIS -DM se simboli a por el circulo exterior.
I
nta - n
atos
/,
/
m rensi ·
e l da
.;
,,.,,.,
✓
,,,..,,..
L----- -----------------------
Figura .6 ,,s s t>I
Fuente:
,, ':;- .... ..
L------ -------------..-...r
Capfbalo 1: Conceptos buk:os de mtnena de datos
La secuencia de las fases no es estricta, puesto que estas pueden interactuar entre si
durante el desarrollo del proyecto. De esta manera, la siguiente fase en la secuencia, a
menudo depende de los resultados asociados con la fase precedente. Las flechas indican las
dependencias significativas entre las diferentes fases, por ejemplo, si se esta en la fase de
modelaci6n, es posible volver a la fase de preparaci6n de datos para refinar los datos, antes
de seguir con la fase de evaluaci6n (Larose, 2005).
Tornado de: Molero, 2008.
El plan del proyecto describe los timing para alcanzar los objetivos. Al respecto, cabe
destacar, coma un aporte particular, que un estandar de facto es que el reparto se
constituya de acuerdo a los siguientes porcentajes:
• 50-70 % fase de preparaci6n de los datos.
• 20-30 %fase de conocimiento de los datos.
• 10-20 % en el modelado, evaluaci6n y conocimiento del negocio.
• 5-10 % fase de despliegue.
Volviendo a la tesis de Melero (2008), se puede describir cada una de las fases de la
metodologfa CRISP segun esta serie de pasos indicados por el autor:
1. Analisis del problema. En esta fase inicial se debe comprender con claridad los objetivos y
requerimientos del proyecto, con la finalidad de elaborar una buena planeaci6n en el desarrollo.
2. Analisis de los datos. Se establece el contacto directo con el problema. Las actividades a realizar
son: la recolecci6n inicial de datos, la identificaci6n de la calidad de lasdatos y el establecimiento de
posibles relaciones mas evidentes que permitan obtener las primeras hip6tesis.
3. Preparaci6n de las datos. Aquf se realiza la selecci6n de datos a las que se va a aplicar la
tecnica de modelado (variables y muestras), la limpieza de los datos, la generaci6n de
variables adicionales, la integraci6n de diferentes conjuntos de datos y cambios de formate.
Esta fase laboriosa, esta directamente relacionada con la fase de modelado, puesto que, en
funci6n de la tecnica a utilizar, los datos necesitan ser procesados en diferentes formas.
4. Modelado. Aquf se seleccionan las tecnicas apropiadas para el desarrollo del proyecto. La
tecnica a emplearse en esta fase debe ser seleccionada en funci6n a los siguientes criterios:
ser apropiada al problema, disponer de datos adecuados, cumplir los requerimientos del
problema, y el conocimiento de la tecnica.
5. Evaluaci6n. En esta fase se evalua el modelo, no desde el punto de vista de los datos,
sino del cumplimiento a los requerimientos iniciales. Antes de proceder a su implantaci6n
para su uso habitual, se debe revisar todo el proceso teniendo en cuenta los resultados
obtenidos, e identificando posibles errores que llevan a repetir algun proceso anterior.
6. lmplementaci6n. Si el modelo generado es valido, desde el punto de vista de cumplimiento
a los requerimientos iniciales, se precede a su implementaci6n y explotaci6n. Normalmente
los proyectos de minerfa de datos no terminan en la implementaci6n del modelo, sino se
deben documentary presentar los resultados de manera comprensible para alcanzar un mejor
entendimiento del conocimiento.
Tornado de: Molero, 2008.
1.4 Modelo
Segun Fayyad et al. (1996), el modelo tiene dos factores importantes a saber: la funci6n
del modelo (por ejemplo, la clasificacion y el clustering) Yla forma de representaci6n dei
mismo (por ejemplo, mediante una funcion lineal de multiples variables o una funci6n
de probabilidad gaussiana de densidad). Oicho esto, un modelo contiene parametros
que se determinan a partir de los datos.
1.s Modelo hibrido
Un modelo h[brido es aquel que surge de la union de dos tecnicas de mineria de datos
a mas. En el desarrollo del presente Iibro, van aser utilizados coma ejemplos sencillos la
tecnica de arboles de decision y la tecnica de redes neuronales, debido a que este tipo
de combinaciones no se han desarrollado con frecuencia en proyectos de minerfa de
datos, un detalle que se abordara mas adelante en la parte final de este libro.
Volviendo al tema, en un reciente trabajo hecho apartir de un enfoque h[brido Goddard
et al. (1995) han indicado que los metodos de maquinas de aprendizaje mas utilizados
en tareas de clasificacion son los arboles de decision (AD) y las redes neuronales (RN).
Con respecto a las redes neuronales, la arquitectura mas utilizada es la de las llamados
perceptrones multicapa (PMC). Sin embargo, advierten estos autores:
[...] cada uno de ellas [el AD Yel RN] puede presentar distintas dificultades en las aplicaciones
del mundo real. Par ejemplo, las AD pueden ser pocos flexibles para generalizar sabre datos de
prueba y excesivamente ramificados. En el casa de los PMC hay que definir su estructura numero
de nados y capas y aun definida esta, no hay garantfa que converja a una soluci6n ace~table.
Tornado de: Goddard et al., 1995.
oebido a las desventajas antes mencionadas, lo que proponen estos autores es un
metodo para implementar un PMC a partir de un AD y luego comparar el desempefO
del metodo implementado en relacion al AD y con respecto a un PMC definido por
separado. Para la realizacion de su experimento, Goddard et al. (1995) utilizaron la
conocida base de da_tos IRIS
1
en donde el metodo PMC inicializado por mapeo supera
en precision a los metodos de AD y PMC por separado.
1 E la base de datos IRIS el conjunto de datos contiene 3 clases de 50 c 11,,,, dt
n . asos cada un d d 1- aun r-
lanta iris.Una clase es hnealmente separable de las otras dos y estas ulti a, . on e cada clase se re 1ere ela01rJ
~ nte· Centerfor Machine Learning and Intelligent Systems. Disponlbl ma~ no son hnealmente separableslaunadI trril7
ue · e en.<http://archive.ics.uci.edu/ml/dataset5 1
.
~ 1:Conceptosbaa1cosdemtner1adedatos
1.6 Predicci6n
n la predicci6n I obj tivo es desarroll
I d
ar un modelo en el d
p cto d o ato (variable predich ) . que se pue a inferir un solo
a a partir de una b. . ,
d los mi mos (variables predictoras) L d. . , com inac1on de otros aspectos
. · a pre IccIon requ·
p r la variable de salida de un con· t
1
. . ,ere, entonces, tener etiquetas
. Jun o im1tado de datos I I .
r pr senta una 1nformaci6n de confian b , en e cua una etiqueta
za so re el valor de la · bl d 1·
sp d ficos. En algunas ocasiones sine b . vana e e sa 1da en casos
n que estas etiquetas pueden s: r de hm :rgo, es _,mportante tener en cuenta el grado
ec o aprox1mada o incompletamente fiables
De acuerdo con Jimenez & Alvarez (20l0) en 1, b. . ·
mineria de datos tendrfa dos • ' e am ,to educatlvo la predicci6n mediante
usos Import antes:
En algunoscasos, metodos de predic ·6 d
d d I
. ci n pue en ser usados para estudiar que caracterfsticas
e un mo e o son 1mportantes para u d' · · ·
b
na pre 1cc1on, dando informaci6n sabre la construcci6n
su yacente. Este es un enfoque comu · • ,. . n en programas de investlgacion que tratan de predecir
r~sultados educac,~nales sin predecir anteriormente factores intermedios. En un segundo
tip? de uso, los metodos de predicci6n son utilizados para predecir cual sera el valor de
s~hda en context~s donde no es deseable obtener una etiqueta para esa construcci6n (par
eiemplo, en ocas,ones en las que no haya datos etiquetados).
Tornado de: Jimenez & Alvarez, 2010.
Segu~ lo afirmado por estos autores, a traves de esta operaci6n resultarfa posible,
por eJemplo, predecir el salario de los graduados de una universidad con 10 afios de
experiencia laboral, el estilo de aprendizaje mas adecuado en la ensefianza del curso de
Matematica I en la escuela profesional de lngenieria de Sistemas, asi como el potencial
de ventas en el mercado de un nuevo producto, segun su precio.
1.7 Almacen de datos (data warehouse)
Un almacen de datos se define como un conjunto de datos integrados, orientados a
un tema de negocio coma ventas, compras, almacen, marketing, etc.; que varfan con
el tiempo; que no son transitorios y que soportan el proceso de toma de decisiones
administrativas (Inmon, 2005). A partir de esta serie de caracterfsticas, se puede pasar a
establecer y detallar las siguientes conceptos relacionados a esta plataforma:
a.Conjunto orientado: los datos que se encuentran en un data warehouse (OW) estan
vinculados con las operaciones de una organizaci6n, por ejemplo, con las actividades
de venta y compra, con los clientes, con el area de Recurses Humanos, etc.
b. Datos integrados: los datos tomados de distintos sistemas de la empresa son
recopilados y almacenados en una fuente coherente Yhomogenea.
c.Variables en el tiempo y no transitorios: los datos del data warehouse (OW) incluyen
los datos actuales e hist6ricos de la organizaci6n, suelen almacenarse como agregados
Y no deben ser eliminados, ni modificados.
1. La mineria de datos c nsiste en I ra i n d I onocimiento que se encuentra
acumulado en diferentes n, tores de base de datos (archivos pianos, base de datos
relacionales, etc.) cuya extracci •n permite obtener informaci6n util Ycomprensible
que aportara una entaja competitiva a una empresa en la toma de decisiones frente
a otras dedicadas al mismo rubro.
2. El proceso de mineria de datos (KOO) y la metodologia CRISP consisten en un conjunto
de pasos que van a permitir construir una aplicacion a partir del analisis del problema,
el analisis de los datos, la preparaci6n de los datos, el modelado y la evaluaci6n e
implementaci6n (hacienda uso del metodo espiral hasta llegar a los resultados deseados).
Comprensi6n ~ - Comprensi6n
del negocio ~ de los datos
lmplantac16n
Datos
Evaluaci6n
Prep r cl6n
d lo d t
Mod lad
3. Un modela es la representaci6n de alga abstracto por alg 1 0 d I, n r t . _n Cc
modelo de minena de datos, este se encuentra repr sentado p r la
entrada que repre~entan los campos de las tablas de las bas 5 d d t
tecnicas de minena de datos son varias. Entre ellas fig I d I s lo, .. , . , . ur n a r . n ur n1 ,
arboles de dec1s1on, la regres,on lineal, la regresi6n log,'sti· 1
• ) c (. . ca, a ri d ll •niP' ,
A partir de estas se va a val,dar el modela asi coma tamb· ,
1
,
1
l 1 que
' 1 n a variabl d ~<1 1t, ,
representa el valor a obtener.
Capitulo 1: Conceptos basicos de mtneria de datos
4. Un modelo hibrido es la combinacion de dos o mas tecnicas que ayudan a mejorar
las resultados de la prediccion. Par ejemplo, se puede aunar el uso de las redes
neuronales con el de los arboles de decision, debido a que uno es el complemento del
otro. No obstante, el procesamiento de los datos en las redes neuronales es mas lento
con respecto a c6mo este se lleva a cabo mediante los arboles de decision.
5. La predicci6n tiene como objetivo desarrollar un modelo a partir del cual se
pueda deducir un solo aspecto de los datos (variable a predecir) por media de una
combinacion con otros conjuntos de datos (variables predictoras).
6. Un data warehouse es un almacen de datos que se define como un conjunto de datos
integrados, orientados a un tema de negocio espedfico, cambiantes en el tiempo y
no transitorios, las cuales soportan el proceso de toma de decisiones administrativas
dentro de una empresa.
Marketing
Campaign
Mgmt
Financial/
Accounting
CRM
and
eCRM
Call
Center
I
Enterprise
Data
Warehouse

Procurement HR
Internet
Inventory
I
11•, I, t 111111111,l·l,• d 111111·11 I,
I I ' I, I 1 If I 1, I
111111 II 11 ,II I lllhll 1,1 1l ilhl11I ,,, ,1 lh, li 111 ,I
l.1 111111 I1,1 d d 111 1 II dtl I 'Ill t ',I  , I, I Ill I 'Ill! I ' 11 l, I
I 111 ,111111111 111 dt. 1111111111 II • I 'I, I I I I 1',dlh1
t 11' ltl I II ,1 h1t1' ,,1,
,,, 11,111 II I II, .111,,,h,d,11 d,·11111111 h 11
11 11 111111 ,I 1,1 1' h11 ·" h'II 1q,, '"''
lt11 1
di,llll11 l.1111111,·111,h d,11, 1•  d,• l,111111 ". t, I 1111 ., I ,111111! I 1 1, ,hi
t, ,,,1--111,1 ,·l.111.llhllll,111111111,1111 • l,1.,,,11, II 111,111,h•, I,
ont , ldo
Mod, Iii•, ti,•11111111 11.i d,1 ii 1111•,
;,,
1
M1•l1 11 l111
, d1111il11r •1l.1 d1 tldlP1•
'" A1l111l1··· tit I I 1•1111 ,11 1,·111
1
f l1·,!111
• 11, 1111111,tl •
I. /1ilh,11lt'11 1d l.1 111l11t l l11d1 1 1►11 11>,
I I M111, rl 'd, d,11 11', 111111 I 11111 1111111
2.1 Modelos de mineria de datos
Para hablar de los modelos de mi eria e a 05 se i se a
Clemente Martinez (2012).
Los modelosdedata miningse clasi, ca co re ·· :' 5 ce::- ::-.~~ ::- 2 :-- -· :c · ::-~::-
se tiene una variable con valor desco , , y la fi al 2 E _e:e- -=--= :.::= ,=- ==- cc-"°"
llama respuesta, variable dependie te u o je =: _::- :2 :-=o === -==~-
la predicci6n son las predictores o ariables , '{
Los modelos predictivos requieren ser «e • e
de entrenamiento cuyo valor de variable o Je
entregue resultados en base un aprendizaJe, e
realidad conocida.
A este tipo de modelos se les conoce tambien co
debido aque las valores estimados o calculados so co .ara s
y, por lo tanto, se tiene una clara medida del exito o falla e la cv
algoritmos que se utilizan en estos modelos son los de clas,
-:=~::~~~~ f , ~
1i1S reg.?3 -:-~~ 3.
El aprendizaje supervisado se utiliza en problemas e I s e s.e ,e e
resultado al que se quiere llegar, par ejemplo, para la detecci 'ea
mas propensos a la fuga de la empresa.
Par otra parte, se tienen los modelos descriptivos, en los c ales
resultado conocido para poder guiar a las algoritmos, y por ell se
aprendizaje no supervisado, donde el modelo se a ajustando de a e
o datos entregados, y se recurre muchas veces a argument s
calidad de los resultados. Algunos algoritmos que se utilizan e
clustering y las reglas de asociaci6n [29).
El aprendizaje no supervisado es usado en los casos en que nose e e ie
del resultado al que se va a llegar, por ejemplo, al segmentar a I s lien es e ;::,
hayan sido definidos previamente. Luego de que el modelo ya ha sid e
una muestra de datos independiente de aquella utilizada para la fase
entrenamiento del modelo, con la intencion de evaluar la capacidad e
Tornado de: Martinez, 2012.
2.2 Metodos de mineria de datos
st .
Segun se ha podido comprobar a partir del aporte de Martinez ( 01 ) ha d s m
en minerfa de datos: los predictivos y los descriptivos. Llegados a esta parte I qu
mencionar es que existe una gran variedad de metodos para ambos. En el resent lib
solo se hara hincapie en dos que son muy importantes para la predic i ·n: I s ar les
clasificaci6n y las redes neuronales.
2.2.1 Arboles de clasificaci6n
El arbol de decisi6n desarrollado per Breiman et al. (1984) trat~ ?e identificar que
variable independiente puede hacer que sucesivamente una dectSi6n hecha a Par r
de los dates haga dividir al grupo original de dates en pares de subgrupos y una
variable dependiente. Es impertante tener en cuenta que, a diferencia de la regre'i6ri
que devuelve un subcenjunte de las variables, a traves de los arboles de clasificaci6n
se puede clasificar, en cambio, a las facteres que afectan a la tasa de retenci6n.
Al respecto, dice Ricardo Blanco:
/,------------------------- --------,
Un arbol de decisi6n es un conjunto de condiciones organizadas en una estructura jerarquica,
de tal manera que la decisi6n final a tomar se puede determinar siguiendo las condiciones
que se cumplen desde la rafz del arbol hasta alguna de sus hojas. Los arboles de decisi6n se
utilizan desde hace siglos, y son especialmente apropiados para expresar procedimientos
medicos, legales, comerciales, estrategicos, matematicos, 16gicos, etc.
Una de las grandes ventajas de los arboles de decision es que, en su forma mas general,
las opciones posibles a partir de una determinada condici6n son separadas. Esto permite
analizar una situaci6n y, siguiendo el arbol de decisi6n apropiadamente, llegar a una sola
acci6n o decision atomar.
Tornado de: Blanco, 2007.
Para entender coma funcionan los arboles de decision se h 'd t·nente· d • . . , . . a ere, o per 1
,Lntro ucvtr,
1
a cont1nuac1on, el s1gu1ente ejemplo desarrollado por la tesis de Joel
oaeza a ero.
En la figura 4.1 se muestra un arbol de decisi6n qu .e perm1te decidir si · na
partida de golf, de acuerdo a las condiciones climati se Juega o no ucas.
El nodo rafzes el clima y tiene tres ramas: soleado nublado . .
del nodo rafz clima es soleado entonces d . ' d Ylluv,oso. S1 el valor de la prueba
' ' esc,en e al node . t
tiene dos ramas: <=75 y >75. Si el valor de la b in erno Humedad. Este nodo
prue a del nodo · t 5
entonces, desciende al nodo hoja que especifica el
I
in erno Humedad es <=7 ,
al nodo hoja que especifica el valor No juega. va or Juega, en caso contrario, desciende
Si el valor de la prueba clima es nublado ent
• ' onces, desciend I . .
el valor Juega. S1 el valor de prueba del nodo
1
. e a nodo hoja que espec1fica
. . c ima es lluvioso d
1nterno V1ento. Este nodo tiene dos ramas· fal , entonces, desciende al no o
nodo interno Viento es falso, entonces desc·· dso y ve
rd
adero. Si el valor de la prueba ctel
. . , ,en e al nod h .
En caso contrano, desc1ende al nodo hoja q . . 0
OJa que especifica el valor Juega.
ue espec1ftca el valor N .
OJUega
CaJ,ibdo 2: Teontcas Yapllcact6n de la mmerta de datos
Clima
nublado lluvioso
Juega
falso verdadero
Juega No juega Juega No juega
Figura 4.1 Arbo! de decision para jugar una partida de Golf
Tornado de: Loaeza, 2009.
Ricardo Blanco brinda en su tesis otro ejemplo para entender las arboles de decision.
Consideremos un ejemplo clasico usado para la explicacion de los arboles de decision: la
clasificacion de plantas iris. Este problema consiste en determinar de que tipo de planta se
trata (Iris setosa, Iris versicolor o Iris virginica) en base a las caracterfsticas del ancho y largo
de su petalo y/o sepalo. En la figura 2.2 se muestra una representacion en forma de arbol de
decision para este problema.
Lpetalwidth?
( lris-setosa lpetalwidth?
lpetallength7 lris-virginica
lris-versicolor lpetalwidth?
( lris-virginica J lris-versicolor
Figura 2.2 Arbol de decision para determinar el tipo de plantas iris
Este arbol de decision en concreto funciona coma un «clasifkador es de ir dada. ' lin.:i
nueva planta nos la clasifica en una de las clases pos,bl_es, para lo cual basta con recorrer el
arbol desde la rafz hasta alguna de sus hojas, en func,on del valor de las atrlbutos del dato
a clasificar.
Los algoritmos de aprendizaje de arboles de decision mas habituales se Ilaman algorit11105 de
partici6n o algoritmos de «divide y venceras». Basicamente, el algoritmo va construyendo el
arbol (desde el arbol que solo contiene la raiz) anadiendo particianes Y los hijos resultantes
de cada particion. Logicamente, en cada particion, los ejemplos se van dividiendo entre lo
hijos. Finalmente, se llega a la situacion en la que todos las ejemplos que caen en los nodos
inferiores son de la misma clase y esa rama ya no sigue creciendo.
En la figura 2.3 se puede observar un algoritmo basico para generar un arbol de decisi6na
partir de un conjunto de ejemplos, utilizando la tecnica de «partici6n».
IALGORITMO Partici6n (N:nodo, E:conjunto de ejemplos)
fil todos los ejemplos E son de la misma clase e ENTONCES
Asignar la clase e al nodo N.
SALIR // Esta rama es pura, ya no hay que seguir partiendo. N es hoja.
Sl..Nil
Particiones := generar posibles particiones.
MejorPartici6n := seleccionar la mejor partici6n seg(m el criterio de partici6n.
PARA CADA condici6n i de la MejorPartici6n HACER
Ai'iadir un nodo hijo i a Ny asigllar los ejemplos consistentes a cuda hijo (Ei).
Partici6n(i, Ei). // Realizar el mismo procedimiento global con cada hijo.
FIN-PARA
FlN-SI
FIN-ALGORITMO
Par~ ~enerar un modelo con un conjunto de ejemplos E, se invoca con la llamada
Part1c16n(R,E), donde R es till nodo raiz de till arbol por e ,mpez,tr.
Figura 2.3 Algoritmo de aprendizaje de arboles de decision por «partici6n» (divide y vcncerii:,)
Como puede verse, una caracteristica importante de t 1
. I ·da
I rti
. ·, d es os a goritmos es que una veze eg1
a pa cIon ya no se pue e cambiar au , ·d
I
. , , nque mas tarde se pudiera comprobar que hil sI 0
una ma a elecc1on. Por tanto; uno d I , .
. t
I
d . e os aspectos mas Importantes a considerar en csto~
sis emas es e enom1nado criteria de rti ·,
. pa cion, ya que una mala eleccion de la partici6n
(especralmente en las partes superiores del , b I) , .
ar O generara un arbol peor.
Por lo tanto, las particiones a considerar 1
• •
diferencian fundamentalmente a
I
d. _Ye cnteno de seleccion de particiones son lo que
fecha coma CART ID3 c4 5
t os ISUntos algoritmos de «particion » existentes hr15la la
, , , . , e c.
Tai y coma hemos mencionado ot d, ra caracterist' · · b le' e
decision se pueden expresar co . ica interesante es qu e lo'.:. ar o ~
mo conJuntos d
1
. ,n de
condiciones ENTONCES accio' n E t e reg as de la form a SI co n1 unf
I0
· s as reglas s b . de 10s
caminos que llevan desde el nod , h e
O
tienen al recorrer cad a un°
.. oraIz astaun d . . , son
las condrcrones de las reglas. no o hoJa, donde las part1c1one
Capftulo 2: Tecn1cas y apltcaolon de Ja mtnerfa de detos
Por ejemplo, el arbol de la figura 2.4 se puede expresar como el conjunto de reglas siguientes:
SI petalwidth <= 0.6 ENTONCES lris-setosa
SI NO II petalwidth > 0.6
I SI petalwidth <= 1.7
I I SI petallength <= 4.9 ENTONCES lris-versicolor
I I SI NO II petallength > 4.9
I I I SI petalwidth <= 1.5 ENTONCES lris-virginica
I I I SI NO lris-versicolor II petalwidth > 1.5
I SI NO lris-virginica II petalwidth > I.7
Figura 2.4 Algoritmo de arbol de decision de la base de datos Iris
Como hemos mencionado anteriormente, las particiones son un conjunto de condiciones
exhaustivas y excluyentes. Cuantas mas particiones permitamos mas expresivos podran ser
los arboles de decision generados y, probablemente, mas precises. Ademas, mas posibilidades
tendremos de encontrar los patrones que hay detras de los datos. No obstante, cuantas mas
particiones elijamos, la complejidad del algoritmo sera mayor.
Por tanto, la calidad de un algoritmo esta determinada por el compromise entre expresividad
y eficiencia.
Debido a esto, la mayoria de los algoritmos de aprendizaje de arboles de decision solo
permiten un juego muy limitado de particiones. Asf, el C4.5 contiene un solo tipo de particion
para los atributos nominales y un solo tipo de particion para los atributos numericos:
1. Particiones nominales: una condicion de la forma Xi = Vj,1 ~ j ~ k, siendo xi el atributo
nominal seleccionado y Vj cada uno de sus k posibles valores.
2. Particiones numericas: las particiones numericas admitidas son de la forma {Xi ~ a, Xi > a}
donde Xi es un atributo numerico y continua, y a es una constante numerica que se
obtiene observando valores consecutivos del atributo y calculando sus puntos medias.
La expresividad resultante de las particiones anteriores se conoce como expresividad
proposicional cuadricular, ya que parte el espacio del problema mediante segmentos
paralelos a las ejes. Vease, par ejemplo, la figura 2.5 para un problema bidimensional.
0 1
0
0 00 0 X > 0.25
0 □ □ □ □
□ □
0 □ □ □ X > 0.66
X> 0.75
□ □
0 0
0
□ □ 01
Y> 0.25 y > 0.6
Figura 2.5 Partici6n cuadricular del espacio obtenido por un arbol de decision para un problema
con dos atributos (Xe Y) numericos
Asl, n probl mas d la ifi a ion, un mod lo es jimplicltamente o explicitamente) unil
div1s16n d I p 10 d tn tan ,as n region s, ada una de las uales se les asigna 1mil
d t rmtn da I s d las posibl s. Dado un conjunto de ejemplos de entrenarnienlo del Ltill
r nd mos un mod lo, este spreciso si las reglones que produ e coincide con las regione~
v rd d ras d sos jemplos; el algorltmo produce modelos estables si produce las mismas
r gl n s al proporclonarl dos dif r ntes conjuntos de entrenamiento del mismo domin10;
YI s m d los son comprensibles en cuanto indlea claramente (a un usuario humano) c11ales
s n I s r g1ones de la clase.
Basandose en la idea de buscar particiones que discrlminen o que consigan nodos mas puros
(donde un nodo puro es aquel en el que los ejemplos que caen en el son todos de la misma
lase), se han presentado en las ultimas dos decadas numerosos criterios de particion, tales
omo el criteria del error esperado, el criterlo Glni, los criterlos gain, gain ratio y el criteria
usado en el algoritmo C4.5 y el DKM. Estos crlterlos de particlon buscan la particion s con la
menor lmpureza l(s), definlda de la slguiente forma:
Ks) = L p/(p>p~,- .. ,p~)
J=l...n
Donde n es el numera de nodos hijos de la partici6n (numero de condiclones de la particion),
Pj es la probabilidad de que un ejemplo «calga» en el nado j, y Pij es la proporcion de
elementos de la clase i en el nodo j, siendo c el numero de clases. La funci6n f() se denomina
funcl6n de impureza y, par tanta, la funci6n l(s) calcula la media ponderada (dependiendo de
la cardlnalldad de cada hijo) de la impureza de los hijos en una partici6n.
Baja esta formula general, cada criteria de partic16n implementa una funci6n f distinta, como
se muestra en la tabla 2.1:
Tabla 2.1 Funclones de lmpureza para algunos criterios de parlicl6n
Crlterio /( 1 l c
pl, p, ..., p)
I I
Error esperado min(p
1 1
' )' p ' ..., p
GINI (CART) 1 - }:(p )2
I
Entropfa (gain)
LP log(p)
I I
DKM 21n(p i";I
Tornado de: Blanco, 2007.
l
Capitulo 2: Tecnicas y apllcad6n de la mlner:fa de datos
2.2.2 Redes neuronales
Segun Chong Ho Yu et al. (2010), las redes neuronales, tal coma su nombre lo indica,
tratan de imitar a las neuronas interconectadas de las cerebros animales con el fin
de hacer que el algoritmo sea capaz de realizar un aprendizaje complejo y extraer
asr patrones Y detectar tendencias. Este esfuerzo se basa en la premisa de que las
estructuras de datos del mundo real son complejos y, par lo tanto, requieren el
aprendizaje de sistemas complejos. Deese modo, una red neuronal entrenada puede
servista como un «experto» en la categorfa de informaci6n que ha sido dada a analizar.
Este sistema experto puede proporcionar proyecciones y dar nuevas soluciones a un
problema del tipo «lque pasa si...7».
La red neuronal tipica se compone de tres tipos de capas, a saber: la capa de entrada,
la capa oculta y la capa de salida. Es importante observar que hay tres tipos de capas,
no tres capas en la red. Puede haber mas de una capa oculta y la complejidad de esta
depende de c6mo el investigador plantee el modelo.
La capa de entrada contiene las datos de entrada, la capa de salida es el resultado,
mientras que la capa oculta realiza la transformaci6n y la manipulaci6n de datos.
Debido a que la entrada y la salida estan mediadas por la capa oculta, las redes
neuronales son comunmente vistas como una especie de caja negra.
Benjamfn Moreno (2009) sostiene que el llamado perceptr6n multicapa (multilayer
perceptron) es uno de las modelos de redes neuronales mas utilizados. Este surgi6
de una generalizaci6n del modelo propuesto par Rosenblatt en 19582
. Este modelo
planteaba un perceptr6n simple de una sola neurona para separar par medio de un
hiperplano un conjunto de entrenamiento linealmente separable (Moreno, 2009).
/
Explica y detalla este autor:
En el caso de las seres humanos dentro del cerebra existe un numero equivalente de 1010
de neuronas y con un aproximado de 104 interconexiones entre cada una de ellas. A nivel
del funcionamiento de cada neurona, este es muy lento comparado con un procesador
(las neuronas realizan 10 operaciones par segundo mientras que las procesadores realizan
millones de operaciones par segundo).
Las partes que conforman a una neurona son tres: las entradas llamadas dendritas, el cuerpo
mismo de la neurona y las salidas llamadas axones. En la parte final de cada axon se encuentra
un elemento que permite la comunicaci6n con mas dendritas de otra neurona, llamado
sinapsis. Las neuronas aceptan miles de sei'lales de entradas con una fuerza determinada,
dependiendo de estas la neurona emite una sei'lal de respuesta, par lo que las sinapsis
pueden entonces trasmitir una sefal debil o fuerte dependiendo de la fuerza que haya salido
del procesamiento de la neurona. Desde un enfoque matematico el funcionamiento de una
neurona puede representarse par una lista de sus seflales de entrada que son multiplicadas
par sus pesos correspondientes y despues son sumadas cada una de las entradas.
2
Vease el articulo de Rosenblatt: Rosenblatt, F. (1958). The perceptron: a probabilistic model for Information storage and
organizationin the brain. Cornell Aeronautical Laboratory Psychological Review. Vol. 65. pp. 386-408.
' )
EntrJda
A. n
in, psi
--,
e la, u a,q ee ntrada acia las de as ne rn as
It , El , del I perceptr6n sim e es uno de m c as
na·l am ial. t ual ttataba de imitar el compo lamient
n njunt de entradas a nes simples ~as cuales s
u . d la neurona a t ra ·s de un conJu to de
eptr6n se encuentra una funci6n Que su a
n d ta neurona, En la figura 2.9 se m esn-a
un re ptr6n simple.
n r-,ta
Termina i ne
del Jxon
uer e la
·oma) ma is
Nu I
/
~
Mielina
Sinap is
siguiente
0
Sali a
f(l )
x n
Dendritas
FlsurJ 2. M del rc,~I de la neuronJ (a) y rnod I de per eptr n simple (b)
T nt el p rteptr6n simple corno el perceptron multicapa (PMC) son repres ntaci 1nes ~
una r d n uronal Jrtifi i;,il. Cuando se unen varios perceptrones en una capa vI s tirnul 5
re lbidos en las entr(ldas de · ada uno son sun1ados, se considera que se ti ne uI1,1 rt:1d
neuron I. El -nfoque d I PM C e, precisamente cornbinar varios perceptr n simples ell un
esquema d nd la salid s de ada uno, son transmitidas varias capas hasta llegar fi11<ilrnentt:1
las salidas d los PM .
Capttulo 2: Tckntcas y apbci4n de la mlnena de datos
La estructura de PMC esta dividida por capas las cuales son: la capa d entrada, la s)
capa(_s) oculta(s) Yla(s) capa(s) de salida(s). En este tipo de red neuronal artificial se ingre a
un numero de entradas que van conforme al numero de neuronas que hay en la apa de
entrada, despuesestasse conectan con las neuronas de lacapa oculta por rn dio de verti .es,
en donde cada salida de las neuronas presentes en la capa de entrada, se asocia a c da una
de las neuronas en la capa oculta.
Una vez que estan conectadas todas las salidas de la capa de entrada a las entradas de las
neuronas de la capa oculta, se repite el mismo procedimiento en caso de qu se presenten
mascapas ocultas, si no es el caso lassalidas de cada neurona en la capaoculta es conectada
ala capa de salida, de la misma forma que se describi6, teniendo finalmente las salidas finales
del PMC. En la figura 2.10 se muestra el esquema basico del PMC:
1 - - ~ s.
Capa de entrada Capaoculta Capa de sal1da
Figura 2.10 Modelo del perceptr6n multicapa- retropropagaci6n
En las decadas de los 60 y 70 no hubo metodos de entrenamiento apropiadospara los PMC, se
vio detenido el interes por estas tipologias. Fue hasta mediados de los 80 cuando Rumelhart
[52] propuso un metodo de entrenamiento para las PMC llamado retropropagaci n
(backpropagation).
Funcionamiento del perceptr6n multicapa , retropropagnci6n
El termino retropropagaci6n se basa en el metodo del gradiente descendlenteparaencontrar
el error en una red hacia adelante (feed-forward, de aprendizaje supervisado, en donde se
necesita un conjunto de entrenamiento y el valor o meta esperada), que es una aplicaci6n
directa de la regla de la cadena utillzada en calculo diferencial [53].
El funcionamiento de este tipo de redes neuronales artificiales se puede dividir en las
siguientes dos etapas:
1. Los dates de entrenamiento se pasan hacia delante, las salidas son calculadas alw land
el error en cada caso.
2. Se realiza entonces el paso hacia atras en donde el error calculado en la capa de alida, e
utiliza para cambiar el peso de cada capa oculta de la red neuronal, ha ta II sar a la capo
de salida, calculando recursivamente losgradientes locales para cada neurona.
l
Al final de estas dos etapas se tiene un PMC entrenado.
, . d construccion de un PMC:
A continuaci6n, se muestra el algoritmo basico e
1. Determinar la arquitectura.
• Cuantas unidades de entrada y salida.
• Cuantas capas ocultas y unidades en cada capa oculta.
· · · I t rios pequenos por ejemplo E [-11]2. lnic1alizar todos los pesos y sesgos a valores a ea O , Yel
valor den.
3. Repetir hasta que el criteria de terminacion sea satisfecho.
• Presentar un ejemplo de entrenamiento y pasarlo par la red (forward pass).
• Calcular la salida actual y el error en cada salida.
• Adaptar los pesos empezando porla capa desalida ytrabajar hacia atras (backwardpass).
En donde se tiene:
W (t + 1) = w (t) + LiW ➔ w (t) Peso del nodo pal nodo q en el tiempo t
pq pq pq pq
LiW = n. 8 . O ➔ Cambia de pesospq q p
8.= (8.- 0
1
). o . {1- O} ➔ Para cada unidad de salida de la neurona iI I I I
8,= o,. {1-0) . LWij. 8;
,
En donde para cada unidad oculta j, y la suma sabre todos los nodos i en la capa anteriorj,Oi
son las salidas obtenidas y 6
i son las salidas deseadas.
Es necesario proponer una funcion f sigmoide (la funci6n de activaci6n en el caso del
perceptron simple), que sea diferenciable. La funci6n sigmoide es una de las funciones de
transferencia mas utilizadas. Produce salidas continuas y proporcionales al nivel de activaci6n
de la neurona dentro del rango [0,1); sus niveles de saturaci6n son 0 y 1, por lo que su salida
maxima sera 1 y la mfnima 0. Cuando el nivel de activaci6n supere al umbral de saturaci6n
maxima la salida seguira siendo 1 y cuando el nivel de activaci6n sea inferior al umbra! de
saturaci6n mfnimo la salida seguira siendo 0. Es comun tomar la funci6n sigmoide exponencial
denotada por:
Cuya derivada es:
1
f(x)=-
1 + e-x
f'(x) =
1
(1 + e-')2e-•
Aunque tambien se usan otras coma la tangente hiperb61ica:
e•- e-•
f(x)=---
o la entidad:
f{x) = X
Capftulo 2: T~lcas y apllcadOn de la rntnerfa de datos
Si escogemos la funci6n sigmoide exponencial tendrfamos el siguiente criteria:
Si
1
f(x)=--
1 + e-•
entonces f '(net) =f(net). (1 - f(net)) =0 . (1 - 0)Q Q
Usualmente se utilizan criterios de para para este tipo de metodos, las cuales son:
1. Numero de epocas: se le llama epoca al proceso de entrenar 1 vez el perceptr6n multicapa
sabre todos las ejemplos.
2. Error minima cuadrado: esto se realiza al llevar acabo el entrenamiento, en donde se
tiene un registro de las errores que se van presentando en cada una de las epocas y se
decide parar cuando se encuentre un error mfnimo.
En cuesti6n de las funciones de activaci6n tenemos las siguientes opciones:
1. Diferenciables (el metodo propuesto de retropropagaci6n).
2. No lineales.
3. Monot6nica (una funci6n que siempre crece o decrece).
4. Lineal para valores pequenos.
5. Asimetricas.
Tornado de: Moreno, 2009.
La construcci6n de la red neuronal se realizara a traves de un exhaustivo proceso de
experimentaci6n basado en la prueba y el error, en el cual la precision y la capacidad
de generalizaci6n del modelo dependeran del numero de neuronas en la capa oculta.
Dicho numero debe ser suficiente para la realizaci6n correcta de la predicci6n, pero lo
suficientemente bajo como para poder permitir la generalizaci6n.
2.3 Aplicaci6n de la mineria de datos
En la actualidad, segun Hernandez et al. (2004), la minerfa de datos se esta aplicando
en diferentes campos de manera satisfactoria. La siguiente tabla es un resumen de los
diversos ambitos en los cuales esta practica esta contribuyendo activamente.
Tabla 2.1 Diversas aplicaciones de la minerla de datos
Pr:bblema
• ldentificar patrones de compra de los clientes
Comercio y marketing
• Buscar asociaciones entre clientes y caracterfsticas demograficas
• Predecir respuesta a campanas de e-mailing
• Analizar la canast~ de compra
B n
i:,t(mco-,
Seguros v alud prlvada
Transportes
• Dcterm,nar Iii planiflcaci6n d la di'tribuci6n entre t1endas
• Anallzar J1Jfronr~:; de carga
• ldent1f1car t raplas medlcas atfsfactor1as para diferentes
Medlclna nf rmedad s
• Asoclar sfntomas y clasificaci6n diferencial de patologias
• Extraer modelos obr cornportamiento de compuestos
Procesos lndustrlales • Det ctar piczas con trabas
• Predecir fallo!>
Fuente: el autor.
Hay muchas otras areas en las que interviene hoy en dfa la minerfa de datos. Para
saber mas acerca de este asunto en particular, se puede consultar un documento
ubicado en la siguiente direcci6n electr6nica: <http://www.it.uc3m.es/jvillena/irc/
practicas/06-07/22.pdf>. En este archivo subido a internet hay informaci6n sobre otros
ejemplos interesantes como las siguientes:
6.4 Investigaci6n cspacial
6.4.1 Proyccto SKYCAT
Durante seis af1os, el Second Palomar Observatory Sky Survey (POSS-II) coleccion6 tres
terabytes de imagenes que contenfan aproximadamente dos millones de objetos en
el cielo. Tres mil fotograftas fueron digitalizadas a una resoluci6n de 16 bits par pixel
con 23040 x 23040 pfxeles por Imagen. El objetivo era formar un catalogo de todos
esos objetos. El sist_ema Sky l~1age Cataloguing and Analysis Tool (SKYCAT) se basa en
tecnicas de agrupac16n (clustenng) y arbolesde decisi6n para poder clasificar los objetos
en estrellas, planetas, sisternas, galaxias, etc., con una alta confiabilidad. Los resultados
han ayudado a l~s ~str6nom_os a d~scubrir dieciseis nuevos cuasares (sef'iales radiales
lejanas) con comm,ento hac1a el roJo que las lncluye entre lo b' ,.
1
.
5
del
. . s o Jetos mds e1ano
universe y, por cons1gulente, masantiguos.Loscua ares son fuent d X diaci6n
· 'bl t b',/.. • f . es e rayos , ra
ultravioleta, luzv1s1 e Y am lt'n in rarro1a; en otras palabra
1
. .
6
d d' '6n de
. · s, a emIsI n e ra IacI
105 cuasares resulta inten a en todo el espectro lectr ,/.. . son
. .. omagno::t1co. Estes cuasares
dlffciles de encontrar yP rm1ten saber mas acerca de
I
r .
os or genes del universe.
[... J
6.6 Textos WEB MINING
6.6.1 Medicina
~na aplicaci6n _muy po~~lar del text mining es relatada en Hears (19SSJ. or w 2. so
intenta extraer 1nformac1on derivada de colecciones de t ·xt T · d .
, e , o. ,e 1en o e I c en e cs
expertos solo pueden leer una pequena parte de todo lo que se p blica 0
5
c..ampc, y
0
lo general ta~poco pueden tener en cuenta los nuevos de arrollos q e ~e _ eeden e
O
ns
campos relac,onados, y teniendo en cuenta que la cantidad de n evo
O
r e ,- - , se
publican es cada vez mayor, la aplicaci6n de la mineria de datos e c lec.cio
1
es c;E: ~eY'.'
12
resultando mas importante. Asf, Swanson ha demostrado c6mo cade 1a e I rol1cac1
0
,E:S
causales dentro de la literatura medica pueden conducir a hip6tes,spara e ern
1
eda .e; occ,
frecuentes, algunas de las cuales han recibido pruebas de soporte expen ,e -1. 1 11esti~ c
las causas de la migrana, dicho investigador extrajo varias piezas de evide cia 2 pa . _e
titulos de articulos presentes en la literatura biomedica. Algunas de esa f21e • e ,:
• El estres esta asociado con la migrana.
• El estres puede conducir a la perdida de magnesia.
• Los bloqueadores de canales de calcio previenen algunas migranas.
• El magnesia es un bloqueador natural del canal de calcio.
• La depresi6n cortical diseminada (DCD) esta implicada en algunas migra - as.
• Los niveles altos de magnesia inhiben la DCD.
• Los pacientes con migrafa tienen una alta agregaci6n plaquetaria.
• El magnesia puede suprimir la agregaci6n plaquetaria.
Estas claves sugieren que la deficiencia de magnesia podria representar un papel e alg nos
tipos de migrafa, una hip6tesis que no existia en la literatura y que Swanson encontro e<fi e
esas ligas. De acuerdo con Swanson, estudios posteriores han probado experimentalme te e.sta
hip6tesis obtenida por text mining con buenos resultados.
Tomadode:Virseida, F.& Roman,J.,s.f. Disponible en:<http://www.it.uc3m.esfJvillena/irc/practic.as/~
Para continuar con el entendimiento de la mineria de dates, la discusi6n se va cen ra en
seguida en una sola area. En este caso, se trata de la mineria de datos en la educaci6n
y, especfficamente, de la forma en que esta es aplicada en el ambito de la universidad.
2.3.1 Mineria de datos en la educaci6n
La comunidad de mineria de datos web <www.educationaldatamining.org> define la
minerfa de datos en educaci6n de la siguiente manera:
Educational Data Mining is an emerging discipline, concerned with developing me_thods for
exploring the unique types of data that come from educational settings,_and using those
methods to better understand students, and the settings which they learn ,n.
[La minerfa de datos en educaci6n es una disciplina emergente, preocupada por el desar~ollo
de metodos para explorar los tipos unicos de datos que provienen de loscentros educanvos,
institutes, universidades, y el uso de esos metodos para entender mejor a los estud1antes l
Tornado de: <www.educationaldatamining.org>. Traducci6n del autor.
prime ED
Collects a rl e
EDUCAT. DATA
EDUCATORS
ea ers,
Figura .1
Fuente: <I · •1i1
l
cef efialan acerca e la
r en ren 3 .]
m stan ar '
p rtunities
·a er in re&SJ.
e la mineria de atos apli ada al 2
eraI e •m diferentes a tores del E 1
eden • enefi iarse n i rsas e ·e~
se pue en en ntrar en el ~a al 1f
EOUCAllONAl.
INF.stSTEMS
ITS.AEt1, TU,. tMS
r-----.L
1,>1b.
:-t I t' I ( ,
f ,, , .::.::-," r, 1
,
', ·t, t.
'
Ahora se van a revisar algunas investigacianes de minerfa de datas que se han realizado
en el campo de la educaci6n. Para ella, se tamar;l coma eje tem;itica las Ultimas
investigaciones hechas sabre deserci6n estudiantil en institucianes de educaci6n
superior. De este grupo se dar;l mas impartancia a las investigacianes que se hayan
llevado a cabo mediante el uso de t<ecnicas de minerfa de datas (redes neuronales yarboles de decisi6n).
a. Nandeshwar et al. (2011) realizaron un trabaja para predecir si las estudiantes se
mantendrian en la universidad durante las tres primeros arias de una licenciatura.
Para este estudio, los autores consideraron 103 variables, algunas de las cuales se
pueden observar en la tabla 2.2. Al finalizar esta investigaci6n, se lleg6 a la conclusion
de que los factores mas importantes para que un alumna continue estudiando son
el sueldo familiar, la situaci6n socioecan6mica de la familia, el promedia de notas
escolares y el rendimiento academica de las pruebas en la educaci6n superior.
Tabla 2.2 Lista de atributos por hip6tesis planteadas
,. ·~
'
!
Desalpd6n de ayuda
Descrfpd6n de indlc:adores
f';,;'; _._ Atrlbuto
de rendlmiento
flnandera't:
ACT puntaje integral (antiguo)
Manto de subvenciones
ACT_COMP
FinAidAwardType_G
de ayuda financiera
Manto de ayuda financiera ACT puntaje deACT_ENGL
Ingles (antiguo)
FinAidAwardType J
en las puestos de trabajo
ACT puntaje delmporte de ayuda
ACT MATH
Matematica (antiguo)
.FinAidAwardType L
financiera de prestamos
lmporte de ayuda
ACTl_COMP ACT puntaje integral (nuevo)FinAidAwardType S
financiera de beca
FinAidAwardType W
lmporte de ayuda.
financiera de renunc1a
ACTl ENGL ACT puntaje de Ingles (nuevo)
ACT puntaje de
Estado de dependencia ACTl MATH
Matematica (nuevo)FinAidDEPENDENCY
FinAidFATHER ED Nivel de educaci6n del padre ACTEQUIV ACT equivalente al puntaje
Maximo del puntaje ACT
lngresos del padre MaxACT
y el equivalente ACTFinAidFATHER WAG
COMP READ Leer puntuaci6n de alcanceNivel de educaci6n
FinAidMOTHER ED de la madre
COMP Escribir puntuaci6n
FinAidMOTHER WAG lngresos de la madre WRITE de alcance
Puntaje total de SATlndicador de ay~da SAT TOT
FinAidOfferedlnd financiera ofrec1da
SAT VERB Puntaje verbal de SAT
-lngreso bruto de los padres
C6digo de la e_scuela
offeredindicator
Tamano del hogar HS CODE secundana
-FinAidPARENT HOU de los padres
Rendimiento academico
HS GPA del coleg10
-.. d los padresEstado civil eFinAidPARENT MAR
'jil'",
I
Ducrlpcl6n d1 lndlcado"'i
, ~
,...~.,.,... Mrlbuto
..... .. d1 rtndlmltnto '
tlMnclerl
Tlpo de formuliHIO HS_PERCENT
PN nlll de la ('. ,U(-:;-
FlnAldPARENT TAX lmpuesto de los padres ' unclarl,1
p ' ---
Salarios del conyuge
HS_RANK
0°,ICIOII ('II 1.1 (",LIH•l(I
FinAldSPOUSE_WAG ~ccu1Hlr1rl<1
Tamoi'o de r.las
--HS_SIZE
dc- lo
FlnAldSTUDENT_AG lngreso bruto de losestudlantes es u ·la secund, rl~
-Tamai'o de familia de
Percf'ntii cir• rf'1Hfo111<•i,tD
FinAldSTUDENT_HO RankHSGPA acilrlf'ni1c11dr- tr,l(J•,u,
las estudlantes e~tudi.intc", d1· 11111111•1.iic,
-P re nti l de r1ct. maxirno
FlnAldSTUDENT_MA Estada civil de los estudlantes RankMaxACT de todos los c Iud1antc:
de primer a1o
FinAidSTUDENT_TA
Tipa de formulario impuesto ANTH18
115cn10 en cl cu, o
de las estudiantes lit' Ant ropolofdil
FinAidSTUDENT_WA Salarla de las estudiantes BSCllO
lnscrita en el cur ocl
Cl ncia blol6gi n
FirstGenlnd
lndicador de la primera
CHEMlO
lnscrito en f'I cur~o
generacion d Quimica
TotalFlnAldOffered Total de ayuda ofrecda ENGlO lnscrlto en el ur ode Ingle
ENG11 lnscrito en f'I cuI -.,o dt' 111~t•,
GEOLll
lnscrito n ('C11 $0
de G ologir1
LEST16
l11scrito 0 11 Cll l '.,O1,
dl' cti~tr,1t l 1011
-
MATHlO In crito n I I cur de
nivel 100 cir M,1tl•11i.ti~
MATHll
lnscrito <'11 pl u1,l1d,·
nivcl I 10 d(' M,11,•111,1t1l .1
- -MATH12
lnscrito 0n r•l t tII,(l Ii'
niv I 1.2 ci(' ,,ll'll1,lll1
MATH14
n~c1itu t'll l'i 1111,,llk
nlvl'I '1 d , ll.11,•111,11n-' ...
PHYll In I i(1 ('11 (' ( lII sl) dl'
niv I I I dL· I 1,iL,~ _.....
I ·1lll''I
PEP15 l n sc 1Ito r n C'I t ui •,P 1 '
l S rt• [rlu< .1t 11',n l 1"•I1 ''..---
Fuente: Nandeshw r . -a et al. (2011).
j
Para el estudio se aplicaron tecnicas coma one-R, C4.5, AD trees, redes bayesinas, bayes networks y radial biasnetworks. De todos
ellos, fueron usados para el experimento los arboles de decision (vease la figura 2.2) y las redes bayesianas, con lo cual se obtuvo
una precision del 90 %.
- 1
0ptimista 17% $1,100,000.00I
$ 2,100,000.00
'
$ 1,033,333.33
true - -lgual que
lngresos Mas probable
4
67% $50,000.00
la inversion
$ 1,000,000.00 $ 950,000.00
Pesimista
1
17% $ 700,000.00
~
$ 300,000.00
Inversion
$33,333.33
Optimista
35%
0% $ 550,000.00
false
<
$ 260,000.00
Otro lngresos
$ 800,000.00
Pesimista
65%
$ 540,000.000%
$ 260,000.00
Yuna
false
0%
$ 0.00
Figura 2.2 Arboles de decision
Fuente: Nandeshwar et al. (2011).
1
En la siguiente tabla se muestra un resumen de la literat ura que revis6 el autor. Tarnbien se detallan las tecnicas y la precis_ion Que
se obtuvieron en cada uno de los estudios revisados.
Tabla 2.3 Reporte de tecnicas usadas vprecision obtenida
....... del
~,.; -
·AIIIDr(ailD) Malas klenldas(I) aa11111ldas l") M111das.P1esld6n Cd,J 1
••• n tr
l"IPO
Rl de 0-3132 oara
Spady (1971} 683 615 90.04 horn~ y 0.38-9 ::,1 fIBf;T3J.OT' .....,ut:;pe
para muJ~
ii.2 de 0.22 :::,2'=
Bean (1980) 906 769 84.88 rruJere,,  iJ 09 s ~"':31.0- "7')..Jb::,ti>
para hombro
EstucflO 1 379 60 15.8 R2de 0.l~ Si ,.:._.~i,;dsrr~
I
Esrucfio 3 518 428 81.63 iU ce- {U55 5,_
I :~-~-LY' - , Jb:>l:?
Terenzini&
PascareJla (1980)
Estudio5 763 673 88.20 Rldeo.303 s. ~&ss liisor.c:ni.s-..tr
~~0 ~-6::->-:~
j
Estudio 6 763 673 :38..20 ~...rT":: , ....:_~5..3

s :t_- a 1:;;:;, :js._- n.r-~~
P.:~ -...- ..~~s
I
~ (1989) 323 ~ 9LOO SA ~8.gs:m 
1s::: :&oo ~,- 7·::-•~ ~: .3,3--!-
s. 
-:if'", :r: ,:,t '
Dey & Astin (1993) 947
ll.:3.:' L  tl.323 - ~~i:,-
Proba~ ~ I-0-o,a,o,WS
Murtaugh et al. (1999) 8667 5200 60
~~~3~
s ~ S..,~t'~ ,
I
~i~
Bresciani & Carson
3535 3:~1 SS.3f :;_: ~'::' .."' ~'.:: ~- ::- ~~:-.l.'"'1-- (..~..!:---.~-;
(2002) I
Cualquier de-sen:ion t
no solo d e pnmer
I
G.lynn et ol. l2003)
ai,:i- preos1ones
32.:.1 l~':l2 .1-i L'S :-,.,_,' ---·:,''. _'. : ,· ---~·. :- "..-.~"'·:~·1..,' 1~ l'¥ :::-,.."l.->
sabre la ba5e I
 de kb jat;:is di.:
Ient ren.ln"ento  I I
........ .,
..,,_,
-- 1111,nld•· ......... 11■••••p1111II H e-■1 11 .. 11 t ..111ll'UDO
5261 4014 76.30 77.4 % dfc preosjon s.: ;;_~f:'',Y',i( ·~
Herzog (2005) 4298 3314 77.10
4671 4040 83.50 85.45 de precision 5i P~c<...J6r i.:ig::soca
8L6 % de prerisol
2444 1943 7950
scbre el entrenamiento,
Regrewn.ogistle3
el 80,7%en
validacioo
83.9 %de precision
Sujitparapitaya (2006) 2445 1994 7950
w bre el entrenamiento,
Retles neuronates
el 82,1 % en
validacion
855 % de precision
2445 1994 7950
wbre el entrenamiento,
(4.5
el 84,4 %en
validacion
Redes neuronales,
Precision cerca
CHAID,
Herzog (2006) 8018 6037 75.29
del 75 %
C4.5, CR&T,
regresion logistica
,,
f~
82.24
Precision de la Arboles de decision
Entrenamiento 3829 3149
desercion 91,84,84,78 (entropy, chisq,
Atwell et al. (2006)
Precision de la gini) y regresion
Prueba 5990 4881 81.49
desercion 88,2,82,73 logistica
Precision de entre
AdaBoostMl
De Long et of. (2007) 50
57%y60 %
with decision
stumps
Precision total de
Regresion logfstica,
78-81 %, precision
Pittman (2008) 21,136 17,139 81.10
de no retencion
redes neuronales,
de 44-63 %
Bayes, J48
Fuente: Nandeshwar et al. (2011).
1 · · de lo e tutli 5 he h ~ e
I asa eh & Hobson {201 1) hicieron una rev smn d_ t d' t... tr·atli _
1
_ 'Le
. d meto os e a 1 ., l 1,1,;:iJ
eserc16n estudiantil, a partir del uso e . d id tifi ar I ra lul
s ecnicas cualitativas utilizadas con el fin e en
1
_ P~que
. ltadode st , o ut r . 11111a ec an la re encion de las estud1antes. Como resu . a1,
r pr cisioh que lo 111 ludo dlos me odes estadisticos por mostrar una meno - fl
. II dos modelos d red t1 Utrn,ale1 erfa de datos. En consecuenc1a desarro an . t .'i
· • -1' hacia adel ht P r pr ti t 11I{ gura 2.3) que emplean una red de alrmentac on . , a
· , d I las e ingen1erfa I r ITl l1u LieIre enoon de estudiantes en las carreras e c enc a
nable principal que vendrfa a ser el rendimiento academlco (GPA).
Input Hidden layer Output layer
( )
P1 a,
LWi IIW, 1
2 X i 4xl
4x2 nl
-;:- 3x4
4x l
1
;i,- y
-►I t J
4xl 4 3 )( 1 J
____ _ ___ _)
Figura 2.3 Mufti/ayerfeed forward back propagation network
Fuente: Alkhasawneh & Hobson (2011).
El primer modelo que plantea el trabajo de investigaci6n predice la retenc16n de
estudiantes del primer anode ingreso e identifica factores correlacionales ntrelos
factores preuniversitarios. Par su parte, el segundo modelo clasifica a los grupos
de primer ano en tres clases: en situaci6n de riesgo si el GPA es menor que 2.7, en
nivel intermedio si el GPA esta entre 2.7 y 3.4, y, por ultimo, en nivel alto sl el GPA
es mayor a 3.4. El experimento se realiz6 con un total de 338 estudiantes de 1°5
cuales el 44 % representa a las carreras de ingenier{a y el 56 % corresponde alos
alumnos de ciencias. En las tablas 2.4 y 2.5 insertadas a continuaci6n se muestra los
resultados obtenidos en cuanto a la precisi6n del modelo.
Capttulo 2: T6cnlcas y apllcacl(m de la mlnerfa de datos
Tabla 2.4 La mejor precision obtenida para el valor R
Vlrlable S&E Clencla lngenierra
Valor R 0.54 0.57 0.59
Precisi6n 68% 70.S % 68.9%
Total 338 190 148
Fuente: Alkhasaw neh & Hobson (2011).
Tabla 2.5 Resumen de los resultados de analisis de errores
Variable S&E Clencla lngenleria
Mfnimo 0.002808 0.000519 8.06E-05
Maximo 2.623909 1.652878 2.772855
Promedio 0.41657 0.408178 0.410695
Fuente: Alkhasawneh & Hobson (2011).
/
47
c. Jadric et al. (2010) realizaron un estudio de la deserci6n estudiantil para lo cual
usaron la metodologia SEMMA yen seguida aplicaron tecnicas de mineria de datos
como regresi6n logistica, arboles de decision y redes neuronales. En ese proceso se
tomaron en cuenta las variables que se muestran en la tabla siguiente:
Tabla 2.6 Variables identificadas
Variable
ID Sexo Estado
Programa de estudios Calificaciones del padre Calificaciones de la madre
Condici6n social lndicador de la vivienda Agrupacion del examen de entrada
Fuente: Jadric et al. (2010).
El experimento fue llevado a cabo con cada una de las tecnicas antes m ncionad
Y para ello se tom6 una muestra de 286 estudiantes. Despues del entrenan11e as. . n~
se pudo observar que 98 estudiantes desertaron, mientras que 188 studiLJnt
contin_uaron sus estudios. Esto ocurri6 despu~s del segundo afo tal como s niuest~~
en la figura siguiente:
1 34.3 '6
2 65.7 96
1 98
2 188
Total 286
36.39'
63,79'
78
137
215
M1t-OceJena
1
1 100.09' 100,09'
2 0.0 ,t, 0.09'
1 79 60
2 0 0
Total 79 60
1
1 100.0% 100.0%
2 0.0% 0.0 %
1 7 4
2 0 0
Total 7 4
...2
1 16.3 9'
2 83.7'J(i
1 8
2 41
Total 49
Figura 2.4 Analisis par arbolesde d .. .ec1s1on
Fuente: Jadric et al. (2010)
...3
l 9.2 9' 11.6 9'
2 90.89' 88.4 ,t,
1 19 18
2 188 137
Total 207 155
Stat-Ocefena
...3
1 6.09' 9.3 9'
2 94.0 9' 90.79'
l 12 14
2 188 137
Total 200 151
JuE•Otejena
22.69'
11.49ili
1
.,
24
31
11t
i otal l 1
Una vez comparados los m,.(.t d .e o os experiment d
neuronales se comportan mu b' a os, se determine que lac r d
. Y 1en en problem d 1 . . . , .. e es
Sin embargo, su desventaJ·a e . , as e c as,ficac,on mas comple·o
, n comparac,on co I , J s.
que ver con el modelo de aprend· . n os metodos mas sencillos tiene
I
izaJe, ya que este · r '
ento y exigente (optimizaci6n de I f ,mp ,ca un proceso relativamente
os actores de peso).
%de respuesta
80 -i-- --.1.-
10 20 30 40 so
Nombre de tecnlcas
■ Regresion
■ Regresion - 2
Figura 2.5 Evaluaci6n y comparacion de modelos
Fuente: Jadric et al. (2010)
60 70 80 90 100
■ Arbo! de decision
■ Linea base
■ Redes
■ Redes - 2
d.Lykourentzou et al. (2009) desarrollaron un metodo de predicci6n orientado al
fen6meno de la deserci6n estudiantil en los cursos de e-learnfng. Este metodo se basa
en tres tecnicas populares de aprendizaje automatico. Las tecnicas de aprendizaje
automatico utilizadas son las redes neuronales con aprendizaje hacia adelante, las
maquinas de soporte de vectores y el conjunto probabilistico simplificado ARTMAP
difuso. Los autores mencionados tambien senalan en su artfculo que una sofa
tecnica puede fallar para clasificar con precision a algunos estudlantes de e-/earning,
mientras que otro puede tener exito.
7
cooesto. seplantean tre.s sistemasdetoma dedecisionesfundamp ~~
b
. V,Qry
e a mostrado en la figura 2.6, los cuales se com man para obti:; ·
0 es s;; ..n .nl ..,tl l os a artir de las tre.s tecnicas de m.aquinas de aprendiz.aje_-· I~
~I
0 tel i IO, 1, 2, 31
~ e3
- - -~ - --
,,.
"
se u ·1izaro ta to las ariables que i
O sa·
s a(a les q e sf lo so (ses,on~
la tabia 2.7..
Tobia 2.7 Atributos de estudiantes usadas para el entrenamiento y testeo de redes de aprendizaje
automatico
Categorfa reladonada
Atributo Rango de valores
con la literatura
Genero Masculino, femenino
Demografico Residencia Capital. provincia
Atributos invariantes Experiencia de trabajo >=0 anos
en el tiempo
Basico, intermedio,
Nivel de educaci6n alto, grado de
Rendimiento master, gr·ado PhD
academico
ldioma ingles
Elemental, basico,
alto, completo
Calificaci6n del
examen con 0-20
opciones multiples
Calificaci6n de
0-100
Atributos variables
proyecto
en el tiempo Fecha de presentaci6n
del proyecto (dias
>= 0
contados a partir de
la secci6n de plazo)
Actividad de la secci6n >= 0
Fuente: Lylcourentzou et al. (2009).
El metodo fue examinado en terminos de precision general y sensibilidad. La precision
obtenida se encontraba en un rango del 75 % al 85 % y sus resultados fueron
significativamente mejor a los de otros trabajos realizados.
e. Dekker et al. (2009) realizaron un trabajo de minerfa de datos aplicada a la educacion
basado en la informacion existente en torno a los alumnos de lngenieria Electrica
de la Universidad Tecnologica de Eindhoven (donde la desercion es de 40 %}. El
periodo elegido fue el tiempo despues del primer semestre de estudios y el anterior
al ingreso al programa. El objetivo del trabajo fue determinar que datos (variables)
son las predictares de la deserci6n y determinar cuanda la predicci6n es mejor, asi
coma las variables a utilizar en el desarrollo del trabajo de investigacion, las cuales
tienen que basarse a su vez en los datas preuniversitarios.
7
Tab a
. tes usadas para e·I est dio
2 8 Atributos de estud1an
Atrtbutos 1lpo
Dauipci6w
IDNR Numerico Solo para chequear los datos
-Principales cambios en el siste 2 °c1 -- - ---..._ - _,_ - ' - 1-:i · J:.
Ano vwo Nominal {1.4, 'n/a'}
Curricula de educad6n pre
- -a {: : . ~? ,eCurrkulo VWO Nominal
Numero de cursos VWO numerico Numero de cursos tomados
-{n/a, pobre, promedio, sob e e r r ff :
-
Promedio VWO Nominal
excelente}
-
Numero de cursos de
Nominal {n/a, < 3, 3, >3}
ciencias VWO
Promedio en ciencia VWO Nominal AsVWO mean
Numero de cursos de
Nominal {n/a, 0,1,2}
matematicas VWO
Promedio de matematica
Nominal AsVWO mean
vwo
Educaci6n HO Nominal {n/a, electrico, tecnico, o ro
-
Ano HO Nominal Igual categoria VWO afio
-
Grado HO Nominal As VWO mean
Ano Gap Nominal {n/a, <-1,-1, 0, 1, >1}
Clasificaci6n Nominal {-1, l}
Fuente: Dekker et al. (2009).
El experimento fue hecho con la participacion de 648 estudiantes ~ ,,._
lngenierfa Electrica. Los resultados obtenidos mostraron que los clas·, : :.
sencillos e intuitivos (arboles de decision) dan informaci6n significa · l "·
una precision de entre 75 %y 80 %.
f. Lin et al. (2009) realizaron un trabajo en el cual se propane una c
l j~ 't··cinco modelos de retencion y se hace uso de cuatro metodologfas de eO -":- ~~
entre las cuales se encuentran las redes neuronales, la regresi6n logf · a,el•:i.:<l--·
discriminante y el modelo de ecuaciones estructurales. En los modelos e ...r:}
propuestas se consideraron diferentes conjuntos de datos que an es e ., q•.-=
71 variables de entrada, entre ellos, variables de factores cognitivos o
que pueden ser revisados en la tabla 2.9.
C II Ca 2:T«nicas y~ A.lcl6adala1R1ner1a de datos
Tobia l .9 Prediction de reten ·o de e diantes de ingenieria
Variables para la retenci6n un afios despues
ioe azgo
t - - - - - - - - 1 Fae es
daria
Factores
no
cognitivos
ayo decision
cog I . OS Promed10 de escuela secu daria e Materna··ca,
Cie d as e I gles
A oe,·cac1a · e o de eces q e le o a , atematica
Equipo
otivacio
Fuente: Lin et al. (2009).
El experimento fue hecho con 1508 estudiantes de los cuales 289 eran mujeres y
1219 eran hombres. Los resultados del experimento de los cinco modelos propuestos
demostraron que el metodo de red neuronal produce los mejores resultados de
predicci6n con respecto a los otros tres. De esa manera, se consigui6 una precision
de 71.9 % en el modelo C que usaba variables cognitivas y no cognitivas.
g. Yathongchai et al. (2003) realizaron un estudio en el que se considera que existen
tres factores importantes que afectan la tasa de deserci6n de los estudiantes. Estos
factores son las condiciones relacionadas con los estudiantes antes de su ingreso,
los factores relacionados con los estudiantes durante los perfodos de estudio en
la universidad y, finalmente, todos los factores que incluyen el valor del objetivo a
predecir por el analisis de factores.
El estudio fue llevado a cabo en la Universidad Buriram Rajabhat, con 731 estudiantes
de los cuales 251 estudiantes desertaron. La informaci6n fue obtenida de diferentes
tablas de la base de datos academica MIS y las variables que se consideraron para el
estudio se muestra en la tabla 2.10.
Tobia 2.10 Variables relacionadas con los estudiantes
Variable Descripd6n Poslblesvalores -}il
Pragrama para estudiar en {230, 240, 241, 243,247, 249, 264, 265,284, 285,
Pragrama la facultad de Ciencias 286}
debil, media,
GPA entre el terml-term4 buena, mejar, debil =GPA < 1.6
GPA1-GPA4 {dentro del ana academica media= GPA 1.6 - 1.99
2008- 2009) bueno = GPA 2.0 - 2.5
mejor =GPA> 2.5
GPAX de la educaci6n
numeroGPAX del colegio
secundaria
Programa de estudio en la
{1, 2, 3} = Ciencia + Matematica
Programa del 2 = Lenguaje + Matematica
Colegio educaci6nsecundaria 3 = otro.
'11111111 •Ill,_
to Ico 10
1ano, grande}
bandono
{ . 2. 3, .5.6. o}
0 ~ rc,6n Es do de aban o o {Si, o}
Fu nte: Ya ong a1 rol (200 )
Para realizar las pruebas se utiliz6 la tecnica de arboles de decision basada en la
clasificaci6n J48 o C4.S y NaiveBayes. Como herramienta de desarrollo se utilizo
el software Weka con 513 casos para realizar el entrenamiento y 218 casos para
realizar la validaci6n del modelo, tras lo cual se obtuvieron los resultados que se
muestran en la tabla 2.11.
Tobia 2.11 Comparaci6n de los resultados de dos algoritmos de clasificador sabre todos las factares
J48 Redes bayesianas
0aslftcador Conjunto de Conjunto de Conjunto de Co junta de
validaci6n pruebas validaci6 n pruebas
Precision 87.00 % 84.86 % 85.08 % 82.11 %
-
TP Rate 0.87 0.849 0.851 0.821
---FP Rate 0.073 0.066 0.033 0.033
--TN Rate 0.843 0.831 0.864 0.872
-----FNRate 0.851 0.849 0.851 0.821
Fuente: Yathongchai et al. (2003).
Una vez presentado este balance sabre la aplicacio' n d
1
. , d d Iestudi0
. , . . e a minena e atos a
de la deserc1on estud1ant1I en la educaci6n supe . cionar
, . , nor, se puede pasar a men
otras tecnicas y metodos que han sido usados p . , .
ara este m1smo propos1to.
• Regresi6n logfstica (RL): este metodo ha sido
1
. tudios
. . amp 1amente utilizado en loses
educativos para predec1r la retenci6n del estudian . , estad0·
Levin & Wyckoff (1991), Casa (1993) Scha ff te o la graduac1on de ere et
al. (1997) YZhang & Richarde (1998), han u:li:~sd~t al. (1997), Beserfi~!d-~;g,scica
para estudiar la permanencia de 1
. modelos de regres1on te,
os estud1antes I . . terrien
Besterfield-Sacre et al. (2002) desa
11
en os coleg1os. Rec1en . ara
rro aron un mod I d . , I , t,ca p
predecir la permanencia de los estudia t d . e O e regres1on ogis d·ante
n es e pnm ~ d . . , me 'el cual la precision obtenida fue de
68 0
er ano e 1ngenieria, . on el
estado de la inscripci6n en la ingen·i , ,Bd 1/o. French et al. (2005) estudiardOel
ena espu , d an
modelo de regresi6n logfstica, a partir d es e 6 u 8 semestres, us %de
clasificaci6n correcta. Entre estos estud· e
10
cual reportaron una tasa de
65 que105
sobre la retenci6n de los estudianteS
usan modelos de RL solo Schaeffers et al. (1997) reportaron una tasa de clasificaci6n
correcta en la retenci6n superior al 70 %. Sin embargo, su modelo requiere el uso de
GPA acumulativo (rendimiento) de la universidad coma el factor mas importante para
predecir la persistencia a lo largo de 3 a 5 anosy, por lo tanto, es menos adecuado para
aplicar los principios de dinamica de asesoramiento para estudiantes de primer afo.
• Analisis discriminante (DA): este es otro metodo utilizado en el analisis de la
retenci6n de los estudiantes universitarios, segun el modelado planteado por varies
investigadores. Pascarella & Terenzini (1983), por ejemplo, estudiaron el retire de los
estudiantes al final del primer afo mediante el analisis discriminante, y alcanzaron
tasas de clasificaci6n correcta de entre el 77 % al 81 %. Sin embargo, sus factores
fueron recolectados durante el primer ano del estudiante y, par lo tanto, fueron
menos aptos para la intervenci6n temprana. Fuertes & Sedlacek (1994) utilizaron el
analisis discriminante y tomaron en cuenta los factores preuniversitarios, cognitives
y no cognitives para estudiar la retenci6n de los estudiantes universitarios asiaticos.
Se inform6 de un 64 % y el 68 % correcci6n clasificaci6n para el quinto y septimo
semestres de retenci6n. Burtner (2005) estudi6 el estado de inscripci6n despues de
un afo en el caso de estudiantes de ingenierfa e inform6 una clasificaci6n correcta de
85,2 %. Sin embargo, sus dates se recogieron en la ultima parte del segundo se est e
(abril), por lo que tambien su enfoque es menos adecuado para la interve ci6
temprana con los estudiantes de primer ano.
• Modelos de ecuaciones estructurales (SEM):estos tambien han concit ado la a enci6
de los investigadores. Aitken (1982) desarro116 un modelo de ecuaciones estructurales
de satisfacci6n y rendimiento de estudiantes, e inform6 que el 19,4 % de la varianza
en la retenci6n de los estudiantes puede ser explicado por su modelo. Nora e al.
(1990) estudiaron la relaci6n entre la retenci6n y los factores de pre-uni ersitarios e
inform6 de los factores en su modelo SEM represent6 el 15,3 % de la varia za e ta
retenci6n. Cabrera et al. (1993). Tambien utilizan el SEM para modelar la re e ci6
de estudiantes universitarios despues del primer semestre. Se inform6 de u S %
de la varianza observada en la retenci6n puede ser explicado por su modelo, co
los factores mas importantes coma promedios de la universidad despues del pri er
afo. French et al. (2003) estudiaron la relaci6n entre la matricula en inge ie ·a, con
rango de factores, incluyendo la escuela secundaria, SAT, el GPA de la uni ersidad
la motivaci6n, los profesores y la integraci6n de los estudiantes. Encontraro que su
modelo SEM represent6 el 11%de la variaci6n observada en la matricula de inge ieria.
• Redes neuronales (NN): este es un enfoque de modelado bien desarrollado ent e
las diferentes herramientas dentro de la comunidad de la inteligencia artificial (I ).
Durante las ultimas decadas ha side ampliamente utilizado en aplicacio es que
involucran tecnicas de predicci6n y clasificaci6n, especialmente, en las areas de
ingenieria, negocios y medicina (Kukar et al., 1999; Smith & Gupta, 2002; Tsoukalas &
Uhrig, 1997). El modelo de red neuronal es especialmente atractivo para el mcxielado
de sistemas complejos, debido a sus propiedades favorables: la capacidad universal
de la funci6n de aproximaci6n, alojamiento de multiples variables no linealesvariables
con interacciones desconocidas y la capacidad de generalizaci6n (Coit, Jackson &
Smith, 1998). Mas informaci6n sabre la aplicaci6n de modelos NN para predecir la
retenci6n de estudiantes en ingenieria se puede encontrar en lmbrie etal. (2008).
d llado un marco de referencia qu id ntif1 ;,
Algunos investigadores h~n esdarro er. a cabo en una etapa tempran Par, (1 Irr..
r nesgo e ca . ,w.I·
estudiantes con ma_yo .
1
tudiantes que la necesitan, dado I aum~ntc j .,,_
instituciones den as1stenc1a a d~s etses en ciencia e ingenierfa (« & E»), a,kin (~i<r; I;
I'd d tid d de los estu ian ✓, "y.
ca , a Ycan a t fsticas del estudiante, tales come el GPA (rendirni,. 'J
hizo hincapie en que las carac er . . I ,. f .rn,1
, . . bles ambientales como v1v1r en e campu o ucm cJ,. r.1
academ1co) y otras vana . :,
participar en la primera programaci6n d~ un aflo y pertenecer _a una orn~mirJ;,0
. •
1
d d' • de v'ida son meJores productores de ex1to d I tudi:irn,.
res1denc1a e apren 1zaJe , ,..
Lin et al.(2009), en una investigaci6n de minerfa de datos e~ torno a 1508 tudi:int~·;
de primer ano de ingenierfa en una universidad del_med10 oeste durante I c:ur·.ri
2004-2005 han usado varios metodos para la retencr6n de modelado de stwfoin ':
de primer 'ano de ingenierfa, tales como redes neuronales, anal_isis di.,criminari ~.
regresi6n logistica y modelos de ecuaciones estructurales. El estud,o agr g6 el orig~r,
etnico, el genera y la ciudadania como factores influyentes, pero los resultadosfur.iro 1
inconsistentes entre todas las instituciones incluidas.
En Tailandia, los investigadores estaban interesados en la aplicaci6n de las dato)
metodos de extracci6n para predecir el rendirniento estudiantil. En su inv stigaci6n,
Nghe et al. (2007) compararon la precision del arbol de decision y de los algoritmo!
bayesianos para predecir la red tanto de pregrado y el rendimiento academico de loi
estudiantes de posgrado de dos instituciones diferentes.
En el trabajo de Mendez (2008) los datos utilizados fueron de 1884 estudiantesde
primer afio que se especializaron en la ciencia, tecnologia, ingenieria y maternatica
(STEM). En ese caso, la data fue recogida de los alumnos inscritos en el ano academico
1999-2000. El estudio se centr6 en 6 de las 18 variables disponibles y ellos fuero
genera, etnia, nacionalidad, prornedio acadernico de secundaria, SAT cuantitativa yel
SAT verbal.
En el caso de Ayesha et al. (2010) se utiliza la tecnica de minerfa de datos llamado
«K-m~ans», un clustering ~ara analizar el comportamiento de aprendizaje de 1~1
e
st
udi~nte~ Y~~yo ~so busco ayudar a los profesores a reducir la deserci6n en relacion
a un nivel s1gn1ficativo y mejorar el desernpe~ d
1
.
no e os estud1antes.
Sembiring et al. (2011) aplicaron el rnetodo d
I
k , . ineria
de datos apropiada para
1
.
1
e ernel como la tecnica de rn
ana 1zar as relacio . de 101
estudiantes y su exito Lueg d nes entre el comportam1ento
de los estudiantes par~ pred~c· es
1
:rr_ollaron el modelo de predictores de rendirnient:
ire t:Xlto de estos rn d. I d factore
psicometricos como de pred·ict . e 1ante e empleo tanto e
ores variables.
Wu et al. (2010) optaron por la te . . ala
informaci6n de los estudiantes d cnica de rn1neria de datos y la aplicaron on
el metodo basado en los algo ~~ar ada en el alrnacen de base de datos. Ellos usarso
revelaron que el algoritrno de~, brnols de arbol de decision y los resultados del cauir
dr o de de · '6 d' ting
entre los meritos del nivel d I c1s1 n de rnineria de datos puede is ·on
de la clasificaci6n general y e os_ ~studiantes universitarios realizar la evaJuaCd'os
t d' . perrn1tir asi I I etO
ra ,c1onales no sean aptos I reso ver el problema de que /os rn
para a evaluaci6n de los alumnos.
1. Los modelos de minerfa de datos se pueden clasificar en predictivos y descriptivos.
En el caso de las predictivos, se tiene una variable en donde el valor es desconocido y
la finalidad es determinarlo. Esta variable se llama respuesta, variable dependiente u
objetivo, mientras que aquellas utilizadas para hacer la prediccion son los predictores
o variables independientes. En relaci6n a los modelos descriptivos, en ellos no se
cuenta con un resultado conocido para poder guiar a los algoritmos. Por eso, se
habla de modelos de aprendizaje no supervisado, donde el modelo se va ajustando
de acuerdo a las observaciones o datos entregados, y se recurre muchas veces a
argumentos heurfsticos para evaluar la calidad de los resultados. Algunos algoritmos
que se utilizan en estos modelos son los de clustering y los de reglas de asociaci6n.
00
XI
2. Existen muches metodos de minerfa de datos. En este capftulo se estudian los arboles
de decision y las redes neuronales por ser los mas usados para la solucion de problemas
de clasificacion. El arbol de decision permite encontrar la variable independiente que
puede hacer que, de manera sucesiva, una decision hecha a partir de los datos divida
el grupo original en pares de subgrupos en la variable dependiente. Es importante
tener en cuenta que, a diferencia de la regresi6n que devuelve un subconjunto de las
variables, los arboles de clasificaci6n pueden clasificar los factores que afectan a la
tasa de retenci6n.
. t a las redes neuronales, estas tratan de imitar a las
. n I que respec a . ,
1
. neu,0
,
inten:: ne tadas que hay en los cerebros de los an,ma es con el fin de hacer 13;
ale ritm ea capazde realizar el aprendizaje complejo para la extracci6n de Paqtu~ .1
B 'Dr1n,
te tar t ndencias. ,)
•
4. La miner a de datos ha venido siendo aplicada en diferentes areas para resolverur
abanico de diversos problemas con buenos resultados obtenidos al dfa de hoy. Enl3
tabla siguiente se resumen algunas de estas areas de aplicaci6n3
.
Problema
• ldentificar patrones de compra de los clientes
C merc:io vmarketing
• Buscar asociaciones entre clientes y caracteris i cas demoorahca:,
• Predecir respuesta a campanas de e-mailing
• Analizar de la canasta de compra
• Detectar patrones de uso fraudulento d taqe u'> de er ·d1 o
• ldentiticar a clientes leales
Banca • Predecir clientes con probabilidad de camb1ar su ahl1ac16n
• Deter inar gasto en tarjeta de credito por grupos
• Encontrar correlaciones entre indicadores financ1• os
• I ·ne car reglas de mercado de valores a par rd da o~
,,.
< p://v '1uc3m ; · I
' eria de d . es Jv1 lena/irc/practicas/06-07/22.pdf
a OS. lo misrn ,
ade as O es pos1ble en la direcc1on <h
· • a ase de da·o 1t s con a cual hacer pruebas.
00 ri,
d nt
S" p Uf' iJC' ,
//a1c ive ,r.s
Area de aplicad6n
Seguros y salud
privada
Transportes
Medicina
/
Capftulo 2: Tttnl a YapU a 160 d 1 min "' d d to
Problama
• Anal1zar los procedirn1ent s 111e' d·1co O I1·c-1ta1jo
J c I,IuntJIn 'ntc
• Predecir que cliente ompran nueva µoli J
• ldentificar patrones de comport,1mient pJra cli nt 11 ri -
• ldentificar coinportami nt fr udul ~nt
• Determinar la planificaci6n de I distribuci 11 entI t' ti 'll(°Ll
• Analizar patrone d carna
• ldentificar terapias m ' di a satisfa t ria par3 dif r 111
• Asociar sfntomas y cla ifica ion difer n i I p t I Id~
• Extraer modelos sabre comportamiento de compue t
Procesos industriales • Detectar piezas con trabas
• Predecir fallos
5. La mineria de datos en educaci6n es una disciplina que esta siendo desarrollada n
la actualidad de manera exhaustiva con el fin de crear metodos para explorar l_os
tipos (micas de datos provenientes de los centros educativos, colegios, institutos y
universidades, y usar esos metodos para entender mejor a las estudiantes. Se han
hecho trabajos de investigaci6n y modelos para predecir la deserci6n de estudiantes
universitarios mediante el empleo de diversas tecnicas como la regresi6n logistica, el
analisis discriminante, las redes neuronales, las arboles de decision y otras mas que
tambien son nombradas en este capitulo.
Collects and use
EDUCATIONAL
INF.SYSTEMS IITS, AEH, TEL, LMS
EDUCAT. DATA
Learning objects,
event logs (usage,
interaction), grades,
learner profiles
EDUCATORS
Teachers,
study advisers,
directors of
education,
education researchers
L . . . - . . - - - - - - , 1
EDMTASKS
Student profiling,
1+---~ knowledge modeling,
drop out prediction
DISCOVERED
KNOWLEDGE
Descriptive (process)
models, {learning)
patterns, outliers,
(performance)
predictions, advices and
recommendations
enroll (to courses).
use (learning) res urc s.
pass tests, collab rat
(with other tudents),
f---~ LEARNERS
Pupils,
students,
professionals,
patients
s
=.... c _2 a - c - _ ,. a --e era c..a es so as caracteristicas ae la
~e.......... e, e es ecia , a e a capaci a de poaer
- ,. e ase e a os para la ob enci6n de los
s a -ra 1es e las ·re e es ecnicas con que
~ e -c1 2 e~--a e :a a ·es
s , e e . ,. oo , :e e--co oci ie,.., o e laaplicaci6n de la mineria
Contenido
3. SPSS Clementine
3.1.1 Sector publico
3.1.2 CR
3.1.3 Web mining
e ~e .·e e ac·e o e sectores como la administraci6n
.1e i i g, a creaci6n de farmacos, el desarrollo de la
o s aeas e i e ·gaci6 .
3.1.4 Desarrollo de farmacos
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining
Data mining

Más contenido relacionado

La actualidad más candente

Modelo jerarquico y modelo de red de base de datos
Modelo jerarquico y modelo de red de base de datosModelo jerarquico y modelo de red de base de datos
Modelo jerarquico y modelo de red de base de datos
Fernando Baculima
 
Construccion , Diseño y Entrenamiento de Redes Neuronales Artificiales
Construccion , Diseño y Entrenamiento de Redes Neuronales ArtificialesConstruccion , Diseño y Entrenamiento de Redes Neuronales Artificiales
Construccion , Diseño y Entrenamiento de Redes Neuronales Artificiales
ESCOM
 
Unidad 2. modelo entidad relacion
Unidad 2. modelo entidad relacionUnidad 2. modelo entidad relacion
Unidad 2. modelo entidad relacion
LuiS YmAY
 
Tad lista, pilas y colas
Tad lista, pilas y colasTad lista, pilas y colas
Tad lista, pilas y colas
labarra90
 
Clase 2 Modelo De Datos
Clase 2   Modelo De DatosClase 2   Modelo De Datos
Clase 2 Modelo De Datos
oswchavez
 

La actualidad más candente (20)

1. introducción a c#
1.  introducción a c#1.  introducción a c#
1. introducción a c#
 
Árboles
ÁrbolesÁrboles
Árboles
 
Modelo jerarquico y modelo de red de base de datos
Modelo jerarquico y modelo de red de base de datosModelo jerarquico y modelo de red de base de datos
Modelo jerarquico y modelo de red de base de datos
 
Proyecto web
Proyecto webProyecto web
Proyecto web
 
Implementación de clases
Implementación de clasesImplementación de clases
Implementación de clases
 
Lógica difusa (fuzzy logic)
Lógica difusa (fuzzy logic)Lógica difusa (fuzzy logic)
Lógica difusa (fuzzy logic)
 
Conceptos poo (presentación1)
Conceptos poo (presentación1)Conceptos poo (presentación1)
Conceptos poo (presentación1)
 
Base de de datos( historia y sus tipos)
Base de de datos( historia y sus tipos)Base de de datos( historia y sus tipos)
Base de de datos( historia y sus tipos)
 
Conceptos Fundamentales de Base de Datos
Conceptos Fundamentales de Base de DatosConceptos Fundamentales de Base de Datos
Conceptos Fundamentales de Base de Datos
 
Transferencia de bases de datos entre sistemas gestores
Transferencia de bases de datos entre sistemas gestoresTransferencia de bases de datos entre sistemas gestores
Transferencia de bases de datos entre sistemas gestores
 
Base de Datos
Base de DatosBase de Datos
Base de Datos
 
Diagrama de clases
Diagrama de clasesDiagrama de clases
Diagrama de clases
 
Modelo relacional
Modelo relacionalModelo relacional
Modelo relacional
 
Construccion , Diseño y Entrenamiento de Redes Neuronales Artificiales
Construccion , Diseño y Entrenamiento de Redes Neuronales ArtificialesConstruccion , Diseño y Entrenamiento de Redes Neuronales Artificiales
Construccion , Diseño y Entrenamiento de Redes Neuronales Artificiales
 
Integrando Angular con Asp.net Core
Integrando Angular con Asp.net CoreIntegrando Angular con Asp.net Core
Integrando Angular con Asp.net Core
 
Unidad 2. modelo entidad relacion
Unidad 2. modelo entidad relacionUnidad 2. modelo entidad relacion
Unidad 2. modelo entidad relacion
 
Tad lista, pilas y colas
Tad lista, pilas y colasTad lista, pilas y colas
Tad lista, pilas y colas
 
Clase 2 Modelo De Datos
Clase 2   Modelo De DatosClase 2   Modelo De Datos
Clase 2 Modelo De Datos
 
El Perceptrón Multicapa
El Perceptrón  MulticapaEl Perceptrón  Multicapa
El Perceptrón Multicapa
 
Modelo de datos
Modelo de datosModelo de datos
Modelo de datos
 

Similar a Data mining

Tesis final cartonera.desbloqueado
Tesis final cartonera.desbloqueadoTesis final cartonera.desbloqueado
Tesis final cartonera.desbloqueado
Omar Herrera
 
Metodología de la investigación ( PDFDrive ).pdf
Metodología de la investigación ( PDFDrive ).pdfMetodología de la investigación ( PDFDrive ).pdf
Metodología de la investigación ( PDFDrive ).pdf
javierluciohuancahua
 

Similar a Data mining (20)

EXPERIENCIA COVID
EXPERIENCIA COVIDEXPERIENCIA COVID
EXPERIENCIA COVID
 
Tesis sobre El Análisis de la Gestión de Seguridad de TI en las Pymes de la C...
Tesis sobre El Análisis de la Gestión de Seguridad de TI en las Pymes de la C...Tesis sobre El Análisis de la Gestión de Seguridad de TI en las Pymes de la C...
Tesis sobre El Análisis de la Gestión de Seguridad de TI en las Pymes de la C...
 
EXPERIENCIA VIVIDA COVID
EXPERIENCIA VIVIDA COVIDEXPERIENCIA VIVIDA COVID
EXPERIENCIA VIVIDA COVID
 
Tesis final cartonera.desbloqueado
Tesis final cartonera.desbloqueadoTesis final cartonera.desbloqueado
Tesis final cartonera.desbloqueado
 
Proyecto II
Proyecto II Proyecto II
Proyecto II
 
Metodología Investigacion Cientifica 6ta Ed..pdf
Metodología Investigacion Cientifica 6ta Ed..pdfMetodología Investigacion Cientifica 6ta Ed..pdf
Metodología Investigacion Cientifica 6ta Ed..pdf
 
Libro de Sampieri Hernadez .pdf
Libro de Sampieri Hernadez .pdfLibro de Sampieri Hernadez .pdf
Libro de Sampieri Hernadez .pdf
 
Ada 3
Ada 3Ada 3
Ada 3
 
16 tesis.idc009 s82
16 tesis.idc009 s8216 tesis.idc009 s82
16 tesis.idc009 s82
 
Tejiendo redes para el conocimiento multidisciplinario en Educación y Emprend...
Tejiendo redes para el conocimiento multidisciplinario en Educación y Emprend...Tejiendo redes para el conocimiento multidisciplinario en Educación y Emprend...
Tejiendo redes para el conocimiento multidisciplinario en Educación y Emprend...
 
Tesis pedro corregida 2016
Tesis pedro corregida 2016Tesis pedro corregida 2016
Tesis pedro corregida 2016
 
fideicomisos en infraestructuras y bienes raíces FIBRAS
fideicomisos en infraestructuras y bienes raíces FIBRASfideicomisos en infraestructuras y bienes raíces FIBRAS
fideicomisos en infraestructuras y bienes raíces FIBRAS
 
Ada #7 informática
Ada #7 informáticaAda #7 informática
Ada #7 informática
 
CÁLCULO DE LA SEVERIDAD EN ZONAS.pdf
CÁLCULO DE LA SEVERIDAD EN ZONAS.pdfCÁLCULO DE LA SEVERIDAD EN ZONAS.pdf
CÁLCULO DE LA SEVERIDAD EN ZONAS.pdf
 
Tesis alumno FUNIBER - Milagros Cordero. Conocimiento por y la exposición de ...
Tesis alumno FUNIBER - Milagros Cordero. Conocimiento por y la exposición de ...Tesis alumno FUNIBER - Milagros Cordero. Conocimiento por y la exposición de ...
Tesis alumno FUNIBER - Milagros Cordero. Conocimiento por y la exposición de ...
 
Generador semiautomático de perfiles de usuario mediante OWL
Generador semiautomático de perfiles de usuario mediante OWLGenerador semiautomático de perfiles de usuario mediante OWL
Generador semiautomático de perfiles de usuario mediante OWL
 
“Diseño de un criptosistema para la codificación y decodificación de imágenes...
“Diseño de un criptosistema para la codificación y decodificación de imágenes...“Diseño de un criptosistema para la codificación y decodificación de imágenes...
“Diseño de un criptosistema para la codificación y decodificación de imágenes...
 
Ejemploproyecto
EjemploproyectoEjemploproyecto
Ejemploproyecto
 
Manual
ManualManual
Manual
 
Metodología de la investigación ( PDFDrive ).pdf
Metodología de la investigación ( PDFDrive ).pdfMetodología de la investigación ( PDFDrive ).pdf
Metodología de la investigación ( PDFDrive ).pdf
 

Más de Jose Sanchez

Más de Jose Sanchez (20)

Sanchez_Jose_Semana8.pdf
Sanchez_Jose_Semana8.pdfSanchez_Jose_Semana8.pdf
Sanchez_Jose_Semana8.pdf
 
Database miningguide
Database miningguideDatabase miningguide
Database miningguide
 
Maquinas de vectores
Maquinas de vectoresMaquinas de vectores
Maquinas de vectores
 
Ensayo tutoria 1 sep
Ensayo tutoria 1 sepEnsayo tutoria 1 sep
Ensayo tutoria 1 sep
 
Algoritmos para aplicar data mining
Algoritmos para aplicar data miningAlgoritmos para aplicar data mining
Algoritmos para aplicar data mining
 
Segunda condicional
Segunda condicionalSegunda condicional
Segunda condicional
 
Unit 8
Unit 8Unit 8
Unit 8
 
Aprenda Java como si estuviera en primero
Aprenda Java como si estuviera en primeroAprenda Java como si estuviera en primero
Aprenda Java como si estuviera en primero
 
Preguntas generadoras(1)
Preguntas generadoras(1)Preguntas generadoras(1)
Preguntas generadoras(1)
 
Taller n°1(1)
Taller n°1(1)Taller n°1(1)
Taller n°1(1)
 
Actividad de Aprendizaje
Actividad de AprendizajeActividad de Aprendizaje
Actividad de Aprendizaje
 
Herramientas de Programación
Herramientas de ProgramaciónHerramientas de Programación
Herramientas de Programación
 
Paradigma de Programación Orientada a Objetos
Paradigma de Programación Orientada a ObjetosParadigma de Programación Orientada a Objetos
Paradigma de Programación Orientada a Objetos
 
Paradigmas de Programación
Paradigmas de ProgramaciónParadigmas de Programación
Paradigmas de Programación
 
Introducción a los paradigmas de programación
Introducción a los paradigmas de programaciónIntroducción a los paradigmas de programación
Introducción a los paradigmas de programación
 
Unidad 6
Unidad 6Unidad 6
Unidad 6
 
The thirty
The thirtyThe thirty
The thirty
 
Resumen 39 steps
Resumen 39 stepsResumen 39 steps
Resumen 39 steps
 
My daily routine
My daily routineMy daily routine
My daily routine
 
Personal introduction
Personal introductionPersonal introduction
Personal introduction
 

Data mining

  • 2. MINERiA DE DATOS Peru · Mexico . Colombia . Chile . Ecu dor . E paiia . Bolivi<1 - Uruguay · Guat rnala - Costa Rica
  • 3. Data mining Minerfa de datos Autor: Atfredo Daza Vergaray e Derechos de autor registrados: Empresa Editora Macro EIRL ~ Oerechos de edici6n, arte grafico y diagramaci6n reservados: Empresa Editora Macro EIRL Coordinaci6n de edici6n: Magaly Ramon Quiroz Diseno de portada: Rudy Herrera Torres Correcci6n de estilo: Martin Vargas Canchanya Oiagramaci6n: Julissa Ventocilla Fernandez Edici6n a cargo de: © Empresa Editora Macro EIRL Av. Paseo de la Republica N.• 5613, Miraflores, Lima, Peru (. Telefono: (511) 748 0560 2l E-mail: proyectoeditorial@editorialmacro.com ~ Pagina web: www.edrtorialmacro.com Primera edici6n: julio 2016 Tiraje: 1200 ejemplares lmpresi6n Talleres graficos de la Empresa Editora Macro EIRL Jr. San Agustin N.° 612-624, Surquillo, Lima, Peru ISBN N.° 978-612-304-417-6 Hecho el dep6sito legal en la Biblioteca Nacional del Peru N."2016-08276 Prohibida la reproducci6n parcial o total, por cualquier medic o metodo, de este libro sin previa autorizaci6n de la Empresa Editora Macro EIRL.
  • 4. Alfredo Daza Vergaray lngeniero de Sistemas e Informatica egresado de la Universidad Nacional del Santa, cuenta con estudios de Doctorado en lngenierfa de Sistemas en la Universidad Nacional de lngenierfa (UNI}. Especialista en el manejo de bases de datos, en data warehouse yen sistemas de gesti6n de datos como SQL Server y Oracle. A lo largo de su trayectoria profesional se ha dedicado activamente ala docencia en diversas instituciones publicas y privadas. Asimismo, ha trabajado como consulter, analista de sistemas y capacitador en temas de informatica. Actualmente, es profesor en la Facultad de lngenierfa de la Universidad Cesar Vallejo. Entre sus areas de interes estan el uso de las tecnologfas de la informaci6n en el ambito empresarial (base de datos, data warehouse, minerfa de datos, text mining, web mining y big data) y la implementaci6n de herramientas de software para el sector educativo.
  • 5. Dedicatoria Este libro esta dedicado · da m1 pa re Alfredo Daza Vasquez por ser un eJemplo a seguir, por todos los maravillosos valores que me ensen6 y por la fuerza que e dio para poder afrontar los mementos mas dificiles que me tocaron vivir. Tambien es a dedicado a mi madre Rosa Margarita Vergaray Armijo, quien, aunque nu ca estu o ffsicamente, permaneci6 en mi mente yen mi coraz6n. A ella, en donde sea que se encuentre quiero que sepa que todos los dias la siento en mi coraz6n. Dedico este libro, ademas, a mi hermana Ana Rosa Daza Vergaray, quien es na persona a la que respeto y admire mucho por los consejos que me brind6 en diferentes etapas de mi vida y por ser alguien a quien siempre tomare coma ejemplo para poder mejorar siempre. Tambien quisiera dedicarle este Iibro a mi esposa Nataly Yessenia Risco Bocanegra, a quien admiro y me siento orgulloso. A ella nunca me cansare de decirle que la amo y de agradecerle por ser paciente mientras yo cumplia mis metas y por darme dos hermosos hijos que me recuerdan a ella cada vez que los miro. Por ultimo, quisiera dedicar este libro a mi hijo Aaron Alfredo Daza Risco, quien fue mi inspiraci6n para poder seguir estudiando cuando todos pensaban que habia enterrado mis suefios; con el podre decir que lo logramos juntos en una etapa de la vida. Por otro lado, tambien tengo muy presente a mi hijo Luis Alfredo Daza Risco, quien es un regalo que Dios me dio para poder veneer una etapa muy dificil de mi vida en la cual el fue mi primer apoyo con sus tiernas Ydulces palabras que me hacian reir, y por acompafiarme mientras escribia el Iibro e imitarme con una sonrisa cuando tecleaba en la laptop. Gracias a Dios por poner en mi camino a estas personas maravillosas y darme la alegria de poder cumplir mis suefios a tan temprana edad Ypoder decir que lo logre antes de haber terminado mi camino.
  • 6. Agradecirnientos Agradezco a la Universidad Cesar Vallejo por permitirme mejorar profesionalmente y realizar trabajos de investigaci6n en el campo de la mineria de datos ya la Universidad Nacional de lngenierfa por incentivarme a investigar este tema, el cual forma parte de mi tesis doctoral en lngenieria de Sistemas. I Il lI
  • 7. l: nceptos b11si 'O~ de mineda de dato"- ................................ 1 at ............................................................................................................... 15 DD ..................................................................................1 RI P ............................................................................................................17 e ..............................................................................................................................20 MCl1<1e1l'O hibrid ..................................................................................................................20 icci ·n ..........................................................................................................................21 ,n;,,~de da (d ta ~vareh use).................................................................................21 men .................................................................................................................................. 22 LO --= T nicns y aplic d ·n d la n1inerfa. de datos........................25 elos de mineria de datos ............................................................................................27 de mineria de datos ...........................................................................................27 i a i "ndelamineriadedatos......................................................................................37 ..1 i eria e d t sen la educa ion ............................................................................39 e men ...................................................................................................................................57 PITULO 3: Presentaci6n gene.ml de SPSS Clen1entine............................ 61 · 1 SP Oementine ............................................................................................................... 63 3. .1 tor bli ......................................................................................................... 63 .1. CRM......................................................................................................................... 64 .1.3 e mii ing ............................................................................................................. 64 .4 Desarroll de farnlacos ........................................................................................... 5 Resu en .................................................................................................................................. 66 CAP' LO 4: Inte.rftu y <.."Utegorias de SPSS Clen1entine ............................67 'll Elementos de la interfaz de SPSS Clementine .................................................................. 69 ",l, Q I entine treanl an ..................................................................................... 69 41. Nod ._ P lette ...........................................................................................................70 ''-1.3 e-n,entine M nager ...................................................................•...•.....•••....•..••..•..70 4.1.4 Clementine Proye ts ..........................................................••....•••....--....··..··•···--·....· 7
  • 8. .................................................... 7 . d SPSS Clementine................................. ... 3 4.2 Categonas e .................................................................... 74 4.2.1 Categorfa Source................................. ............................................. ·, c t oria Record Ops ............................................ ····· S 4.2.2 a eg .......................................................... 75 4 .2.3 categoria Field Ops...................................... ............................................. ·· 74.2.4 Categoria Output................................................... ..... 6 4.2.5 Categoria Graphs ....................................................................................................77 4.2.6 Categoria Modeling..........................................................········....................··......... 78 4.2.7 Categoria Export ............................................................................················•·...... 79 Resumen ....................................................................................................................... ........... 80 CAPITULO 5: Instalaci6n de SPSS Clementine ··········..·······················........81 5.1 lnstalaci6n del programa SPSS Clementine ...................................................................... 83 5.1.1 Pases para la instalaci6n del programa SPSS Clementine ......................................83 Resumen ...................................................................................................................................92 CAPiTULO 6: Aplicaciones con diferentes tecnicas de mineria de datos........93 6.1 Caso n.0 1: Predicci6n de juego de tenis (arboles de decision) ......................................... 95 6.2 Caso n.0 2: Predicci6n de planta iris................................................................................ 109 6.3 Caso n.0 3: Predicci6n de farmacos................................................................................. 122 6.4 Caso n.0 4: Problemas de cluster (caso empleados Memolum Web).............................. 136 6.5 Cason.° 5: Agrupamientos en relaci6n a las ventas ........................................................141 6.6 Caso n.0 6: Datos err6neos y faltantes (caso empleados Memolum Web) ......................147 6.7 Caso n.0 7: Obtener y transformar datos a traves de ODBC (conexi6n de base de datos abierta) ..............................................................166 6.8 Caso n. 0 8: Catalog_forecast (series de tiempo) ..............................................................176 6.9 Caso n. 0 9: Computer hardware data set.........................................................................181 6.10 Caso n. 0 10: Detecci6n de fraude.................................................................................. 187 6.11 Caso n. 0 11: Validaci6n del modelo Drug con datos nuevos 195 6.12 Caso n.0 12: lntegraci6n y partici6n de datos ............................................................... 200 613 ° ......................................... 6.14 CCaso n.o 13: Col.um~~ vertebral (partici6n de datos) .....................................................210 · aso n. 14: Vahdac,on cruzada.................................. 220 6.15 Caso n.o 15: Trabajar con pocos registros ... ................................................... 224 6.16 Caso n.o 16: Reglas de asociaci6n y depend~~~i~...........................................................233 6.17 Cason o17· Reg . , I , . ......................................................... 6.18 Caso n.o 18·· Predr~s,~~ og1stica (telecomunicaciones churn) ........................................243 · · 1cc1on secuencial S4 6 19 Caso n o19 E ....................................... ..... 2· · : xporta · ' d .......·..·......................·.. 6 20 o . c1on e modelos y resultados. 261 . Cason. 20: Series de tiempo (pronosticar) .......................................................267 Resumen ................................................................... ................................................................... 279 BIBLIOGRAFfA .............................................................. .......................................... 282 ·····································································
  • 9. lntroducci6n , I it t'll<l t' t1h,s ,· )1)$l 1lllyi' llll,l pi,l Hr,l de .in,li ,is ~lie p rmil: oblener un ,--. t'II 11 , :I c- )n •i1 lit'lll l' 1111prn t11nk ,1 p.1rtir del mJn jo de la inforrnacion '='' 1H ,, dl' uth1 ,11,111 ,1:;t cit' t ,t ~. Fl bjctivo u, , t, libro cs ofr cer al lector t 1lsi ' l' ·tc1 ilcll idad prira, mediant su apli acion, obtener ir n m ls pr f rn1ulrir pr di cion a partir de las cuales poder u v z. lri t rna ci d i i n s c1I int rior de una empresa. El s nt "' lib e cii id n s .i apftulos. En el primero se definiran algunos n ~ t - vin ul d s ci la 1ninena d datos, asi como tambien los pasos de la d I 1a RI P, I m · u ada n I mercado y aquella con la cual actualmente se plic ci nes tanto a nivel academico como empresarial. En el se und cap1tulo se explicara que es un modelo de mineria de datos y se mencionaran las tecnicas mas usadas en este campo tales coma las arboles de decision v las redes neuronales. Por otro lado, se mencionaran tambien los campos en los que la mineria de datos ha sido aplicada y se comentaran algunas investigaciones hechas a nivel mundial con esta herramienta en cuanto al ambito de la educacion superior. En el tercer capitulo se describiran las caracterfsticas del software SPSS Clementine, el cual constituye hoy en dfa una de las herramientas mas populares en el mercado para elaborar aplicaciones de minerfa de datos. Al mismo tiempo, y coma complemento de lo anterior, se detallaran algunas de las contribuciones que este programa viene hacienda en distintos sectores coma la administracion publica, la actividad de CRM, el web mining y la bioinformatica. En el cuarto capitulo se explicaran las partes principales del entorno del software SPSS Clementine. Tambien se definiran y se detallaran las formas de emplear los nodos mas usados presentes en cada una de las categorias y subcategorias de su interfaz, las cuales se caracterizan por permitir armar un proyecto como si se tratara de un flujograma. En el quinto capitulo se ensenaran las pasos correctos de instalaci6n del SPSS Clementine. Para ello, el lector contara con la opci6n de revisar el video de instalacion que viene como parte de las recursos en lfnea asociados a este libro, los cuales estan disponibles en la pagina web de Editorial Macro.
  • 10. En el sexto capftulo se plantearan veinte casos practicos, los cuales estan desarrollados de manera facil Ysencilla para servir al lector como ejemplos qu le orienten a la hora de desarrollar aplicaciones de minerfa de datos mediante la: diferentes tecnicas propuestas por el SPSS Clementine, entre ellas los arboles de decision, las redes neuronales, los clusteres, las series de tiempo, la asociacion dependencia, la validacion de datos err6neos Yla integracion Ypartici6n de datot A traves de todos estos aportes, el presente libro quiere servir al lector corno un manual que le permita introducirse en el mundo de la minerfa de datos a , , Si com~ una gufa que le ayude a realizar proyectos academicos y empresariales medrante esta, en especial, a partir de las herramientas provefdas por el software SPSS Clementine. 1
  • 11. Conceptos basicos de mineria de datos Contenido Objetivos En este capftulo el lector aprendera los conceptos clave de la minerfa de datos que son necesarios para crear aplicaciones tanto a nivel academico como empresarial. Asimismo, conocera los pasos de la metodolog1a CRISP, la cual es hoy la mas usada en el mercado en cuanto a la aplicac,on de esta disciplina. 1.1 Minerfa de datos 1.2 Procesos de minerfa de datos (KOO) 1.3 Metodologfa CRISP 1.4 Modelo 1.5 Modelo hfbrido 1.6 Predicci6n 1.7 Almacen de datos (data warehouse)
  • 12. / Capitulo I: onceptos ba !cos de mlnerfa de datos lS 1_1 Mineria de datos La mineria de datos se ha definido de diferentes maneras. Acontinuaci6n, se mencionaran algunos de estos -~oncepto~ para un mejor entendimiento, en especial, por aquellas personas que recien se esten iniciando en el maravilloso mundo de la extracci6n del c nocimiento: A. Primera definici6n La mineria de datos se define como aquel proceso que consiste en extraer conocimiento util ycomprensible, previamente desconocido, desdegrandes cantidades de datosalmacenados en distintos formatos. En ese sentido, la tarea fundamental de la mineria de datos es encontrar modelos inteligibles a partir de los datos recogidos (Hernandez et al., 2004). B. Segunda definici6n Segun Hernandez et al. (2004), la minerfa de datos implica un proceso de descubrimiento de nuevas y significativas relaciones, patrones y tendencias que son observadas al examinar grandes cantidades de informaci6n. C. Tercera definici6n Segun Han y Kamber (2006) la minerfa de datos se refiere a la extracci6n de conocimiento o «mineria» de grandes cantidades de datos. Sin embargo, de acuerdo con su perspectiva el nombre seria, en realidad, inapropiado, ya que, por ejemplo, la actividad minera que extrae oro de las rocas ode la arena se conoce como «minerfa de oro» en vez de «mineria de roca» o «de extracci6n de arena». Por ende, partiendo de una 16gica similar, la mineria de datos deberia haber recibido el nombre mas apropiado de «minerfa de datos del conocimiento», el cual, por desgracia, es un poco largo. Ahora bien, sucede que «minerfa» es una palabra que porta la idea de un proceso por el cual se extrae un pequeno conjunto de elementos (pepitas) poseedores de una cierta cantidad de materia prima (metales preciosos). Asi, a pesar de ser un nombre poco apropiado, al vincular las ideas de datos y extracci6n, «mineria de datos» se ha convertido en una opci6n mas popular. Frente a esto, lo unico que cabe advertir es que existen muchas otras expresiones similares a esta, las cuales, empero, tienen un diferente matiz de sentido, tales coma la mineria de datos de conocimiento, la extracci6n de conocimientos, analisis de datos, analisis de patrones, arqueologfa de datos y filtraci6n de informaci6n. D. Cuarta definici6n Segun Gonzalez (2005), la mineria de datos es el proceso por el cual se genera un modelo util para la predicci6n. Dicho modelose construye teniendo coma fundamento los datos que se encuentran en una base de datos, a las cuales se le ha aplicado algun algoritmo justamente con el fin de plantear un modelo.
  • 13. rlJ d , It qu lumin, rl, d , d;m 'i ~, un pro QU lntegra los datos nt , ( 11 rvPr, rJ Ir•, r r.l, Pt .) par , p •"t ri rrnente, extraer un n 1ml nl , ''1 dN Ir, 1(1 •nt1fi1 i1r Inf rm t:16n tr nd nt , vallosa Yutil, a JI I {, Ir tltu I r,c• v n J p d r l m, r lgun lgnlfi tiva decisi6n. 1.2 Pro ·r os d~ rnlnerla I · latoR (KDD) datobo · ~ ln1 IIOll - II, lf,101 l ul ,r ◄ 16n d '''" 11 J ll'I pr 0111•)•.11If-I fo 11 11u11u11 • - • d, d_to I mpr son las mismas I onjunto de las partes de este «KD » (knowledge discovery in d d tos»), es descrito de la D,,111 Int rpretar1on/ Mlninlj ~valuation I,.,..,,.·.,....,,.,,I,,""''"·......,I Pil ll N n I Knowledge I)111 l l).rl. l Flsura 1.1 D J, ·rip i6n ec.•t101'JI tit• I ~ J)d',1 ·, q 11(' OW,tlt 11yf'l1 (•I pr KDD Fuente : ravv J er uf. (19%). El proceso de KDD Int ra tlv It r tlv ( on much d cislones tomadas por el usuario) impllca num ro o Pi'.ISOS ciu :1 1. Aprendizaje d I domlnlo d Ir pll In luy la adqu isici6n del conociml nto pr -vlo r IC)vant y I plant bJ ·tivos d I aplica ion. 2. creacl6n de un onjun d dc. to· I d .li no: por m di d _st 5 de dato - o ellg!) -1 ub onjunto d v.._ rlc bl o muest·ras d ""d, t descubriml nto e v c1 r alll r. 3. Umpieza de dato y pr pr I iJn ll •nto: Ql lf dr n Ir p ;) lon-s basl a C mo la ellmina 16n de ruldo, la rr. ,ogldJ d ' l.i lnforn a 16n n . sc, 1 -.,.. d 1 . 1., . c, n Pera mo e rH, " det rmina 16n de •~;tralJ•glu" pJr.1 1J n 1.:iIwjn C' I >s i1ITl •) s d d ·t f It 1 , ~ t . e ~ .os qu ,1 11 , la contabllldad d li:1 lnformt1 Ion 1n Ilr-1npo Y s ' ltf'ncl ci" I bi ..rl ,-, , ._, cm on L' I o:-, la d cl i6n :.n torno al LI ' o ti ' DBM. (Li l s .on1o tlpos df' d I _ ) I~ d ~ , 0 . y ~quemz1s I • signacl6n d valore de• i:lp,1rr ·1 osy rlfl},-ono .Id . 4 R due Ion d date><; y d ' ptuyc:c: 1611 : I'll (''.; ( (I l)Ll ll tQ s llcv ·1 ' b I. t ' . i . .Jt' , , , . , 1 _ , . r ' .) d lUSqlJP( ,I ( I I carac terbttca ut-111.1~ p:°lr;J ,rpr' ,1ntJr I s tk1t os fi r:Jf"ndi "111i d I b . i 11 I , I , 1 ,J.. ' r- • e o jPtwn vt 1' • tarer Para ello, :) c·jc 111.J ,) II, ( II C'.t 111·1df' cll,nt nsln111l1r1lrJ ~ . .J . • , . ' ' . ' , , II ()!,(' npll ilf"I llll ( ()ll ( l!, (re' tran fortrW ,on que tJl'rltti l..1 11 .1rrH l ,11 "I nu111L'I O f'lf',~tlvo df' 1 (' _ . , , 1 , I , .i Wlt lr1bl, s n ,~,llldto a ncontrar la,· r -•prest! t1lt.1<.I0111 t, IW ,ll i,, Jlfl:, p.11,1 los rL,t os.
  • 14. 5_Elecci6n de la funci6n d miner/ad da1 0 ,, : ,-J trr1 r.:·. dr· (·'.Ir, ,.,. dr·, Id(· r·I 1,,ripr'i,.lt( del modelo derivado por medi d I lgoritmo d . mi ,ul;J r:Jr· rJr1i r,•. (r,1,r r·wrripl<,, lei clasiflcaci6n, la regresi6n, y la, grup 16n). 6. Elecci6n del algoritmo de minerfa de fato'.: r::ri ,.,,1;J p;,r1,. '.r· r·llµ,,-11 1,1,. , , 1:I 1rJ,y. que van a ser utilizados para la bu~qu da d1;: p i-r ri :'. r:r1 1: I c inJi.1riro rJ<- lo:, rJ1110 ., tales como decidir que modelos y param trcs pu -rJ~n ',r·r ;:ir;rrip1odu•. (r,ur t )1·rnplu, modelos para los datos categ6ricos d1f renti:::.; d. lo•) murkier. <·r1 Ir>', vu.1r,r1 ·<, r11r'i•, reales) y establecer con que m ·todo de min12rfa _',to·. p1Jr:rJr:r1 ':r·r ,,pl1r.t1dr !. (pen ejemplo, el usuario puede estar mas int r d en la cornprr;r1',i(iri rJr: I rnodr·lo rw<: ·r1 sus capacidades de predicci6n). 7. Realizaci6n de mineria de datos: aqui s da la bu qu da de pr- tr<nr:<: d •lrd<:r •• d •r,tr"O de una forma de representaci6n particular o el conjunto de tal • l rcr,rc~1.c:rili1c.i n , , en el cual se incluyen las reglas de clasificaci6n o arbol '"' , la regr<-:!.i6n, I c/ucl(.:rfn(j, ·I modelado secuencia, la dependencia y el analisis lineal. 8. lnterpretaci6n: en este paso se realiza la interpretaci6n de lo~ patrnne<: d ·tt .t do y, en algunos casos, tambien se vuelve a cualquiera de los mom n oc anterior · . Lu go de ello, se hace la visualizaci6n de los posibles patrones extrafdos, la limina .i6n d lo patrones redundantes o irrelevantes y la traducci6n de los patrone utll s a t °'rminos que sean comprensibles para los usuarios. 9. Utilizaci6n del conocimiento descubierto: este ultimo paso implica la incorporaci6n de los conocimientos extraidos en pro del rendimiento del sisterna, tomando acciones basadas en dicho conocimiento o simplemente documentandolo e informandolo a las partes interesadas. Asimismo, tambien se comprueban y resuelven los conflictos potenciales a partir de lo extraido de este conocimiento. 1.3 Metodologia CRISP El metodo CRISP fue disenado para dar una guia a inexpertos en DM y proveer asi un modelo generico que pudiera especializarse segun las necesidades de cualquier compania o sector en particular, permitiendo a los analistas tener una razonable seguridad de que sus esfuerzos van a ser utiles y validos (Llombart, Metodologfa de data minning CRISP). Para definir con mas detalle esta metodologia, a continuaci6n, se ha considerado oportuno insertar el siguiente fragmento que forma parte de la tesis de Guillermo Molero (2008): / [El) CRISP-OM (Chapman et al., 2000) consta de cuatro niveles, organizados de forma jerarquica en tareas que van desde el nivel mas general hasta los casos mas especff1cos. En el nivel general, el proceso esta organizado en seis fases: analisis del problema, anallsis de datos, preparaci6n de datos, modelado, evaluaci6n e implementacl6n. A su vez, cada fase consta de tareas generales de un segundo nivel (Figura 2.5). Estas tareas generales se proyectan a tareas espedficas, donde se describen las acciones que se deben desarrollar para cada situaci6n especifica.
  • 15. [ a ( I ~ : tareas para res at Modelo generico IPro ecc16n lModelo especifico era! es limpie a de datos , en el tercer ni el se especificarian le-a de at numericos y/o limpieza de datos categ6ricos. iv I se detem ina el njunto de acciones y decisiones a realizar ivel anterior Sumathi & Sivanandam, 2006). se eden re resentar coma un ciclo, como se muestra ·, ca a u a e las fases re resenta el analisis del problema, el analisisde e araci · e da , el ela . la e" luaci6n, y la implementaci6n de estos. La a uraleza itera I gia CRIS -DM se simboli a por el circulo exterior. I nta - n atos /, / m rensi · e l da .; ,,.,,., ✓ ,,,..,,.. L----- ----------------------- Figura .6 ,,s s t>I Fuente: ,, ':;- .... .. L------ -------------..-...r
  • 16. Capfbalo 1: Conceptos buk:os de mtnena de datos La secuencia de las fases no es estricta, puesto que estas pueden interactuar entre si durante el desarrollo del proyecto. De esta manera, la siguiente fase en la secuencia, a menudo depende de los resultados asociados con la fase precedente. Las flechas indican las dependencias significativas entre las diferentes fases, por ejemplo, si se esta en la fase de modelaci6n, es posible volver a la fase de preparaci6n de datos para refinar los datos, antes de seguir con la fase de evaluaci6n (Larose, 2005). Tornado de: Molero, 2008. El plan del proyecto describe los timing para alcanzar los objetivos. Al respecto, cabe destacar, coma un aporte particular, que un estandar de facto es que el reparto se constituya de acuerdo a los siguientes porcentajes: • 50-70 % fase de preparaci6n de los datos. • 20-30 %fase de conocimiento de los datos. • 10-20 % en el modelado, evaluaci6n y conocimiento del negocio. • 5-10 % fase de despliegue. Volviendo a la tesis de Melero (2008), se puede describir cada una de las fases de la metodologfa CRISP segun esta serie de pasos indicados por el autor: 1. Analisis del problema. En esta fase inicial se debe comprender con claridad los objetivos y requerimientos del proyecto, con la finalidad de elaborar una buena planeaci6n en el desarrollo. 2. Analisis de los datos. Se establece el contacto directo con el problema. Las actividades a realizar son: la recolecci6n inicial de datos, la identificaci6n de la calidad de lasdatos y el establecimiento de posibles relaciones mas evidentes que permitan obtener las primeras hip6tesis. 3. Preparaci6n de las datos. Aquf se realiza la selecci6n de datos a las que se va a aplicar la tecnica de modelado (variables y muestras), la limpieza de los datos, la generaci6n de variables adicionales, la integraci6n de diferentes conjuntos de datos y cambios de formate. Esta fase laboriosa, esta directamente relacionada con la fase de modelado, puesto que, en funci6n de la tecnica a utilizar, los datos necesitan ser procesados en diferentes formas. 4. Modelado. Aquf se seleccionan las tecnicas apropiadas para el desarrollo del proyecto. La tecnica a emplearse en esta fase debe ser seleccionada en funci6n a los siguientes criterios: ser apropiada al problema, disponer de datos adecuados, cumplir los requerimientos del problema, y el conocimiento de la tecnica. 5. Evaluaci6n. En esta fase se evalua el modelo, no desde el punto de vista de los datos, sino del cumplimiento a los requerimientos iniciales. Antes de proceder a su implantaci6n para su uso habitual, se debe revisar todo el proceso teniendo en cuenta los resultados obtenidos, e identificando posibles errores que llevan a repetir algun proceso anterior. 6. lmplementaci6n. Si el modelo generado es valido, desde el punto de vista de cumplimiento a los requerimientos iniciales, se precede a su implementaci6n y explotaci6n. Normalmente los proyectos de minerfa de datos no terminan en la implementaci6n del modelo, sino se deben documentary presentar los resultados de manera comprensible para alcanzar un mejor entendimiento del conocimiento. Tornado de: Molero, 2008.
  • 17. 1.4 Modelo Segun Fayyad et al. (1996), el modelo tiene dos factores importantes a saber: la funci6n del modelo (por ejemplo, la clasificacion y el clustering) Yla forma de representaci6n dei mismo (por ejemplo, mediante una funcion lineal de multiples variables o una funci6n de probabilidad gaussiana de densidad). Oicho esto, un modelo contiene parametros que se determinan a partir de los datos. 1.s Modelo hibrido Un modelo h[brido es aquel que surge de la union de dos tecnicas de mineria de datos a mas. En el desarrollo del presente Iibro, van aser utilizados coma ejemplos sencillos la tecnica de arboles de decision y la tecnica de redes neuronales, debido a que este tipo de combinaciones no se han desarrollado con frecuencia en proyectos de minerfa de datos, un detalle que se abordara mas adelante en la parte final de este libro. Volviendo al tema, en un reciente trabajo hecho apartir de un enfoque h[brido Goddard et al. (1995) han indicado que los metodos de maquinas de aprendizaje mas utilizados en tareas de clasificacion son los arboles de decision (AD) y las redes neuronales (RN). Con respecto a las redes neuronales, la arquitectura mas utilizada es la de las llamados perceptrones multicapa (PMC). Sin embargo, advierten estos autores: [...] cada uno de ellas [el AD Yel RN] puede presentar distintas dificultades en las aplicaciones del mundo real. Par ejemplo, las AD pueden ser pocos flexibles para generalizar sabre datos de prueba y excesivamente ramificados. En el casa de los PMC hay que definir su estructura numero de nados y capas y aun definida esta, no hay garantfa que converja a una soluci6n ace~table. Tornado de: Goddard et al., 1995. oebido a las desventajas antes mencionadas, lo que proponen estos autores es un metodo para implementar un PMC a partir de un AD y luego comparar el desempefO del metodo implementado en relacion al AD y con respecto a un PMC definido por separado. Para la realizacion de su experimento, Goddard et al. (1995) utilizaron la conocida base de da_tos IRIS 1 en donde el metodo PMC inicializado por mapeo supera en precision a los metodos de AD y PMC por separado. 1 E la base de datos IRIS el conjunto de datos contiene 3 clases de 50 c 11,,,, dt n . asos cada un d d 1- aun r- lanta iris.Una clase es hnealmente separable de las otras dos y estas ulti a, . on e cada clase se re 1ere ela01rJ ~ nte· Centerfor Machine Learning and Intelligent Systems. Disponlbl ma~ no son hnealmente separableslaunadI trril7 ue · e en.<http://archive.ics.uci.edu/ml/dataset5 1 .
  • 18. ~ 1:Conceptosbaa1cosdemtner1adedatos 1.6 Predicci6n n la predicci6n I obj tivo es desarroll I d ar un modelo en el d p cto d o ato (variable predich ) . que se pue a inferir un solo a a partir de una b. . , d los mi mos (variables predictoras) L d. . , com inac1on de otros aspectos . · a pre IccIon requ· p r la variable de salida de un con· t 1 . . ,ere, entonces, tener etiquetas . Jun o im1tado de datos I I . r pr senta una 1nformaci6n de confian b , en e cua una etiqueta za so re el valor de la · bl d 1· sp d ficos. En algunas ocasiones sine b . vana e e sa 1da en casos n que estas etiquetas pueden s: r de hm :rgo, es _,mportante tener en cuenta el grado ec o aprox1mada o incompletamente fiables De acuerdo con Jimenez & Alvarez (20l0) en 1, b. . · mineria de datos tendrfa dos • ' e am ,to educatlvo la predicci6n mediante usos Import antes: En algunoscasos, metodos de predic ·6 d d d I . ci n pue en ser usados para estudiar que caracterfsticas e un mo e o son 1mportantes para u d' · · · b na pre 1cc1on, dando informaci6n sabre la construcci6n su yacente. Este es un enfoque comu · • ,. . n en programas de investlgacion que tratan de predecir r~sultados educac,~nales sin predecir anteriormente factores intermedios. En un segundo tip? de uso, los metodos de predicci6n son utilizados para predecir cual sera el valor de s~hda en context~s donde no es deseable obtener una etiqueta para esa construcci6n (par eiemplo, en ocas,ones en las que no haya datos etiquetados). Tornado de: Jimenez & Alvarez, 2010. Segu~ lo afirmado por estos autores, a traves de esta operaci6n resultarfa posible, por eJemplo, predecir el salario de los graduados de una universidad con 10 afios de experiencia laboral, el estilo de aprendizaje mas adecuado en la ensefianza del curso de Matematica I en la escuela profesional de lngenieria de Sistemas, asi como el potencial de ventas en el mercado de un nuevo producto, segun su precio. 1.7 Almacen de datos (data warehouse) Un almacen de datos se define como un conjunto de datos integrados, orientados a un tema de negocio coma ventas, compras, almacen, marketing, etc.; que varfan con el tiempo; que no son transitorios y que soportan el proceso de toma de decisiones administrativas (Inmon, 2005). A partir de esta serie de caracterfsticas, se puede pasar a establecer y detallar las siguientes conceptos relacionados a esta plataforma: a.Conjunto orientado: los datos que se encuentran en un data warehouse (OW) estan vinculados con las operaciones de una organizaci6n, por ejemplo, con las actividades de venta y compra, con los clientes, con el area de Recurses Humanos, etc. b. Datos integrados: los datos tomados de distintos sistemas de la empresa son recopilados y almacenados en una fuente coherente Yhomogenea. c.Variables en el tiempo y no transitorios: los datos del data warehouse (OW) incluyen los datos actuales e hist6ricos de la organizaci6n, suelen almacenarse como agregados Y no deben ser eliminados, ni modificados.
  • 19. 1. La mineria de datos c nsiste en I ra i n d I onocimiento que se encuentra acumulado en diferentes n, tores de base de datos (archivos pianos, base de datos relacionales, etc.) cuya extracci •n permite obtener informaci6n util Ycomprensible que aportara una entaja competitiva a una empresa en la toma de decisiones frente a otras dedicadas al mismo rubro. 2. El proceso de mineria de datos (KOO) y la metodologia CRISP consisten en un conjunto de pasos que van a permitir construir una aplicacion a partir del analisis del problema, el analisis de los datos, la preparaci6n de los datos, el modelado y la evaluaci6n e implementaci6n (hacienda uso del metodo espiral hasta llegar a los resultados deseados). Comprensi6n ~ - Comprensi6n del negocio ~ de los datos lmplantac16n Datos Evaluaci6n Prep r cl6n d lo d t Mod lad 3. Un modela es la representaci6n de alga abstracto por alg 1 0 d I, n r t . _n Cc modelo de minena de datos, este se encuentra repr sentado p r la entrada que repre~entan los campos de las tablas de las bas 5 d d t tecnicas de minena de datos son varias. Entre ellas fig I d I s lo, .. , . , . ur n a r . n ur n1 , arboles de dec1s1on, la regres,on lineal, la regresi6n log,'sti· 1 • ) c (. . ca, a ri d ll •niP' , A partir de estas se va a val,dar el modela asi coma tamb· , 1 , 1 l 1 que ' 1 n a variabl d ~<1 1t, , representa el valor a obtener.
  • 20. Capitulo 1: Conceptos basicos de mtneria de datos 4. Un modelo hibrido es la combinacion de dos o mas tecnicas que ayudan a mejorar las resultados de la prediccion. Par ejemplo, se puede aunar el uso de las redes neuronales con el de los arboles de decision, debido a que uno es el complemento del otro. No obstante, el procesamiento de los datos en las redes neuronales es mas lento con respecto a c6mo este se lleva a cabo mediante los arboles de decision. 5. La predicci6n tiene como objetivo desarrollar un modelo a partir del cual se pueda deducir un solo aspecto de los datos (variable a predecir) por media de una combinacion con otros conjuntos de datos (variables predictoras). 6. Un data warehouse es un almacen de datos que se define como un conjunto de datos integrados, orientados a un tema de negocio espedfico, cambiantes en el tiempo y no transitorios, las cuales soportan el proceso de toma de decisiones administrativas dentro de una empresa. Marketing Campaign Mgmt Financial/ Accounting CRM and eCRM Call Center I Enterprise Data Warehouse Procurement HR Internet Inventory
  • 21. I 11•, I, t 111111111,l·l,• d 111111·11 I, I I ' I, I 1 If I 1, I 111111 II 11 ,II I lllhll 1,1 1l ilhl11I ,,, ,1 lh, li 111 ,I l.1 111111 I1,1 d d 111 1 II dtl I 'Ill t ',I , I, I Ill I 'Ill! I ' 11 l, I I 111 ,111111111 111 dt. 1111111111 II • I 'I, I I I I 1',dlh1 t 11' ltl I II ,1 h1t1' ,,1, ,,, 11,111 II I II, .111,,,h,d,11 d,·11111111 h 11 11 11 111111 ,I 1,1 1' h11 ·" h'II 1q,, '"'' lt11 1 di,llll11 l.1111111,·111,h d,11, 1• d,• l,111111 ". t, I 1111 ., I ,111111! I 1 1, ,hi t, ,,,1--111,1 ,·l.111.llhllll,111111111,1111 • l,1.,,,11, II 111,111,h•, I, ont , ldo Mod, Iii•, ti,•11111111 11.i d,1 ii 1111•, ;,, 1 M1•l1 11 l111 , d1111il11r •1l.1 d1 tldlP1• '" A1l111l1··· tit I I 1•1111 ,11 1,·111 1 f l1·,!111 • 11, 1111111,tl • I. /1ilh,11lt'11 1d l.1 111l11t l l11d1 1 1►11 11>, I I M111, rl 'd, d,11 11', 111111 I 11111 1111111
  • 22. 2.1 Modelos de mineria de datos Para hablar de los modelos de mi eria e a 05 se i se a Clemente Martinez (2012). Los modelosdedata miningse clasi, ca co re ·· :' 5 ce::- ::-.~~ ::- 2 :-- -· :c · ::-~::- se tiene una variable con valor desco , , y la fi al 2 E _e:e- -=--= :.::= ,=- ==- cc-"°" llama respuesta, variable dependie te u o je =: _::- :2 :-=o === -==~- la predicci6n son las predictores o ariables , '{ Los modelos predictivos requieren ser «e • e de entrenamiento cuyo valor de variable o Je entregue resultados en base un aprendizaJe, e realidad conocida. A este tipo de modelos se les conoce tambien co debido aque las valores estimados o calculados so co .ara s y, por lo tanto, se tiene una clara medida del exito o falla e la cv algoritmos que se utilizan en estos modelos son los de clas, -:=~::~~~~ f , ~ 1i1S reg.?3 -:-~~ 3. El aprendizaje supervisado se utiliza en problemas e I s e s.e ,e e resultado al que se quiere llegar, par ejemplo, para la detecci 'ea mas propensos a la fuga de la empresa. Par otra parte, se tienen los modelos descriptivos, en los c ales resultado conocido para poder guiar a las algoritmos, y por ell se aprendizaje no supervisado, donde el modelo se a ajustando de a e o datos entregados, y se recurre muchas veces a argument s calidad de los resultados. Algunos algoritmos que se utilizan e clustering y las reglas de asociaci6n [29). El aprendizaje no supervisado es usado en los casos en que nose e e ie del resultado al que se va a llegar, por ejemplo, al segmentar a I s lien es e ;::, hayan sido definidos previamente. Luego de que el modelo ya ha sid e una muestra de datos independiente de aquella utilizada para la fase entrenamiento del modelo, con la intencion de evaluar la capacidad e Tornado de: Martinez, 2012. 2.2 Metodos de mineria de datos st . Segun se ha podido comprobar a partir del aporte de Martinez ( 01 ) ha d s m en minerfa de datos: los predictivos y los descriptivos. Llegados a esta parte I qu mencionar es que existe una gran variedad de metodos para ambos. En el resent lib solo se hara hincapie en dos que son muy importantes para la predic i ·n: I s ar les clasificaci6n y las redes neuronales.
  • 23. 2.2.1 Arboles de clasificaci6n El arbol de decisi6n desarrollado per Breiman et al. (1984) trat~ ?e identificar que variable independiente puede hacer que sucesivamente una dectSi6n hecha a Par r de los dates haga dividir al grupo original de dates en pares de subgrupos y una variable dependiente. Es impertante tener en cuenta que, a diferencia de la regre'i6ri que devuelve un subcenjunte de las variables, a traves de los arboles de clasificaci6n se puede clasificar, en cambio, a las facteres que afectan a la tasa de retenci6n. Al respecto, dice Ricardo Blanco: /,------------------------- --------, Un arbol de decisi6n es un conjunto de condiciones organizadas en una estructura jerarquica, de tal manera que la decisi6n final a tomar se puede determinar siguiendo las condiciones que se cumplen desde la rafz del arbol hasta alguna de sus hojas. Los arboles de decisi6n se utilizan desde hace siglos, y son especialmente apropiados para expresar procedimientos medicos, legales, comerciales, estrategicos, matematicos, 16gicos, etc. Una de las grandes ventajas de los arboles de decision es que, en su forma mas general, las opciones posibles a partir de una determinada condici6n son separadas. Esto permite analizar una situaci6n y, siguiendo el arbol de decisi6n apropiadamente, llegar a una sola acci6n o decision atomar. Tornado de: Blanco, 2007. Para entender coma funcionan los arboles de decision se h 'd t·nente· d • . . , . . a ere, o per 1 ,Lntro ucvtr, 1 a cont1nuac1on, el s1gu1ente ejemplo desarrollado por la tesis de Joel oaeza a ero. En la figura 4.1 se muestra un arbol de decisi6n qu .e perm1te decidir si · na partida de golf, de acuerdo a las condiciones climati se Juega o no ucas. El nodo rafzes el clima y tiene tres ramas: soleado nublado . . del nodo rafz clima es soleado entonces d . ' d Ylluv,oso. S1 el valor de la prueba ' ' esc,en e al node . t tiene dos ramas: <=75 y >75. Si el valor de la b in erno Humedad. Este nodo prue a del nodo · t 5 entonces, desciende al nodo hoja que especifica el I in erno Humedad es <=7 , al nodo hoja que especifica el valor No juega. va or Juega, en caso contrario, desciende Si el valor de la prueba clima es nublado ent • ' onces, desciend I . . el valor Juega. S1 el valor de prueba del nodo 1 . e a nodo hoja que espec1fica . . c ima es lluvioso d 1nterno V1ento. Este nodo tiene dos ramas· fal , entonces, desciende al no o nodo interno Viento es falso, entonces desc·· dso y ve rd adero. Si el valor de la prueba ctel . . , ,en e al nod h . En caso contrano, desc1ende al nodo hoja q . . 0 OJa que especifica el valor Juega. ue espec1ftca el valor N . OJUega
  • 24. CaJ,ibdo 2: Teontcas Yapllcact6n de la mmerta de datos Clima nublado lluvioso Juega falso verdadero Juega No juega Juega No juega Figura 4.1 Arbo! de decision para jugar una partida de Golf Tornado de: Loaeza, 2009. Ricardo Blanco brinda en su tesis otro ejemplo para entender las arboles de decision. Consideremos un ejemplo clasico usado para la explicacion de los arboles de decision: la clasificacion de plantas iris. Este problema consiste en determinar de que tipo de planta se trata (Iris setosa, Iris versicolor o Iris virginica) en base a las caracterfsticas del ancho y largo de su petalo y/o sepalo. En la figura 2.2 se muestra una representacion en forma de arbol de decision para este problema. Lpetalwidth? ( lris-setosa lpetalwidth? lpetallength7 lris-virginica lris-versicolor lpetalwidth? ( lris-virginica J lris-versicolor Figura 2.2 Arbol de decision para determinar el tipo de plantas iris
  • 25. Este arbol de decision en concreto funciona coma un «clasifkador es de ir dada. ' lin.:i nueva planta nos la clasifica en una de las clases pos,bl_es, para lo cual basta con recorrer el arbol desde la rafz hasta alguna de sus hojas, en func,on del valor de las atrlbutos del dato a clasificar. Los algoritmos de aprendizaje de arboles de decision mas habituales se Ilaman algorit11105 de partici6n o algoritmos de «divide y venceras». Basicamente, el algoritmo va construyendo el arbol (desde el arbol que solo contiene la raiz) anadiendo particianes Y los hijos resultantes de cada particion. Logicamente, en cada particion, los ejemplos se van dividiendo entre lo hijos. Finalmente, se llega a la situacion en la que todos las ejemplos que caen en los nodos inferiores son de la misma clase y esa rama ya no sigue creciendo. En la figura 2.3 se puede observar un algoritmo basico para generar un arbol de decisi6na partir de un conjunto de ejemplos, utilizando la tecnica de «partici6n». IALGORITMO Partici6n (N:nodo, E:conjunto de ejemplos) fil todos los ejemplos E son de la misma clase e ENTONCES Asignar la clase e al nodo N. SALIR // Esta rama es pura, ya no hay que seguir partiendo. N es hoja. Sl..Nil Particiones := generar posibles particiones. MejorPartici6n := seleccionar la mejor partici6n seg(m el criterio de partici6n. PARA CADA condici6n i de la MejorPartici6n HACER Ai'iadir un nodo hijo i a Ny asigllar los ejemplos consistentes a cuda hijo (Ei). Partici6n(i, Ei). // Realizar el mismo procedimiento global con cada hijo. FIN-PARA FlN-SI FIN-ALGORITMO Par~ ~enerar un modelo con un conjunto de ejemplos E, se invoca con la llamada Part1c16n(R,E), donde R es till nodo raiz de till arbol por e ,mpez,tr. Figura 2.3 Algoritmo de aprendizaje de arboles de decision por «partici6n» (divide y vcncerii:,) Como puede verse, una caracteristica importante de t 1 . I ·da I rti . ·, d es os a goritmos es que una veze eg1 a pa cIon ya no se pue e cambiar au , ·d I . , , nque mas tarde se pudiera comprobar que hil sI 0 una ma a elecc1on. Por tanto; uno d I , . . t I d . e os aspectos mas Importantes a considerar en csto~ sis emas es e enom1nado criteria de rti ·, . pa cion, ya que una mala eleccion de la partici6n (especralmente en las partes superiores del , b I) , . ar O generara un arbol peor. Por lo tanto, las particiones a considerar 1 • • diferencian fundamentalmente a I d. _Ye cnteno de seleccion de particiones son lo que fecha coma CART ID3 c4 5 t os ISUntos algoritmos de «particion » existentes hr15la la , , , . , e c. Tai y coma hemos mencionado ot d, ra caracterist' · · b le' e decision se pueden expresar co . ica interesante es qu e lo'.:. ar o ~ mo conJuntos d 1 . ,n de condiciones ENTONCES accio' n E t e reg as de la form a SI co n1 unf I0 · s as reglas s b . de 10s caminos que llevan desde el nod , h e O tienen al recorrer cad a un° .. oraIz astaun d . . , son las condrcrones de las reglas. no o hoJa, donde las part1c1one
  • 26. Capftulo 2: Tecn1cas y apltcaolon de Ja mtnerfa de detos Por ejemplo, el arbol de la figura 2.4 se puede expresar como el conjunto de reglas siguientes: SI petalwidth <= 0.6 ENTONCES lris-setosa SI NO II petalwidth > 0.6 I SI petalwidth <= 1.7 I I SI petallength <= 4.9 ENTONCES lris-versicolor I I SI NO II petallength > 4.9 I I I SI petalwidth <= 1.5 ENTONCES lris-virginica I I I SI NO lris-versicolor II petalwidth > 1.5 I SI NO lris-virginica II petalwidth > I.7 Figura 2.4 Algoritmo de arbol de decision de la base de datos Iris Como hemos mencionado anteriormente, las particiones son un conjunto de condiciones exhaustivas y excluyentes. Cuantas mas particiones permitamos mas expresivos podran ser los arboles de decision generados y, probablemente, mas precises. Ademas, mas posibilidades tendremos de encontrar los patrones que hay detras de los datos. No obstante, cuantas mas particiones elijamos, la complejidad del algoritmo sera mayor. Por tanto, la calidad de un algoritmo esta determinada por el compromise entre expresividad y eficiencia. Debido a esto, la mayoria de los algoritmos de aprendizaje de arboles de decision solo permiten un juego muy limitado de particiones. Asf, el C4.5 contiene un solo tipo de particion para los atributos nominales y un solo tipo de particion para los atributos numericos: 1. Particiones nominales: una condicion de la forma Xi = Vj,1 ~ j ~ k, siendo xi el atributo nominal seleccionado y Vj cada uno de sus k posibles valores. 2. Particiones numericas: las particiones numericas admitidas son de la forma {Xi ~ a, Xi > a} donde Xi es un atributo numerico y continua, y a es una constante numerica que se obtiene observando valores consecutivos del atributo y calculando sus puntos medias. La expresividad resultante de las particiones anteriores se conoce como expresividad proposicional cuadricular, ya que parte el espacio del problema mediante segmentos paralelos a las ejes. Vease, par ejemplo, la figura 2.5 para un problema bidimensional. 0 1 0 0 00 0 X > 0.25 0 □ □ □ □ □ □ 0 □ □ □ X > 0.66 X> 0.75 □ □ 0 0 0 □ □ 01 Y> 0.25 y > 0.6 Figura 2.5 Partici6n cuadricular del espacio obtenido por un arbol de decision para un problema con dos atributos (Xe Y) numericos
  • 27. Asl, n probl mas d la ifi a ion, un mod lo es jimplicltamente o explicitamente) unil div1s16n d I p 10 d tn tan ,as n region s, ada una de las uales se les asigna 1mil d t rmtn da I s d las posibl s. Dado un conjunto de ejemplos de entrenarnienlo del Ltill r nd mos un mod lo, este spreciso si las reglones que produ e coincide con las regione~ v rd d ras d sos jemplos; el algorltmo produce modelos estables si produce las mismas r gl n s al proporclonarl dos dif r ntes conjuntos de entrenamiento del mismo domin10; YI s m d los son comprensibles en cuanto indlea claramente (a un usuario humano) c11ales s n I s r g1ones de la clase. Basandose en la idea de buscar particiones que discrlminen o que consigan nodos mas puros (donde un nodo puro es aquel en el que los ejemplos que caen en el son todos de la misma lase), se han presentado en las ultimas dos decadas numerosos criterios de particion, tales omo el criteria del error esperado, el criterlo Glni, los criterlos gain, gain ratio y el criteria usado en el algoritmo C4.5 y el DKM. Estos crlterlos de particlon buscan la particion s con la menor lmpureza l(s), definlda de la slguiente forma: Ks) = L p/(p>p~,- .. ,p~) J=l...n Donde n es el numera de nodos hijos de la partici6n (numero de condiclones de la particion), Pj es la probabilidad de que un ejemplo «calga» en el nado j, y Pij es la proporcion de elementos de la clase i en el nodo j, siendo c el numero de clases. La funci6n f() se denomina funcl6n de impureza y, par tanta, la funci6n l(s) calcula la media ponderada (dependiendo de la cardlnalldad de cada hijo) de la impureza de los hijos en una partici6n. Baja esta formula general, cada criteria de partic16n implementa una funci6n f distinta, como se muestra en la tabla 2.1: Tabla 2.1 Funclones de lmpureza para algunos criterios de parlicl6n Crlterio /( 1 l c pl, p, ..., p) I I Error esperado min(p 1 1 ' )' p ' ..., p GINI (CART) 1 - }:(p )2 I Entropfa (gain) LP log(p) I I DKM 21n(p i";I Tornado de: Blanco, 2007. l
  • 28. Capitulo 2: Tecnicas y apllcad6n de la mlner:fa de datos 2.2.2 Redes neuronales Segun Chong Ho Yu et al. (2010), las redes neuronales, tal coma su nombre lo indica, tratan de imitar a las neuronas interconectadas de las cerebros animales con el fin de hacer que el algoritmo sea capaz de realizar un aprendizaje complejo y extraer asr patrones Y detectar tendencias. Este esfuerzo se basa en la premisa de que las estructuras de datos del mundo real son complejos y, par lo tanto, requieren el aprendizaje de sistemas complejos. Deese modo, una red neuronal entrenada puede servista como un «experto» en la categorfa de informaci6n que ha sido dada a analizar. Este sistema experto puede proporcionar proyecciones y dar nuevas soluciones a un problema del tipo «lque pasa si...7». La red neuronal tipica se compone de tres tipos de capas, a saber: la capa de entrada, la capa oculta y la capa de salida. Es importante observar que hay tres tipos de capas, no tres capas en la red. Puede haber mas de una capa oculta y la complejidad de esta depende de c6mo el investigador plantee el modelo. La capa de entrada contiene las datos de entrada, la capa de salida es el resultado, mientras que la capa oculta realiza la transformaci6n y la manipulaci6n de datos. Debido a que la entrada y la salida estan mediadas por la capa oculta, las redes neuronales son comunmente vistas como una especie de caja negra. Benjamfn Moreno (2009) sostiene que el llamado perceptr6n multicapa (multilayer perceptron) es uno de las modelos de redes neuronales mas utilizados. Este surgi6 de una generalizaci6n del modelo propuesto par Rosenblatt en 19582 . Este modelo planteaba un perceptr6n simple de una sola neurona para separar par medio de un hiperplano un conjunto de entrenamiento linealmente separable (Moreno, 2009). / Explica y detalla este autor: En el caso de las seres humanos dentro del cerebra existe un numero equivalente de 1010 de neuronas y con un aproximado de 104 interconexiones entre cada una de ellas. A nivel del funcionamiento de cada neurona, este es muy lento comparado con un procesador (las neuronas realizan 10 operaciones par segundo mientras que las procesadores realizan millones de operaciones par segundo). Las partes que conforman a una neurona son tres: las entradas llamadas dendritas, el cuerpo mismo de la neurona y las salidas llamadas axones. En la parte final de cada axon se encuentra un elemento que permite la comunicaci6n con mas dendritas de otra neurona, llamado sinapsis. Las neuronas aceptan miles de sei'lales de entradas con una fuerza determinada, dependiendo de estas la neurona emite una sei'lal de respuesta, par lo que las sinapsis pueden entonces trasmitir una sefal debil o fuerte dependiendo de la fuerza que haya salido del procesamiento de la neurona. Desde un enfoque matematico el funcionamiento de una neurona puede representarse par una lista de sus seflales de entrada que son multiplicadas par sus pesos correspondientes y despues son sumadas cada una de las entradas. 2 Vease el articulo de Rosenblatt: Rosenblatt, F. (1958). The perceptron: a probabilistic model for Information storage and organizationin the brain. Cornell Aeronautical Laboratory Psychological Review. Vol. 65. pp. 386-408.
  • 29. ' ) EntrJda A. n in, psi --, e la, u a,q ee ntrada acia las de as ne rn as It , El , del I perceptr6n sim e es uno de m c as na·l am ial. t ual ttataba de imitar el compo lamient n njunt de entradas a nes simples ~as cuales s u . d la neurona a t ra ·s de un conJu to de eptr6n se encuentra una funci6n Que su a n d ta neurona, En la figura 2.9 se m esn-a un re ptr6n simple. n r-,ta Termina i ne del Jxon uer e la ·oma) ma is Nu I / ~ Mielina Sinap is siguiente 0 Sali a f(l ) x n Dendritas FlsurJ 2. M del rc,~I de la neuronJ (a) y rnod I de per eptr n simple (b) T nt el p rteptr6n simple corno el perceptron multicapa (PMC) son repres ntaci 1nes ~ una r d n uronal Jrtifi i;,il. Cuando se unen varios perceptrones en una capa vI s tirnul 5 re lbidos en las entr(ldas de · ada uno son sun1ados, se considera que se ti ne uI1,1 rt:1d neuron I. El -nfoque d I PM C e, precisamente cornbinar varios perceptr n simples ell un esquema d nd la salid s de ada uno, son transmitidas varias capas hasta llegar fi11<ilrnentt:1 las salidas d los PM .
  • 30. Capttulo 2: Tckntcas y apbci4n de la mlnena de datos La estructura de PMC esta dividida por capas las cuales son: la capa d entrada, la s) capa(_s) oculta(s) Yla(s) capa(s) de salida(s). En este tipo de red neuronal artificial se ingre a un numero de entradas que van conforme al numero de neuronas que hay en la apa de entrada, despuesestasse conectan con las neuronas de lacapa oculta por rn dio de verti .es, en donde cada salida de las neuronas presentes en la capa de entrada, se asocia a c da una de las neuronas en la capa oculta. Una vez que estan conectadas todas las salidas de la capa de entrada a las entradas de las neuronas de la capa oculta, se repite el mismo procedimiento en caso de qu se presenten mascapas ocultas, si no es el caso lassalidas de cada neurona en la capaoculta es conectada ala capa de salida, de la misma forma que se describi6, teniendo finalmente las salidas finales del PMC. En la figura 2.10 se muestra el esquema basico del PMC: 1 - - ~ s. Capa de entrada Capaoculta Capa de sal1da Figura 2.10 Modelo del perceptr6n multicapa- retropropagaci6n En las decadas de los 60 y 70 no hubo metodos de entrenamiento apropiadospara los PMC, se vio detenido el interes por estas tipologias. Fue hasta mediados de los 80 cuando Rumelhart [52] propuso un metodo de entrenamiento para las PMC llamado retropropagaci n (backpropagation). Funcionamiento del perceptr6n multicapa , retropropagnci6n El termino retropropagaci6n se basa en el metodo del gradiente descendlenteparaencontrar el error en una red hacia adelante (feed-forward, de aprendizaje supervisado, en donde se necesita un conjunto de entrenamiento y el valor o meta esperada), que es una aplicaci6n directa de la regla de la cadena utillzada en calculo diferencial [53]. El funcionamiento de este tipo de redes neuronales artificiales se puede dividir en las siguientes dos etapas: 1. Los dates de entrenamiento se pasan hacia delante, las salidas son calculadas alw land el error en cada caso. 2. Se realiza entonces el paso hacia atras en donde el error calculado en la capa de alida, e utiliza para cambiar el peso de cada capa oculta de la red neuronal, ha ta II sar a la capo de salida, calculando recursivamente losgradientes locales para cada neurona.
  • 31. l Al final de estas dos etapas se tiene un PMC entrenado. , . d construccion de un PMC: A continuaci6n, se muestra el algoritmo basico e 1. Determinar la arquitectura. • Cuantas unidades de entrada y salida. • Cuantas capas ocultas y unidades en cada capa oculta. · · · I t rios pequenos por ejemplo E [-11]2. lnic1alizar todos los pesos y sesgos a valores a ea O , Yel valor den. 3. Repetir hasta que el criteria de terminacion sea satisfecho. • Presentar un ejemplo de entrenamiento y pasarlo par la red (forward pass). • Calcular la salida actual y el error en cada salida. • Adaptar los pesos empezando porla capa desalida ytrabajar hacia atras (backwardpass). En donde se tiene: W (t + 1) = w (t) + LiW ➔ w (t) Peso del nodo pal nodo q en el tiempo t pq pq pq pq LiW = n. 8 . O ➔ Cambia de pesospq q p 8.= (8.- 0 1 ). o . {1- O} ➔ Para cada unidad de salida de la neurona iI I I I 8,= o,. {1-0) . LWij. 8; , En donde para cada unidad oculta j, y la suma sabre todos los nodos i en la capa anteriorj,Oi son las salidas obtenidas y 6 i son las salidas deseadas. Es necesario proponer una funcion f sigmoide (la funci6n de activaci6n en el caso del perceptron simple), que sea diferenciable. La funci6n sigmoide es una de las funciones de transferencia mas utilizadas. Produce salidas continuas y proporcionales al nivel de activaci6n de la neurona dentro del rango [0,1); sus niveles de saturaci6n son 0 y 1, por lo que su salida maxima sera 1 y la mfnima 0. Cuando el nivel de activaci6n supere al umbral de saturaci6n maxima la salida seguira siendo 1 y cuando el nivel de activaci6n sea inferior al umbra! de saturaci6n mfnimo la salida seguira siendo 0. Es comun tomar la funci6n sigmoide exponencial denotada por: Cuya derivada es: 1 f(x)=- 1 + e-x f'(x) = 1 (1 + e-')2e-• Aunque tambien se usan otras coma la tangente hiperb61ica: e•- e-• f(x)=--- o la entidad: f{x) = X
  • 32. Capftulo 2: T~lcas y apllcadOn de la rntnerfa de datos Si escogemos la funci6n sigmoide exponencial tendrfamos el siguiente criteria: Si 1 f(x)=-- 1 + e-• entonces f '(net) =f(net). (1 - f(net)) =0 . (1 - 0)Q Q Usualmente se utilizan criterios de para para este tipo de metodos, las cuales son: 1. Numero de epocas: se le llama epoca al proceso de entrenar 1 vez el perceptr6n multicapa sabre todos las ejemplos. 2. Error minima cuadrado: esto se realiza al llevar acabo el entrenamiento, en donde se tiene un registro de las errores que se van presentando en cada una de las epocas y se decide parar cuando se encuentre un error mfnimo. En cuesti6n de las funciones de activaci6n tenemos las siguientes opciones: 1. Diferenciables (el metodo propuesto de retropropagaci6n). 2. No lineales. 3. Monot6nica (una funci6n que siempre crece o decrece). 4. Lineal para valores pequenos. 5. Asimetricas. Tornado de: Moreno, 2009. La construcci6n de la red neuronal se realizara a traves de un exhaustivo proceso de experimentaci6n basado en la prueba y el error, en el cual la precision y la capacidad de generalizaci6n del modelo dependeran del numero de neuronas en la capa oculta. Dicho numero debe ser suficiente para la realizaci6n correcta de la predicci6n, pero lo suficientemente bajo como para poder permitir la generalizaci6n. 2.3 Aplicaci6n de la mineria de datos En la actualidad, segun Hernandez et al. (2004), la minerfa de datos se esta aplicando en diferentes campos de manera satisfactoria. La siguiente tabla es un resumen de los diversos ambitos en los cuales esta practica esta contribuyendo activamente. Tabla 2.1 Diversas aplicaciones de la minerla de datos Pr:bblema • ldentificar patrones de compra de los clientes Comercio y marketing • Buscar asociaciones entre clientes y caracterfsticas demograficas • Predecir respuesta a campanas de e-mailing • Analizar la canast~ de compra
  • 33. B n i:,t(mco-, Seguros v alud prlvada Transportes • Dcterm,nar Iii planiflcaci6n d la di'tribuci6n entre t1endas • Anallzar J1Jfronr~:; de carga • ldent1f1car t raplas medlcas atfsfactor1as para diferentes Medlclna nf rmedad s • Asoclar sfntomas y clasificaci6n diferencial de patologias • Extraer modelos obr cornportamiento de compuestos Procesos lndustrlales • Det ctar piczas con trabas • Predecir fallo!> Fuente: el autor. Hay muchas otras areas en las que interviene hoy en dfa la minerfa de datos. Para saber mas acerca de este asunto en particular, se puede consultar un documento ubicado en la siguiente direcci6n electr6nica: <http://www.it.uc3m.es/jvillena/irc/ practicas/06-07/22.pdf>. En este archivo subido a internet hay informaci6n sobre otros ejemplos interesantes como las siguientes: 6.4 Investigaci6n cspacial 6.4.1 Proyccto SKYCAT Durante seis af1os, el Second Palomar Observatory Sky Survey (POSS-II) coleccion6 tres terabytes de imagenes que contenfan aproximadamente dos millones de objetos en el cielo. Tres mil fotograftas fueron digitalizadas a una resoluci6n de 16 bits par pixel con 23040 x 23040 pfxeles por Imagen. El objetivo era formar un catalogo de todos esos objetos. El sist_ema Sky l~1age Cataloguing and Analysis Tool (SKYCAT) se basa en tecnicas de agrupac16n (clustenng) y arbolesde decisi6n para poder clasificar los objetos en estrellas, planetas, sisternas, galaxias, etc., con una alta confiabilidad. Los resultados han ayudado a l~s ~str6nom_os a d~scubrir dieciseis nuevos cuasares (sef'iales radiales lejanas) con comm,ento hac1a el roJo que las lncluye entre lo b' ,. 1 . 5 del . . s o Jetos mds e1ano universe y, por cons1gulente, masantiguos.Loscua ares son fuent d X diaci6n · 'bl t b',/.. • f . es e rayos , ra ultravioleta, luzv1s1 e Y am lt'n in rarro1a; en otras palabra 1 . . 6 d d' '6n de . · s, a emIsI n e ra IacI 105 cuasares resulta inten a en todo el espectro lectr ,/.. . son . .. omagno::t1co. Estes cuasares dlffciles de encontrar yP rm1ten saber mas acerca de I r . os or genes del universe. [... J
  • 34. 6.6 Textos WEB MINING 6.6.1 Medicina ~na aplicaci6n _muy po~~lar del text mining es relatada en Hears (19SSJ. or w 2. so intenta extraer 1nformac1on derivada de colecciones de t ·xt T · d . , e , o. ,e 1en o e I c en e cs expertos solo pueden leer una pequena parte de todo lo que se p blica 0 5 c..ampc, y 0 lo general ta~poco pueden tener en cuenta los nuevos de arrollos q e ~e _ eeden e O ns campos relac,onados, y teniendo en cuenta que la cantidad de n evo O r e ,- - , se publican es cada vez mayor, la aplicaci6n de la mineria de datos e c lec.cio 1 es c;E: ~eY'.' 12 resultando mas importante. Asf, Swanson ha demostrado c6mo cade 1a e I rol1cac1 0 ,E:S causales dentro de la literatura medica pueden conducir a hip6tes,spara e ern 1 eda .e; occ, frecuentes, algunas de las cuales han recibido pruebas de soporte expen ,e -1. 1 11esti~ c las causas de la migrana, dicho investigador extrajo varias piezas de evide cia 2 pa . _e titulos de articulos presentes en la literatura biomedica. Algunas de esa f21e • e ,: • El estres esta asociado con la migrana. • El estres puede conducir a la perdida de magnesia. • Los bloqueadores de canales de calcio previenen algunas migranas. • El magnesia es un bloqueador natural del canal de calcio. • La depresi6n cortical diseminada (DCD) esta implicada en algunas migra - as. • Los niveles altos de magnesia inhiben la DCD. • Los pacientes con migrafa tienen una alta agregaci6n plaquetaria. • El magnesia puede suprimir la agregaci6n plaquetaria. Estas claves sugieren que la deficiencia de magnesia podria representar un papel e alg nos tipos de migrafa, una hip6tesis que no existia en la literatura y que Swanson encontro e<fi e esas ligas. De acuerdo con Swanson, estudios posteriores han probado experimentalme te e.sta hip6tesis obtenida por text mining con buenos resultados. Tomadode:Virseida, F.& Roman,J.,s.f. Disponible en:<http://www.it.uc3m.esfJvillena/irc/practic.as/~ Para continuar con el entendimiento de la mineria de dates, la discusi6n se va cen ra en seguida en una sola area. En este caso, se trata de la mineria de datos en la educaci6n y, especfficamente, de la forma en que esta es aplicada en el ambito de la universidad. 2.3.1 Mineria de datos en la educaci6n La comunidad de mineria de datos web <www.educationaldatamining.org> define la minerfa de datos en educaci6n de la siguiente manera: Educational Data Mining is an emerging discipline, concerned with developing me_thods for exploring the unique types of data that come from educational settings,_and using those methods to better understand students, and the settings which they learn ,n. [La minerfa de datos en educaci6n es una disciplina emergente, preocupada por el desar~ollo de metodos para explorar los tipos unicos de datos que provienen de loscentros educanvos, institutes, universidades, y el uso de esos metodos para entender mejor a los estud1antes l Tornado de: <www.educationaldatamining.org>. Traducci6n del autor.
  • 35. prime ED Collects a rl e EDUCAT. DATA EDUCATORS ea ers, Figura .1 Fuente: <I · •1i1 l cef efialan acerca e la r en ren 3 .] m stan ar ' p rtunities ·a er in re&SJ. e la mineria de atos apli ada al 2 eraI e •m diferentes a tores del E 1 eden • enefi iarse n i rsas e ·e~ se pue en en ntrar en el ~a al 1f EOUCAllONAl. INF.stSTEMS ITS.AEt1, TU,. tMS r-----.L 1,>1b. :-t I t' I ( , f ,, , .::.::-," r, 1 , ', ·t, t.
  • 36. ' Ahora se van a revisar algunas investigacianes de minerfa de datas que se han realizado en el campo de la educaci6n. Para ella, se tamar;l coma eje tem;itica las Ultimas investigaciones hechas sabre deserci6n estudiantil en institucianes de educaci6n superior. De este grupo se dar;l mas impartancia a las investigacianes que se hayan llevado a cabo mediante el uso de t<ecnicas de minerfa de datas (redes neuronales yarboles de decisi6n). a. Nandeshwar et al. (2011) realizaron un trabaja para predecir si las estudiantes se mantendrian en la universidad durante las tres primeros arias de una licenciatura. Para este estudio, los autores consideraron 103 variables, algunas de las cuales se pueden observar en la tabla 2.2. Al finalizar esta investigaci6n, se lleg6 a la conclusion de que los factores mas importantes para que un alumna continue estudiando son el sueldo familiar, la situaci6n socioecan6mica de la familia, el promedia de notas escolares y el rendimiento academica de las pruebas en la educaci6n superior. Tabla 2.2 Lista de atributos por hip6tesis planteadas ,. ·~ ' ! Desalpd6n de ayuda Descrfpd6n de indlc:adores f';,;'; _._ Atrlbuto de rendlmiento flnandera't: ACT puntaje integral (antiguo) Manto de subvenciones ACT_COMP FinAidAwardType_G de ayuda financiera Manto de ayuda financiera ACT puntaje deACT_ENGL Ingles (antiguo) FinAidAwardType J en las puestos de trabajo ACT puntaje delmporte de ayuda ACT MATH Matematica (antiguo) .FinAidAwardType L financiera de prestamos lmporte de ayuda ACTl_COMP ACT puntaje integral (nuevo)FinAidAwardType S financiera de beca FinAidAwardType W lmporte de ayuda. financiera de renunc1a ACTl ENGL ACT puntaje de Ingles (nuevo) ACT puntaje de Estado de dependencia ACTl MATH Matematica (nuevo)FinAidDEPENDENCY FinAidFATHER ED Nivel de educaci6n del padre ACTEQUIV ACT equivalente al puntaje Maximo del puntaje ACT lngresos del padre MaxACT y el equivalente ACTFinAidFATHER WAG COMP READ Leer puntuaci6n de alcanceNivel de educaci6n FinAidMOTHER ED de la madre COMP Escribir puntuaci6n FinAidMOTHER WAG lngresos de la madre WRITE de alcance Puntaje total de SATlndicador de ay~da SAT TOT FinAidOfferedlnd financiera ofrec1da SAT VERB Puntaje verbal de SAT -lngreso bruto de los padres C6digo de la e_scuela offeredindicator Tamano del hogar HS CODE secundana -FinAidPARENT HOU de los padres Rendimiento academico HS GPA del coleg10 -.. d los padresEstado civil eFinAidPARENT MAR
  • 37. 'jil'", I Ducrlpcl6n d1 lndlcado"'i , ~ ,...~.,.,... Mrlbuto ..... .. d1 rtndlmltnto ' tlMnclerl Tlpo de formuliHIO HS_PERCENT PN nlll de la ('. ,U(-:;- FlnAldPARENT TAX lmpuesto de los padres ' unclarl,1 p ' --- Salarios del conyuge HS_RANK 0°,ICIOII ('II 1.1 (",LIH•l(I FinAldSPOUSE_WAG ~ccu1Hlr1rl<1 Tamoi'o de r.las --HS_SIZE dc- lo FlnAldSTUDENT_AG lngreso bruto de losestudlantes es u ·la secund, rl~ -Tamai'o de familia de Percf'ntii cir• rf'1Hfo111<•i,tD FinAldSTUDENT_HO RankHSGPA acilrlf'ni1c11dr- tr,l(J•,u, las estudlantes e~tudi.intc", d1· 11111111•1.iic, -P re nti l de r1ct. maxirno FlnAldSTUDENT_MA Estada civil de los estudlantes RankMaxACT de todos los c Iud1antc: de primer a1o FinAidSTUDENT_TA Tipa de formulario impuesto ANTH18 115cn10 en cl cu, o de las estudiantes lit' Ant ropolofdil FinAidSTUDENT_WA Salarla de las estudiantes BSCllO lnscrita en el cur ocl Cl ncia blol6gi n FirstGenlnd lndicador de la primera CHEMlO lnscrito en f'I cur~o generacion d Quimica TotalFlnAldOffered Total de ayuda ofrecda ENGlO lnscrlto en el ur ode Ingle ENG11 lnscrito en f'I cuI -.,o dt' 111~t•, GEOLll lnscrito n ('C11 $0 de G ologir1 LEST16 l11scrito 0 11 Cll l '.,O1, dl' cti~tr,1t l 1011 - MATHlO In crito n I I cur de nivel 100 cir M,1tl•11i.ti~ MATHll lnscrito <'11 pl u1,l1d,· nivcl I 10 d(' M,11,•111,1t1l .1 - -MATH12 lnscrito 0n r•l t tII,(l Ii' niv I 1.2 ci(' ,,ll'll1,lll1 MATH14 n~c1itu t'll l'i 1111,,llk nlvl'I '1 d , ll.11,•111,11n-' ... PHYll In I i(1 ('11 (' ( lII sl) dl' niv I I I dL· I 1,iL,~ _..... I ·1lll''I PEP15 l n sc 1Ito r n C'I t ui •,P 1 ' l S rt• [rlu< .1t 11',n l 1"•I1 ''..--- Fuente: Nandeshw r . -a et al. (2011). j
  • 38. Para el estudio se aplicaron tecnicas coma one-R, C4.5, AD trees, redes bayesinas, bayes networks y radial biasnetworks. De todos ellos, fueron usados para el experimento los arboles de decision (vease la figura 2.2) y las redes bayesianas, con lo cual se obtuvo una precision del 90 %. - 1 0ptimista 17% $1,100,000.00I $ 2,100,000.00 ' $ 1,033,333.33 true - -lgual que lngresos Mas probable 4 67% $50,000.00 la inversion $ 1,000,000.00 $ 950,000.00 Pesimista 1 17% $ 700,000.00 ~ $ 300,000.00 Inversion $33,333.33 Optimista 35% 0% $ 550,000.00 false < $ 260,000.00 Otro lngresos $ 800,000.00 Pesimista 65% $ 540,000.000% $ 260,000.00 Yuna false 0% $ 0.00 Figura 2.2 Arboles de decision Fuente: Nandeshwar et al. (2011).
  • 39. 1 En la siguiente tabla se muestra un resumen de la literat ura que revis6 el autor. Tarnbien se detallan las tecnicas y la precis_ion Que se obtuvieron en cada uno de los estudios revisados. Tabla 2.3 Reporte de tecnicas usadas vprecision obtenida ....... del ~,.; - ·AIIIDr(ailD) Malas klenldas(I) aa11111ldas l") M111das.P1esld6n Cd,J 1 ••• n tr l"IPO Rl de 0-3132 oara Spady (1971} 683 615 90.04 horn~ y 0.38-9 ::,1 fIBf;T3J.OT' .....,ut:;pe para muJ~ ii.2 de 0.22 :::,2'= Bean (1980) 906 769 84.88 rruJere,, iJ 09 s ~"':31.0- "7')..Jb::,ti> para hombro EstucflO 1 379 60 15.8 R2de 0.l~ Si ,.:._.~i,;dsrr~ I Esrucfio 3 518 428 81.63 iU ce- {U55 5,_ I :~-~-LY' - , Jb:>l:? Terenzini& PascareJla (1980) Estudio5 763 673 88.20 Rldeo.303 s. ~&ss liisor.c:ni.s-..tr ~~0 ~-6::->-:~ j Estudio 6 763 673 :38..20 ~...rT":: , ....:_~5..3 s :t_- a 1:;;:;, :js._- n.r-~~ P.:~ -...- ..~~s I ~ (1989) 323 ~ 9LOO SA ~8.gs:m 1s::: :&oo ~,- 7·::-•~ ~: .3,3--!- s. -:if'", :r: ,:,t ' Dey & Astin (1993) 947 ll.:3.:' L tl.323 - ~~i:,- Proba~ ~ I-0-o,a,o,WS Murtaugh et al. (1999) 8667 5200 60 ~~~3~ s ~ S..,~t'~ , I ~i~ Bresciani & Carson 3535 3:~1 SS.3f :;_: ~'::' .."' ~'.:: ~- ::- ~~:-.l.'"'1-- (..~..!:---.~-; (2002) I Cualquier de-sen:ion t no solo d e pnmer I G.lynn et ol. l2003) ai,:i- preos1ones 32.:.1 l~':l2 .1-i L'S :-,.,_,' ---·:,''. _'. : ,· ---~·. :- "..-.~"'·:~·1..,' 1~ l'¥ :::-,.."l.-> sabre la ba5e I de kb jat;:is di.: Ient ren.ln"ento I I
  • 40. ........ ., ..,,_, -- 1111,nld•· ......... 11■••••p1111II H e-■1 11 .. 11 t ..111ll'UDO 5261 4014 76.30 77.4 % dfc preosjon s.: ;;_~f:'',Y',i( ·~ Herzog (2005) 4298 3314 77.10 4671 4040 83.50 85.45 de precision 5i P~c<...J6r i.:ig::soca 8L6 % de prerisol 2444 1943 7950 scbre el entrenamiento, Regrewn.ogistle3 el 80,7%en validacioo 83.9 %de precision Sujitparapitaya (2006) 2445 1994 7950 w bre el entrenamiento, Retles neuronates el 82,1 % en validacion 855 % de precision 2445 1994 7950 wbre el entrenamiento, (4.5 el 84,4 %en validacion Redes neuronales, Precision cerca CHAID, Herzog (2006) 8018 6037 75.29 del 75 % C4.5, CR&T, regresion logistica ,, f~ 82.24 Precision de la Arboles de decision Entrenamiento 3829 3149 desercion 91,84,84,78 (entropy, chisq, Atwell et al. (2006) Precision de la gini) y regresion Prueba 5990 4881 81.49 desercion 88,2,82,73 logistica Precision de entre AdaBoostMl De Long et of. (2007) 50 57%y60 % with decision stumps Precision total de Regresion logfstica, 78-81 %, precision Pittman (2008) 21,136 17,139 81.10 de no retencion redes neuronales, de 44-63 % Bayes, J48 Fuente: Nandeshwar et al. (2011).
  • 41. 1 · · de lo e tutli 5 he h ~ e I asa eh & Hobson {201 1) hicieron una rev smn d_ t d' t... tr·atli _ 1 _ 'Le . d meto os e a 1 ., l 1,1,;:iJ eserc16n estudiantil, a partir del uso e . d id tifi ar I ra lul s ecnicas cualitativas utilizadas con el fin e en 1 _ P~que . ltadode st , o ut r . 11111a ec an la re encion de las estud1antes. Como resu . a1, r pr cisioh que lo 111 ludo dlos me odes estadisticos por mostrar una meno - fl . II dos modelos d red t1 Utrn,ale1 erfa de datos. En consecuenc1a desarro an . t .'i · • -1' hacia adel ht P r pr ti t 11I{ gura 2.3) que emplean una red de alrmentac on . , a · , d I las e ingen1erfa I r ITl l1u LieIre enoon de estudiantes en las carreras e c enc a nable principal que vendrfa a ser el rendimiento academlco (GPA). Input Hidden layer Output layer ( ) P1 a, LWi IIW, 1 2 X i 4xl 4x2 nl -;:- 3x4 4x l 1 ;i,- y -►I t J 4xl 4 3 )( 1 J ____ _ ___ _) Figura 2.3 Mufti/ayerfeed forward back propagation network Fuente: Alkhasawneh & Hobson (2011). El primer modelo que plantea el trabajo de investigaci6n predice la retenc16n de estudiantes del primer anode ingreso e identifica factores correlacionales ntrelos factores preuniversitarios. Par su parte, el segundo modelo clasifica a los grupos de primer ano en tres clases: en situaci6n de riesgo si el GPA es menor que 2.7, en nivel intermedio si el GPA esta entre 2.7 y 3.4, y, por ultimo, en nivel alto sl el GPA es mayor a 3.4. El experimento se realiz6 con un total de 338 estudiantes de 1°5 cuales el 44 % representa a las carreras de ingenier{a y el 56 % corresponde alos alumnos de ciencias. En las tablas 2.4 y 2.5 insertadas a continuaci6n se muestra los resultados obtenidos en cuanto a la precisi6n del modelo.
  • 42. Capttulo 2: T6cnlcas y apllcacl(m de la mlnerfa de datos Tabla 2.4 La mejor precision obtenida para el valor R Vlrlable S&E Clencla lngenierra Valor R 0.54 0.57 0.59 Precisi6n 68% 70.S % 68.9% Total 338 190 148 Fuente: Alkhasaw neh & Hobson (2011). Tabla 2.5 Resumen de los resultados de analisis de errores Variable S&E Clencla lngenleria Mfnimo 0.002808 0.000519 8.06E-05 Maximo 2.623909 1.652878 2.772855 Promedio 0.41657 0.408178 0.410695 Fuente: Alkhasawneh & Hobson (2011). / 47 c. Jadric et al. (2010) realizaron un estudio de la deserci6n estudiantil para lo cual usaron la metodologia SEMMA yen seguida aplicaron tecnicas de mineria de datos como regresi6n logistica, arboles de decision y redes neuronales. En ese proceso se tomaron en cuenta las variables que se muestran en la tabla siguiente: Tabla 2.6 Variables identificadas Variable ID Sexo Estado Programa de estudios Calificaciones del padre Calificaciones de la madre Condici6n social lndicador de la vivienda Agrupacion del examen de entrada Fuente: Jadric et al. (2010).
  • 43. El experimento fue llevado a cabo con cada una de las tecnicas antes m ncionad Y para ello se tom6 una muestra de 286 estudiantes. Despues del entrenan11e as. . n~ se pudo observar que 98 estudiantes desertaron, mientras que 188 studiLJnt contin_uaron sus estudios. Esto ocurri6 despu~s del segundo afo tal como s niuest~~ en la figura siguiente: 1 34.3 '6 2 65.7 96 1 98 2 188 Total 286 36.39' 63,79' 78 137 215 M1t-OceJena 1 1 100.09' 100,09' 2 0.0 ,t, 0.09' 1 79 60 2 0 0 Total 79 60 1 1 100.0% 100.0% 2 0.0% 0.0 % 1 7 4 2 0 0 Total 7 4 ...2 1 16.3 9' 2 83.7'J(i 1 8 2 41 Total 49 Figura 2.4 Analisis par arbolesde d .. .ec1s1on Fuente: Jadric et al. (2010) ...3 l 9.2 9' 11.6 9' 2 90.89' 88.4 ,t, 1 19 18 2 188 137 Total 207 155 Stat-Ocefena ...3 1 6.09' 9.3 9' 2 94.0 9' 90.79' l 12 14 2 188 137 Total 200 151 JuE•Otejena 22.69' 11.49ili 1 ., 24 31 11t i otal l 1
  • 44. Una vez comparados los m,.(.t d .e o os experiment d neuronales se comportan mu b' a os, se determine que lac r d . Y 1en en problem d 1 . . . , .. e es Sin embargo, su desventaJ·a e . , as e c as,ficac,on mas comple·o , n comparac,on co I , J s. que ver con el modelo de aprend· . n os metodos mas sencillos tiene I izaJe, ya que este · r ' ento y exigente (optimizaci6n de I f ,mp ,ca un proceso relativamente os actores de peso). %de respuesta 80 -i-- --.1.- 10 20 30 40 so Nombre de tecnlcas ■ Regresion ■ Regresion - 2 Figura 2.5 Evaluaci6n y comparacion de modelos Fuente: Jadric et al. (2010) 60 70 80 90 100 ■ Arbo! de decision ■ Linea base ■ Redes ■ Redes - 2 d.Lykourentzou et al. (2009) desarrollaron un metodo de predicci6n orientado al fen6meno de la deserci6n estudiantil en los cursos de e-learnfng. Este metodo se basa en tres tecnicas populares de aprendizaje automatico. Las tecnicas de aprendizaje automatico utilizadas son las redes neuronales con aprendizaje hacia adelante, las maquinas de soporte de vectores y el conjunto probabilistico simplificado ARTMAP difuso. Los autores mencionados tambien senalan en su artfculo que una sofa tecnica puede fallar para clasificar con precision a algunos estudlantes de e-/earning, mientras que otro puede tener exito.
  • 45. 7 cooesto. seplantean tre.s sistemasdetoma dedecisionesfundamp ~~ b . V,Qry e a mostrado en la figura 2.6, los cuales se com man para obti:; · 0 es s;; ..n .nl ..,tl l os a artir de las tre.s tecnicas de m.aquinas de aprendiz.aje_-· I~ ~I 0 tel i IO, 1, 2, 31 ~ e3 - - -~ - -- ,,. " se u ·1izaro ta to las ariables que i O sa· s a(a les q e sf lo so (ses,on~ la tabia 2.7..
  • 46. Tobia 2.7 Atributos de estudiantes usadas para el entrenamiento y testeo de redes de aprendizaje automatico Categorfa reladonada Atributo Rango de valores con la literatura Genero Masculino, femenino Demografico Residencia Capital. provincia Atributos invariantes Experiencia de trabajo >=0 anos en el tiempo Basico, intermedio, Nivel de educaci6n alto, grado de Rendimiento master, gr·ado PhD academico ldioma ingles Elemental, basico, alto, completo Calificaci6n del examen con 0-20 opciones multiples Calificaci6n de 0-100 Atributos variables proyecto en el tiempo Fecha de presentaci6n del proyecto (dias >= 0 contados a partir de la secci6n de plazo) Actividad de la secci6n >= 0 Fuente: Lylcourentzou et al. (2009). El metodo fue examinado en terminos de precision general y sensibilidad. La precision obtenida se encontraba en un rango del 75 % al 85 % y sus resultados fueron significativamente mejor a los de otros trabajos realizados. e. Dekker et al. (2009) realizaron un trabajo de minerfa de datos aplicada a la educacion basado en la informacion existente en torno a los alumnos de lngenieria Electrica de la Universidad Tecnologica de Eindhoven (donde la desercion es de 40 %}. El periodo elegido fue el tiempo despues del primer semestre de estudios y el anterior al ingreso al programa. El objetivo del trabajo fue determinar que datos (variables) son las predictares de la deserci6n y determinar cuanda la predicci6n es mejor, asi coma las variables a utilizar en el desarrollo del trabajo de investigacion, las cuales tienen que basarse a su vez en los datas preuniversitarios.
  • 47. 7 Tab a . tes usadas para e·I est dio 2 8 Atributos de estud1an Atrtbutos 1lpo Dauipci6w IDNR Numerico Solo para chequear los datos -Principales cambios en el siste 2 °c1 -- - ---..._ - _,_ - ' - 1-:i · J:. Ano vwo Nominal {1.4, 'n/a'} Curricula de educad6n pre - -a {: : . ~? ,eCurrkulo VWO Nominal Numero de cursos VWO numerico Numero de cursos tomados -{n/a, pobre, promedio, sob e e r r ff : - Promedio VWO Nominal excelente} - Numero de cursos de Nominal {n/a, < 3, 3, >3} ciencias VWO Promedio en ciencia VWO Nominal AsVWO mean Numero de cursos de Nominal {n/a, 0,1,2} matematicas VWO Promedio de matematica Nominal AsVWO mean vwo Educaci6n HO Nominal {n/a, electrico, tecnico, o ro - Ano HO Nominal Igual categoria VWO afio - Grado HO Nominal As VWO mean Ano Gap Nominal {n/a, <-1,-1, 0, 1, >1} Clasificaci6n Nominal {-1, l} Fuente: Dekker et al. (2009). El experimento fue hecho con la participacion de 648 estudiantes ~ ,,._ lngenierfa Electrica. Los resultados obtenidos mostraron que los clas·, : :. sencillos e intuitivos (arboles de decision) dan informaci6n significa · l "· una precision de entre 75 %y 80 %. f. Lin et al. (2009) realizaron un trabajo en el cual se propane una c l j~ 't··cinco modelos de retencion y se hace uso de cuatro metodologfas de eO -":- ~~ entre las cuales se encuentran las redes neuronales, la regresi6n logf · a,el•:i.:<l--· discriminante y el modelo de ecuaciones estructurales. En los modelos e ...r:} propuestas se consideraron diferentes conjuntos de datos que an es e ., q•.-= 71 variables de entrada, entre ellos, variables de factores cognitivos o que pueden ser revisados en la tabla 2.9.
  • 48. C II Ca 2:T«nicas y~ A.lcl6adala1R1ner1a de datos Tobia l .9 Prediction de reten ·o de e diantes de ingenieria Variables para la retenci6n un afios despues ioe azgo t - - - - - - - - 1 Fae es daria Factores no cognitivos ayo decision cog I . OS Promed10 de escuela secu daria e Materna··ca, Cie d as e I gles A oe,·cac1a · e o de eces q e le o a , atematica Equipo otivacio Fuente: Lin et al. (2009). El experimento fue hecho con 1508 estudiantes de los cuales 289 eran mujeres y 1219 eran hombres. Los resultados del experimento de los cinco modelos propuestos demostraron que el metodo de red neuronal produce los mejores resultados de predicci6n con respecto a los otros tres. De esa manera, se consigui6 una precision de 71.9 % en el modelo C que usaba variables cognitivas y no cognitivas. g. Yathongchai et al. (2003) realizaron un estudio en el que se considera que existen tres factores importantes que afectan la tasa de deserci6n de los estudiantes. Estos factores son las condiciones relacionadas con los estudiantes antes de su ingreso, los factores relacionados con los estudiantes durante los perfodos de estudio en la universidad y, finalmente, todos los factores que incluyen el valor del objetivo a predecir por el analisis de factores. El estudio fue llevado a cabo en la Universidad Buriram Rajabhat, con 731 estudiantes de los cuales 251 estudiantes desertaron. La informaci6n fue obtenida de diferentes tablas de la base de datos academica MIS y las variables que se consideraron para el estudio se muestra en la tabla 2.10. Tobia 2.10 Variables relacionadas con los estudiantes Variable Descripd6n Poslblesvalores -}il Pragrama para estudiar en {230, 240, 241, 243,247, 249, 264, 265,284, 285, Pragrama la facultad de Ciencias 286} debil, media, GPA entre el terml-term4 buena, mejar, debil =GPA < 1.6 GPA1-GPA4 {dentro del ana academica media= GPA 1.6 - 1.99 2008- 2009) bueno = GPA 2.0 - 2.5 mejor =GPA> 2.5 GPAX de la educaci6n numeroGPAX del colegio secundaria Programa de estudio en la {1, 2, 3} = Ciencia + Matematica Programa del 2 = Lenguaje + Matematica Colegio educaci6nsecundaria 3 = otro.
  • 49. '11111111 •Ill,_ to Ico 10 1ano, grande} bandono { . 2. 3, .5.6. o} 0 ~ rc,6n Es do de aban o o {Si, o} Fu nte: Ya ong a1 rol (200 ) Para realizar las pruebas se utiliz6 la tecnica de arboles de decision basada en la clasificaci6n J48 o C4.S y NaiveBayes. Como herramienta de desarrollo se utilizo el software Weka con 513 casos para realizar el entrenamiento y 218 casos para realizar la validaci6n del modelo, tras lo cual se obtuvieron los resultados que se muestran en la tabla 2.11. Tobia 2.11 Comparaci6n de los resultados de dos algoritmos de clasificador sabre todos las factares J48 Redes bayesianas 0aslftcador Conjunto de Conjunto de Conjunto de Co junta de validaci6n pruebas validaci6 n pruebas Precision 87.00 % 84.86 % 85.08 % 82.11 % - TP Rate 0.87 0.849 0.851 0.821 ---FP Rate 0.073 0.066 0.033 0.033 --TN Rate 0.843 0.831 0.864 0.872 -----FNRate 0.851 0.849 0.851 0.821 Fuente: Yathongchai et al. (2003). Una vez presentado este balance sabre la aplicacio' n d 1 . , d d Iestudi0 . , . . e a minena e atos a de la deserc1on estud1ant1I en la educaci6n supe . cionar , . , nor, se puede pasar a men otras tecnicas y metodos que han sido usados p . , . ara este m1smo propos1to. • Regresi6n logfstica (RL): este metodo ha sido 1 . tudios . . amp 1amente utilizado en loses educativos para predec1r la retenci6n del estudian . , estad0· Levin & Wyckoff (1991), Casa (1993) Scha ff te o la graduac1on de ere et al. (1997) YZhang & Richarde (1998), han u:li:~sd~t al. (1997), Beserfi~!d-~;g,scica para estudiar la permanencia de 1 . modelos de regres1on te, os estud1antes I . . terrien Besterfield-Sacre et al. (2002) desa 11 en os coleg1os. Rec1en . ara rro aron un mod I d . , I , t,ca p predecir la permanencia de los estudia t d . e O e regres1on ogis d·ante n es e pnm ~ d . . , me 'el cual la precision obtenida fue de 68 0 er ano e 1ngenieria, . on el estado de la inscripci6n en la ingen·i , ,Bd 1/o. French et al. (2005) estudiardOel ena espu , d an modelo de regresi6n logfstica, a partir d es e 6 u 8 semestres, us %de clasificaci6n correcta. Entre estos estud· e 10 cual reportaron una tasa de 65 que105 sobre la retenci6n de los estudianteS
  • 50. usan modelos de RL solo Schaeffers et al. (1997) reportaron una tasa de clasificaci6n correcta en la retenci6n superior al 70 %. Sin embargo, su modelo requiere el uso de GPA acumulativo (rendimiento) de la universidad coma el factor mas importante para predecir la persistencia a lo largo de 3 a 5 anosy, por lo tanto, es menos adecuado para aplicar los principios de dinamica de asesoramiento para estudiantes de primer afo. • Analisis discriminante (DA): este es otro metodo utilizado en el analisis de la retenci6n de los estudiantes universitarios, segun el modelado planteado por varies investigadores. Pascarella & Terenzini (1983), por ejemplo, estudiaron el retire de los estudiantes al final del primer afo mediante el analisis discriminante, y alcanzaron tasas de clasificaci6n correcta de entre el 77 % al 81 %. Sin embargo, sus factores fueron recolectados durante el primer ano del estudiante y, par lo tanto, fueron menos aptos para la intervenci6n temprana. Fuertes & Sedlacek (1994) utilizaron el analisis discriminante y tomaron en cuenta los factores preuniversitarios, cognitives y no cognitives para estudiar la retenci6n de los estudiantes universitarios asiaticos. Se inform6 de un 64 % y el 68 % correcci6n clasificaci6n para el quinto y septimo semestres de retenci6n. Burtner (2005) estudi6 el estado de inscripci6n despues de un afo en el caso de estudiantes de ingenierfa e inform6 una clasificaci6n correcta de 85,2 %. Sin embargo, sus dates se recogieron en la ultima parte del segundo se est e (abril), por lo que tambien su enfoque es menos adecuado para la interve ci6 temprana con los estudiantes de primer ano. • Modelos de ecuaciones estructurales (SEM):estos tambien han concit ado la a enci6 de los investigadores. Aitken (1982) desarro116 un modelo de ecuaciones estructurales de satisfacci6n y rendimiento de estudiantes, e inform6 que el 19,4 % de la varianza en la retenci6n de los estudiantes puede ser explicado por su modelo. Nora e al. (1990) estudiaron la relaci6n entre la retenci6n y los factores de pre-uni ersitarios e inform6 de los factores en su modelo SEM represent6 el 15,3 % de la varia za e ta retenci6n. Cabrera et al. (1993). Tambien utilizan el SEM para modelar la re e ci6 de estudiantes universitarios despues del primer semestre. Se inform6 de u S % de la varianza observada en la retenci6n puede ser explicado por su modelo, co los factores mas importantes coma promedios de la universidad despues del pri er afo. French et al. (2003) estudiaron la relaci6n entre la matricula en inge ie ·a, con rango de factores, incluyendo la escuela secundaria, SAT, el GPA de la uni ersidad la motivaci6n, los profesores y la integraci6n de los estudiantes. Encontraro que su modelo SEM represent6 el 11%de la variaci6n observada en la matricula de inge ieria. • Redes neuronales (NN): este es un enfoque de modelado bien desarrollado ent e las diferentes herramientas dentro de la comunidad de la inteligencia artificial (I ). Durante las ultimas decadas ha side ampliamente utilizado en aplicacio es que involucran tecnicas de predicci6n y clasificaci6n, especialmente, en las areas de ingenieria, negocios y medicina (Kukar et al., 1999; Smith & Gupta, 2002; Tsoukalas & Uhrig, 1997). El modelo de red neuronal es especialmente atractivo para el mcxielado de sistemas complejos, debido a sus propiedades favorables: la capacidad universal de la funci6n de aproximaci6n, alojamiento de multiples variables no linealesvariables con interacciones desconocidas y la capacidad de generalizaci6n (Coit, Jackson & Smith, 1998). Mas informaci6n sabre la aplicaci6n de modelos NN para predecir la retenci6n de estudiantes en ingenieria se puede encontrar en lmbrie etal. (2008).
  • 51. d llado un marco de referencia qu id ntif1 ;, Algunos investigadores h~n esdarro er. a cabo en una etapa tempran Par, (1 Irr.. r nesgo e ca . ,w.I· estudiantes con ma_yo . 1 tudiantes que la necesitan, dado I aum~ntc j .,,_ instituciones den as1stenc1a a d~s etses en ciencia e ingenierfa (« & E»), a,kin (~i<r; I; I'd d tid d de los estu ian ✓, "y. ca , a Ycan a t fsticas del estudiante, tales come el GPA (rendirni,. 'J hizo hincapie en que las carac er . . I ,. f .rn,1 , . . bles ambientales como v1v1r en e campu o ucm cJ,. r.1 academ1co) y otras vana . :, participar en la primera programaci6n d~ un aflo y pertenecer _a una orn~mirJ;,0 . • 1 d d' • de v'ida son meJores productores de ex1to d I tudi:irn,. res1denc1a e apren 1zaJe , ,.. Lin et al.(2009), en una investigaci6n de minerfa de datos e~ torno a 1508 tudi:int~·; de primer ano de ingenierfa en una universidad del_med10 oeste durante I c:ur·.ri 2004-2005 han usado varios metodos para la retencr6n de modelado de stwfoin ': de primer 'ano de ingenierfa, tales como redes neuronales, anal_isis di.,criminari ~. regresi6n logistica y modelos de ecuaciones estructurales. El estud,o agr g6 el orig~r, etnico, el genera y la ciudadania como factores influyentes, pero los resultadosfur.iro 1 inconsistentes entre todas las instituciones incluidas. En Tailandia, los investigadores estaban interesados en la aplicaci6n de las dato) metodos de extracci6n para predecir el rendirniento estudiantil. En su inv stigaci6n, Nghe et al. (2007) compararon la precision del arbol de decision y de los algoritmo! bayesianos para predecir la red tanto de pregrado y el rendimiento academico de loi estudiantes de posgrado de dos instituciones diferentes. En el trabajo de Mendez (2008) los datos utilizados fueron de 1884 estudiantesde primer afio que se especializaron en la ciencia, tecnologia, ingenieria y maternatica (STEM). En ese caso, la data fue recogida de los alumnos inscritos en el ano academico 1999-2000. El estudio se centr6 en 6 de las 18 variables disponibles y ellos fuero genera, etnia, nacionalidad, prornedio acadernico de secundaria, SAT cuantitativa yel SAT verbal. En el caso de Ayesha et al. (2010) se utiliza la tecnica de minerfa de datos llamado «K-m~ans», un clustering ~ara analizar el comportamiento de aprendizaje de 1~1 e st udi~nte~ Y~~yo ~so busco ayudar a los profesores a reducir la deserci6n en relacion a un nivel s1gn1ficativo y mejorar el desernpe~ d 1 . no e os estud1antes. Sembiring et al. (2011) aplicaron el rnetodo d I k , . ineria de datos apropiada para 1 . 1 e ernel como la tecnica de rn ana 1zar as relacio . de 101 estudiantes y su exito Lueg d nes entre el comportam1ento de los estudiantes par~ pred~c· es 1 :rr_ollaron el modelo de predictores de rendirnient: ire t:Xlto de estos rn d. I d factore psicometricos como de pred·ict . e 1ante e empleo tanto e ores variables. Wu et al. (2010) optaron por la te . . ala informaci6n de los estudiantes d cnica de rn1neria de datos y la aplicaron on el metodo basado en los algo ~~ar ada en el alrnacen de base de datos. Ellos usarso revelaron que el algoritrno de~, brnols de arbol de decision y los resultados del cauir dr o de de · '6 d' ting entre los meritos del nivel d I c1s1 n de rnineria de datos puede is ·on de la clasificaci6n general y e os_ ~studiantes universitarios realizar la evaJuaCd'os t d' . perrn1tir asi I I etO ra ,c1onales no sean aptos I reso ver el problema de que /os rn para a evaluaci6n de los alumnos.
  • 52. 1. Los modelos de minerfa de datos se pueden clasificar en predictivos y descriptivos. En el caso de las predictivos, se tiene una variable en donde el valor es desconocido y la finalidad es determinarlo. Esta variable se llama respuesta, variable dependiente u objetivo, mientras que aquellas utilizadas para hacer la prediccion son los predictores o variables independientes. En relaci6n a los modelos descriptivos, en ellos no se cuenta con un resultado conocido para poder guiar a los algoritmos. Por eso, se habla de modelos de aprendizaje no supervisado, donde el modelo se va ajustando de acuerdo a las observaciones o datos entregados, y se recurre muchas veces a argumentos heurfsticos para evaluar la calidad de los resultados. Algunos algoritmos que se utilizan en estos modelos son los de clustering y los de reglas de asociaci6n. 00 XI 2. Existen muches metodos de minerfa de datos. En este capftulo se estudian los arboles de decision y las redes neuronales por ser los mas usados para la solucion de problemas de clasificacion. El arbol de decision permite encontrar la variable independiente que puede hacer que, de manera sucesiva, una decision hecha a partir de los datos divida el grupo original en pares de subgrupos en la variable dependiente. Es importante tener en cuenta que, a diferencia de la regresi6n que devuelve un subconjunto de las variables, los arboles de clasificaci6n pueden clasificar los factores que afectan a la tasa de retenci6n.
  • 53. . t a las redes neuronales, estas tratan de imitar a las . n I que respec a . , 1 . neu,0 , inten:: ne tadas que hay en los cerebros de los an,ma es con el fin de hacer 13; ale ritm ea capazde realizar el aprendizaje complejo para la extracci6n de Paqtu~ .1 B 'Dr1n, te tar t ndencias. ,) • 4. La miner a de datos ha venido siendo aplicada en diferentes areas para resolverur abanico de diversos problemas con buenos resultados obtenidos al dfa de hoy. Enl3 tabla siguiente se resumen algunas de estas areas de aplicaci6n3 . Problema • ldentificar patrones de compra de los clientes C merc:io vmarketing • Buscar asociaciones entre clientes y caracteris i cas demoorahca:, • Predecir respuesta a campanas de e-mailing • Analizar de la canasta de compra • Detectar patrones de uso fraudulento d taqe u'> de er ·d1 o • ldentiticar a clientes leales Banca • Predecir clientes con probabilidad de camb1ar su ahl1ac16n • Deter inar gasto en tarjeta de credito por grupos • Encontrar correlaciones entre indicadores financ1• os • I ·ne car reglas de mercado de valores a par rd da o~ ,,. < p://v '1uc3m ; · I ' eria de d . es Jv1 lena/irc/practicas/06-07/22.pdf a OS. lo misrn , ade as O es pos1ble en la direcc1on <h · • a ase de da·o 1t s con a cual hacer pruebas. 00 ri, d nt S" p Uf' iJC' , //a1c ive ,r.s
  • 54. Area de aplicad6n Seguros y salud privada Transportes Medicina / Capftulo 2: Tttnl a YapU a 160 d 1 min "' d d to Problama • Anal1zar los procedirn1ent s 111e' d·1co O I1·c-1ta1jo J c I,IuntJIn 'ntc • Predecir que cliente ompran nueva µoli J • ldentificar patrones de comport,1mient pJra cli nt 11 ri - • ldentificar coinportami nt fr udul ~nt • Determinar la planificaci6n de I distribuci 11 entI t' ti 'll(°Ll • Analizar patrone d carna • ldentificar terapias m ' di a satisfa t ria par3 dif r 111 • Asociar sfntomas y cla ifica ion difer n i I p t I Id~ • Extraer modelos sabre comportamiento de compue t Procesos industriales • Detectar piezas con trabas • Predecir fallos 5. La mineria de datos en educaci6n es una disciplina que esta siendo desarrollada n la actualidad de manera exhaustiva con el fin de crear metodos para explorar l_os tipos (micas de datos provenientes de los centros educativos, colegios, institutos y universidades, y usar esos metodos para entender mejor a las estudiantes. Se han hecho trabajos de investigaci6n y modelos para predecir la deserci6n de estudiantes universitarios mediante el empleo de diversas tecnicas como la regresi6n logistica, el analisis discriminante, las redes neuronales, las arboles de decision y otras mas que tambien son nombradas en este capitulo. Collects and use EDUCATIONAL INF.SYSTEMS IITS, AEH, TEL, LMS EDUCAT. DATA Learning objects, event logs (usage, interaction), grades, learner profiles EDUCATORS Teachers, study advisers, directors of education, education researchers L . . . - . . - - - - - - , 1 EDMTASKS Student profiling, 1+---~ knowledge modeling, drop out prediction DISCOVERED KNOWLEDGE Descriptive (process) models, {learning) patterns, outliers, (performance) predictions, advices and recommendations enroll (to courses). use (learning) res urc s. pass tests, collab rat (with other tudents), f---~ LEARNERS Pupils, students, professionals, patients
  • 55. s =.... c _2 a - c - _ ,. a --e era c..a es so as caracteristicas ae la ~e.......... e, e es ecia , a e a capaci a de poaer - ,. e ase e a os para la ob enci6n de los s a -ra 1es e las ·re e es ecnicas con que ~ e -c1 2 e~--a e :a a ·es s , e e . ,. oo , :e e--co oci ie,.., o e laaplicaci6n de la mineria Contenido 3. SPSS Clementine 3.1.1 Sector publico 3.1.2 CR 3.1.3 Web mining e ~e .·e e ac·e o e sectores como la administraci6n .1e i i g, a creaci6n de farmacos, el desarrollo de la o s aeas e i e ·gaci6 . 3.1.4 Desarrollo de farmacos