SlideShare una empresa de Scribd logo
1 de 69
Buenos Aires, marzo de 2016
Eduardo Poggi
Analytics – Árboles de decisión
 ¿Induciendo árboles?
 Implementando árboles
 Criterio de selección
 Criterio de parada
 Sobreajuste
 Valores numéricos
 Valores faltantes
 “Árboles se buscan”
 ¿Árboles o bosques?
Analytics – Árboles de decisión
 ¿Induciendo árboles?
 Implementando árboles
 Criterio de selección
 Criterio de parada
 Sobreajuste
 Valores numéricos
 Valores faltantes
 “Árboles se buscan”
 ¿Árboles o bosques?
¿Árboles?
 Probablemente el método más conocido para resolver
problemas de clasificación
 Muy asociado a nuestra forma de proceder
 Uno de los primeros desarrollos en ML
¿Árboles?
¿Árboles?
ID3 and its successors have been developed by
Ross Quinlan, who discovered it while
working with Earl Hunt in the 1970s. He
subsequently worked at Sydney Uni, Rand
Corporation in California, UTS, back to Sydney
Uni, and several years at UNSW. He now runs
his own company Rulequest
www.rulequest.com
IDT - Induciendo árboles
 IDT : Induction of Decision Trees
 A partir de un conjunto de instancias clasificadas (ejemplos,
evidencia) inducir un árbol de decisión que pueda ser utilizado
para predecir la clase de instancias no clasificadas (y no vistas
previamente).
¿Árboles?
Ejemplos = instancias
clasificadas
Evidencia
¿Árboles?
(D33, Overcast, Frozen, Normal, Weak, ?)
¿Árboles?
 Método de aproximación de funciones de valores
discretos.
 Lenguaje de representación de instancias:
 conjunciones de valores discretos.
 Lenguaje de representación de hipótesis:
 Disyunción de reglas conjuntivas.
 Características:
 Capaz de aprender conceptos disyuntivos.
 Tolerante al ruido en atributos y clase.
 Tolerante a valores faltantes en atributos.
 No incremental.
¿Árboles?
 Estructura de datos recursiva definida por:
 Nodos hoja que indican un rótulo de clase.
 Nodos internos que contienen un test sobre el valor de un
atributo. Para cada resultado del test hay una rama y un subárbol
con la misma estructura que el árbol.
 Representación alternativa:
 conjunto de reglas: IF Condición THEN Clasificación
Induciendo árboles
 El problema de encontrar un árbol de decisión que
concuerde con el conjunto de entrenamiento tiene una
solución trivial.
 Simplemente construimos un árbol de decisión que tenga una
rama por cada ejemplo.
 El problema con este árbol trivial es que solo memoriza las
observaciones.
 No extrae ningún patrón a partir de los ejemplos y no puede
extrapolar a ejemplos que no vio.
Induciendo árboles
 Extraer un patrón significa poder describir un gran
número de casos de un modo conciso. El lugar de sólo
tratar de encontrar uno que concuerde con los ejemplos,
deberíamos también tratar de encontrar uno conciso.
 Este es un ejemplo de un principio general del
aprendizaje inductivo:
 La hipótesis más probable es la más simple que sea consistente
con todas las observaciones.
¿Hipótesis consistente con
todas las observaciones?
Induciendo árboles
 Navaja de Occam (Occam's Razor)
 El principio de economía o de
parsimonia hace referencia a un tipo
de razonamiento basado en una
premisa muy simple:
 En igualdad de condiciones la solución
más sencilla es probablemente la
correcta.
 No ha de presumirse de la existencia de
más cosas que las absolutamente
necesarias.
 No hay que desarrollar sistemas más
complejos que lo necesario.
William of Ockham
(c. 1280/1288– 349)
Fraile franciscano, filósofo y lógico
inglés oriundo de Ockham
¿Es posible construir
sistemáticamente el árbol
“óptimo” en términos de
Occam?
Induciendo árboles
 Desafortunadamente, encontrar el árbol de decisión
óptimo (más chico) es un problema intratable, pero
algunas heurísticas simples logran encontrar uno
suficientemente pequeño.
 La idea básica del algoritmo es usar primero el atributo
“más importante”, donde esto significa el que tiene un
efecto más importante en la agrupación de los ejemplos
en conjuntos que comparten la misma clasificación.
Induciendo árboles
 ¿Heurística?
 Como metodología científica, la heurística es aplicable a cualquier
ciencia e incluye la utilización de: medios auxiliares, principios,
reglas, estrategias o algoritmos que faciliten la búsqueda de vías
de solución a problemas.
 “Sobre un punto de vista heurístico concerniente a la producción
y transformación de la luz”, Albert Einstein, 1905
Analytics – Árboles de decisión
 ¿Induciendo árboles?
 Implementando árboles
 Criterio de selección
 Criterio de parada
 Sobreajuste
 Valores numéricos
 Valores faltantes
 “Árboles se buscan”
 ¿Árboles o bosques?
Induciendo árboles
 ID3 (Ejemplos, Clase, Atributos)
 Crear nodo Raíz del árbol
 Todos los Ejemplos tienen la misma Clase?
 retornar rótulo = Clase
 Atributos = ∅ ?
 SI: retornar rótulo = Clase más frecuente
 NO:
 A <- ELEGIR_ATRIBUTO (Atributos, Ejemplos)
 Raíz <- A
 Para cada valor posible v de A
 Agregar una nueva rama debajo de Raíz con test A = v?
 Ejemplos_v <-{elementos de Ejemplos con A = v}
 Ejemplos_v = ∅ ?
 SI: agregar debajo de esta rama un nodo hoja con valor más frecuente de
Clase en Ejemplos
 NO: agregar debajo de esta rama el subárbol ID3 (Ejemplos_v, Clase,
Atributos – {A})
Es un algoritmo?
Clase más frecuente?
Implementando árboles - Criterio de partición
 Asumamos que el Criterio de Partición se limita a
seleccionar un atributo.
 ¿Cómo elegir el atributo más “importante” para dividir?
 Muchas aproximaciones:
 Information Gain
 Information ratio
 Gini
 … tantas como autores
Implementando árboles
 Existen varios aspectos prácticos a resolver a la hora de
implementar árboles de decisión.
 Cuál es el objetivo del árbol?
 Cuál es un buen criterio de partición?
 Qué tan profundo debe ser el árbol?
 Cómo se pueden incluir atributos continuos?
 Qué pasa cuando hay valores faltantes?
 Cómo podemos afrontar la eficiencia computacional para grandes
evidencias?
Implementando árboles - Criterio de partición
Attributes: size and humidity
Size has two values: >t1 or <= t1
Humidity has three values: >t2, (>t3 and <=t2), <= t3
size
humidity
t1
t2
t3
Class P: poisonous
Class N: not-poisonous
Implementando árboles - Criterio de particiónhumidity
t1
t2
t3
Suppose we choose size as the best attribute:
size
P
> T1<= T1
Class P: poisonous
Class N: not-poisonous
?
Implementando árboles - Criterio de particiónhumidity
t1
t2
t3
Suppose we choose humidity as the next best attribute:
size
P
> T1<= T1
humidity
P NPNP
>t2 <= t3
> t3 & <= t2
Implementando árboles - Criterio de partición
 Para decidir cual es el mejor atributo para abrir el árbol:
 Usamos algunas definiciones de Teoría de la Información.
 La medida de incertidumbre o entropía asociada a una variable
aleatorea X se define como:
 H(X) = - Σ pi log2 pi
 Siendo log2 un redefinición de logaritmo en base 2 con log(0)=0.
Implementando árboles - Criterio de partición
 P(A) = 1/256, P(B) = 255/256
H(X) = 0.0369 bit
 P(A) = 1/2, P(B) = 1/2
H(X) = 1 bit
 P(A) = 7/16, P(B) = 9/16
H(X) = 0.989 bit
There are two possible complete events A and B
(Example: flipping a biased coin).
Implementando árboles - Criterio de partición
Size divides the sample in two.
S1 = { 6P, 0NP} (size>t1)
S2 = { 3P, 5NP} (size<t1)
sizet1
t2
t3
humidity
S1
S2
H(S1) = 0
H(S2) = -(3/8)log2(3/8)
-(5/8)log2(5/8) = 0.95
Implementando árboles - Criterio de partición
humidity divides the sample
in three.
S1 = {2P, 2NP} humidity>t2
S2 = {5P, 0NP} t3<humidity<t2
S3 = {2P, 3NP} humidity<t2
H(S1) = 1
H(S2) = 0
H(S3) = -(2/5)log2(2/5)
-(3/5)log2(3/5) = 0.97
sizet1
t2
t3
humidity
S1
S3
S2
Implementando árboles - Criterio de partición
sizet1
t2
t3
humidity
Information gain IG over attribute A: IG (A)
IG(A) = H(S) - Σv (Sv/S) H (Sv)
IG(humidity)=0.94 - 4/14*1 - 5/14*0 - 5/14*0.97=0.31
Implementando árboles - Criterio de partición
 Definimos la función de Ganancia de Información como:
 IG(A) = H(S) - Σv (Sv/S) H (Sv)
 Donde:
 H(S) es la entropía del conjunto de todos los ejemplos
 H(Sv) es la entropía del subconjunto de los ejemplos con valor v
para el atributo A
 Elegiremos al atributo que maximice la IG, por lo tanto
debemos calcular IG para todos los atributos:
Implementando árboles - Criterio de partición
sizet1
t2
t3
humidity
S1S2
H(S1) = 0
H(S2) = 0.95
H(S) = -(9/14)log2(9/14)
-(6/14)log2(6/14) = 0.94
|S1|/|S| = 6/14
|S2|/|S| = 8/14
IG(size) = H(S) – ( |S1|/|S|*H(S1) + |S2|/|S|*H(S2) )
= 0.94 – ( 6/14 * 0 + 8/14 * 0.95) = 0.40
Implementando árboles - Criterio de partición
sizet1
t2
t3
humidity
S1
S3
H(S1) = 1
H(S2) = 0
H(S3) = 0.97
H(S) = 0.94
|S1|/|S| = 4/14
|S2|/|S| = 5/14
|S3|/|S| = 5/14
S2
IG(humidity) = H(S) – ( |S1|/|S|*H(S1) + |S2|/|S|*H(S2) + |S3|/|S|*H(S3) )
= 0.94 – ( 4/14 * 1 + 5/14 * 0 + 5/14 * 0.97 )
=0.31
Implementando árboles - Criterio de parada
 Hasta cuando dividimos?
 Hasta que tenga clases puras en todos los nodos
 Hasta que no tenga más variables disponibles
 O hay algo mejor?
Implementando árboles - Criterio de parada
 La versión canónica dice que el árbol se sigue
desarrollando hasta que se llega a una clase uniforme.
Esto en la práctica no suele ser efectivo.
 Existen muchas opciones de criterio de parada:
 No hay más atributos.
 Clase uniforme.
 Clase mayoritaria.
 Se supera un nivel de profundidad máximo.
 El número de casos es menor a un mínimo.
 El mejor valor del criterio de partición es menor de un umbral.
 El número de casos de los nodos hijos es menor que un mínimo.
Implementando árboles - Sobreajuste
La línea verde como clasificador se
adapta mejor a los datos con los
que que se ha entrenado al
clasificador, pero está demasiado
adaptada a ellos, de forma que
ante nuevos datos probablemente
arrojará más errores que la
clasificación usando la línea negra.
Implementando árboles - Sobreajuste
Implementando árboles - Sobreajuste
Implementando árboles - Sobreajuste
0.50.60.70.80.91.0
Tamaño del árbol
training data
testing data
overfitting
Performance
Implementando árboles - Sobreajuste
A tree overfits the data if we let it grow deep enough so that it
begins to capture “aberrations” in the data that harm the predictive
power on unseen examples:
size
t2
t3
humidity
Possibly just noise, but
the tree is grown deeper
to capture these examples
Implementando árboles - Sobreajuste
Implementando árboles - Sobreajuste
 Parar la construcción de la rama antes de sobreajustar
los datos.
 En la práctica no es tan fácil de implementar ya que no es claro
cual es buen punto de parada.
 Dejar crecer el árbol y sobreajustar. Luego ir probando
podas y verificando la performance.
 Este método es que tiene más popularidad en la comunidad.
¿Qué pasa si primero pasamos a reglas y luego podamos?
Implementando árboles - Sobreajuste
1.) Grow the tree to learn the
training data
2.) Prune tree to avoid overfitting
the data
Implementando árboles - Sobreajuste
Original Tree
Possible trees after pruning:
Implementando árboles - Sobreajuste
Pruned Tree
Possible trees after 2nd pruning:
Implementando árboles - Sobreajuste
Process continues until no improvement is observed
on the validation set:
0.50.60.70.80.91.0
Size of the tree
validation data
Stop pruning the tree
Implementando árboles - Sobreajuste
Implementando árboles - Sobreajuste
Implementando árboles - Sobreajuste
 C4.5 implementa un algoritmo de post-poda basado en la
tasa de aciertos del nivel en el cual está evaluando
comparado con el que tendría si abre el nodo.
 En cada nodo, el algoritmo compara:
 el error ponderado de cada nodo hijo con
 el error de la clasificación si se suprimen los nodos hijos y se lo etiqueta
con la clase mayoritaria.
Implementando árboles - Sobreajuste
 TreeGrowing (S,A,y,SplitCriterion,StoppingCriterion)
 Where:
 S - Training Set
 A - Input Feature Set
 y - Target Feature
 SplitCriterion --- the method for evaluating a certain split
 StoppingCriterion --- the criteria to stop the growing process
 Create a new tree T with a single root node.
Implementando árboles - Sobreajuste
 Algunos métodos de poda:
 Cost Complexity Pruning (CP)
 Reduced Error Pruning (REP)
 Minimum Error Pruning (MEP)
 Pessimistic Pruning (PP)
 Error Based Pruning (EBP)
 Minimum Description Length Pruning (MDL)
Implementando árboles - Discretización
En aprendizaje supervisado, la mejor
discretización es aquella que produce el mejor
resultado para el modelo que será utilizado para
predecir.
Implementando árboles - Discretización
Example: attribute temperature.
1) Order all values in the training set
2) Consider only those cut points where there is a change of class
3) Choose the cut point that maximizes information gain
temperature
97 97.5 97.6 97.8 98.5 99.0 99.2 100 102.2 102.6 103.2
Implementando árboles - Discretización
 Decidir cuántas categorías usar:
 Dividir en N intervalos con N-1 puntos de split
 Decidir dónde colocarlos
 Determinar cómo mapear los valores del atributo
continuo a estas categorías.
Implementando árboles - Discretización
 Métodos No Supervisados (no utiliza información de la
clase)
 Equal Width (Top-Down)
 Equal Frequency (Top-Down)
 Clustering por K-medias (Bottom-Up)
 Inspección visual de los datos y Particionamiento Natural
 Métodos Supervisados (utiliza información de la clase)
 Enfoque Estadístico (Bottop – Up)
 Enfoque basado en la Entropía
Implementando árboles - Discretización
 Permiten reducir los datos al reemplazar conceptos de
bajo nivel (ej: valores numéricos de la edad) por
conceptos de alto nivel (ej: joven, adulto, ansiano).
 Pueden existir más de una jerarquía para un mismo
atributo.
 Los atributos con conceptos tienden a ser más representativos de
lo que intentan mostrar y son más faciles de interpretar aunque
se pierde algo de información.
Implementando árboles – Discretización - Jerarquías
Implementando árboles – Discretización - Binning
 Equal Width Binning:
 divide el rango de atributos en N intervalos de la misma longitud.
 Ventajas: sencillo de aplicar
 Desventajas: se ve afectado por outliers; las instancias se distribuyen
de manera desigual.
 Equal Frequency Binning:
 divide el rango de atributos en N intervalos basados en la
distribución de las instancias. El objetivo es poner la misma
cantidad de instancias en cada intervalo.
 Ventajas: obtiene buenos resultados en conjunción con el método de
aprendizaje Naïve Bayes.
 Desventajas: al ser ajeno a las clases de las instancias puede resultar
en intervalos pobres.
Implementando árboles - Discretización
 K-Means:
 define un prototipo en términos de un centroide que es
usualmente la media de un grupo de puntos y es aplicado a
objets en un espacio contínuo n-dimensional.
Implementando árboles – Valores faltantes en atributos
 Hay varias aproximaciones:
 Ignorarlos.
 Buscar algoritmos que los acepten.
 Completarlos:
 Valor más común o promedio.
 ¿Uso la clase o no?
 ¿Miro todo el conjunto o el subconjunto?
 ¿Si elraboro un método de clasificación utilizando el atributo con
datos faltantes como clase?
 ¿Si genero y testeo?
Analytics – Árboles de decisión
 ¿Induciendo árboles?
 Implementando árboles
 Criterio de selección
 Criterio de parada
 Sobreajuste
 Valores numéricos
 Valores faltantes
 “Árboles se buscan”
 ¿Árboles o bosques?
Árboles de decisión – Búsqueda heurística
Árboles de decisión – Búsqueda heurística
¿y ahora?
 We search over the hypothesis space of all possible decision trees.
 We keep only one hypothesis at a time, instead of having several.
 We don’t do backtracking in the search. We choose the best alternative
and continue growing the tree.
 We prefer shorter trees than larger trees.
 We prefer trees where attributes with lowest entropy are placed on the top.
Enfoque tradicional …
Árboles de decisión – Búsqueda heurística
Analytics – Árboles de decisión
 ¿Induciendo árboles?
 Implementando árboles
 Criterio de selección
 Criterio de parada
 Sobreajuste
 Valores numéricos
 Valores faltantes
 “Árboles se buscan”
 ¿Árboles o bosques?
¿y ahora?
¿Árboles o bosques?
¿y ahora?
¿Hago muchas cuentas
o genero y pruebo?
¿y ahora?
¿Cuánto arriesgo?
eduardopoggi@yahoo.com.ar
eduardo-poggi
http://ar.linkedin.com/in/eduardoapoggi
https://www.facebook.com/eduardo.poggi
@eduardoapoggi
Bibliografía

Más contenido relacionado

Destacado

Poggi analytics - intro - 1c
Poggi   analytics - intro - 1cPoggi   analytics - intro - 1c
Poggi analytics - intro - 1cGaston Liberman
 
Water analysis paragraph
Water analysis paragraphWater analysis paragraph
Water analysis paragraphOmar00
 
B Ending Moments And Shearing Forces In Beams2
B Ending Moments And Shearing Forces In Beams2B Ending Moments And Shearing Forces In Beams2
B Ending Moments And Shearing Forces In Beams2Amr Hamed
 
Army Digital Media Library Walkthrough
Army Digital Media Library WalkthroughArmy Digital Media Library Walkthrough
Army Digital Media Library Walkthroughgharmon82
 
Luan van tot nghiep quan tri kinh doanh quoc te (26).DOC
Luan van tot nghiep quan tri kinh doanh quoc te (26).DOCLuan van tot nghiep quan tri kinh doanh quoc te (26).DOC
Luan van tot nghiep quan tri kinh doanh quoc te (26).DOCNguyễn Công Huy
 
Did you Know -Fusion of FA & TA Analysis on GBIME
Did you Know -Fusion of FA  & TA Analysis on GBIMEDid you Know -Fusion of FA  & TA Analysis on GBIME
Did you Know -Fusion of FA & TA Analysis on GBIMESharechart Shrestha
 

Destacado (15)

Poggi analytics - intro - 1c
Poggi   analytics - intro - 1cPoggi   analytics - intro - 1c
Poggi analytics - intro - 1c
 
Overdrive
OverdriveOverdrive
Overdrive
 
Water analysis paragraph
Water analysis paragraphWater analysis paragraph
Water analysis paragraph
 
eBooks on Your Android Device
eBooks on Your Android DeviceeBooks on Your Android Device
eBooks on Your Android Device
 
B Ending Moments And Shearing Forces In Beams2
B Ending Moments And Shearing Forces In Beams2B Ending Moments And Shearing Forces In Beams2
B Ending Moments And Shearing Forces In Beams2
 
Overdrive android
Overdrive androidOverdrive android
Overdrive android
 
Army Digital Media Library Walkthrough
Army Digital Media Library WalkthroughArmy Digital Media Library Walkthrough
Army Digital Media Library Walkthrough
 
Holly and aisha secrets and lies
Holly and aisha secrets and liesHolly and aisha secrets and lies
Holly and aisha secrets and lies
 
Accessing ebl
Accessing eblAccessing ebl
Accessing ebl
 
Segundo mapa conceptual
Segundo mapa conceptualSegundo mapa conceptual
Segundo mapa conceptual
 
The dynobots presentation
The dynobots presentation The dynobots presentation
The dynobots presentation
 
Secret and Lies Analysis
Secret and Lies AnalysisSecret and Lies Analysis
Secret and Lies Analysis
 
Caricature
CaricatureCaricature
Caricature
 
Luan van tot nghiep quan tri kinh doanh quoc te (26).DOC
Luan van tot nghiep quan tri kinh doanh quoc te (26).DOCLuan van tot nghiep quan tri kinh doanh quoc te (26).DOC
Luan van tot nghiep quan tri kinh doanh quoc te (26).DOC
 
Did you Know -Fusion of FA & TA Analysis on GBIME
Did you Know -Fusion of FA  & TA Analysis on GBIMEDid you Know -Fusion of FA  & TA Analysis on GBIME
Did you Know -Fusion of FA & TA Analysis on GBIME
 

Similar a Poggi analytics - trees - 1e

Aprendizaje automático I - Sesión 4 Árboles de Decisión.pdf
Aprendizaje automático I - Sesión 4 Árboles de Decisión.pdfAprendizaje automático I - Sesión 4 Árboles de Decisión.pdf
Aprendizaje automático I - Sesión 4 Árboles de Decisión.pdfGerard Alba
 
Introduction to SDM with Maxent JohannesS Signer
Introduction to SDM with Maxent JohannesS SignerIntroduction to SDM with Maxent JohannesS Signer
Introduction to SDM with Maxent JohannesS Signerjsigner
 
Poggi analytics - ensamble - 1b
Poggi   analytics - ensamble - 1bPoggi   analytics - ensamble - 1b
Poggi analytics - ensamble - 1bGaston Liberman
 
Árboles de Clasificación
Árboles de ClasificaciónÁrboles de Clasificación
Árboles de ClasificaciónMaricela Loarte
 
teim_sesion_007_14_15.pdf
teim_sesion_007_14_15.pdfteim_sesion_007_14_15.pdf
teim_sesion_007_14_15.pdfngduyh1
 
Presentación árbol de decisión.pdf
Presentación árbol de decisión.pdfPresentación árbol de decisión.pdf
Presentación árbol de decisión.pdfVictorFuentes337921
 
Mineria de Datos.pdf
Mineria de Datos.pdfMineria de Datos.pdf
Mineria de Datos.pdfhenry913654
 
Actividad4_Calculo diferencialintegral[507].doc
Actividad4_Calculo diferencialintegral[507].docActividad4_Calculo diferencialintegral[507].doc
Actividad4_Calculo diferencialintegral[507].docNorielJA
 
3.1.5 Backtracking.pptx
3.1.5 Backtracking.pptx3.1.5 Backtracking.pptx
3.1.5 Backtracking.pptxFernando Solis
 
Semi-supervised Learning for Word Sense Disambiguation
Semi-supervised Learning for Word Sense DisambiguationSemi-supervised Learning for Word Sense Disambiguation
Semi-supervised Learning for Word Sense DisambiguationDarío Garigliotti
 
Spss Tutorial 1
Spss Tutorial 1Spss Tutorial 1
Spss Tutorial 1vinod
 

Similar a Poggi analytics - trees - 1e (20)

Arboles y reglas
Arboles y reglasArboles y reglas
Arboles y reglas
 
Aprendizaje automático I - Sesión 4 Árboles de Decisión.pdf
Aprendizaje automático I - Sesión 4 Árboles de Decisión.pdfAprendizaje automático I - Sesión 4 Árboles de Decisión.pdf
Aprendizaje automático I - Sesión 4 Árboles de Decisión.pdf
 
Arboles de decision
Arboles de decisionArboles de decision
Arboles de decision
 
Introduction to sdm with Maxent Johannes S
Introduction to sdm with Maxent Johannes SIntroduction to sdm with Maxent Johannes S
Introduction to sdm with Maxent Johannes S
 
Introduction to SDM with Maxent JohannesS Signer
Introduction to SDM with Maxent JohannesS SignerIntroduction to SDM with Maxent JohannesS Signer
Introduction to SDM with Maxent JohannesS Signer
 
Poggi analytics - ensamble - 1b
Poggi   analytics - ensamble - 1bPoggi   analytics - ensamble - 1b
Poggi analytics - ensamble - 1b
 
Árboles de Clasificación
Árboles de ClasificaciónÁrboles de Clasificación
Árboles de Clasificación
 
Introducccion GIO 022022.pdf
Introducccion GIO 022022.pdfIntroducccion GIO 022022.pdf
Introducccion GIO 022022.pdf
 
teim_sesion_007_14_15.pdf
teim_sesion_007_14_15.pdfteim_sesion_007_14_15.pdf
teim_sesion_007_14_15.pdf
 
Presentación árbol de decisión.pdf
Presentación árbol de decisión.pdfPresentación árbol de decisión.pdf
Presentación árbol de decisión.pdf
 
Mineria de Datos.pdf
Mineria de Datos.pdfMineria de Datos.pdf
Mineria de Datos.pdf
 
Actividad4_Calculo diferencialintegral[507].doc
Actividad4_Calculo diferencialintegral[507].docActividad4_Calculo diferencialintegral[507].doc
Actividad4_Calculo diferencialintegral[507].doc
 
Pattern recognition
Pattern recognitionPattern recognition
Pattern recognition
 
3.1.5 Backtracking.pptx
3.1.5 Backtracking.pptx3.1.5 Backtracking.pptx
3.1.5 Backtracking.pptx
 
Semi-supervised Learning for Word Sense Disambiguation
Semi-supervised Learning for Word Sense DisambiguationSemi-supervised Learning for Word Sense Disambiguation
Semi-supervised Learning for Word Sense Disambiguation
 
Taller weka
Taller wekaTaller weka
Taller weka
 
T1-AprendizajeAutomatico.pdf
T1-AprendizajeAutomatico.pdfT1-AprendizajeAutomatico.pdf
T1-AprendizajeAutomatico.pdf
 
11 Estadistica Descriptiva
11 Estadistica Descriptiva11 Estadistica Descriptiva
11 Estadistica Descriptiva
 
Ramdom forest
Ramdom forestRamdom forest
Ramdom forest
 
Spss Tutorial 1
Spss Tutorial 1Spss Tutorial 1
Spss Tutorial 1
 

Más de Gaston Liberman

Poggi analytics - tm - 1b
Poggi   analytics - tm - 1bPoggi   analytics - tm - 1b
Poggi analytics - tm - 1bGaston Liberman
 
Poggi analytics - distance - 1a
Poggi   analytics - distance - 1aPoggi   analytics - distance - 1a
Poggi analytics - distance - 1aGaston Liberman
 
Poggi analytics - sentiment - 1
Poggi   analytics - sentiment - 1Poggi   analytics - sentiment - 1
Poggi analytics - sentiment - 1Gaston Liberman
 
Poggi analytics - geneticos - 1
Poggi   analytics - geneticos - 1Poggi   analytics - geneticos - 1
Poggi analytics - geneticos - 1Gaston Liberman
 
Poggi analytics - ebl - 1
Poggi   analytics - ebl - 1Poggi   analytics - ebl - 1
Poggi analytics - ebl - 1Gaston Liberman
 
Poggi analytics - star - 1a
Poggi   analytics - star - 1aPoggi   analytics - star - 1a
Poggi analytics - star - 1aGaston Liberman
 
Poggi analytics - inference - 1a
Poggi   analytics - inference - 1aPoggi   analytics - inference - 1a
Poggi analytics - inference - 1aGaston Liberman
 
Poggi analytics - concepts - 1a
Poggi   analytics - concepts - 1aPoggi   analytics - concepts - 1a
Poggi analytics - concepts - 1aGaston Liberman
 
Poggi analytics - ml - 1d
Poggi   analytics - ml - 1dPoggi   analytics - ml - 1d
Poggi analytics - ml - 1dGaston Liberman
 
Poggi analytics - bayes - 1a
Poggi   analytics - bayes - 1aPoggi   analytics - bayes - 1a
Poggi analytics - bayes - 1aGaston Liberman
 
Poggi analytics - clustering - 1
Poggi   analytics - clustering - 1Poggi   analytics - clustering - 1
Poggi analytics - clustering - 1Gaston Liberman
 
Henrion poggi analytics - ann - 1
Henrion poggi   analytics - ann - 1Henrion poggi   analytics - ann - 1
Henrion poggi analytics - ann - 1Gaston Liberman
 

Más de Gaston Liberman (13)

Taller bd8
Taller bd8Taller bd8
Taller bd8
 
Poggi analytics - tm - 1b
Poggi   analytics - tm - 1bPoggi   analytics - tm - 1b
Poggi analytics - tm - 1b
 
Poggi analytics - distance - 1a
Poggi   analytics - distance - 1aPoggi   analytics - distance - 1a
Poggi analytics - distance - 1a
 
Poggi analytics - sentiment - 1
Poggi   analytics - sentiment - 1Poggi   analytics - sentiment - 1
Poggi analytics - sentiment - 1
 
Poggi analytics - geneticos - 1
Poggi   analytics - geneticos - 1Poggi   analytics - geneticos - 1
Poggi analytics - geneticos - 1
 
Poggi analytics - ebl - 1
Poggi   analytics - ebl - 1Poggi   analytics - ebl - 1
Poggi analytics - ebl - 1
 
Poggi analytics - star - 1a
Poggi   analytics - star - 1aPoggi   analytics - star - 1a
Poggi analytics - star - 1a
 
Poggi analytics - inference - 1a
Poggi   analytics - inference - 1aPoggi   analytics - inference - 1a
Poggi analytics - inference - 1a
 
Poggi analytics - concepts - 1a
Poggi   analytics - concepts - 1aPoggi   analytics - concepts - 1a
Poggi analytics - concepts - 1a
 
Poggi analytics - ml - 1d
Poggi   analytics - ml - 1dPoggi   analytics - ml - 1d
Poggi analytics - ml - 1d
 
Poggi analytics - bayes - 1a
Poggi   analytics - bayes - 1aPoggi   analytics - bayes - 1a
Poggi analytics - bayes - 1a
 
Poggi analytics - clustering - 1
Poggi   analytics - clustering - 1Poggi   analytics - clustering - 1
Poggi analytics - clustering - 1
 
Henrion poggi analytics - ann - 1
Henrion poggi   analytics - ann - 1Henrion poggi   analytics - ann - 1
Henrion poggi analytics - ann - 1
 

Último

Teleconferencia Accionistas Q1 2024 . Primer Trimestre-
Teleconferencia Accionistas Q1 2024 . Primer Trimestre-Teleconferencia Accionistas Q1 2024 . Primer Trimestre-
Teleconferencia Accionistas Q1 2024 . Primer Trimestre-ComunicacionesIMSA
 
TEMA 6.- MAXIMIZACION DE LA CONDUCTA DEL PRODUCTOR.pptx
TEMA 6.- MAXIMIZACION DE LA CONDUCTA DEL PRODUCTOR.pptxTEMA 6.- MAXIMIZACION DE LA CONDUCTA DEL PRODUCTOR.pptx
TEMA 6.- MAXIMIZACION DE LA CONDUCTA DEL PRODUCTOR.pptxFrancoSGonzales
 
PPT Trabajo de Investigacion sobre Plan de Desarrollo Paraguay 2030 Adriana R...
PPT Trabajo de Investigacion sobre Plan de Desarrollo Paraguay 2030 Adriana R...PPT Trabajo de Investigacion sobre Plan de Desarrollo Paraguay 2030 Adriana R...
PPT Trabajo de Investigacion sobre Plan de Desarrollo Paraguay 2030 Adriana R...AdrianaCarmenRojasDe
 
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...antonellamujica
 
Trabajo de Sifilisn…………………………………………………..
Trabajo de Sifilisn…………………………………………………..Trabajo de Sifilisn…………………………………………………..
Trabajo de Sifilisn…………………………………………………..JoseRamirez247144
 
Coca cola organigrama de proceso empresariales.pptx
Coca cola organigrama de proceso empresariales.pptxCoca cola organigrama de proceso empresariales.pptx
Coca cola organigrama de proceso empresariales.pptxJesDavidZeta
 
DO_FCE_310_PO_.pdf. La contabilidad gubernamental SOS de suma importancia fu...
DO_FCE_310_PO_.pdf.  La contabilidad gubernamental SOS de suma importancia fu...DO_FCE_310_PO_.pdf.  La contabilidad gubernamental SOS de suma importancia fu...
DO_FCE_310_PO_.pdf. La contabilidad gubernamental SOS de suma importancia fu...ssuser2887fd1
 
EGLA CORP - Honduras Abril 27 , 2024.pptx
EGLA CORP - Honduras Abril 27 , 2024.pptxEGLA CORP - Honduras Abril 27 , 2024.pptx
EGLA CORP - Honduras Abril 27 , 2024.pptxDr. Edwin Hernandez
 
¿ESTÁ PREPARADA LA LOGÍSTICA PARA EL DECRECIMIENTO?
¿ESTÁ PREPARADA LA LOGÍSTICA PARA EL DECRECIMIENTO?¿ESTÁ PREPARADA LA LOGÍSTICA PARA EL DECRECIMIENTO?
¿ESTÁ PREPARADA LA LOGÍSTICA PARA EL DECRECIMIENTO?Michael Rada
 
Rendicion de cuentas del Administrador de Condominios
Rendicion de cuentas del Administrador de CondominiosRendicion de cuentas del Administrador de Condominios
Rendicion de cuentas del Administrador de CondominiosCondor Tuyuyo
 
sistemas de produccion de la palta en el peru moises.pptx
sistemas de produccion de la palta en el peru moises.pptxsistemas de produccion de la palta en el peru moises.pptx
sistemas de produccion de la palta en el peru moises.pptxJaredmoisesCarrillo
 
MANUAL SKIDDER manual manual manual manua
MANUAL SKIDDER manual manual manual manuaMANUAL SKIDDER manual manual manual manua
MANUAL SKIDDER manual manual manual manuaasesoriam4m
 
AFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdf
AFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdfAFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdf
AFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdfOdallizLucanaJalja1
 
Clima-laboral-estrategias-de-medicion-e-book-1.pdf
Clima-laboral-estrategias-de-medicion-e-book-1.pdfClima-laboral-estrategias-de-medicion-e-book-1.pdf
Clima-laboral-estrategias-de-medicion-e-book-1.pdfConstructiva
 
Continex para educación, Portafolio de servicios
Continex para educación, Portafolio de serviciosContinex para educación, Portafolio de servicios
Continex para educación, Portafolio de serviciosFundación YOD YOD
 
gua de docente para el curso de finanzas
gua de docente para el curso de finanzasgua de docente para el curso de finanzas
gua de docente para el curso de finanzassuperamigo2014
 
ISO 45001-2018.pdf norma internacional para la estandarización
ISO 45001-2018.pdf norma internacional para la estandarizaciónISO 45001-2018.pdf norma internacional para la estandarización
ISO 45001-2018.pdf norma internacional para la estandarizaciónjesuscub33
 
AUDITORIAS en enfermeria hospitalaria .pptx
AUDITORIAS en enfermeria hospitalaria .pptxAUDITORIAS en enfermeria hospitalaria .pptx
AUDITORIAS en enfermeria hospitalaria .pptxMatiasGodoy33
 
modelo de flujo maximo unidad 4 en modelos de optimización de recursos
modelo de flujo maximo unidad 4 en modelos de optimización de recursosmodelo de flujo maximo unidad 4 en modelos de optimización de recursos
modelo de flujo maximo unidad 4 en modelos de optimización de recursosk7v476sp7t
 
MARKETING SENSORIAL -GABRIELA ARDON .pptx
MARKETING SENSORIAL -GABRIELA ARDON .pptxMARKETING SENSORIAL -GABRIELA ARDON .pptx
MARKETING SENSORIAL -GABRIELA ARDON .pptxgabyardon485
 

Último (20)

Teleconferencia Accionistas Q1 2024 . Primer Trimestre-
Teleconferencia Accionistas Q1 2024 . Primer Trimestre-Teleconferencia Accionistas Q1 2024 . Primer Trimestre-
Teleconferencia Accionistas Q1 2024 . Primer Trimestre-
 
TEMA 6.- MAXIMIZACION DE LA CONDUCTA DEL PRODUCTOR.pptx
TEMA 6.- MAXIMIZACION DE LA CONDUCTA DEL PRODUCTOR.pptxTEMA 6.- MAXIMIZACION DE LA CONDUCTA DEL PRODUCTOR.pptx
TEMA 6.- MAXIMIZACION DE LA CONDUCTA DEL PRODUCTOR.pptx
 
PPT Trabajo de Investigacion sobre Plan de Desarrollo Paraguay 2030 Adriana R...
PPT Trabajo de Investigacion sobre Plan de Desarrollo Paraguay 2030 Adriana R...PPT Trabajo de Investigacion sobre Plan de Desarrollo Paraguay 2030 Adriana R...
PPT Trabajo de Investigacion sobre Plan de Desarrollo Paraguay 2030 Adriana R...
 
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...
 
Trabajo de Sifilisn…………………………………………………..
Trabajo de Sifilisn…………………………………………………..Trabajo de Sifilisn…………………………………………………..
Trabajo de Sifilisn…………………………………………………..
 
Coca cola organigrama de proceso empresariales.pptx
Coca cola organigrama de proceso empresariales.pptxCoca cola organigrama de proceso empresariales.pptx
Coca cola organigrama de proceso empresariales.pptx
 
DO_FCE_310_PO_.pdf. La contabilidad gubernamental SOS de suma importancia fu...
DO_FCE_310_PO_.pdf.  La contabilidad gubernamental SOS de suma importancia fu...DO_FCE_310_PO_.pdf.  La contabilidad gubernamental SOS de suma importancia fu...
DO_FCE_310_PO_.pdf. La contabilidad gubernamental SOS de suma importancia fu...
 
EGLA CORP - Honduras Abril 27 , 2024.pptx
EGLA CORP - Honduras Abril 27 , 2024.pptxEGLA CORP - Honduras Abril 27 , 2024.pptx
EGLA CORP - Honduras Abril 27 , 2024.pptx
 
¿ESTÁ PREPARADA LA LOGÍSTICA PARA EL DECRECIMIENTO?
¿ESTÁ PREPARADA LA LOGÍSTICA PARA EL DECRECIMIENTO?¿ESTÁ PREPARADA LA LOGÍSTICA PARA EL DECRECIMIENTO?
¿ESTÁ PREPARADA LA LOGÍSTICA PARA EL DECRECIMIENTO?
 
Rendicion de cuentas del Administrador de Condominios
Rendicion de cuentas del Administrador de CondominiosRendicion de cuentas del Administrador de Condominios
Rendicion de cuentas del Administrador de Condominios
 
sistemas de produccion de la palta en el peru moises.pptx
sistemas de produccion de la palta en el peru moises.pptxsistemas de produccion de la palta en el peru moises.pptx
sistemas de produccion de la palta en el peru moises.pptx
 
MANUAL SKIDDER manual manual manual manua
MANUAL SKIDDER manual manual manual manuaMANUAL SKIDDER manual manual manual manua
MANUAL SKIDDER manual manual manual manua
 
AFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdf
AFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdfAFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdf
AFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdf
 
Clima-laboral-estrategias-de-medicion-e-book-1.pdf
Clima-laboral-estrategias-de-medicion-e-book-1.pdfClima-laboral-estrategias-de-medicion-e-book-1.pdf
Clima-laboral-estrategias-de-medicion-e-book-1.pdf
 
Continex para educación, Portafolio de servicios
Continex para educación, Portafolio de serviciosContinex para educación, Portafolio de servicios
Continex para educación, Portafolio de servicios
 
gua de docente para el curso de finanzas
gua de docente para el curso de finanzasgua de docente para el curso de finanzas
gua de docente para el curso de finanzas
 
ISO 45001-2018.pdf norma internacional para la estandarización
ISO 45001-2018.pdf norma internacional para la estandarizaciónISO 45001-2018.pdf norma internacional para la estandarización
ISO 45001-2018.pdf norma internacional para la estandarización
 
AUDITORIAS en enfermeria hospitalaria .pptx
AUDITORIAS en enfermeria hospitalaria .pptxAUDITORIAS en enfermeria hospitalaria .pptx
AUDITORIAS en enfermeria hospitalaria .pptx
 
modelo de flujo maximo unidad 4 en modelos de optimización de recursos
modelo de flujo maximo unidad 4 en modelos de optimización de recursosmodelo de flujo maximo unidad 4 en modelos de optimización de recursos
modelo de flujo maximo unidad 4 en modelos de optimización de recursos
 
MARKETING SENSORIAL -GABRIELA ARDON .pptx
MARKETING SENSORIAL -GABRIELA ARDON .pptxMARKETING SENSORIAL -GABRIELA ARDON .pptx
MARKETING SENSORIAL -GABRIELA ARDON .pptx
 

Poggi analytics - trees - 1e

  • 1. Buenos Aires, marzo de 2016 Eduardo Poggi
  • 2. Analytics – Árboles de decisión  ¿Induciendo árboles?  Implementando árboles  Criterio de selección  Criterio de parada  Sobreajuste  Valores numéricos  Valores faltantes  “Árboles se buscan”  ¿Árboles o bosques?
  • 3. Analytics – Árboles de decisión  ¿Induciendo árboles?  Implementando árboles  Criterio de selección  Criterio de parada  Sobreajuste  Valores numéricos  Valores faltantes  “Árboles se buscan”  ¿Árboles o bosques?
  • 4. ¿Árboles?  Probablemente el método más conocido para resolver problemas de clasificación  Muy asociado a nuestra forma de proceder  Uno de los primeros desarrollos en ML
  • 6. ¿Árboles? ID3 and its successors have been developed by Ross Quinlan, who discovered it while working with Earl Hunt in the 1970s. He subsequently worked at Sydney Uni, Rand Corporation in California, UTS, back to Sydney Uni, and several years at UNSW. He now runs his own company Rulequest www.rulequest.com
  • 7. IDT - Induciendo árboles  IDT : Induction of Decision Trees  A partir de un conjunto de instancias clasificadas (ejemplos, evidencia) inducir un árbol de decisión que pueda ser utilizado para predecir la clase de instancias no clasificadas (y no vistas previamente).
  • 10. ¿Árboles?  Método de aproximación de funciones de valores discretos.  Lenguaje de representación de instancias:  conjunciones de valores discretos.  Lenguaje de representación de hipótesis:  Disyunción de reglas conjuntivas.  Características:  Capaz de aprender conceptos disyuntivos.  Tolerante al ruido en atributos y clase.  Tolerante a valores faltantes en atributos.  No incremental.
  • 11. ¿Árboles?  Estructura de datos recursiva definida por:  Nodos hoja que indican un rótulo de clase.  Nodos internos que contienen un test sobre el valor de un atributo. Para cada resultado del test hay una rama y un subárbol con la misma estructura que el árbol.  Representación alternativa:  conjunto de reglas: IF Condición THEN Clasificación
  • 12. Induciendo árboles  El problema de encontrar un árbol de decisión que concuerde con el conjunto de entrenamiento tiene una solución trivial.  Simplemente construimos un árbol de decisión que tenga una rama por cada ejemplo.  El problema con este árbol trivial es que solo memoriza las observaciones.  No extrae ningún patrón a partir de los ejemplos y no puede extrapolar a ejemplos que no vio.
  • 13. Induciendo árboles  Extraer un patrón significa poder describir un gran número de casos de un modo conciso. El lugar de sólo tratar de encontrar uno que concuerde con los ejemplos, deberíamos también tratar de encontrar uno conciso.  Este es un ejemplo de un principio general del aprendizaje inductivo:  La hipótesis más probable es la más simple que sea consistente con todas las observaciones. ¿Hipótesis consistente con todas las observaciones?
  • 14. Induciendo árboles  Navaja de Occam (Occam's Razor)  El principio de economía o de parsimonia hace referencia a un tipo de razonamiento basado en una premisa muy simple:  En igualdad de condiciones la solución más sencilla es probablemente la correcta.  No ha de presumirse de la existencia de más cosas que las absolutamente necesarias.  No hay que desarrollar sistemas más complejos que lo necesario. William of Ockham (c. 1280/1288– 349) Fraile franciscano, filósofo y lógico inglés oriundo de Ockham ¿Es posible construir sistemáticamente el árbol “óptimo” en términos de Occam?
  • 15. Induciendo árboles  Desafortunadamente, encontrar el árbol de decisión óptimo (más chico) es un problema intratable, pero algunas heurísticas simples logran encontrar uno suficientemente pequeño.  La idea básica del algoritmo es usar primero el atributo “más importante”, donde esto significa el que tiene un efecto más importante en la agrupación de los ejemplos en conjuntos que comparten la misma clasificación.
  • 16. Induciendo árboles  ¿Heurística?  Como metodología científica, la heurística es aplicable a cualquier ciencia e incluye la utilización de: medios auxiliares, principios, reglas, estrategias o algoritmos que faciliten la búsqueda de vías de solución a problemas.  “Sobre un punto de vista heurístico concerniente a la producción y transformación de la luz”, Albert Einstein, 1905
  • 17. Analytics – Árboles de decisión  ¿Induciendo árboles?  Implementando árboles  Criterio de selección  Criterio de parada  Sobreajuste  Valores numéricos  Valores faltantes  “Árboles se buscan”  ¿Árboles o bosques?
  • 18. Induciendo árboles  ID3 (Ejemplos, Clase, Atributos)  Crear nodo Raíz del árbol  Todos los Ejemplos tienen la misma Clase?  retornar rótulo = Clase  Atributos = ∅ ?  SI: retornar rótulo = Clase más frecuente  NO:  A <- ELEGIR_ATRIBUTO (Atributos, Ejemplos)  Raíz <- A  Para cada valor posible v de A  Agregar una nueva rama debajo de Raíz con test A = v?  Ejemplos_v <-{elementos de Ejemplos con A = v}  Ejemplos_v = ∅ ?  SI: agregar debajo de esta rama un nodo hoja con valor más frecuente de Clase en Ejemplos  NO: agregar debajo de esta rama el subárbol ID3 (Ejemplos_v, Clase, Atributos – {A}) Es un algoritmo? Clase más frecuente?
  • 19. Implementando árboles - Criterio de partición  Asumamos que el Criterio de Partición se limita a seleccionar un atributo.  ¿Cómo elegir el atributo más “importante” para dividir?  Muchas aproximaciones:  Information Gain  Information ratio  Gini  … tantas como autores
  • 20. Implementando árboles  Existen varios aspectos prácticos a resolver a la hora de implementar árboles de decisión.  Cuál es el objetivo del árbol?  Cuál es un buen criterio de partición?  Qué tan profundo debe ser el árbol?  Cómo se pueden incluir atributos continuos?  Qué pasa cuando hay valores faltantes?  Cómo podemos afrontar la eficiencia computacional para grandes evidencias?
  • 21. Implementando árboles - Criterio de partición Attributes: size and humidity Size has two values: >t1 or <= t1 Humidity has three values: >t2, (>t3 and <=t2), <= t3 size humidity t1 t2 t3 Class P: poisonous Class N: not-poisonous
  • 22. Implementando árboles - Criterio de particiónhumidity t1 t2 t3 Suppose we choose size as the best attribute: size P > T1<= T1 Class P: poisonous Class N: not-poisonous ?
  • 23. Implementando árboles - Criterio de particiónhumidity t1 t2 t3 Suppose we choose humidity as the next best attribute: size P > T1<= T1 humidity P NPNP >t2 <= t3 > t3 & <= t2
  • 24. Implementando árboles - Criterio de partición  Para decidir cual es el mejor atributo para abrir el árbol:  Usamos algunas definiciones de Teoría de la Información.  La medida de incertidumbre o entropía asociada a una variable aleatorea X se define como:  H(X) = - Σ pi log2 pi  Siendo log2 un redefinición de logaritmo en base 2 con log(0)=0.
  • 25. Implementando árboles - Criterio de partición  P(A) = 1/256, P(B) = 255/256 H(X) = 0.0369 bit  P(A) = 1/2, P(B) = 1/2 H(X) = 1 bit  P(A) = 7/16, P(B) = 9/16 H(X) = 0.989 bit There are two possible complete events A and B (Example: flipping a biased coin).
  • 26. Implementando árboles - Criterio de partición Size divides the sample in two. S1 = { 6P, 0NP} (size>t1) S2 = { 3P, 5NP} (size<t1) sizet1 t2 t3 humidity S1 S2 H(S1) = 0 H(S2) = -(3/8)log2(3/8) -(5/8)log2(5/8) = 0.95
  • 27. Implementando árboles - Criterio de partición humidity divides the sample in three. S1 = {2P, 2NP} humidity>t2 S2 = {5P, 0NP} t3<humidity<t2 S3 = {2P, 3NP} humidity<t2 H(S1) = 1 H(S2) = 0 H(S3) = -(2/5)log2(2/5) -(3/5)log2(3/5) = 0.97 sizet1 t2 t3 humidity S1 S3 S2
  • 28. Implementando árboles - Criterio de partición sizet1 t2 t3 humidity Information gain IG over attribute A: IG (A) IG(A) = H(S) - Σv (Sv/S) H (Sv) IG(humidity)=0.94 - 4/14*1 - 5/14*0 - 5/14*0.97=0.31
  • 29. Implementando árboles - Criterio de partición  Definimos la función de Ganancia de Información como:  IG(A) = H(S) - Σv (Sv/S) H (Sv)  Donde:  H(S) es la entropía del conjunto de todos los ejemplos  H(Sv) es la entropía del subconjunto de los ejemplos con valor v para el atributo A  Elegiremos al atributo que maximice la IG, por lo tanto debemos calcular IG para todos los atributos:
  • 30. Implementando árboles - Criterio de partición sizet1 t2 t3 humidity S1S2 H(S1) = 0 H(S2) = 0.95 H(S) = -(9/14)log2(9/14) -(6/14)log2(6/14) = 0.94 |S1|/|S| = 6/14 |S2|/|S| = 8/14 IG(size) = H(S) – ( |S1|/|S|*H(S1) + |S2|/|S|*H(S2) ) = 0.94 – ( 6/14 * 0 + 8/14 * 0.95) = 0.40
  • 31. Implementando árboles - Criterio de partición sizet1 t2 t3 humidity S1 S3 H(S1) = 1 H(S2) = 0 H(S3) = 0.97 H(S) = 0.94 |S1|/|S| = 4/14 |S2|/|S| = 5/14 |S3|/|S| = 5/14 S2 IG(humidity) = H(S) – ( |S1|/|S|*H(S1) + |S2|/|S|*H(S2) + |S3|/|S|*H(S3) ) = 0.94 – ( 4/14 * 1 + 5/14 * 0 + 5/14 * 0.97 ) =0.31
  • 32. Implementando árboles - Criterio de parada  Hasta cuando dividimos?  Hasta que tenga clases puras en todos los nodos  Hasta que no tenga más variables disponibles  O hay algo mejor?
  • 33. Implementando árboles - Criterio de parada  La versión canónica dice que el árbol se sigue desarrollando hasta que se llega a una clase uniforme. Esto en la práctica no suele ser efectivo.  Existen muchas opciones de criterio de parada:  No hay más atributos.  Clase uniforme.  Clase mayoritaria.  Se supera un nivel de profundidad máximo.  El número de casos es menor a un mínimo.  El mejor valor del criterio de partición es menor de un umbral.  El número de casos de los nodos hijos es menor que un mínimo.
  • 34. Implementando árboles - Sobreajuste La línea verde como clasificador se adapta mejor a los datos con los que que se ha entrenado al clasificador, pero está demasiado adaptada a ellos, de forma que ante nuevos datos probablemente arrojará más errores que la clasificación usando la línea negra.
  • 37. Implementando árboles - Sobreajuste 0.50.60.70.80.91.0 Tamaño del árbol training data testing data overfitting Performance
  • 38. Implementando árboles - Sobreajuste A tree overfits the data if we let it grow deep enough so that it begins to capture “aberrations” in the data that harm the predictive power on unseen examples: size t2 t3 humidity Possibly just noise, but the tree is grown deeper to capture these examples
  • 40. Implementando árboles - Sobreajuste  Parar la construcción de la rama antes de sobreajustar los datos.  En la práctica no es tan fácil de implementar ya que no es claro cual es buen punto de parada.  Dejar crecer el árbol y sobreajustar. Luego ir probando podas y verificando la performance.  Este método es que tiene más popularidad en la comunidad. ¿Qué pasa si primero pasamos a reglas y luego podamos?
  • 41. Implementando árboles - Sobreajuste 1.) Grow the tree to learn the training data 2.) Prune tree to avoid overfitting the data
  • 42. Implementando árboles - Sobreajuste Original Tree Possible trees after pruning:
  • 43. Implementando árboles - Sobreajuste Pruned Tree Possible trees after 2nd pruning:
  • 44. Implementando árboles - Sobreajuste Process continues until no improvement is observed on the validation set: 0.50.60.70.80.91.0 Size of the tree validation data Stop pruning the tree
  • 47. Implementando árboles - Sobreajuste  C4.5 implementa un algoritmo de post-poda basado en la tasa de aciertos del nivel en el cual está evaluando comparado con el que tendría si abre el nodo.  En cada nodo, el algoritmo compara:  el error ponderado de cada nodo hijo con  el error de la clasificación si se suprimen los nodos hijos y se lo etiqueta con la clase mayoritaria.
  • 48. Implementando árboles - Sobreajuste  TreeGrowing (S,A,y,SplitCriterion,StoppingCriterion)  Where:  S - Training Set  A - Input Feature Set  y - Target Feature  SplitCriterion --- the method for evaluating a certain split  StoppingCriterion --- the criteria to stop the growing process  Create a new tree T with a single root node.
  • 49. Implementando árboles - Sobreajuste  Algunos métodos de poda:  Cost Complexity Pruning (CP)  Reduced Error Pruning (REP)  Minimum Error Pruning (MEP)  Pessimistic Pruning (PP)  Error Based Pruning (EBP)  Minimum Description Length Pruning (MDL)
  • 50. Implementando árboles - Discretización En aprendizaje supervisado, la mejor discretización es aquella que produce el mejor resultado para el modelo que será utilizado para predecir.
  • 51. Implementando árboles - Discretización Example: attribute temperature. 1) Order all values in the training set 2) Consider only those cut points where there is a change of class 3) Choose the cut point that maximizes information gain temperature 97 97.5 97.6 97.8 98.5 99.0 99.2 100 102.2 102.6 103.2
  • 52. Implementando árboles - Discretización  Decidir cuántas categorías usar:  Dividir en N intervalos con N-1 puntos de split  Decidir dónde colocarlos  Determinar cómo mapear los valores del atributo continuo a estas categorías.
  • 53. Implementando árboles - Discretización  Métodos No Supervisados (no utiliza información de la clase)  Equal Width (Top-Down)  Equal Frequency (Top-Down)  Clustering por K-medias (Bottom-Up)  Inspección visual de los datos y Particionamiento Natural  Métodos Supervisados (utiliza información de la clase)  Enfoque Estadístico (Bottop – Up)  Enfoque basado en la Entropía
  • 54. Implementando árboles - Discretización  Permiten reducir los datos al reemplazar conceptos de bajo nivel (ej: valores numéricos de la edad) por conceptos de alto nivel (ej: joven, adulto, ansiano).  Pueden existir más de una jerarquía para un mismo atributo.  Los atributos con conceptos tienden a ser más representativos de lo que intentan mostrar y son más faciles de interpretar aunque se pierde algo de información.
  • 55. Implementando árboles – Discretización - Jerarquías
  • 56. Implementando árboles – Discretización - Binning  Equal Width Binning:  divide el rango de atributos en N intervalos de la misma longitud.  Ventajas: sencillo de aplicar  Desventajas: se ve afectado por outliers; las instancias se distribuyen de manera desigual.  Equal Frequency Binning:  divide el rango de atributos en N intervalos basados en la distribución de las instancias. El objetivo es poner la misma cantidad de instancias en cada intervalo.  Ventajas: obtiene buenos resultados en conjunción con el método de aprendizaje Naïve Bayes.  Desventajas: al ser ajeno a las clases de las instancias puede resultar en intervalos pobres.
  • 57. Implementando árboles - Discretización  K-Means:  define un prototipo en términos de un centroide que es usualmente la media de un grupo de puntos y es aplicado a objets en un espacio contínuo n-dimensional.
  • 58. Implementando árboles – Valores faltantes en atributos  Hay varias aproximaciones:  Ignorarlos.  Buscar algoritmos que los acepten.  Completarlos:  Valor más común o promedio.  ¿Uso la clase o no?  ¿Miro todo el conjunto o el subconjunto?  ¿Si elraboro un método de clasificación utilizando el atributo con datos faltantes como clase?  ¿Si genero y testeo?
  • 59. Analytics – Árboles de decisión  ¿Induciendo árboles?  Implementando árboles  Criterio de selección  Criterio de parada  Sobreajuste  Valores numéricos  Valores faltantes  “Árboles se buscan”  ¿Árboles o bosques?
  • 60. Árboles de decisión – Búsqueda heurística
  • 61. Árboles de decisión – Búsqueda heurística
  • 62. ¿y ahora?  We search over the hypothesis space of all possible decision trees.  We keep only one hypothesis at a time, instead of having several.  We don’t do backtracking in the search. We choose the best alternative and continue growing the tree.  We prefer shorter trees than larger trees.  We prefer trees where attributes with lowest entropy are placed on the top. Enfoque tradicional …
  • 63. Árboles de decisión – Búsqueda heurística
  • 64. Analytics – Árboles de decisión  ¿Induciendo árboles?  Implementando árboles  Criterio de selección  Criterio de parada  Sobreajuste  Valores numéricos  Valores faltantes  “Árboles se buscan”  ¿Árboles o bosques?
  • 66. ¿y ahora? ¿Hago muchas cuentas o genero y pruebo?