SlideShare una empresa de Scribd logo
1 de 12
Árboles de decisión
"Explorando las ramas del conocimiento:
Una mirada en profundidad a los árboles de clasificación"
Objetivos
● Comprender los conceptos fundamentales de los
árboles de clasificación.
● Explorar las diferentes técnicas de construcción y
entrenamiento de árboles de clasificación.
● Analizar la interpretación y explicabilidad de los
resultados obtenidos a partir de los árboles de
clasificación.
● Investigar y evaluar las aplicaciones y limitaciones
de los árboles de clasificación en problemas
reales.
¿Qué es un feature informativo?
Un "feature informativo" es una característica o atributo que proporciona información relevante y
discriminativa para tomar decisiones de clasificación en un árbol de decisión. En otras palabras, es
una característica que ayuda a distinguir entre diferentes clases o categorías.
La elección de la condición que se pregunta sobre una característica en los árboles de decisión se
basa en la medida de impureza de los nodos. El objetivo es encontrar la condición que mejor separa
los ejemplos en clases puras en cada nodo del árbol.
Existen varias medidas de impureza utilizadas, como el coeficiente Gini y la entropía. Estas medidas
evalúan qué tan mezclados están los valores de la variable objetivo en un nodo y, por lo tanto, qué
tan informativa es una característica para dividir los datos en clases más homogéneas.
El proceso general para elegir la condición se basa en calcular la impureza antes y después de
aplicar una división en cada posible valor de una característica. Se elige la condición que resulte en
la mayor ganancia de pureza o reducción de impureza en los nodos hijos después de la división.
¿Cómo tratamos las variables categóricas?
Supongamos una variable categórica: rojo, azul, verde. De los nodos se
desprende si se cumple o no la variable categórica.
¿Es verde?
¿Es rojo?
Sí
Sí No
No
Se predice algo, o se
continúa el árbol con
otros features.
Acá caerían
instancias color
azul.
Supongamos una variable numérica como la temperatura T. Podemos elegir cortes en cualquier
parte del rango de la variable.
T <= 30°C
T <= 20°C
Sí
Sí No
No
Se predice algo, o se
continúa el árbol con
otros features y bien
subdividiendo con la
misma variable.
Acá caerían
instancias con T
entre 20 y 30°C.
¿Cómo tratamos las variables numéricas?
Medidas de impureza
Entropía:
Se define la impureza de un árbol por el promedio pesado de las impurezas de cada
hoja, pesado por la fracción de datos en cada hoja.
Si todos los datos dentro de
una hoja pertenecen a la
misma clase, G = D = 0: la
hoja tiene impureza 0.
Medidas de impureza
● El coeficiente Gini es una medida utilizada en árboles de decisión para evaluar la pureza de una
división. En términos sencillos, el coeficiente Gini mide qué tan mezclados están los valores de la
variable objetivo (la variable que queremos predecir) en un nodo del árbol.
● El coeficiente Gini varía entre 0 y 1, donde 0 significa que todos los valores en el nodo son del
mismo tipo (pura) y 1 significa que los valores están distribuidos de manera uniforme (mezclada). Un
valor cercano a 0 indica que el nodo es más homogéneo y, por lo tanto, representa una mejor
división.
● Para calcular el coeficiente Gini, se toma en cuenta la proporción de cada clase en el nodo y se
calcula la suma de los cuadrados de estas proporciones. Cuanto menor sea el resultado, mayor será
la pureza del nodo.
Ventajas de los árboles de decisión
● Interpretación y comprensión: Los árboles de decisión son fáciles de interpretar y
entender, lo que permite una visibilidad clara de cómo se toman las decisiones.
● Manejo de datos mixtos: Pueden manejar tanto datos numéricos como categóricos, lo
que los hace versátiles para una amplia variedad de conjuntos de datos.
● Modelado de relaciones no lineales: Capturan relaciones complejas y no lineales entre
características y variables objetivo, lo que los hace adecuados para representar patrones
sofisticados en los datos.
● Poco preprocesamiento de datos: No requieren una normalización previa de los datos y
pueden manejar características faltantes, lo que reduce la necesidad de un extenso
preprocesamiento.
Desventajas de los árboles de decisión
● Tendencia al sobreajuste: Los árboles de decisión tienden a sobre ajustarse a los datos de
entrenamiento, lo que puede llevar a un rendimiento deficiente en nuevos datos no vistos.
● Sensibilidad a pequeñas variaciones en los datos: Pequeños cambios en los datos de
entrenamiento pueden llevar a árboles de decisión significativamente diferentes, lo que puede
afectar su estabilidad y consistencia.
● Dificultad para capturar relaciones complejas: Aunque los árboles de decisión son capaces
de modelar relaciones no lineales, pueden tener dificultades para capturar relaciones complejas
que requieren estructuras más avanzadas.
● Falta de robustez ante datos ruidosos: Los árboles de decisión son sensibles a datos
ruidosos o atípicos, lo que puede influir negativamente en su rendimiento y precisión.
Overfitting
Underfitting: más sesgo,
menos varianza.
Overfitting: menos sesgo,
más varianza.
Por algún lado está la
profundidad ideal.
Raíz
Hojas
Nodos
(internos)
La profundidad
del árbol es un
parámetro que
podemos elegir.
Conclusiones
● Los árboles de clasificación son modelos predictivos poderosos y versátiles que ofrecen
interpretación y comprensión intuitiva. Su estructura de árbol permite visualizar y comprender
cómo se toman las decisiones, lo que los hace especialmente útiles en casos donde se requiere
transparencia y replicabilidad del modelo.
● Los árboles de clasificación son capaces de manejar datos mixtos y no requieren una
normalización previa de los datos. Pueden manejar tanto características numéricas como
categóricas, lo que los hace adecuados para una amplia variedad de conjuntos de datos sin
necesidad de realizar preprocesamiento extensivo.
● La capacidad de los árboles de clasificación para modelar relaciones no lineales y capturar
patrones complejos en los datos los convierte en una herramienta valiosa en el campo del
aprendizaje automático. Pueden descubrir relaciones sofisticadas entre las características y las
variables objetivo, lo que permite una mejor comprensión y toma de decisiones basadas en los
datos.
Bibliografía
● Breiman, L., Friedman, J. H., Olshen, R. A., & Stone, C. J. (1984). Classification and
regression trees. CRC press.
● Quinlan, J. R. (1986). Induction of decision trees. Machine learning, 1(1), 81-106.
● Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical learning:
data mining, inference, and prediction. Springer Science & Business Media.
● Witten, I. H., Frank, E., & Hall, M. A. (2016). Data mining: practical machine learning
tools and techniques. Morgan Kaufmann.

Más contenido relacionado

Similar a Árboles de decisión, medidas de impurezas, overfitting.pptx

Similar a Árboles de decisión, medidas de impurezas, overfitting.pptx (12)

Taller weka
Taller wekaTaller weka
Taller weka
 
estadistica.pptx
estadistica.pptxestadistica.pptx
estadistica.pptx
 
Arboles y reglas
Arboles y reglasArboles y reglas
Arboles y reglas
 
ÁRBOLES DE CLASIFICACIÓN
ÁRBOLES DE CLASIFICACIÓNÁRBOLES DE CLASIFICACIÓN
ÁRBOLES DE CLASIFICACIÓN
 
Portafolio virtual blogger hdp clases 6,7,8,9,10,11,12,13
Portafolio virtual blogger hdp clases 6,7,8,9,10,11,12,13Portafolio virtual blogger hdp clases 6,7,8,9,10,11,12,13
Portafolio virtual blogger hdp clases 6,7,8,9,10,11,12,13
 
Poda Arboles
Poda ArbolesPoda Arboles
Poda Arboles
 
Cuadro comparativo jesus
Cuadro comparativo jesusCuadro comparativo jesus
Cuadro comparativo jesus
 
MEDIDAS DE TENDENCIA CENTRAL
MEDIDAS DE TENDENCIA CENTRALMEDIDAS DE TENDENCIA CENTRAL
MEDIDAS DE TENDENCIA CENTRAL
 
Taller n°6. análisis de datos modif
Taller n°6. análisis de datos modifTaller n°6. análisis de datos modif
Taller n°6. análisis de datos modif
 
Analisis de los datos
Analisis de los datosAnalisis de los datos
Analisis de los datos
 
Arbol de decisiones
Arbol de decisionesArbol de decisiones
Arbol de decisiones
 
Análisis de datos
Análisis de datosAnálisis de datos
Análisis de datos
 

Árboles de decisión, medidas de impurezas, overfitting.pptx

  • 1. Árboles de decisión "Explorando las ramas del conocimiento: Una mirada en profundidad a los árboles de clasificación"
  • 2. Objetivos ● Comprender los conceptos fundamentales de los árboles de clasificación. ● Explorar las diferentes técnicas de construcción y entrenamiento de árboles de clasificación. ● Analizar la interpretación y explicabilidad de los resultados obtenidos a partir de los árboles de clasificación. ● Investigar y evaluar las aplicaciones y limitaciones de los árboles de clasificación en problemas reales.
  • 3. ¿Qué es un feature informativo? Un "feature informativo" es una característica o atributo que proporciona información relevante y discriminativa para tomar decisiones de clasificación en un árbol de decisión. En otras palabras, es una característica que ayuda a distinguir entre diferentes clases o categorías. La elección de la condición que se pregunta sobre una característica en los árboles de decisión se basa en la medida de impureza de los nodos. El objetivo es encontrar la condición que mejor separa los ejemplos en clases puras en cada nodo del árbol. Existen varias medidas de impureza utilizadas, como el coeficiente Gini y la entropía. Estas medidas evalúan qué tan mezclados están los valores de la variable objetivo en un nodo y, por lo tanto, qué tan informativa es una característica para dividir los datos en clases más homogéneas. El proceso general para elegir la condición se basa en calcular la impureza antes y después de aplicar una división en cada posible valor de una característica. Se elige la condición que resulte en la mayor ganancia de pureza o reducción de impureza en los nodos hijos después de la división.
  • 4. ¿Cómo tratamos las variables categóricas? Supongamos una variable categórica: rojo, azul, verde. De los nodos se desprende si se cumple o no la variable categórica. ¿Es verde? ¿Es rojo? Sí Sí No No Se predice algo, o se continúa el árbol con otros features. Acá caerían instancias color azul.
  • 5. Supongamos una variable numérica como la temperatura T. Podemos elegir cortes en cualquier parte del rango de la variable. T <= 30°C T <= 20°C Sí Sí No No Se predice algo, o se continúa el árbol con otros features y bien subdividiendo con la misma variable. Acá caerían instancias con T entre 20 y 30°C. ¿Cómo tratamos las variables numéricas?
  • 6. Medidas de impureza Entropía: Se define la impureza de un árbol por el promedio pesado de las impurezas de cada hoja, pesado por la fracción de datos en cada hoja. Si todos los datos dentro de una hoja pertenecen a la misma clase, G = D = 0: la hoja tiene impureza 0.
  • 7. Medidas de impureza ● El coeficiente Gini es una medida utilizada en árboles de decisión para evaluar la pureza de una división. En términos sencillos, el coeficiente Gini mide qué tan mezclados están los valores de la variable objetivo (la variable que queremos predecir) en un nodo del árbol. ● El coeficiente Gini varía entre 0 y 1, donde 0 significa que todos los valores en el nodo son del mismo tipo (pura) y 1 significa que los valores están distribuidos de manera uniforme (mezclada). Un valor cercano a 0 indica que el nodo es más homogéneo y, por lo tanto, representa una mejor división. ● Para calcular el coeficiente Gini, se toma en cuenta la proporción de cada clase en el nodo y se calcula la suma de los cuadrados de estas proporciones. Cuanto menor sea el resultado, mayor será la pureza del nodo.
  • 8. Ventajas de los árboles de decisión ● Interpretación y comprensión: Los árboles de decisión son fáciles de interpretar y entender, lo que permite una visibilidad clara de cómo se toman las decisiones. ● Manejo de datos mixtos: Pueden manejar tanto datos numéricos como categóricos, lo que los hace versátiles para una amplia variedad de conjuntos de datos. ● Modelado de relaciones no lineales: Capturan relaciones complejas y no lineales entre características y variables objetivo, lo que los hace adecuados para representar patrones sofisticados en los datos. ● Poco preprocesamiento de datos: No requieren una normalización previa de los datos y pueden manejar características faltantes, lo que reduce la necesidad de un extenso preprocesamiento.
  • 9. Desventajas de los árboles de decisión ● Tendencia al sobreajuste: Los árboles de decisión tienden a sobre ajustarse a los datos de entrenamiento, lo que puede llevar a un rendimiento deficiente en nuevos datos no vistos. ● Sensibilidad a pequeñas variaciones en los datos: Pequeños cambios en los datos de entrenamiento pueden llevar a árboles de decisión significativamente diferentes, lo que puede afectar su estabilidad y consistencia. ● Dificultad para capturar relaciones complejas: Aunque los árboles de decisión son capaces de modelar relaciones no lineales, pueden tener dificultades para capturar relaciones complejas que requieren estructuras más avanzadas. ● Falta de robustez ante datos ruidosos: Los árboles de decisión son sensibles a datos ruidosos o atípicos, lo que puede influir negativamente en su rendimiento y precisión.
  • 10. Overfitting Underfitting: más sesgo, menos varianza. Overfitting: menos sesgo, más varianza. Por algún lado está la profundidad ideal. Raíz Hojas Nodos (internos) La profundidad del árbol es un parámetro que podemos elegir.
  • 11. Conclusiones ● Los árboles de clasificación son modelos predictivos poderosos y versátiles que ofrecen interpretación y comprensión intuitiva. Su estructura de árbol permite visualizar y comprender cómo se toman las decisiones, lo que los hace especialmente útiles en casos donde se requiere transparencia y replicabilidad del modelo. ● Los árboles de clasificación son capaces de manejar datos mixtos y no requieren una normalización previa de los datos. Pueden manejar tanto características numéricas como categóricas, lo que los hace adecuados para una amplia variedad de conjuntos de datos sin necesidad de realizar preprocesamiento extensivo. ● La capacidad de los árboles de clasificación para modelar relaciones no lineales y capturar patrones complejos en los datos los convierte en una herramienta valiosa en el campo del aprendizaje automático. Pueden descubrir relaciones sofisticadas entre las características y las variables objetivo, lo que permite una mejor comprensión y toma de decisiones basadas en los datos.
  • 12. Bibliografía ● Breiman, L., Friedman, J. H., Olshen, R. A., & Stone, C. J. (1984). Classification and regression trees. CRC press. ● Quinlan, J. R. (1986). Induction of decision trees. Machine learning, 1(1), 81-106. ● Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical learning: data mining, inference, and prediction. Springer Science & Business Media. ● Witten, I. H., Frank, E., & Hall, M. A. (2016). Data mining: practical machine learning tools and techniques. Morgan Kaufmann.