Los árboles de clasificación son modelos predictivos poderosos y versátiles que ofrecen interpretación y comprensión intuitiva. Su estructura de árbol permite visualizar y comprender cómo se toman las decisiones, lo que los hace especialmente útiles en casos donde se requiere transparencia y replicabilidad del modelo.
2. Objetivos
● Comprender los conceptos fundamentales de los
árboles de clasificación.
● Explorar las diferentes técnicas de construcción y
entrenamiento de árboles de clasificación.
● Analizar la interpretación y explicabilidad de los
resultados obtenidos a partir de los árboles de
clasificación.
● Investigar y evaluar las aplicaciones y limitaciones
de los árboles de clasificación en problemas
reales.
3. ¿Qué es un feature informativo?
Un "feature informativo" es una característica o atributo que proporciona información relevante y
discriminativa para tomar decisiones de clasificación en un árbol de decisión. En otras palabras, es
una característica que ayuda a distinguir entre diferentes clases o categorías.
La elección de la condición que se pregunta sobre una característica en los árboles de decisión se
basa en la medida de impureza de los nodos. El objetivo es encontrar la condición que mejor separa
los ejemplos en clases puras en cada nodo del árbol.
Existen varias medidas de impureza utilizadas, como el coeficiente Gini y la entropía. Estas medidas
evalúan qué tan mezclados están los valores de la variable objetivo en un nodo y, por lo tanto, qué
tan informativa es una característica para dividir los datos en clases más homogéneas.
El proceso general para elegir la condición se basa en calcular la impureza antes y después de
aplicar una división en cada posible valor de una característica. Se elige la condición que resulte en
la mayor ganancia de pureza o reducción de impureza en los nodos hijos después de la división.
4. ¿Cómo tratamos las variables categóricas?
Supongamos una variable categórica: rojo, azul, verde. De los nodos se
desprende si se cumple o no la variable categórica.
¿Es verde?
¿Es rojo?
Sí
Sí No
No
Se predice algo, o se
continúa el árbol con
otros features.
Acá caerían
instancias color
azul.
5. Supongamos una variable numérica como la temperatura T. Podemos elegir cortes en cualquier
parte del rango de la variable.
T <= 30°C
T <= 20°C
Sí
Sí No
No
Se predice algo, o se
continúa el árbol con
otros features y bien
subdividiendo con la
misma variable.
Acá caerían
instancias con T
entre 20 y 30°C.
¿Cómo tratamos las variables numéricas?
6. Medidas de impureza
Entropía:
Se define la impureza de un árbol por el promedio pesado de las impurezas de cada
hoja, pesado por la fracción de datos en cada hoja.
Si todos los datos dentro de
una hoja pertenecen a la
misma clase, G = D = 0: la
hoja tiene impureza 0.
7. Medidas de impureza
● El coeficiente Gini es una medida utilizada en árboles de decisión para evaluar la pureza de una
división. En términos sencillos, el coeficiente Gini mide qué tan mezclados están los valores de la
variable objetivo (la variable que queremos predecir) en un nodo del árbol.
● El coeficiente Gini varía entre 0 y 1, donde 0 significa que todos los valores en el nodo son del
mismo tipo (pura) y 1 significa que los valores están distribuidos de manera uniforme (mezclada). Un
valor cercano a 0 indica que el nodo es más homogéneo y, por lo tanto, representa una mejor
división.
● Para calcular el coeficiente Gini, se toma en cuenta la proporción de cada clase en el nodo y se
calcula la suma de los cuadrados de estas proporciones. Cuanto menor sea el resultado, mayor será
la pureza del nodo.
8. Ventajas de los árboles de decisión
● Interpretación y comprensión: Los árboles de decisión son fáciles de interpretar y
entender, lo que permite una visibilidad clara de cómo se toman las decisiones.
● Manejo de datos mixtos: Pueden manejar tanto datos numéricos como categóricos, lo
que los hace versátiles para una amplia variedad de conjuntos de datos.
● Modelado de relaciones no lineales: Capturan relaciones complejas y no lineales entre
características y variables objetivo, lo que los hace adecuados para representar patrones
sofisticados en los datos.
● Poco preprocesamiento de datos: No requieren una normalización previa de los datos y
pueden manejar características faltantes, lo que reduce la necesidad de un extenso
preprocesamiento.
9. Desventajas de los árboles de decisión
● Tendencia al sobreajuste: Los árboles de decisión tienden a sobre ajustarse a los datos de
entrenamiento, lo que puede llevar a un rendimiento deficiente en nuevos datos no vistos.
● Sensibilidad a pequeñas variaciones en los datos: Pequeños cambios en los datos de
entrenamiento pueden llevar a árboles de decisión significativamente diferentes, lo que puede
afectar su estabilidad y consistencia.
● Dificultad para capturar relaciones complejas: Aunque los árboles de decisión son capaces
de modelar relaciones no lineales, pueden tener dificultades para capturar relaciones complejas
que requieren estructuras más avanzadas.
● Falta de robustez ante datos ruidosos: Los árboles de decisión son sensibles a datos
ruidosos o atípicos, lo que puede influir negativamente en su rendimiento y precisión.
10. Overfitting
Underfitting: más sesgo,
menos varianza.
Overfitting: menos sesgo,
más varianza.
Por algún lado está la
profundidad ideal.
Raíz
Hojas
Nodos
(internos)
La profundidad
del árbol es un
parámetro que
podemos elegir.
11. Conclusiones
● Los árboles de clasificación son modelos predictivos poderosos y versátiles que ofrecen
interpretación y comprensión intuitiva. Su estructura de árbol permite visualizar y comprender
cómo se toman las decisiones, lo que los hace especialmente útiles en casos donde se requiere
transparencia y replicabilidad del modelo.
● Los árboles de clasificación son capaces de manejar datos mixtos y no requieren una
normalización previa de los datos. Pueden manejar tanto características numéricas como
categóricas, lo que los hace adecuados para una amplia variedad de conjuntos de datos sin
necesidad de realizar preprocesamiento extensivo.
● La capacidad de los árboles de clasificación para modelar relaciones no lineales y capturar
patrones complejos en los datos los convierte en una herramienta valiosa en el campo del
aprendizaje automático. Pueden descubrir relaciones sofisticadas entre las características y las
variables objetivo, lo que permite una mejor comprensión y toma de decisiones basadas en los
datos.
12. Bibliografía
● Breiman, L., Friedman, J. H., Olshen, R. A., & Stone, C. J. (1984). Classification and
regression trees. CRC press.
● Quinlan, J. R. (1986). Induction of decision trees. Machine learning, 1(1), 81-106.
● Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical learning:
data mining, inference, and prediction. Springer Science & Business Media.
● Witten, I. H., Frank, E., & Hall, M. A. (2016). Data mining: practical machine learning
tools and techniques. Morgan Kaufmann.