Se presenta el método CART (Classification And Regression Trees), método de árboles de aprendizaje supervisado para discriminar una variable cualitativa o para explicar una variable cuantitativa.
1. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión – CART
Javier Trejos
Escuela de Matemática – CIMPA
Universidad de Costa Rica
November 3, 2014
2. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Esquema
Arboles de Clasificación y Regresión
CART para Regresión
3. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART
◮ El término CART son las siglas en inglés de
Classification And Regression Trees, es decir, Árboles de
Clasificación y Regresión.
4. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART
◮ El término CART son las siglas en inglés de
Classification And Regression Trees, es decir, Árboles de
Clasificación y Regresión.
◮ Se trata de una familia de métodos que sirven tanto
para predecir una variables cuantitativa para hacer
regresión, como para predecir una variable cualitativa
para hacer discriminación.
5. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART
◮ El término CART son las siglas en inglés de
Classification And Regression Trees, es decir, Árboles de
Clasificación y Regresión.
◮ Se trata de una familia de métodos que sirven tanto
para predecir una variables cuantitativa para hacer
regresión, como para predecir una variable cualitativa
para hacer discriminación.
◮ Se basan en procedimientos similares a los de la
segmentación, como el clásico Iterative Dichotomiser
(ID3) de Quinlan, donde se construyen árboles cuyos
nodos son definidos por valores de las variables
explicativas, con respecto a niveles o valores de la
variable a explicar.
6. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART
◮ El término CART son las siglas en inglés de
Classification And Regression Trees, es decir, Árboles de
Clasificación y Regresión.
◮ Se trata de una familia de métodos que sirven tanto
para predecir una variables cuantitativa para hacer
regresión, como para predecir una variable cualitativa
para hacer discriminación.
◮ Se basan en procedimientos similares a los de la
segmentación, como el clásico Iterative Dichotomiser
(ID3) de Quinlan, donde se construyen árboles cuyos
nodos son definidos por valores de las variables
explicativas, con respecto a niveles o valores de la
variable a explicar.
◮ Breiman y colaboradores redefinieron los métodos de
segmentación, dando un soporte sólido a la metodologı́a
con procedimientos claros y bien fundamentados.
7. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART
◮ Se trata de particionar la muestra o población que se
tenga, según sea el caso, en dos grupos o nodos
descritos por los valores de alguna variable explicativa,
la cual minimiza un criterio.
8. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART
◮ Se trata de particionar la muestra o población que se
tenga, según sea el caso, en dos grupos o nodos
descritos por los valores de alguna variable explicativa,
la cual minimiza un criterio.
◮ Luego, cada nodo recién creado se particiona
sucesivamente de la misma forma hasta una regla de
parada.
9. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART
◮ Se trata de particionar la muestra o población que se
tenga, según sea el caso, en dos grupos o nodos
descritos por los valores de alguna variable explicativa,
la cual minimiza un criterio.
◮ Luego, cada nodo recién creado se particiona
sucesivamente de la misma forma hasta una regla de
parada.
◮ Cada nodo constituye en sı́ mismo un modelo simple, de
fácil interpretación.
◮ Una de las mayores ventajas de CART es que el árbol es
de muy fácil interpretación para el usuario, y que la
implementación del método no requiere de
conocimientos profundos en Estadı́stica ni Probabilidad.
10. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART
◮ Se trata de particionar la muestra o población que se
tenga, según sea el caso, en dos grupos o nodos
descritos por los valores de alguna variable explicativa,
la cual minimiza un criterio.
◮ Luego, cada nodo recién creado se particiona
sucesivamente de la misma forma hasta una regla de
parada.
◮ Cada nodo constituye en sı́ mismo un modelo simple, de
fácil interpretación.
◮ Una de las mayores ventajas de CART es que el árbol es
de muy fácil interpretación para el usuario, y que la
implementación del método no requiere de
conocimientos profundos en Estadı́stica ni Probabilidad.
◮ De esta forma es fácil ver cuales son las variables
importantes para el modelo explicativo.
11. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART
◮ Se trata de particionar la muestra o población que se
tenga, según sea el caso, en dos grupos o nodos
descritos por los valores de alguna variable explicativa,
la cual minimiza un criterio.
◮ Luego, cada nodo recién creado se particiona
sucesivamente de la misma forma hasta una regla de
parada.
◮ Cada nodo constituye en sı́ mismo un modelo simple, de
fácil interpretación.
◮ Una de las mayores ventajas de CART es que el árbol es
de muy fácil interpretación para el usuario, y que la
implementación del método no requiere de
conocimientos profundos en Estadı́stica ni Probabilidad.
◮ De esta forma es fácil ver cuales son las variables
importantes para el modelo explicativo.
◮ Permite el manejo de los datos faltantes y no es
necesario normalizar las variables.
12. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART para Regresión
◮ Sea Ω = {1, . . . , n} un conjunto de objetos o unidades
estadı́sticas sobre las que se han observado o medido p
variables explicativas cuantitativas o cualitativas
x1, . . . , xp, y una variable a explicar y, cuantitativa.
13. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART para Regresión
◮ Sea Ω = {1, . . . , n} un conjunto de objetos o unidades
estadı́sticas sobre las que se han observado o medido p
variables explicativas cuantitativas o cualitativas
x1, . . . , xp, y una variable a explicar y, cuantitativa.
◮ A Ω se le llama el nodo raı́z.
14. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART para Regresión
◮ Sea Ω = {1, . . . , n} un conjunto de objetos o unidades
estadı́sticas sobre las que se han observado o medido p
variables explicativas cuantitativas o cualitativas
x1, . . . , xp, y una variable a explicar y, cuantitativa.
◮ A Ω se le llama el nodo raı́z.
◮ Se subdivide en dos nodos, llamados nodos hijos.
◮ Cada nodo está descrito por la variable xj que sirvió a
la división, es decir, la que minimizó el criterio.
15. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART para Regresión
◮ En caso de que xj sea cuantitativa, el nodo izquierdo al
estarı́a descrito por una regla del tipo:
i ∈ al ⇔ xij ≤ α
y el nodo derecho estarı́a descrito por una regla del tipo:
i ∈ ar ⇔ xij > α,
es decir, hay un nivel α que sirve para separar el nodo
derecho del izquierdo.
16. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART para Regresión
◮ En caso de que xj sea cuantitativa, el nodo izquierdo al
estarı́a descrito por una regla del tipo:
i ∈ al ⇔ xij ≤ α
y el nodo derecho estarı́a descrito por una regla del tipo:
i ∈ ar ⇔ xij > α,
es decir, hay un nivel α que sirve para separar el nodo
derecho del izquierdo.
◮ En caso de que xj sea cualitativa, entonces el nodo
izquierdo al estarı́a descrito por una regla del tipo:
i ∈ al ⇔ xij = α
y el nodo derecho estarı́a descrito por una regla del tipo:
i ∈ ar ⇔ xij 6= α,
donde α es una modalidad o categorı́a de xj.
17. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART para Regresión
◮ Los objetos de Ω pertenecen o se asocian a uno de los
nodos hijos, al nodo derecho o al izquierdo, pues
solamente una de las dos reglas puede ser cumplida.
18. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART para Regresión
◮ Los objetos de Ω pertenecen o se asocian a uno de los
nodos hijos, al nodo derecho o al izquierdo, pues
solamente una de las dos reglas puede ser cumplida.
◮ En cada nodo hijo se repite el procedimiento
recursivamente, necesitándose un criterio de parada.
19. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART para Regresión
◮ Los objetos de Ω pertenecen o se asocian a uno de los
nodos hijos, al nodo derecho o al izquierdo, pues
solamente una de las dos reglas puede ser cumplida.
◮ En cada nodo hijo se repite el procedimiento
recursivamente, necesitándose un criterio de parada.
◮ Generalmente, éste está basado ya sea en la
cardinalidad del nodo (es decir, si el nodo contiene una
cantidad de elementos que no sobrepasa un umbral
preestablecido), o bien que la variación del criterio sea
menor que un valor dado.
20. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
Criterio usado en CART para Regresión
◮ Se define un criterio de inercia para medir la
homogeneidad de las clases creadas en cada división. Si
A es el árbol en construcción, se desea minimizar
S =
X
a∈Hojas(A)
X
i∈a
(yi − ā)2
(1)
donde yi es la observación de y en el objeto i, y
ā = 1
|a|
P
i∈a yi es el promedio de los valores de y en la
hoja a.
21. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
Algoritmo CART para Regresión
1. Inicio: sea el nodo a = Ω. Escoger valores para δ, q.
2. Si para todo i ∈ a se tiene que todos los valores de las
variables xj son iguales, entonces parar.
Si no, buscar todas las particiones en 2 clases de cada
variable xj y escoger la que minimiza S, se crean ası́ los
nodos al y ar para un nivel α.
3. Parar si el decrecimiento de S es menor que δ, o si
|al| < q o si |ar| < q.
Si no, en cada nodo creado regresar al paso 2.
22. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
Algoritmo CART para Regresión
1. Inicio: sea el nodo a = Ω. Escoger valores para δ, q.
2. Si para todo i ∈ a se tiene que todos los valores de las
variables xj son iguales, entonces parar.
Si no, buscar todas las particiones en 2 clases de cada
variable xj y escoger la que minimiza S, se crean ası́ los
nodos al y ar para un nivel α.
3. Parar si el decrecimiento de S es menor que δ, o si
|al| < q o si |ar| < q.
Si no, en cada nodo creado regresar al paso 2.
Puede verse que, como la mayorı́a de los métodos que
construyen árboles, se trata de un método glotón, o voraz,
pues hace la minimización de S localmente en cada nodo sin
revisar las escogencias anteriores, y sin hacer una evaluación
global del criterio.
23. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
Observaciones al Algoritmo CART para Regresión
◮ En el paso 2, al buscar las posibles particiones esta
cantidad puede ser muy grande. Si la variable a
considerar es cuantitativa entonces habrı́a n − 1 posibles
particiones, si es ordinal con k categorı́as habrı́a k − 1
particiones, y si es nominal este número serı́a 2k−1 − 1.
24. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
Observaciones al Algoritmo CART para Regresión
◮ En el paso 2, al buscar las posibles particiones esta
cantidad puede ser muy grande. Si la variable a
considerar es cuantitativa entonces habrı́a n − 1 posibles
particiones, si es ordinal con k categorı́as habrı́a k − 1
particiones, y si es nominal este número serı́a 2k−1 − 1.
◮ La etiqueta del nodo se hace con la variable que sirvió
para hacer la división. En caso de igualdad en el
mı́nimo del criterio al momento de hacer la división, se
debe escoger una de las variables (por ejemplo, la de
menor ı́ndice).
25. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
Observaciones al Algoritmo CART para Regresión
◮ En el paso 2, al buscar las posibles particiones esta
cantidad puede ser muy grande. Si la variable a
considerar es cuantitativa entonces habrı́a n − 1 posibles
particiones, si es ordinal con k categorı́as habrı́a k − 1
particiones, y si es nominal este número serı́a 2k−1 − 1.
◮ La etiqueta del nodo se hace con la variable que sirvió
para hacer la división. En caso de igualdad en el
mı́nimo del criterio al momento de hacer la división, se
debe escoger una de las variables (por ejemplo, la de
menor ı́ndice).
◮ El nodo formado por Ω se llama la raı́z del árbol. Un
nodo que se subdivide se llama nodo intermedio, si no
se llama nodo terminal.
26. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
Observaciones al Algoritmo CART para Regresión
◮ En el paso 2, al buscar las posibles particiones esta
cantidad puede ser muy grande. Si la variable a
considerar es cuantitativa entonces habrı́a n − 1 posibles
particiones, si es ordinal con k categorı́as habrı́a k − 1
particiones, y si es nominal este número serı́a 2k−1 − 1.
◮ La etiqueta del nodo se hace con la variable que sirvió
para hacer la división. En caso de igualdad en el
mı́nimo del criterio al momento de hacer la división, se
debe escoger una de las variables (por ejemplo, la de
menor ı́ndice).
◮ El nodo formado por Ω se llama la raı́z del árbol. Un
nodo que se subdivide se llama nodo intermedio, si no
se llama nodo terminal.
◮ Es importante notar que el algoritmo solamente tiene
dos parámetros, δ y q, los cuales son fáciles de ajustar.
Además, los datos aberrates (outliers) no afectan los
resultados y es posible manejar los datos faltantes.
27. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
Implementación del Algoritmo CART para Regresión
◮ Arbol sobreestimado: es posible que los valores de δ y q
sean relativamente pequeños (árbol máximo con δ = 0
y q = 1), por lo que el árbol tendrá mucha profundidad,
con nodos terminales con muy pocos objetos asociados.
28. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
Implementación del Algoritmo CART para Regresión
◮ Arbol sobreestimado: es posible que los valores de δ y q
sean relativamente pequeños (árbol máximo con δ = 0
y q = 1), por lo que el árbol tendrá mucha profundidad,
con nodos terminales con muy pocos objetos asociados.
◮ Hay que podar el árbol (se usa como criterio el error
cuadrático medio en las predicciones hechas con el
árbol)
29. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
Implementación del Algoritmo CART para Regresión
◮ Arbol sobreestimado: es posible que los valores de δ y q
sean relativamente pequeños (árbol máximo con δ = 0
y q = 1), por lo que el árbol tendrá mucha profundidad,
con nodos terminales con muy pocos objetos asociados.
◮ Hay que podar el árbol (se usa como criterio el error
cuadrático medio en las predicciones hechas con el
árbol)
◮ Se divide el conjunto de objetos en dos muestras: de
aprendizaje y de test
30. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
Implementación del Algoritmo CART para Regresión
◮ Arbol sobreestimado: es posible que los valores de δ y q
sean relativamente pequeños (árbol máximo con δ = 0
y q = 1), por lo que el árbol tendrá mucha profundidad,
con nodos terminales con muy pocos objetos asociados.
◮ Hay que podar el árbol (se usa como criterio el error
cuadrático medio en las predicciones hechas con el
árbol)
◮ Se divide el conjunto de objetos en dos muestras: de
aprendizaje y de test
◮ Con la muestra de aprendizaje se construye el árbol, con
la de test se evalúa el mismo para mejorarlo. Se usa n/3
para la muestra de aprendizaje y 2n/3 para la de test.
31. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
Implementación del Algoritmo CART para Regresión
◮ Arbol sobreestimado: es posible que los valores de δ y q
sean relativamente pequeños (árbol máximo con δ = 0
y q = 1), por lo que el árbol tendrá mucha profundidad,
con nodos terminales con muy pocos objetos asociados.
◮ Hay que podar el árbol (se usa como criterio el error
cuadrático medio en las predicciones hechas con el
árbol)
◮ Se divide el conjunto de objetos en dos muestras: de
aprendizaje y de test
◮ Con la muestra de aprendizaje se construye el árbol, con
la de test se evalúa el mismo para mejorarlo. Se usa n/3
para la muestra de aprendizaje y 2n/3 para la de test.
◮ En cada par de hojas con un padre en común, se evalúa
el error en la muestra de test, y si la suma de los
cuadrados de los errores disminuye al quitar las hojas
entonces se hace del padre una hoja.
33. Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
Ejemplo de CART para Regresión
Al aplicar la función tree de R se obtiene el árbol mostrado
en la figura:
|
X2 < 115
X1 < 14.5
60.0 111.2
172.9