SlideShare una empresa de Scribd logo
1 de 33
Descargar para leer sin conexión
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión – CART
Javier Trejos
Escuela de Matemática – CIMPA
Universidad de Costa Rica
November 3, 2014
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Esquema
Arboles de Clasificación y Regresión
CART para Regresión
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART
◮ El término CART son las siglas en inglés de
Classification And Regression Trees, es decir, Árboles de
Clasificación y Regresión.
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART
◮ El término CART son las siglas en inglés de
Classification And Regression Trees, es decir, Árboles de
Clasificación y Regresión.
◮ Se trata de una familia de métodos que sirven tanto
para predecir una variables cuantitativa para hacer
regresión, como para predecir una variable cualitativa
para hacer discriminación.
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART
◮ El término CART son las siglas en inglés de
Classification And Regression Trees, es decir, Árboles de
Clasificación y Regresión.
◮ Se trata de una familia de métodos que sirven tanto
para predecir una variables cuantitativa para hacer
regresión, como para predecir una variable cualitativa
para hacer discriminación.
◮ Se basan en procedimientos similares a los de la
segmentación, como el clásico Iterative Dichotomiser
(ID3) de Quinlan, donde se construyen árboles cuyos
nodos son definidos por valores de las variables
explicativas, con respecto a niveles o valores de la
variable a explicar.
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART
◮ El término CART son las siglas en inglés de
Classification And Regression Trees, es decir, Árboles de
Clasificación y Regresión.
◮ Se trata de una familia de métodos que sirven tanto
para predecir una variables cuantitativa para hacer
regresión, como para predecir una variable cualitativa
para hacer discriminación.
◮ Se basan en procedimientos similares a los de la
segmentación, como el clásico Iterative Dichotomiser
(ID3) de Quinlan, donde se construyen árboles cuyos
nodos son definidos por valores de las variables
explicativas, con respecto a niveles o valores de la
variable a explicar.
◮ Breiman y colaboradores redefinieron los métodos de
segmentación, dando un soporte sólido a la metodologı́a
con procedimientos claros y bien fundamentados.
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART
◮ Se trata de particionar la muestra o población que se
tenga, según sea el caso, en dos grupos o nodos
descritos por los valores de alguna variable explicativa,
la cual minimiza un criterio.
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART
◮ Se trata de particionar la muestra o población que se
tenga, según sea el caso, en dos grupos o nodos
descritos por los valores de alguna variable explicativa,
la cual minimiza un criterio.
◮ Luego, cada nodo recién creado se particiona
sucesivamente de la misma forma hasta una regla de
parada.
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART
◮ Se trata de particionar la muestra o población que se
tenga, según sea el caso, en dos grupos o nodos
descritos por los valores de alguna variable explicativa,
la cual minimiza un criterio.
◮ Luego, cada nodo recién creado se particiona
sucesivamente de la misma forma hasta una regla de
parada.
◮ Cada nodo constituye en sı́ mismo un modelo simple, de
fácil interpretación.
◮ Una de las mayores ventajas de CART es que el árbol es
de muy fácil interpretación para el usuario, y que la
implementación del método no requiere de
conocimientos profundos en Estadı́stica ni Probabilidad.
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART
◮ Se trata de particionar la muestra o población que se
tenga, según sea el caso, en dos grupos o nodos
descritos por los valores de alguna variable explicativa,
la cual minimiza un criterio.
◮ Luego, cada nodo recién creado se particiona
sucesivamente de la misma forma hasta una regla de
parada.
◮ Cada nodo constituye en sı́ mismo un modelo simple, de
fácil interpretación.
◮ Una de las mayores ventajas de CART es que el árbol es
de muy fácil interpretación para el usuario, y que la
implementación del método no requiere de
conocimientos profundos en Estadı́stica ni Probabilidad.
◮ De esta forma es fácil ver cuales son las variables
importantes para el modelo explicativo.
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART
◮ Se trata de particionar la muestra o población que se
tenga, según sea el caso, en dos grupos o nodos
descritos por los valores de alguna variable explicativa,
la cual minimiza un criterio.
◮ Luego, cada nodo recién creado se particiona
sucesivamente de la misma forma hasta una regla de
parada.
◮ Cada nodo constituye en sı́ mismo un modelo simple, de
fácil interpretación.
◮ Una de las mayores ventajas de CART es que el árbol es
de muy fácil interpretación para el usuario, y que la
implementación del método no requiere de
conocimientos profundos en Estadı́stica ni Probabilidad.
◮ De esta forma es fácil ver cuales son las variables
importantes para el modelo explicativo.
◮ Permite el manejo de los datos faltantes y no es
necesario normalizar las variables.
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART para Regresión
◮ Sea Ω = {1, . . . , n} un conjunto de objetos o unidades
estadı́sticas sobre las que se han observado o medido p
variables explicativas cuantitativas o cualitativas
x1, . . . , xp, y una variable a explicar y, cuantitativa.
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART para Regresión
◮ Sea Ω = {1, . . . , n} un conjunto de objetos o unidades
estadı́sticas sobre las que se han observado o medido p
variables explicativas cuantitativas o cualitativas
x1, . . . , xp, y una variable a explicar y, cuantitativa.
◮ A Ω se le llama el nodo raı́z.
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART para Regresión
◮ Sea Ω = {1, . . . , n} un conjunto de objetos o unidades
estadı́sticas sobre las que se han observado o medido p
variables explicativas cuantitativas o cualitativas
x1, . . . , xp, y una variable a explicar y, cuantitativa.
◮ A Ω se le llama el nodo raı́z.
◮ Se subdivide en dos nodos, llamados nodos hijos.
◮ Cada nodo está descrito por la variable xj que sirvió a
la división, es decir, la que minimizó el criterio.
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART para Regresión
◮ En caso de que xj sea cuantitativa, el nodo izquierdo al
estarı́a descrito por una regla del tipo:
i ∈ al ⇔ xij ≤ α
y el nodo derecho estarı́a descrito por una regla del tipo:
i ∈ ar ⇔ xij > α,
es decir, hay un nivel α que sirve para separar el nodo
derecho del izquierdo.
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART para Regresión
◮ En caso de que xj sea cuantitativa, el nodo izquierdo al
estarı́a descrito por una regla del tipo:
i ∈ al ⇔ xij ≤ α
y el nodo derecho estarı́a descrito por una regla del tipo:
i ∈ ar ⇔ xij > α,
es decir, hay un nivel α que sirve para separar el nodo
derecho del izquierdo.
◮ En caso de que xj sea cualitativa, entonces el nodo
izquierdo al estarı́a descrito por una regla del tipo:
i ∈ al ⇔ xij = α
y el nodo derecho estarı́a descrito por una regla del tipo:
i ∈ ar ⇔ xij 6= α,
donde α es una modalidad o categorı́a de xj.
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART para Regresión
◮ Los objetos de Ω pertenecen o se asocian a uno de los
nodos hijos, al nodo derecho o al izquierdo, pues
solamente una de las dos reglas puede ser cumplida.
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART para Regresión
◮ Los objetos de Ω pertenecen o se asocian a uno de los
nodos hijos, al nodo derecho o al izquierdo, pues
solamente una de las dos reglas puede ser cumplida.
◮ En cada nodo hijo se repite el procedimiento
recursivamente, necesitándose un criterio de parada.
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
CART para Regresión
◮ Los objetos de Ω pertenecen o se asocian a uno de los
nodos hijos, al nodo derecho o al izquierdo, pues
solamente una de las dos reglas puede ser cumplida.
◮ En cada nodo hijo se repite el procedimiento
recursivamente, necesitándose un criterio de parada.
◮ Generalmente, éste está basado ya sea en la
cardinalidad del nodo (es decir, si el nodo contiene una
cantidad de elementos que no sobrepasa un umbral
preestablecido), o bien que la variación del criterio sea
menor que un valor dado.
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
Criterio usado en CART para Regresión
◮ Se define un criterio de inercia para medir la
homogeneidad de las clases creadas en cada división. Si
A es el árbol en construcción, se desea minimizar
S =
X
a∈Hojas(A)
X
i∈a
(yi − ā)2
(1)
donde yi es la observación de y en el objeto i, y
ā = 1
|a|
P
i∈a yi es el promedio de los valores de y en la
hoja a.
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
Algoritmo CART para Regresión
1. Inicio: sea el nodo a = Ω. Escoger valores para δ, q.
2. Si para todo i ∈ a se tiene que todos los valores de las
variables xj son iguales, entonces parar.
Si no, buscar todas las particiones en 2 clases de cada
variable xj y escoger la que minimiza S, se crean ası́ los
nodos al y ar para un nivel α.
3. Parar si el decrecimiento de S es menor que δ, o si
|al| < q o si |ar| < q.
Si no, en cada nodo creado regresar al paso 2.
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
Algoritmo CART para Regresión
1. Inicio: sea el nodo a = Ω. Escoger valores para δ, q.
2. Si para todo i ∈ a se tiene que todos los valores de las
variables xj son iguales, entonces parar.
Si no, buscar todas las particiones en 2 clases de cada
variable xj y escoger la que minimiza S, se crean ası́ los
nodos al y ar para un nivel α.
3. Parar si el decrecimiento de S es menor que δ, o si
|al| < q o si |ar| < q.
Si no, en cada nodo creado regresar al paso 2.
Puede verse que, como la mayorı́a de los métodos que
construyen árboles, se trata de un método glotón, o voraz,
pues hace la minimización de S localmente en cada nodo sin
revisar las escogencias anteriores, y sin hacer una evaluación
global del criterio.
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
Observaciones al Algoritmo CART para Regresión
◮ En el paso 2, al buscar las posibles particiones esta
cantidad puede ser muy grande. Si la variable a
considerar es cuantitativa entonces habrı́a n − 1 posibles
particiones, si es ordinal con k categorı́as habrı́a k − 1
particiones, y si es nominal este número serı́a 2k−1 − 1.
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
Observaciones al Algoritmo CART para Regresión
◮ En el paso 2, al buscar las posibles particiones esta
cantidad puede ser muy grande. Si la variable a
considerar es cuantitativa entonces habrı́a n − 1 posibles
particiones, si es ordinal con k categorı́as habrı́a k − 1
particiones, y si es nominal este número serı́a 2k−1 − 1.
◮ La etiqueta del nodo se hace con la variable que sirvió
para hacer la división. En caso de igualdad en el
mı́nimo del criterio al momento de hacer la división, se
debe escoger una de las variables (por ejemplo, la de
menor ı́ndice).
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
Observaciones al Algoritmo CART para Regresión
◮ En el paso 2, al buscar las posibles particiones esta
cantidad puede ser muy grande. Si la variable a
considerar es cuantitativa entonces habrı́a n − 1 posibles
particiones, si es ordinal con k categorı́as habrı́a k − 1
particiones, y si es nominal este número serı́a 2k−1 − 1.
◮ La etiqueta del nodo se hace con la variable que sirvió
para hacer la división. En caso de igualdad en el
mı́nimo del criterio al momento de hacer la división, se
debe escoger una de las variables (por ejemplo, la de
menor ı́ndice).
◮ El nodo formado por Ω se llama la raı́z del árbol. Un
nodo que se subdivide se llama nodo intermedio, si no
se llama nodo terminal.
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
Observaciones al Algoritmo CART para Regresión
◮ En el paso 2, al buscar las posibles particiones esta
cantidad puede ser muy grande. Si la variable a
considerar es cuantitativa entonces habrı́a n − 1 posibles
particiones, si es ordinal con k categorı́as habrı́a k − 1
particiones, y si es nominal este número serı́a 2k−1 − 1.
◮ La etiqueta del nodo se hace con la variable que sirvió
para hacer la división. En caso de igualdad en el
mı́nimo del criterio al momento de hacer la división, se
debe escoger una de las variables (por ejemplo, la de
menor ı́ndice).
◮ El nodo formado por Ω se llama la raı́z del árbol. Un
nodo que se subdivide se llama nodo intermedio, si no
se llama nodo terminal.
◮ Es importante notar que el algoritmo solamente tiene
dos parámetros, δ y q, los cuales son fáciles de ajustar.
Además, los datos aberrates (outliers) no afectan los
resultados y es posible manejar los datos faltantes.
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
Implementación del Algoritmo CART para Regresión
◮ Arbol sobreestimado: es posible que los valores de δ y q
sean relativamente pequeños (árbol máximo con δ = 0
y q = 1), por lo que el árbol tendrá mucha profundidad,
con nodos terminales con muy pocos objetos asociados.
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
Implementación del Algoritmo CART para Regresión
◮ Arbol sobreestimado: es posible que los valores de δ y q
sean relativamente pequeños (árbol máximo con δ = 0
y q = 1), por lo que el árbol tendrá mucha profundidad,
con nodos terminales con muy pocos objetos asociados.
◮ Hay que podar el árbol (se usa como criterio el error
cuadrático medio en las predicciones hechas con el
árbol)
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
Implementación del Algoritmo CART para Regresión
◮ Arbol sobreestimado: es posible que los valores de δ y q
sean relativamente pequeños (árbol máximo con δ = 0
y q = 1), por lo que el árbol tendrá mucha profundidad,
con nodos terminales con muy pocos objetos asociados.
◮ Hay que podar el árbol (se usa como criterio el error
cuadrático medio en las predicciones hechas con el
árbol)
◮ Se divide el conjunto de objetos en dos muestras: de
aprendizaje y de test
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
Implementación del Algoritmo CART para Regresión
◮ Arbol sobreestimado: es posible que los valores de δ y q
sean relativamente pequeños (árbol máximo con δ = 0
y q = 1), por lo que el árbol tendrá mucha profundidad,
con nodos terminales con muy pocos objetos asociados.
◮ Hay que podar el árbol (se usa como criterio el error
cuadrático medio en las predicciones hechas con el
árbol)
◮ Se divide el conjunto de objetos en dos muestras: de
aprendizaje y de test
◮ Con la muestra de aprendizaje se construye el árbol, con
la de test se evalúa el mismo para mejorarlo. Se usa n/3
para la muestra de aprendizaje y 2n/3 para la de test.
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
Implementación del Algoritmo CART para Regresión
◮ Arbol sobreestimado: es posible que los valores de δ y q
sean relativamente pequeños (árbol máximo con δ = 0
y q = 1), por lo que el árbol tendrá mucha profundidad,
con nodos terminales con muy pocos objetos asociados.
◮ Hay que podar el árbol (se usa como criterio el error
cuadrático medio en las predicciones hechas con el
árbol)
◮ Se divide el conjunto de objetos en dos muestras: de
aprendizaje y de test
◮ Con la muestra de aprendizaje se construye el árbol, con
la de test se evalúa el mismo para mejorarlo. Se usa n/3
para la muestra de aprendizaje y 2n/3 para la de test.
◮ En cada par de hojas con un padre en común, se evalúa
el error en la muestra de test, y si la suma de los
cuadrados de los errores disminuye al quitar las hojas
entonces se hace del padre una hoja.
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
Ejemplo de CART para Regresión
ωi x1 x2 x3 x4 y
1 8 32 51 104 40
2 12 40 11 74 50
3 11 38 18 96 50
4 12 60 99 97 70
5 14 70 50 89 90
6 15 70 64 86 95
7 18 85 68 73 100
8 17 90 24 64 105
9 20 90 96 64 110
10 21 80 97 74 105
11 21 100 65 59 120
12 22 110 97 57 125
13 23 105 23 41 130
14 23 120 73 44 140
15 24 130 94 38 155
16 25 135 90 22 160
17 25 130 93 31 175
18 26 160 96 24 180
19 29 170 99 11 195
20 30 175 105 18 205
Arboles de
Clasificación y
Regresión – CART
Javier Trejos
Arboles de
Clasificación y
Regresión
CART para
Regresión
Arboles de Clasificación y Regresión
Ejemplo de CART para Regresión
Al aplicar la función tree de R se obtiene el árbol mostrado
en la figura:
|
X2 < 115
X1 < 14.5
60.0 111.2
172.9

Más contenido relacionado

Más de Facultad de Ciencias, UCR (15)

Yield curve estimation in Costa Rica
Yield curve estimation in Costa RicaYield curve estimation in Costa Rica
Yield curve estimation in Costa Rica
 
Análisis en componentes principales general
Análisis en componentes principales generalAnálisis en componentes principales general
Análisis en componentes principales general
 
Análisis en componentes principales
Análisis en componentes principalesAnálisis en componentes principales
Análisis en componentes principales
 
Análisis de correspondencias
Análisis de correspondenciasAnálisis de correspondencias
Análisis de correspondencias
 
Análisis de correspondencias múltiples
Análisis de correspondencias múltiplesAnálisis de correspondencias múltiples
Análisis de correspondencias múltiples
 
Ilustracion de K-medias
Ilustracion de K-mediasIlustracion de K-medias
Ilustracion de K-medias
 
Clasificacion automática (II parte) - clustering.pdf
Clasificacion automática (II parte) - clustering.pdfClasificacion automática (II parte) - clustering.pdf
Clasificacion automática (II parte) - clustering.pdf
 
Regresión Lineal Múltiple
Regresión Lineal MúltipleRegresión Lineal Múltiple
Regresión Lineal Múltiple
 
Regresión Logística
Regresión LogísticaRegresión Logística
Regresión Logística
 
7_Discriminacion.pdf
7_Discriminacion.pdf7_Discriminacion.pdf
7_Discriminacion.pdf
 
Analisis Canonico
Analisis CanonicoAnalisis Canonico
Analisis Canonico
 
Clasificación óptima: algoritmo de Fisher
Clasificación óptima: algoritmo de FisherClasificación óptima: algoritmo de Fisher
Clasificación óptima: algoritmo de Fisher
 
Regresión PLS
Regresión PLSRegresión PLS
Regresión PLS
 
Curso(1)-Clasificacion
Curso(1)-ClasificacionCurso(1)-Clasificacion
Curso(1)-Clasificacion
 
Modelos de clasificación
Modelos de clasificaciónModelos de clasificación
Modelos de clasificación
 

Último

medicinatradicionalescuelanacionaldesalud.pptx
medicinatradicionalescuelanacionaldesalud.pptxmedicinatradicionalescuelanacionaldesalud.pptx
medicinatradicionalescuelanacionaldesalud.pptxMAMANIMAMANI4
 
La señal de los higos buenos y los higos malos
La señal de los higos buenos y los higos malosLa señal de los higos buenos y los higos malos
La señal de los higos buenos y los higos malosDomingoAlbertoCorpor1
 
SEGUNDAS VANGUARDIAS ARTÍSTICAS DEL SIGLO XX.pdf
SEGUNDAS VANGUARDIAS ARTÍSTICAS DEL SIGLO XX.pdfSEGUNDAS VANGUARDIAS ARTÍSTICAS DEL SIGLO XX.pdf
SEGUNDAS VANGUARDIAS ARTÍSTICAS DEL SIGLO XX.pdfPC0121
 
Diario experiencias Quehacer Científico y tecnológico vf.docx
Diario experiencias Quehacer Científico y tecnológico vf.docxDiario experiencias Quehacer Científico y tecnológico vf.docx
Diario experiencias Quehacer Científico y tecnológico vf.docxJulieta624646
 
Glaeser, E. - El triunfo de las ciudades [2011].pdf
Glaeser, E. - El triunfo de las ciudades [2011].pdfGlaeser, E. - El triunfo de las ciudades [2011].pdf
Glaeser, E. - El triunfo de las ciudades [2011].pdffrank0071
 
Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdf
Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdfAlthusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdf
Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdffrank0071
 
IAAS- EPIDEMIOLOGIA. antisepcsia, desinfección, epp
IAAS-  EPIDEMIOLOGIA. antisepcsia, desinfección, eppIAAS-  EPIDEMIOLOGIA. antisepcsia, desinfección, epp
IAAS- EPIDEMIOLOGIA. antisepcsia, desinfección, eppCatalinaSezCrdenas
 
Mapa-conceptual-de-la-Seguridad-y-Salud-en-el-Trabajo-3.pptx
Mapa-conceptual-de-la-Seguridad-y-Salud-en-el-Trabajo-3.pptxMapa-conceptual-de-la-Seguridad-y-Salud-en-el-Trabajo-3.pptx
Mapa-conceptual-de-la-Seguridad-y-Salud-en-el-Trabajo-3.pptxangietatianasanchezc
 
Fresas y sistemas de pulido en odontología
Fresas y sistemas de pulido en odontologíaFresas y sistemas de pulido en odontología
Fresas y sistemas de pulido en odontologíaDanyAguayo1
 
Un repaso de los ensayos recientes de historia de la ciencia y la tecnología ...
Un repaso de los ensayos recientes de historia de la ciencia y la tecnología ...Un repaso de los ensayos recientes de historia de la ciencia y la tecnología ...
Un repaso de los ensayos recientes de historia de la ciencia y la tecnología ...Juan Carlos Fonseca Mata
 
Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...
Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...
Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...frank0071
 
Mapa Conceptual Modelos de Comunicación .pdf
Mapa Conceptual Modelos de Comunicación .pdfMapa Conceptual Modelos de Comunicación .pdf
Mapa Conceptual Modelos de Comunicación .pdfoliverjverde
 
La Célula, unidad fundamental de la vida
La Célula, unidad fundamental de la vidaLa Célula, unidad fundamental de la vida
La Célula, unidad fundamental de la vidaMaraJosQuiroz2
 
Ensayo ENRICH (sesión clínica, Servicio de Neurología HUCA)
Ensayo ENRICH (sesión clínica, Servicio de Neurología HUCA)Ensayo ENRICH (sesión clínica, Servicio de Neurología HUCA)
Ensayo ENRICH (sesión clínica, Servicio de Neurología HUCA)s.calleja
 
PRUEBA CALIFICADA 4º sec biomoleculas y bioelementos .docx
PRUEBA CALIFICADA 4º sec biomoleculas y bioelementos .docxPRUEBA CALIFICADA 4º sec biomoleculas y bioelementos .docx
PRUEBA CALIFICADA 4º sec biomoleculas y bioelementos .docxAlexandraNeryHuamanM2
 
Matemáticas Aplicadas usando Python
Matemáticas Aplicadas   usando    PythonMatemáticas Aplicadas   usando    Python
Matemáticas Aplicadas usando PythonErnesto Crespo
 
Moda colonial de 1810 donde podemos ver las distintas prendas
Moda colonial de 1810 donde podemos ver las distintas prendasModa colonial de 1810 donde podemos ver las distintas prendas
Moda colonial de 1810 donde podemos ver las distintas prendasMorenaVictorero1
 
Terapia Cognitivo Conductual CAPITULO 2.
Terapia Cognitivo Conductual CAPITULO 2.Terapia Cognitivo Conductual CAPITULO 2.
Terapia Cognitivo Conductual CAPITULO 2.ChiquinquirMilagroTo
 
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptxllacza2004
 

Último (20)

medicinatradicionalescuelanacionaldesalud.pptx
medicinatradicionalescuelanacionaldesalud.pptxmedicinatradicionalescuelanacionaldesalud.pptx
medicinatradicionalescuelanacionaldesalud.pptx
 
La señal de los higos buenos y los higos malos
La señal de los higos buenos y los higos malosLa señal de los higos buenos y los higos malos
La señal de los higos buenos y los higos malos
 
SEGUNDAS VANGUARDIAS ARTÍSTICAS DEL SIGLO XX.pdf
SEGUNDAS VANGUARDIAS ARTÍSTICAS DEL SIGLO XX.pdfSEGUNDAS VANGUARDIAS ARTÍSTICAS DEL SIGLO XX.pdf
SEGUNDAS VANGUARDIAS ARTÍSTICAS DEL SIGLO XX.pdf
 
Diario experiencias Quehacer Científico y tecnológico vf.docx
Diario experiencias Quehacer Científico y tecnológico vf.docxDiario experiencias Quehacer Científico y tecnológico vf.docx
Diario experiencias Quehacer Científico y tecnológico vf.docx
 
Glaeser, E. - El triunfo de las ciudades [2011].pdf
Glaeser, E. - El triunfo de las ciudades [2011].pdfGlaeser, E. - El triunfo de las ciudades [2011].pdf
Glaeser, E. - El triunfo de las ciudades [2011].pdf
 
Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdf
Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdfAlthusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdf
Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdf
 
IAAS- EPIDEMIOLOGIA. antisepcsia, desinfección, epp
IAAS-  EPIDEMIOLOGIA. antisepcsia, desinfección, eppIAAS-  EPIDEMIOLOGIA. antisepcsia, desinfección, epp
IAAS- EPIDEMIOLOGIA. antisepcsia, desinfección, epp
 
Mapa-conceptual-de-la-Seguridad-y-Salud-en-el-Trabajo-3.pptx
Mapa-conceptual-de-la-Seguridad-y-Salud-en-el-Trabajo-3.pptxMapa-conceptual-de-la-Seguridad-y-Salud-en-el-Trabajo-3.pptx
Mapa-conceptual-de-la-Seguridad-y-Salud-en-el-Trabajo-3.pptx
 
Fresas y sistemas de pulido en odontología
Fresas y sistemas de pulido en odontologíaFresas y sistemas de pulido en odontología
Fresas y sistemas de pulido en odontología
 
Un repaso de los ensayos recientes de historia de la ciencia y la tecnología ...
Un repaso de los ensayos recientes de historia de la ciencia y la tecnología ...Un repaso de los ensayos recientes de historia de la ciencia y la tecnología ...
Un repaso de los ensayos recientes de historia de la ciencia y la tecnología ...
 
La biodiversidad de Guanajuato (resumen)
La biodiversidad de Guanajuato (resumen)La biodiversidad de Guanajuato (resumen)
La biodiversidad de Guanajuato (resumen)
 
Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...
Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...
Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...
 
Mapa Conceptual Modelos de Comunicación .pdf
Mapa Conceptual Modelos de Comunicación .pdfMapa Conceptual Modelos de Comunicación .pdf
Mapa Conceptual Modelos de Comunicación .pdf
 
La Célula, unidad fundamental de la vida
La Célula, unidad fundamental de la vidaLa Célula, unidad fundamental de la vida
La Célula, unidad fundamental de la vida
 
Ensayo ENRICH (sesión clínica, Servicio de Neurología HUCA)
Ensayo ENRICH (sesión clínica, Servicio de Neurología HUCA)Ensayo ENRICH (sesión clínica, Servicio de Neurología HUCA)
Ensayo ENRICH (sesión clínica, Servicio de Neurología HUCA)
 
PRUEBA CALIFICADA 4º sec biomoleculas y bioelementos .docx
PRUEBA CALIFICADA 4º sec biomoleculas y bioelementos .docxPRUEBA CALIFICADA 4º sec biomoleculas y bioelementos .docx
PRUEBA CALIFICADA 4º sec biomoleculas y bioelementos .docx
 
Matemáticas Aplicadas usando Python
Matemáticas Aplicadas   usando    PythonMatemáticas Aplicadas   usando    Python
Matemáticas Aplicadas usando Python
 
Moda colonial de 1810 donde podemos ver las distintas prendas
Moda colonial de 1810 donde podemos ver las distintas prendasModa colonial de 1810 donde podemos ver las distintas prendas
Moda colonial de 1810 donde podemos ver las distintas prendas
 
Terapia Cognitivo Conductual CAPITULO 2.
Terapia Cognitivo Conductual CAPITULO 2.Terapia Cognitivo Conductual CAPITULO 2.
Terapia Cognitivo Conductual CAPITULO 2.
 
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx
 

CART

  • 1. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión – CART Javier Trejos Escuela de Matemática – CIMPA Universidad de Costa Rica November 3, 2014
  • 2. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Esquema Arboles de Clasificación y Regresión CART para Regresión
  • 3. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión CART ◮ El término CART son las siglas en inglés de Classification And Regression Trees, es decir, Árboles de Clasificación y Regresión.
  • 4. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión CART ◮ El término CART son las siglas en inglés de Classification And Regression Trees, es decir, Árboles de Clasificación y Regresión. ◮ Se trata de una familia de métodos que sirven tanto para predecir una variables cuantitativa para hacer regresión, como para predecir una variable cualitativa para hacer discriminación.
  • 5. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión CART ◮ El término CART son las siglas en inglés de Classification And Regression Trees, es decir, Árboles de Clasificación y Regresión. ◮ Se trata de una familia de métodos que sirven tanto para predecir una variables cuantitativa para hacer regresión, como para predecir una variable cualitativa para hacer discriminación. ◮ Se basan en procedimientos similares a los de la segmentación, como el clásico Iterative Dichotomiser (ID3) de Quinlan, donde se construyen árboles cuyos nodos son definidos por valores de las variables explicativas, con respecto a niveles o valores de la variable a explicar.
  • 6. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión CART ◮ El término CART son las siglas en inglés de Classification And Regression Trees, es decir, Árboles de Clasificación y Regresión. ◮ Se trata de una familia de métodos que sirven tanto para predecir una variables cuantitativa para hacer regresión, como para predecir una variable cualitativa para hacer discriminación. ◮ Se basan en procedimientos similares a los de la segmentación, como el clásico Iterative Dichotomiser (ID3) de Quinlan, donde se construyen árboles cuyos nodos son definidos por valores de las variables explicativas, con respecto a niveles o valores de la variable a explicar. ◮ Breiman y colaboradores redefinieron los métodos de segmentación, dando un soporte sólido a la metodologı́a con procedimientos claros y bien fundamentados.
  • 7. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión CART ◮ Se trata de particionar la muestra o población que se tenga, según sea el caso, en dos grupos o nodos descritos por los valores de alguna variable explicativa, la cual minimiza un criterio.
  • 8. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión CART ◮ Se trata de particionar la muestra o población que se tenga, según sea el caso, en dos grupos o nodos descritos por los valores de alguna variable explicativa, la cual minimiza un criterio. ◮ Luego, cada nodo recién creado se particiona sucesivamente de la misma forma hasta una regla de parada.
  • 9. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión CART ◮ Se trata de particionar la muestra o población que se tenga, según sea el caso, en dos grupos o nodos descritos por los valores de alguna variable explicativa, la cual minimiza un criterio. ◮ Luego, cada nodo recién creado se particiona sucesivamente de la misma forma hasta una regla de parada. ◮ Cada nodo constituye en sı́ mismo un modelo simple, de fácil interpretación. ◮ Una de las mayores ventajas de CART es que el árbol es de muy fácil interpretación para el usuario, y que la implementación del método no requiere de conocimientos profundos en Estadı́stica ni Probabilidad.
  • 10. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión CART ◮ Se trata de particionar la muestra o población que se tenga, según sea el caso, en dos grupos o nodos descritos por los valores de alguna variable explicativa, la cual minimiza un criterio. ◮ Luego, cada nodo recién creado se particiona sucesivamente de la misma forma hasta una regla de parada. ◮ Cada nodo constituye en sı́ mismo un modelo simple, de fácil interpretación. ◮ Una de las mayores ventajas de CART es que el árbol es de muy fácil interpretación para el usuario, y que la implementación del método no requiere de conocimientos profundos en Estadı́stica ni Probabilidad. ◮ De esta forma es fácil ver cuales son las variables importantes para el modelo explicativo.
  • 11. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión CART ◮ Se trata de particionar la muestra o población que se tenga, según sea el caso, en dos grupos o nodos descritos por los valores de alguna variable explicativa, la cual minimiza un criterio. ◮ Luego, cada nodo recién creado se particiona sucesivamente de la misma forma hasta una regla de parada. ◮ Cada nodo constituye en sı́ mismo un modelo simple, de fácil interpretación. ◮ Una de las mayores ventajas de CART es que el árbol es de muy fácil interpretación para el usuario, y que la implementación del método no requiere de conocimientos profundos en Estadı́stica ni Probabilidad. ◮ De esta forma es fácil ver cuales son las variables importantes para el modelo explicativo. ◮ Permite el manejo de los datos faltantes y no es necesario normalizar las variables.
  • 12. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión CART para Regresión ◮ Sea Ω = {1, . . . , n} un conjunto de objetos o unidades estadı́sticas sobre las que se han observado o medido p variables explicativas cuantitativas o cualitativas x1, . . . , xp, y una variable a explicar y, cuantitativa.
  • 13. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión CART para Regresión ◮ Sea Ω = {1, . . . , n} un conjunto de objetos o unidades estadı́sticas sobre las que se han observado o medido p variables explicativas cuantitativas o cualitativas x1, . . . , xp, y una variable a explicar y, cuantitativa. ◮ A Ω se le llama el nodo raı́z.
  • 14. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión CART para Regresión ◮ Sea Ω = {1, . . . , n} un conjunto de objetos o unidades estadı́sticas sobre las que se han observado o medido p variables explicativas cuantitativas o cualitativas x1, . . . , xp, y una variable a explicar y, cuantitativa. ◮ A Ω se le llama el nodo raı́z. ◮ Se subdivide en dos nodos, llamados nodos hijos. ◮ Cada nodo está descrito por la variable xj que sirvió a la división, es decir, la que minimizó el criterio.
  • 15. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión CART para Regresión ◮ En caso de que xj sea cuantitativa, el nodo izquierdo al estarı́a descrito por una regla del tipo: i ∈ al ⇔ xij ≤ α y el nodo derecho estarı́a descrito por una regla del tipo: i ∈ ar ⇔ xij > α, es decir, hay un nivel α que sirve para separar el nodo derecho del izquierdo.
  • 16. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión CART para Regresión ◮ En caso de que xj sea cuantitativa, el nodo izquierdo al estarı́a descrito por una regla del tipo: i ∈ al ⇔ xij ≤ α y el nodo derecho estarı́a descrito por una regla del tipo: i ∈ ar ⇔ xij > α, es decir, hay un nivel α que sirve para separar el nodo derecho del izquierdo. ◮ En caso de que xj sea cualitativa, entonces el nodo izquierdo al estarı́a descrito por una regla del tipo: i ∈ al ⇔ xij = α y el nodo derecho estarı́a descrito por una regla del tipo: i ∈ ar ⇔ xij 6= α, donde α es una modalidad o categorı́a de xj.
  • 17. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión CART para Regresión ◮ Los objetos de Ω pertenecen o se asocian a uno de los nodos hijos, al nodo derecho o al izquierdo, pues solamente una de las dos reglas puede ser cumplida.
  • 18. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión CART para Regresión ◮ Los objetos de Ω pertenecen o se asocian a uno de los nodos hijos, al nodo derecho o al izquierdo, pues solamente una de las dos reglas puede ser cumplida. ◮ En cada nodo hijo se repite el procedimiento recursivamente, necesitándose un criterio de parada.
  • 19. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión CART para Regresión ◮ Los objetos de Ω pertenecen o se asocian a uno de los nodos hijos, al nodo derecho o al izquierdo, pues solamente una de las dos reglas puede ser cumplida. ◮ En cada nodo hijo se repite el procedimiento recursivamente, necesitándose un criterio de parada. ◮ Generalmente, éste está basado ya sea en la cardinalidad del nodo (es decir, si el nodo contiene una cantidad de elementos que no sobrepasa un umbral preestablecido), o bien que la variación del criterio sea menor que un valor dado.
  • 20. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión Criterio usado en CART para Regresión ◮ Se define un criterio de inercia para medir la homogeneidad de las clases creadas en cada división. Si A es el árbol en construcción, se desea minimizar S = X a∈Hojas(A) X i∈a (yi − ā)2 (1) donde yi es la observación de y en el objeto i, y ā = 1 |a| P i∈a yi es el promedio de los valores de y en la hoja a.
  • 21. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión Algoritmo CART para Regresión 1. Inicio: sea el nodo a = Ω. Escoger valores para δ, q. 2. Si para todo i ∈ a se tiene que todos los valores de las variables xj son iguales, entonces parar. Si no, buscar todas las particiones en 2 clases de cada variable xj y escoger la que minimiza S, se crean ası́ los nodos al y ar para un nivel α. 3. Parar si el decrecimiento de S es menor que δ, o si |al| < q o si |ar| < q. Si no, en cada nodo creado regresar al paso 2.
  • 22. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión Algoritmo CART para Regresión 1. Inicio: sea el nodo a = Ω. Escoger valores para δ, q. 2. Si para todo i ∈ a se tiene que todos los valores de las variables xj son iguales, entonces parar. Si no, buscar todas las particiones en 2 clases de cada variable xj y escoger la que minimiza S, se crean ası́ los nodos al y ar para un nivel α. 3. Parar si el decrecimiento de S es menor que δ, o si |al| < q o si |ar| < q. Si no, en cada nodo creado regresar al paso 2. Puede verse que, como la mayorı́a de los métodos que construyen árboles, se trata de un método glotón, o voraz, pues hace la minimización de S localmente en cada nodo sin revisar las escogencias anteriores, y sin hacer una evaluación global del criterio.
  • 23. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión Observaciones al Algoritmo CART para Regresión ◮ En el paso 2, al buscar las posibles particiones esta cantidad puede ser muy grande. Si la variable a considerar es cuantitativa entonces habrı́a n − 1 posibles particiones, si es ordinal con k categorı́as habrı́a k − 1 particiones, y si es nominal este número serı́a 2k−1 − 1.
  • 24. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión Observaciones al Algoritmo CART para Regresión ◮ En el paso 2, al buscar las posibles particiones esta cantidad puede ser muy grande. Si la variable a considerar es cuantitativa entonces habrı́a n − 1 posibles particiones, si es ordinal con k categorı́as habrı́a k − 1 particiones, y si es nominal este número serı́a 2k−1 − 1. ◮ La etiqueta del nodo se hace con la variable que sirvió para hacer la división. En caso de igualdad en el mı́nimo del criterio al momento de hacer la división, se debe escoger una de las variables (por ejemplo, la de menor ı́ndice).
  • 25. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión Observaciones al Algoritmo CART para Regresión ◮ En el paso 2, al buscar las posibles particiones esta cantidad puede ser muy grande. Si la variable a considerar es cuantitativa entonces habrı́a n − 1 posibles particiones, si es ordinal con k categorı́as habrı́a k − 1 particiones, y si es nominal este número serı́a 2k−1 − 1. ◮ La etiqueta del nodo se hace con la variable que sirvió para hacer la división. En caso de igualdad en el mı́nimo del criterio al momento de hacer la división, se debe escoger una de las variables (por ejemplo, la de menor ı́ndice). ◮ El nodo formado por Ω se llama la raı́z del árbol. Un nodo que se subdivide se llama nodo intermedio, si no se llama nodo terminal.
  • 26. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión Observaciones al Algoritmo CART para Regresión ◮ En el paso 2, al buscar las posibles particiones esta cantidad puede ser muy grande. Si la variable a considerar es cuantitativa entonces habrı́a n − 1 posibles particiones, si es ordinal con k categorı́as habrı́a k − 1 particiones, y si es nominal este número serı́a 2k−1 − 1. ◮ La etiqueta del nodo se hace con la variable que sirvió para hacer la división. En caso de igualdad en el mı́nimo del criterio al momento de hacer la división, se debe escoger una de las variables (por ejemplo, la de menor ı́ndice). ◮ El nodo formado por Ω se llama la raı́z del árbol. Un nodo que se subdivide se llama nodo intermedio, si no se llama nodo terminal. ◮ Es importante notar que el algoritmo solamente tiene dos parámetros, δ y q, los cuales son fáciles de ajustar. Además, los datos aberrates (outliers) no afectan los resultados y es posible manejar los datos faltantes.
  • 27. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión Implementación del Algoritmo CART para Regresión ◮ Arbol sobreestimado: es posible que los valores de δ y q sean relativamente pequeños (árbol máximo con δ = 0 y q = 1), por lo que el árbol tendrá mucha profundidad, con nodos terminales con muy pocos objetos asociados.
  • 28. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión Implementación del Algoritmo CART para Regresión ◮ Arbol sobreestimado: es posible que los valores de δ y q sean relativamente pequeños (árbol máximo con δ = 0 y q = 1), por lo que el árbol tendrá mucha profundidad, con nodos terminales con muy pocos objetos asociados. ◮ Hay que podar el árbol (se usa como criterio el error cuadrático medio en las predicciones hechas con el árbol)
  • 29. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión Implementación del Algoritmo CART para Regresión ◮ Arbol sobreestimado: es posible que los valores de δ y q sean relativamente pequeños (árbol máximo con δ = 0 y q = 1), por lo que el árbol tendrá mucha profundidad, con nodos terminales con muy pocos objetos asociados. ◮ Hay que podar el árbol (se usa como criterio el error cuadrático medio en las predicciones hechas con el árbol) ◮ Se divide el conjunto de objetos en dos muestras: de aprendizaje y de test
  • 30. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión Implementación del Algoritmo CART para Regresión ◮ Arbol sobreestimado: es posible que los valores de δ y q sean relativamente pequeños (árbol máximo con δ = 0 y q = 1), por lo que el árbol tendrá mucha profundidad, con nodos terminales con muy pocos objetos asociados. ◮ Hay que podar el árbol (se usa como criterio el error cuadrático medio en las predicciones hechas con el árbol) ◮ Se divide el conjunto de objetos en dos muestras: de aprendizaje y de test ◮ Con la muestra de aprendizaje se construye el árbol, con la de test se evalúa el mismo para mejorarlo. Se usa n/3 para la muestra de aprendizaje y 2n/3 para la de test.
  • 31. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión Implementación del Algoritmo CART para Regresión ◮ Arbol sobreestimado: es posible que los valores de δ y q sean relativamente pequeños (árbol máximo con δ = 0 y q = 1), por lo que el árbol tendrá mucha profundidad, con nodos terminales con muy pocos objetos asociados. ◮ Hay que podar el árbol (se usa como criterio el error cuadrático medio en las predicciones hechas con el árbol) ◮ Se divide el conjunto de objetos en dos muestras: de aprendizaje y de test ◮ Con la muestra de aprendizaje se construye el árbol, con la de test se evalúa el mismo para mejorarlo. Se usa n/3 para la muestra de aprendizaje y 2n/3 para la de test. ◮ En cada par de hojas con un padre en común, se evalúa el error en la muestra de test, y si la suma de los cuadrados de los errores disminuye al quitar las hojas entonces se hace del padre una hoja.
  • 32. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión Ejemplo de CART para Regresión ωi x1 x2 x3 x4 y 1 8 32 51 104 40 2 12 40 11 74 50 3 11 38 18 96 50 4 12 60 99 97 70 5 14 70 50 89 90 6 15 70 64 86 95 7 18 85 68 73 100 8 17 90 24 64 105 9 20 90 96 64 110 10 21 80 97 74 105 11 21 100 65 59 120 12 22 110 97 57 125 13 23 105 23 41 130 14 23 120 73 44 140 15 24 130 94 38 155 16 25 135 90 22 160 17 25 130 93 31 175 18 26 160 96 24 180 19 29 170 99 11 195 20 30 175 105 18 205
  • 33. Arboles de Clasificación y Regresión – CART Javier Trejos Arboles de Clasificación y Regresión CART para Regresión Arboles de Clasificación y Regresión Ejemplo de CART para Regresión Al aplicar la función tree de R se obtiene el árbol mostrado en la figura: | X2 < 115 X1 < 14.5 60.0 111.2 172.9