SlideShare una empresa de Scribd logo
1 de 25
Arboles de Decisión
Grupo #4
José Morán 092-10-5765
Sergio Abrego 092-09-680
Harold Spencer 092-07-18062
Carlos Sandoval 092-05-1859
Morris Blanco 092-03-688
David Velásquez 092-11-593
Rodrigo Hernández -092-11-3000
Walter Godínez 092-13-5285
Juan Guacamaya 092-04-800
Uribio Salazar 092-11-8679
Que son los Arboles de Decisión
Un árbol de decisión es una forma gráfica y analítica de representar todos los
eventos (sucesos) que pueden surgir a partir de una decisión asumida en cierto
momento.
Nos ayudan a tomar la decisión “más acertada”, desde un punto de vista
probabilístico, ante un abanico de posibles decisiones.
Terminología
● Nodo de decisión: Indica que una decisión necesita tomarse en
ese punto del proceso.
● Nodo de probabilidad: Indica que en ese punto del proceso ocurre
un evento aleatorio.
● Rama: Nos muestra los distintos caminos que se pueden emprender
cuando tomamos una decisión o bien ocurre algún evento aleatorio.
Pasos para el análisis del Árbol de Decisión
● Definir el problema.
● Dibujar el árbol de decisión.
● Asignar probabilidades a los eventos aleatorios.
● Estimar los resultados para cada combinación posible de alternativas.
● Resolver el problema obteniendo como solución la ruta que proporcione la
política óptima.
Gráficamente
Expresan conjuntos de reglas si-
entonces que pueden ser
interpretadas en el contexto del
problema
Ejemplo Básico de Préstamo a Entidad Bancaria
Arboles de Decisión
- Modelos de Predicción utilizado en IA
- Diagramas de Construcciones lógicas
- Similares a los Sistemas de Predicción
basados en Reglas
Búsqueda Codiciosa de Arriba hacia Abajo
(Top-Down Greedy Search)
Algoritmos de Arboles de Decisión
● Algoritmo ID3
● Algoritmo C4.5
● Algoritmo C5
Algoritmo ID3
● Utilizado en el ámbito de la IA. Desarrollado por JR Quinlan en 1986.
● Su uso se engloba en la búsqueda de Hipótesis o reglas en él, dado un
conjunto de ejemplos.
● El conjunto de ejemplos deberá estar conformado por una serie de tuplas de
valores, cada uno de ellos denominados atributos, en el que uno de ellos,
(atributo a clasificar) es el objetivo. (de tipo binario) SI ó NO.
● Empieza con la construcción del AD con la pregunta: Cuál atributo debería ser
comprobado en la raíz del árbol?
https://es.wikipedia.org/wiki/Algoritmo_ID3
Ejemplo ID3
Algoritmo C4.5
● Desarrollado por JR Quinlan 1993 como mejora del Algoritmo ID3.
● Los árboles de decisión generados por C4.5 pueden ser usados para
clasificación, y por esta razón, C4.5 está casi siempre referido como
un clasificador estadístico.
● Se basa en la utilización del criterio de proporción de ganancia (gain ratio),
definido como I(Xi,C)/H(Xi). De esta manera se consigue evitar que las
variables con mayor número de posibles valores salgan beneficiadas en la
selección.
https://es.wikipedia.org/wiki/C4.5
Heurística de C4.5
● Utiliza una técnica conocida como Gain Ratio (proporción de ganancia). Es una
medida basada en información que considera diferentes números (y diferentes
probabilidades) de los resultados de las pruebas.
Pseudocódigo C4.5
● En pseudocódigo, el algoritmo general para construir árboles de decisión es:
1. Comprobar los casos base
2. Para cada atributo a
○ Encontrar la ganancia de información normalizada de la división de a
3. Dejar que a_best sea el atributo con la ganancia de información normalizada
más alta
4. Crear un nodo de decisión que divida a_best
5. Repetir en las sublistas obtenidas por división de a_best, y agregar estos nodos
como hijos de nodo
Ejemplo C4.5
Mejoras de Algoritmo C4.5
● Evitar Sobreajuste de los datos.
● Determinar que tan profundo debe crecer el árbol de decisión.
● Reducir errores en la poda.
● Condicionar la Post-Poda.
● Manejar atributos continuos.
● Escoger un rango de medida apropiado.
● Manejo de datos de entrenamiento con valores faltantes.
● Manejar atributos con diferentes valores.
● Mejorar la eficiencia computacional.
Ejemplos reales de AD
Simulador para volar avión Cessna
● vuelos test 30 veces con 3 pilotos experimentados
● 90,000 ejemplos descritos por 20 atributos
● se inserto en un simulador y logro volar
Aprendizaje WWW
● WebWatcher - sistema ayuda a localización de información
530 atributo
Grúa de Embarcación
● 450, ejemplos 6 variables
● secuencias de arranque
● tipos de materiales, densidades y comportamientos.
Algoritmo C5
SPSS Modeler Professional y SPSS Modeler Premium
● Nodo Clasificación y Regresión (C&R): predice o clasifica observaciones futuras.
● Nodo CHAID: genera AD utilizando estadística de chi-cuadrado para identificar divisiones optimas
puede generar AD no binarios (mas de 2 ramas)
● Nodo Quest: clasificación binario, diseñado para reducir el tiempo de procesamiento
● Nodo C5: AD o conjunto de reglas, diseñado para ganancia de información en niveles
● Nodo Tree-AS: procesar grandes cantidad de datos (Big Data)
https://www.ibm.com/support/knowledgecenter/es/SS3RA7_sub/modeler_mainhelp_client_ddita/clementine/c50node_general.html
OCR, Optical Character Recognition
● El reconocimiento óptico de caracteres OCR, es esencial en el
tratamiento de imágenes para la identificación de secuencias de caracteres
con un significado concreto.
● Desde la aparición de los algoritmos de OCR, han sido muchos los servicios que
han introducido estos procesos para aumentar su rendimiento y otros que se
basan completamente en estas tecnologías.
● Por ejemplo, el reconocimiento de texto en imágenes o en productos industriales,
reconocimiento de texto manuscrito, reconocimiento de matrículas,
reconocimiento de datos estructurados, son sólo algunos ejemplos dentro de otras
muchas aplicaciones
https://es.wikipedia.org/wiki/Reconocimiento_%C3%B3ptico_de_caracteres
OCR
● Para OCR, existe un método que proporciona muy buenos resultados.
● El algoritmo K- NN (K vecinos más próximos). Este método es muy popular debido a
su sencillez y al buen comportamiento que presenta para afrontar diversos tipos de
problemas de clasificación, siendo uno de ellos el de OCR.
Proceso de OCR
K - NN
● Los árboles de decisión, al igual que el K-NN, es una técnica de tratamiento de datos que se
puede aplicar en el contexto del reconocimiento óptico de caracteres. Los atributos que se
evalúan de un carácter constituyen los nodos del árbol, y los resultados finales se almacenarán
en las hojas del mismo.
● Tras la construcción del árbol y dada la estructura del mismo, toda la evaluación de caracteres
se puede tratar como una arquitectura IF – THEN - ELSE, por lo que si el número de parámetros
a evaluar es suficientemente grande para tener capacidad expresiva pero suficientemente
pequeño para ser eficiente computacionalmente, el árbol puede resultar un método más rápido
que el algoritmo K - NN.
Aprendizaje
Reconocimiento del Carácter
• Recorremos el árbol
según las
características del
carácter a reconocer.
• Si durante el recorrido
llegamos a una hoja del
árbol, reconocemos el
carácter.
• Si no llegamos a una
hoja, aprendemos ese
carácter, y añadimos el
patrón a nuestro árbol.
Ventajas
● Plantean el problema para que todas las
opciones sean analizadas.
● Permiten analizar totalmente las
posibles consecuencias de tomar una
decisión.
● Proveen un esquema para cuantificar el
costo de un resultado y la probabilidad
de que suceda.
● Ayuda a realizar las mejores decisiones
sobre la base de la información
existente y de las mejores suposiciones.
Desventajas
● Sólo es recomendable para cuando
el número de acciones es pequeño y
no son posibles todas las
combinaciones.
● En la elección de un modelo, existe
una cantidad muy limitada y dificulta
para elegir el árbol óptimo.
● Presenta inconvenientes cuando la
cantidad de alternativas es grande y
cuanto las decisiones no son
racionales.
● Al no tener claridad de objetivos, es
difícil de organizar las ideas.
http://ipg3.blogspot.com/2012/02/ventajas-y-desventajas-del-arbol-de.html

Más contenido relacionado

Similar a Árboles de Decisión

01c SIMULACIÓN DE SISTEMAS Trabajo final desarrollo 2020 01 Primera Semana.pdf
01c SIMULACIÓN DE SISTEMAS Trabajo final desarrollo 2020 01  Primera Semana.pdf01c SIMULACIÓN DE SISTEMAS Trabajo final desarrollo 2020 01  Primera Semana.pdf
01c SIMULACIÓN DE SISTEMAS Trabajo final desarrollo 2020 01 Primera Semana.pdf
ssuser81b7a52
 
Unidad 1 algoritmos y programas
Unidad 1 algoritmos y programasUnidad 1 algoritmos y programas
Unidad 1 algoritmos y programas
Roberth Camana
 

Similar a Árboles de Decisión (20)

Control interno (ci)
Control interno (ci)Control interno (ci)
Control interno (ci)
 
Diseño de salidas del sistema
Diseño de salidas del sistemaDiseño de salidas del sistema
Diseño de salidas del sistema
 
01c SIMULACIÓN DE SISTEMAS Trabajo final desarrollo 2020 01 Primera Semana.pdf
01c SIMULACIÓN DE SISTEMAS Trabajo final desarrollo 2020 01  Primera Semana.pdf01c SIMULACIÓN DE SISTEMAS Trabajo final desarrollo 2020 01  Primera Semana.pdf
01c SIMULACIÓN DE SISTEMAS Trabajo final desarrollo 2020 01 Primera Semana.pdf
 
Procesamiento de datos
Procesamiento de datosProcesamiento de datos
Procesamiento de datos
 
Trabajo de 3er periodo tecnología
Trabajo de 3er periodo tecnología Trabajo de 3er periodo tecnología
Trabajo de 3er periodo tecnología
 
Desarrollo de procesos Industriales.pptx
Desarrollo de procesos Industriales.pptxDesarrollo de procesos Industriales.pptx
Desarrollo de procesos Industriales.pptx
 
Solucion de problemas por medio de computadoras
Solucion de problemas por medio de computadorasSolucion de problemas por medio de computadoras
Solucion de problemas por medio de computadoras
 
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
 
Exposición eje temático dos
Exposición eje temático dosExposición eje temático dos
Exposición eje temático dos
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
 
Ramdom forest
Ramdom forestRamdom forest
Ramdom forest
 
Pseint
PseintPseint
Pseint
 
pseint
pseintpseint
pseint
 
Unidad 1 algoritmos y programas
Unidad 1 algoritmos y programasUnidad 1 algoritmos y programas
Unidad 1 algoritmos y programas
 
Arboles de decision
Arboles de decisionArboles de decision
Arboles de decision
 
Laboratorio práctico: La sazón del científico de datos
Laboratorio práctico: La sazón del científico de datosLaboratorio práctico: La sazón del científico de datos
Laboratorio práctico: La sazón del científico de datos
 
Cubos ppt
Cubos pptCubos ppt
Cubos ppt
 
Diaspositivas analisis
Diaspositivas analisisDiaspositivas analisis
Diaspositivas analisis
 
Guia analisis sistemas_septimo_2012
Guia analisis sistemas_septimo_2012Guia analisis sistemas_septimo_2012
Guia analisis sistemas_septimo_2012
 
Cómo construir tu propia data platform. From zero to hero.
Cómo construir tu propia data platform. From zero to hero. Cómo construir tu propia data platform. From zero to hero.
Cómo construir tu propia data platform. From zero to hero.
 

Árboles de Decisión

  • 1. Arboles de Decisión Grupo #4 José Morán 092-10-5765 Sergio Abrego 092-09-680 Harold Spencer 092-07-18062 Carlos Sandoval 092-05-1859 Morris Blanco 092-03-688 David Velásquez 092-11-593 Rodrigo Hernández -092-11-3000 Walter Godínez 092-13-5285 Juan Guacamaya 092-04-800 Uribio Salazar 092-11-8679
  • 2. Que son los Arboles de Decisión Un árbol de decisión es una forma gráfica y analítica de representar todos los eventos (sucesos) que pueden surgir a partir de una decisión asumida en cierto momento. Nos ayudan a tomar la decisión “más acertada”, desde un punto de vista probabilístico, ante un abanico de posibles decisiones.
  • 3. Terminología ● Nodo de decisión: Indica que una decisión necesita tomarse en ese punto del proceso. ● Nodo de probabilidad: Indica que en ese punto del proceso ocurre un evento aleatorio. ● Rama: Nos muestra los distintos caminos que se pueden emprender cuando tomamos una decisión o bien ocurre algún evento aleatorio.
  • 4. Pasos para el análisis del Árbol de Decisión ● Definir el problema. ● Dibujar el árbol de decisión. ● Asignar probabilidades a los eventos aleatorios. ● Estimar los resultados para cada combinación posible de alternativas. ● Resolver el problema obteniendo como solución la ruta que proporcione la política óptima.
  • 5. Gráficamente Expresan conjuntos de reglas si- entonces que pueden ser interpretadas en el contexto del problema
  • 6. Ejemplo Básico de Préstamo a Entidad Bancaria
  • 7. Arboles de Decisión - Modelos de Predicción utilizado en IA - Diagramas de Construcciones lógicas - Similares a los Sistemas de Predicción basados en Reglas Búsqueda Codiciosa de Arriba hacia Abajo (Top-Down Greedy Search)
  • 8. Algoritmos de Arboles de Decisión ● Algoritmo ID3 ● Algoritmo C4.5 ● Algoritmo C5
  • 9. Algoritmo ID3 ● Utilizado en el ámbito de la IA. Desarrollado por JR Quinlan en 1986. ● Su uso se engloba en la búsqueda de Hipótesis o reglas en él, dado un conjunto de ejemplos. ● El conjunto de ejemplos deberá estar conformado por una serie de tuplas de valores, cada uno de ellos denominados atributos, en el que uno de ellos, (atributo a clasificar) es el objetivo. (de tipo binario) SI ó NO. ● Empieza con la construcción del AD con la pregunta: Cuál atributo debería ser comprobado en la raíz del árbol? https://es.wikipedia.org/wiki/Algoritmo_ID3
  • 11. Algoritmo C4.5 ● Desarrollado por JR Quinlan 1993 como mejora del Algoritmo ID3. ● Los árboles de decisión generados por C4.5 pueden ser usados para clasificación, y por esta razón, C4.5 está casi siempre referido como un clasificador estadístico. ● Se basa en la utilización del criterio de proporción de ganancia (gain ratio), definido como I(Xi,C)/H(Xi). De esta manera se consigue evitar que las variables con mayor número de posibles valores salgan beneficiadas en la selección. https://es.wikipedia.org/wiki/C4.5
  • 12. Heurística de C4.5 ● Utiliza una técnica conocida como Gain Ratio (proporción de ganancia). Es una medida basada en información que considera diferentes números (y diferentes probabilidades) de los resultados de las pruebas.
  • 13. Pseudocódigo C4.5 ● En pseudocódigo, el algoritmo general para construir árboles de decisión es: 1. Comprobar los casos base 2. Para cada atributo a ○ Encontrar la ganancia de información normalizada de la división de a 3. Dejar que a_best sea el atributo con la ganancia de información normalizada más alta 4. Crear un nodo de decisión que divida a_best 5. Repetir en las sublistas obtenidas por división de a_best, y agregar estos nodos como hijos de nodo
  • 15. Mejoras de Algoritmo C4.5 ● Evitar Sobreajuste de los datos. ● Determinar que tan profundo debe crecer el árbol de decisión. ● Reducir errores en la poda. ● Condicionar la Post-Poda. ● Manejar atributos continuos. ● Escoger un rango de medida apropiado. ● Manejo de datos de entrenamiento con valores faltantes. ● Manejar atributos con diferentes valores. ● Mejorar la eficiencia computacional.
  • 16. Ejemplos reales de AD Simulador para volar avión Cessna ● vuelos test 30 veces con 3 pilotos experimentados ● 90,000 ejemplos descritos por 20 atributos ● se inserto en un simulador y logro volar Aprendizaje WWW ● WebWatcher - sistema ayuda a localización de información 530 atributo Grúa de Embarcación ● 450, ejemplos 6 variables ● secuencias de arranque ● tipos de materiales, densidades y comportamientos.
  • 17. Algoritmo C5 SPSS Modeler Professional y SPSS Modeler Premium ● Nodo Clasificación y Regresión (C&R): predice o clasifica observaciones futuras. ● Nodo CHAID: genera AD utilizando estadística de chi-cuadrado para identificar divisiones optimas puede generar AD no binarios (mas de 2 ramas) ● Nodo Quest: clasificación binario, diseñado para reducir el tiempo de procesamiento ● Nodo C5: AD o conjunto de reglas, diseñado para ganancia de información en niveles ● Nodo Tree-AS: procesar grandes cantidad de datos (Big Data) https://www.ibm.com/support/knowledgecenter/es/SS3RA7_sub/modeler_mainhelp_client_ddita/clementine/c50node_general.html
  • 18.
  • 19. OCR, Optical Character Recognition ● El reconocimiento óptico de caracteres OCR, es esencial en el tratamiento de imágenes para la identificación de secuencias de caracteres con un significado concreto. ● Desde la aparición de los algoritmos de OCR, han sido muchos los servicios que han introducido estos procesos para aumentar su rendimiento y otros que se basan completamente en estas tecnologías. ● Por ejemplo, el reconocimiento de texto en imágenes o en productos industriales, reconocimiento de texto manuscrito, reconocimiento de matrículas, reconocimiento de datos estructurados, son sólo algunos ejemplos dentro de otras muchas aplicaciones https://es.wikipedia.org/wiki/Reconocimiento_%C3%B3ptico_de_caracteres
  • 20. OCR ● Para OCR, existe un método que proporciona muy buenos resultados. ● El algoritmo K- NN (K vecinos más próximos). Este método es muy popular debido a su sencillez y al buen comportamiento que presenta para afrontar diversos tipos de problemas de clasificación, siendo uno de ellos el de OCR.
  • 22. K - NN ● Los árboles de decisión, al igual que el K-NN, es una técnica de tratamiento de datos que se puede aplicar en el contexto del reconocimiento óptico de caracteres. Los atributos que se evalúan de un carácter constituyen los nodos del árbol, y los resultados finales se almacenarán en las hojas del mismo. ● Tras la construcción del árbol y dada la estructura del mismo, toda la evaluación de caracteres se puede tratar como una arquitectura IF – THEN - ELSE, por lo que si el número de parámetros a evaluar es suficientemente grande para tener capacidad expresiva pero suficientemente pequeño para ser eficiente computacionalmente, el árbol puede resultar un método más rápido que el algoritmo K - NN.
  • 24. Reconocimiento del Carácter • Recorremos el árbol según las características del carácter a reconocer. • Si durante el recorrido llegamos a una hoja del árbol, reconocemos el carácter. • Si no llegamos a una hoja, aprendemos ese carácter, y añadimos el patrón a nuestro árbol.
  • 25. Ventajas ● Plantean el problema para que todas las opciones sean analizadas. ● Permiten analizar totalmente las posibles consecuencias de tomar una decisión. ● Proveen un esquema para cuantificar el costo de un resultado y la probabilidad de que suceda. ● Ayuda a realizar las mejores decisiones sobre la base de la información existente y de las mejores suposiciones. Desventajas ● Sólo es recomendable para cuando el número de acciones es pequeño y no son posibles todas las combinaciones. ● En la elección de un modelo, existe una cantidad muy limitada y dificulta para elegir el árbol óptimo. ● Presenta inconvenientes cuando la cantidad de alternativas es grande y cuanto las decisiones no son racionales. ● Al no tener claridad de objetivos, es difícil de organizar las ideas. http://ipg3.blogspot.com/2012/02/ventajas-y-desventajas-del-arbol-de.html