El documento describe los árboles de decisión, incluyendo su definición, terminología, pasos para el análisis, ejemplos y algoritmos como ID3, C4.5 y C5. Los árboles de decisión son diagramas que representan eventos y decisiones para ayudar a tomar la decisión más probable. Se usan comúnmente en inteligencia artificial, incluyendo aplicaciones como reconocimiento óptico de caracteres.
Cómo construir tu propia data platform. From zero to hero.
Árboles de Decisión
1. Arboles de Decisión
Grupo #4
José Morán 092-10-5765
Sergio Abrego 092-09-680
Harold Spencer 092-07-18062
Carlos Sandoval 092-05-1859
Morris Blanco 092-03-688
David Velásquez 092-11-593
Rodrigo Hernández -092-11-3000
Walter Godínez 092-13-5285
Juan Guacamaya 092-04-800
Uribio Salazar 092-11-8679
2. Que son los Arboles de Decisión
Un árbol de decisión es una forma gráfica y analítica de representar todos los
eventos (sucesos) que pueden surgir a partir de una decisión asumida en cierto
momento.
Nos ayudan a tomar la decisión “más acertada”, desde un punto de vista
probabilístico, ante un abanico de posibles decisiones.
3. Terminología
● Nodo de decisión: Indica que una decisión necesita tomarse en
ese punto del proceso.
● Nodo de probabilidad: Indica que en ese punto del proceso ocurre
un evento aleatorio.
● Rama: Nos muestra los distintos caminos que se pueden emprender
cuando tomamos una decisión o bien ocurre algún evento aleatorio.
4. Pasos para el análisis del Árbol de Decisión
● Definir el problema.
● Dibujar el árbol de decisión.
● Asignar probabilidades a los eventos aleatorios.
● Estimar los resultados para cada combinación posible de alternativas.
● Resolver el problema obteniendo como solución la ruta que proporcione la
política óptima.
7. Arboles de Decisión
- Modelos de Predicción utilizado en IA
- Diagramas de Construcciones lógicas
- Similares a los Sistemas de Predicción
basados en Reglas
Búsqueda Codiciosa de Arriba hacia Abajo
(Top-Down Greedy Search)
9. Algoritmo ID3
● Utilizado en el ámbito de la IA. Desarrollado por JR Quinlan en 1986.
● Su uso se engloba en la búsqueda de Hipótesis o reglas en él, dado un
conjunto de ejemplos.
● El conjunto de ejemplos deberá estar conformado por una serie de tuplas de
valores, cada uno de ellos denominados atributos, en el que uno de ellos,
(atributo a clasificar) es el objetivo. (de tipo binario) SI ó NO.
● Empieza con la construcción del AD con la pregunta: Cuál atributo debería ser
comprobado en la raíz del árbol?
https://es.wikipedia.org/wiki/Algoritmo_ID3
11. Algoritmo C4.5
● Desarrollado por JR Quinlan 1993 como mejora del Algoritmo ID3.
● Los árboles de decisión generados por C4.5 pueden ser usados para
clasificación, y por esta razón, C4.5 está casi siempre referido como
un clasificador estadístico.
● Se basa en la utilización del criterio de proporción de ganancia (gain ratio),
definido como I(Xi,C)/H(Xi). De esta manera se consigue evitar que las
variables con mayor número de posibles valores salgan beneficiadas en la
selección.
https://es.wikipedia.org/wiki/C4.5
12. Heurística de C4.5
● Utiliza una técnica conocida como Gain Ratio (proporción de ganancia). Es una
medida basada en información que considera diferentes números (y diferentes
probabilidades) de los resultados de las pruebas.
13. Pseudocódigo C4.5
● En pseudocódigo, el algoritmo general para construir árboles de decisión es:
1. Comprobar los casos base
2. Para cada atributo a
○ Encontrar la ganancia de información normalizada de la división de a
3. Dejar que a_best sea el atributo con la ganancia de información normalizada
más alta
4. Crear un nodo de decisión que divida a_best
5. Repetir en las sublistas obtenidas por división de a_best, y agregar estos nodos
como hijos de nodo
15. Mejoras de Algoritmo C4.5
● Evitar Sobreajuste de los datos.
● Determinar que tan profundo debe crecer el árbol de decisión.
● Reducir errores en la poda.
● Condicionar la Post-Poda.
● Manejar atributos continuos.
● Escoger un rango de medida apropiado.
● Manejo de datos de entrenamiento con valores faltantes.
● Manejar atributos con diferentes valores.
● Mejorar la eficiencia computacional.
16. Ejemplos reales de AD
Simulador para volar avión Cessna
● vuelos test 30 veces con 3 pilotos experimentados
● 90,000 ejemplos descritos por 20 atributos
● se inserto en un simulador y logro volar
Aprendizaje WWW
● WebWatcher - sistema ayuda a localización de información
530 atributo
Grúa de Embarcación
● 450, ejemplos 6 variables
● secuencias de arranque
● tipos de materiales, densidades y comportamientos.
17. Algoritmo C5
SPSS Modeler Professional y SPSS Modeler Premium
● Nodo Clasificación y Regresión (C&R): predice o clasifica observaciones futuras.
● Nodo CHAID: genera AD utilizando estadística de chi-cuadrado para identificar divisiones optimas
puede generar AD no binarios (mas de 2 ramas)
● Nodo Quest: clasificación binario, diseñado para reducir el tiempo de procesamiento
● Nodo C5: AD o conjunto de reglas, diseñado para ganancia de información en niveles
● Nodo Tree-AS: procesar grandes cantidad de datos (Big Data)
https://www.ibm.com/support/knowledgecenter/es/SS3RA7_sub/modeler_mainhelp_client_ddita/clementine/c50node_general.html
18.
19. OCR, Optical Character Recognition
● El reconocimiento óptico de caracteres OCR, es esencial en el
tratamiento de imágenes para la identificación de secuencias de caracteres
con un significado concreto.
● Desde la aparición de los algoritmos de OCR, han sido muchos los servicios que
han introducido estos procesos para aumentar su rendimiento y otros que se
basan completamente en estas tecnologías.
● Por ejemplo, el reconocimiento de texto en imágenes o en productos industriales,
reconocimiento de texto manuscrito, reconocimiento de matrículas,
reconocimiento de datos estructurados, son sólo algunos ejemplos dentro de otras
muchas aplicaciones
https://es.wikipedia.org/wiki/Reconocimiento_%C3%B3ptico_de_caracteres
20. OCR
● Para OCR, existe un método que proporciona muy buenos resultados.
● El algoritmo K- NN (K vecinos más próximos). Este método es muy popular debido a
su sencillez y al buen comportamiento que presenta para afrontar diversos tipos de
problemas de clasificación, siendo uno de ellos el de OCR.
22. K - NN
● Los árboles de decisión, al igual que el K-NN, es una técnica de tratamiento de datos que se
puede aplicar en el contexto del reconocimiento óptico de caracteres. Los atributos que se
evalúan de un carácter constituyen los nodos del árbol, y los resultados finales se almacenarán
en las hojas del mismo.
● Tras la construcción del árbol y dada la estructura del mismo, toda la evaluación de caracteres
se puede tratar como una arquitectura IF – THEN - ELSE, por lo que si el número de parámetros
a evaluar es suficientemente grande para tener capacidad expresiva pero suficientemente
pequeño para ser eficiente computacionalmente, el árbol puede resultar un método más rápido
que el algoritmo K - NN.
24. Reconocimiento del Carácter
• Recorremos el árbol
según las
características del
carácter a reconocer.
• Si durante el recorrido
llegamos a una hoja del
árbol, reconocemos el
carácter.
• Si no llegamos a una
hoja, aprendemos ese
carácter, y añadimos el
patrón a nuestro árbol.
25. Ventajas
● Plantean el problema para que todas las
opciones sean analizadas.
● Permiten analizar totalmente las
posibles consecuencias de tomar una
decisión.
● Proveen un esquema para cuantificar el
costo de un resultado y la probabilidad
de que suceda.
● Ayuda a realizar las mejores decisiones
sobre la base de la información
existente y de las mejores suposiciones.
Desventajas
● Sólo es recomendable para cuando
el número de acciones es pequeño y
no son posibles todas las
combinaciones.
● En la elección de un modelo, existe
una cantidad muy limitada y dificulta
para elegir el árbol óptimo.
● Presenta inconvenientes cuando la
cantidad de alternativas es grande y
cuanto las decisiones no son
racionales.
● Al no tener claridad de objetivos, es
difícil de organizar las ideas.
http://ipg3.blogspot.com/2012/02/ventajas-y-desventajas-del-arbol-de.html