Reconocimiento de objetos

Tema 11: reconocimiento de
objetos.
Tema presentado por: Jesualdo Ros, Gonzalo
García, Federico Sogorb y Luis Belzunce.

Antes de empezar...

¿Cuál es su origen?
¿Cómo funciona?
¿Para qué sirve? ¿Tiene algún uso?

Origen del reconocimiento
Diferenciación de características e identiﬁcación
de patrones para la clasiﬁcación.

Funcionamiento

Obtención de una
imagen por parte de
una cámara.
Procesado de la
imagen.
Reconocimiento de
patrones.

Utilidad

Identiﬁcación de
patrones para la
distinción de unos
objetos de otros.

¿Qué es?
Disciplina cientíﬁca con un objetivo.
Clasiﬁcación de objetos en clases.
Se puede enfocar de tres formas:
estadística.
sintáctica o estructural.
de redes neuronales.

Enfoques
Estadístico (o de la teoría Sintáctico se basa en las
de decisión) & de redes relaciones geométricas.
neuronales se basan en
Relaciones que van
lo mismo.
asociadas a la forma de
Extraer sus propiedades, los objetos.
de forma cualitativa.

Esquema de un sistema de
reconocimiento.

reconocimiento.
Fase de funcionamiento.

Fase de diseño.

reconocimiento.

Fase de diseño.
Conjunto de
muestras

reconocimiento.

Fase de diseño.
Conjunto de Selección de
muestras características

reconocimiento.

Fase de diseño.
Conjunto de Selección de Diseño del clasiﬁcador:
muestras características funciones de decisión.

reconocimiento.
Imagen digital

Fase de diseño.

reconocimiento.
Imagen digital

Preprocesamiento

Fase de diseño.

reconocimiento.
Imagen digital

Preprocesamiento Segmentación

Fase de diseño.

reconocimiento.
Imagen digital

Extracción de
Preprocesamiento Segmentación
características

Fase de diseño.

reconocimiento.
Imagen digital

Extracción de
Preprocesamiento Segmentación Clasiﬁcador
características

Fase de diseño.

Segmentación.

Dividir una imagen para aislar nuestro objeto.
Objetivo: simpliﬁcar la representación de la imagen
para un mejor estudio de la misma.
Etiquetado de pixeles con las mismas características
para agrupar sus propiedades.

Extracción de características

Transformar la imagen de un objeto en un vector que
deﬁna sus cualidades, normalmente físicas.
¿Es el dato relevante?
Los datos poco relevantes se eliminan para no interferir
en el modelo.

Propiedades de las
características a extraer.
Robustez: insensible al
ruido de captura e
iluminación.
Discriminantes: que
distingan objetos de
distintas clases.
Invariante ante
traslación, rotación y
escalado y perspectiva.

Un ejemplo...

Una posible utilización la vemos en el
reconocimiento de textos, en este caso tenemos
el patrón de las letras y comparamos con este
patrón el vector de atributos que obtenemos de
la imagen.

Clasificador

Partimos de un vector de atributos extraídos de la
imagen del objeto.
Clasifica las imágenes en las diferentes clases que se
contemplan.
Existen diferentes mecanismos de clasificación.

Diseño del clasificador.

Algoritmos que toman la decisión de donde o como
clasificar un objeto.
El diseño más extendido es el de clasificadores por
entrenamiento o aprendizaje máquina.

Algoritmos de decisión.
Clasiﬁcación.

Tipos de aprendizaje
automático
Aprendizaje deductivo
Modelos generales Modelo especiﬁco

Aprendizaje inductivo
Modelo especiﬁco Modelos generales

Aprendizaje por refuerzo
Exploración autónoma y explotación de lo aprendido.

Aprendizaje inductivo

El objetivo es generar
un modelo general a
partir de ejemplos
especíﬁcos
El conjunto de
ejemplos se denomina
conjunto de
entrenamiento

Concepto: Determinar el nuevo objeto a estudiar según
los atributos (hipótesis).

Instancia: Cada uno de los ejemplos de entrenamiento.

Atributo: Cada una de las medidas que forman el
vector de atributos de un ejemplo.
Reales: Pueden tomar cualquier valor numérico en un rango.
Discretos: Toman valores discretos ordenados: Por ejemplo la
temperatura como alta, media o baja.
Categóricos: Valores discretos no ordenados. Por ejemplo el color.

Clase: Es el atributo que buscamos determinar a partir
de los demás.

Ejemplo: modelado de la probabilidad
de fallo de una máquina.
Clase: Comprobamos si falla.
Atributos: Medidas por las que puede fallar:
Temperatura.
Nivel de Vibraciones.
Horas de funcionamiento.
Meses desde la última revisión.

Instancias: Situaciones que han pasado anteriormente.
Concepto: Relación entre las medidas y probabilidad de
fallo. (IF-THEN)
Si el nivel de vibraciones es alto y la temperatura es alta,
entonces fallará.

Criterios de Selección del Modelo.

Capacidad de representación
y legibilidad.
Capacidad de expresar varios conceptos diferentes.
Frontera de decisión generada con cada modelo.
Árboles de Decisión.
Redes Neuronales.

Facilidad con la que un humano puede leer e interpretar.
A continuación, ejemplos con solo 2 atributos:

Árboles de decisión
temp.

vibración

vibr.>120?
temp.

fallará

120 vibración

vibr.>120?
si
temp.

F

fallará

120 vibración

vibr.>120?
no si
temp.

temp.>95? F
fallará

95
fallará

120 vibración

vibr.>120?
no si
temp.

temp.>95? F
fallará si

95
fallará F

120 vibración

vibr.>120?
no si
temp.

temp.>95? F
fallará si
no
95
fallará vibr.>70? F
no
fallará

70 120 vibración

vibr.>120?
no si
temp.

temp.>95? F
fallará si
no
95
fallará vibr.>70? F
no no
fallará
NF
70 120 vibración

vibr.>120?
no si
temp.

temp.>95? F
fallará si
no
95
fallará fallará vibr.>70? F
no no si
50 fallará
NF temp.>50?
70 120 vibración

vibr.>120?
no si
temp.

temp.>95? F
fallará si
no
95
no no si
50 fallará
NF temp.>50?
70 120 vibración no si

F

vibr.>120?
no si
temp.

temp.>95? F
fallará si
no
95
no no si
50 fallará
no
fallará NF temp.>50?
70 120 vibración no si

NF F

Más facil de entender e interpretar.

Niveles altos, atributos importantes.

Rectas de las fronteras perpendiculares a los ejes.

Se pueden utilizar para proporcionar información.

Redes Neuronales

Fronteras más complejas.
Formado por grandes
tablas numéricas.
Imposibles de interpretar.
Se puede utilizar como
clasiﬁcador. No sirve para
proporcionar información.

Redes Neuronales

Fronteras más complejas.

temp.
Formado por grandes fallará
tablas numéricas.
95
fallará
Imposibles de interpretar. no
fallará

50 fallará
Se puede utilizar como no
clasiﬁcador. No sirve para fallará
proporcionar información. 70 120 vibración

Computo ON-LINE

Tiempo necesario para clasiﬁcar un nuevo ejemplo.
Árboles de Decisión: Tiempo para recorrer el árbol, evaluar las funciones
de cada nodo una vez este clasiﬁcado.
Redes Neuronales: Tiempo para realizar las operaciones incluidas en la
red.
Métodos Probabilísticos: Tiempo para calcular probabilidades.

Ejemplo
Tomamos imágenes aéreas tanto en el espectro visible
(RGB) como en el infrarrojo (I).
Cada pixel tendrá un vector de 4 atributos.
Según los atributos, cada pixel lo clasiﬁcamos.
Río
Montaña
Coche
Ediﬁcio

El tiempo de computo es muy importante al analizar
muchos pixeles.

Criterios de Selección del Algoritmo.

Computo OFF-LINE
Tiempo necesario para construir y/o ajustar el modelo
a partir de los ejemplos de entrenamiento.
Árboles de Decisión: Tiempo necesario para elegir la estructura del árbol
y los atributos a situar en cada uno de los nodos.
Redes Neuronales: Tiempo necesario para ajustar los pesos de las
conexiones.

Este tiempo no suele ser muy importante.
Consiste en generar el modelo, tarde lo que tarde.
Siempre que sea optimo y reduzca el tiempo ON-LINE.

Dificultad de ajustes de
parámetros.
Muy fácil generar el modelo, ya que no hay parámetros
que ajustar o que el modelo es poco sensible a la
modificación de estos. (Árboles de decisión).
Hay veces en los que hay que “podarlos”.
Dificultades al ajustar el modelo para que nos de
resultados óptimos, al disponer de muchos parámetros
a ajustar o que es muy sensible a la modificación de
los mismos. (Redes neuronales).

Robustez ante ejemplos de
entrenamiento ruidosos.
Base de datos muy grande, ejemplos mal etiquetados.
Ejemplo: Maquina que no falló, etiquetada como que si lo hizo.

Los algoritmos de árboles de decisión o de redes
neuronales, pueden funcionar correctamente aunque
haya un porcentaje ruidoso en el conjunto.
Los algoritmos como el vecino más cercano, no
ofrecen buenos resultados.

Sobreajuste (OVERFITTING)

Problema muy común.
El modelo se ajusta demasiado a los ejemplos de
entrenamiento.
Es imposible generalizar.
Las fronteras de decisión muy complejas producen un
sobreajuste.

Correcta Sobreajustada
No consigue 100% de Consigue el 100% de
clasificaciones correctas. clasificaciones correctas.
Correctamente Frontera artificial.
separadas.

Clasiﬁcación de los métodos.

Los métodos de aprendizaje inductivo se
clasiﬁcan en:

Lazy Eager

No construyen un Construyen un modelo.
modelo.
Parte del trabajo se hace
Hacemos todo el off-line, al recopilar todos
procesamiento on-line. los conjuntos de
entrenamiento.
El vecino más cercano
sería un ejemplo. Como pueden ser los
árboles de decisión,
redes neuronales, etc.

Vecino más cercano
Clasiﬁcación

Vecino mas cercano
Consiste en...

Modelo de clasificación inductivo basado en el método
lazy
No crea ningún modelo durante el entrenamiento, lo
único que hace es almacenar en una base de datos los
ejemplos de entrenamiento
Consiste en clasificar elementos futuros únicamente
comparando la instancia a clasificar con su lista de
datos

Vecino mas cercano
Puede llevarse a cabo de dos formas:

Clasificación directa con la instancia más cercana
El nuevo ejemplo a clasificar se le asigna la clase de la
instancia más cercana al mismo (1-NN).
Clasificación teniendo en cuenta una región
La nueva instancia debe ser clasificada según el
máximo número de elementos de una clase dentro de
una región (K-NN) donde K>1.

Vecino mas cercano
Aclaración

En la gráfica aparecen X2

representados los Instancias de entrenamiento

Clase A
ejemplos de

Clase B
Clase C
entrenamiento que han

Nueva instancia por
clasificar
sido recopilados y de los
cuales conocemos su
clase, dentro del modelo
tenemos introducido
otro ejemplo, el cual
deseamos clasificar
X1

Vecino mas cercano
Aclaración
Método básico: solo un vecino 1-NN
X2
Instancias de entrenamiento

Clase A

Clase B

Clase C

Nueva instancia por

clasiﬁcar

Asignado el
ejemplo mas
cercano

X1

Vecino mas cercano
Si decidimos realizar una
clasificación la cuál no será
directamente el dato más
cercano, sino que se clasifica
según la clase que más se
repita dentro de una región,
Ejemplo aclaratorio debemos dar valores al
parámetro K. Donde K debe ser
mayor que 1

X2
Instancias de entrenamiento
K-NN
Clase A

Clase B
Asignamos la

Clase C
Nueva instancia por
clase a la
clasiﬁcar

mayoritaria de
las K instancias
mas cercanas Para este caso con k=5

X1

Vecino mas cercano
Ponderación de la función de distancia (K-NN)
Consiste en dar mayor importancia a los vecinos más
cercanos

N: Numero de ejemplos de cada clase ponderados
di: Distancia al ejemplo a clasiﬁcar
Cuanto menor sea la distancia mayor será el factor de
ponderación de la clase, damos más importancia a las
distancias en un k-NN

Vecino mas cercano
Procedimiento de clasiﬁcación de una nueva instancia
Normalmente distancias
Calcular la distancia. euclídeas, pudiendo
eliminar la raíz ya que
busco la distancia mayor
desde el ejemplo a
clasificar hasta todos los
ejemplos de
entrenamiento
Las distancias se miden en el espacio de atributos, por tanto trabajamos en
tantas dimensiones como atributos tengamos.

Elegir las K instancias más próximas y se asigna la clase
Por tanto tenemos que calcular la distancia a
mayoritaria entre las K instancias. TODOS los ejemplos de entrenamiento, por
tanto aunque tengamos un tiempo de computo
OFF-LINE corto, pues simplemente consiste en

Por lo que hay que calcular la distancias a todos los ejemplos de
almacenar los datos, el tiempo de computo ON-
LINE es alto pues necesitamos medir para
TODOS los ejemplos que deseamos clasificar su
entrenamiento (Alto tiempo de computo on-line) distancia a TODAS las instancias de ejemplo

Es importante la normalizaciónIMPORTANTE LA LOS
ES de los atributos (Atributos con
NORMALIZACIÓN DE
mayor valor absoluto siempreATRIBUTOS CONQUE LOS sobre los demás)
prevalecen
ATRIBUTOS, YA
MAYOR
VALOR ABSOLUTO
SIEMPRE PREVALECEN
SOBRE LOS DEMÁS.

Vecino mas cercano
Ejemplo

Weka hace uso de la siguiente formula para normalizar los
atributos en el rango de 0 a 1

Teniendo en cuenta que poseemos la siguiente base de datos formada por 4
instancias (ejemplos de entrenamiento) donde cada una dice el una persona devuelve
Menudo pastón cobra si
un préstamo según la edad y poder adquisitivo,abuelo
determinar si una persona de 65 años
e ingresos de 25000€ devolverá el préstamo:

Ejemplo Salario Edad Devuelve el préstamo
Aparentemente lo más
1 100,000 55 Si importante es la edad,
por tanto inicialmente
2 90,000 30 No podríamos llegar a la
conclusión que la clase del
3 15,000 60 Si ejemplo que deseamos
clasificar sería SI, por
tanto se le concedería el
4 20,000 25 No préstamo.

Vecino mas cercano
Ejemplo

Distancias:

El ejemplo más cercano es el cuarto, por tanto la clase
del ejemplo a clasiﬁcar sería que NO devolverá el
préstamo

Vecino mas cercano
Reducir el tiempo de computo on-line

Se reduce almacenando únicamente los elementos
relevantes, normalmente los de la frontera

Consiste en no guardar TODOS los ejemplos de
entrenamiento, solo los más representativos que en
principio son los que están cerca de la frontera entre 2
clases

Vecino mas cercano
Características

Capacidad de representación: Muy elevada, fronteras de decisión complejas.
Legibilidad: Ninguna, no se crea modelo
Tiempo de computo ON-LINE: Lento, es necesario calcular distancias a
todos los ejemplos de entrenamiento.
Tiempo de computo OFF-LINE: Rápido, solo el tiempo para almacenar todas
las instancias de entrenamiento.
Parámetros a ajustar: Solo el número de vecinos (K-NN)
Robustez ante instancias de entrenamiento ruidosas:
El 1-NN no es robusto.

A medida que aumentamos K se vuelve más robusto

Sobreajuste (overﬁtting): Es difícil que ocurra, más difícil con forme
aumentamos K.

Arboles de decisión
Clasiﬁcación

Consiste en...

Dada una base de datos se construyen diagramas de
construcciones lógicas, muy similares a los sistemas
de predicción basados en reglas
Se lee de arriba abajo y tienen las siguiente
características:
Representan funciones lógicas
(IF-THEN)
Compuesto de nodos y ramas
El NODO RAIZ es el nodo superior del árbol.
Los nodos internos están formados por los atributos (medidas)
Los nodos hojas están formados por las clases.

Objetivo

El objetivo en el aprendizaje automático consiste en la creación de un
árbol de decisión a partir de un conjunto de instancias de entrenamiento
Si partimos de un gráﬁco la obtención del árbol es sencilla ya que solo
debemos satisfacer una serie de sentencias condicionales delalgoritmo
El ejemplo
un macabro
gráfico es

para decidir quien
sobrevivirá cuando se
Supervivientes del Titanic hunda el Titanic
Ingresos
Sexo
Hombre Mujer

Sobrevive Sobrevive
Edad
20 Edad<12 Edad>12

Sobrevive Sobrevive
Ingresos
No sobrevive
Ingresos<20 Ingresos>20

LAS SENTENCIAS IF-THEN PRODUCEN No sobrevive Sobrevive
FRONTERAS QUE TENGAN QUE SER
PERPENDICULARES A LOS EJES
12 Edad

Entropía
La entropía se utiliza para encontrar el parámetro más signiﬁcativo
en la caracterización de un clasiﬁcador.
Consiste en obtener el porcentaje de ejemplos de cada clase que
llega a cada nodo. Consiste en estimar cuanto de
separadas están las clases que me
r llegan a un nodo esto consiste en
i Porcentaje de instancias la Entropía, es decir, de
minimizar
pertenecientes a la todos los ejemplos de
clase i
entrenamiento que me llegan a un
nodo habrá un número de ejemplos
k Numero de clases clasificados con una clase y otros
clasificados con las demás clases,
Minimizar la Entropía consiste en que no haya mezclas de clases.
por tanto será mejor la elección de
un atributo, frente a otro, si
separa mejor las clases.
La entropía será máxima si a un nodo le llega el mismo porcentaje
de cada clase, si tenemos K clases:

Ejemplo

Partimos de un conjunto de entrenamiento formado por 7 instancias
Las cuales deﬁnen si una máquina fallará o no, es decir, dos clases distintas.
Horas de
Temperatura Nivel de vibraciones Meses desde revisión Probabilidad de fallo
funcionamiento

ALTA ALTO <1000 > 1 MES fallará

BAJA BAJO <1000 < 1 MES no fallará

ALTA BAJO >1000 > 1 MES no fallará

ALTA BAJO <1000 > 1 MES no fallará

BAJA ALTO <1000 > 1 MES no fallará

BAJA ALTO >1000 > 1 MES fallará

ALTA ALTO <1000 < 1 MES fallará

Ejemplo
Nosotros lo haremos de
forma visual pero el
El siguiente paso es obtener una nueva tabla a partir de los ejemplos de entrenamiento donde
algoritmo estudiará la
podemos observar cuantas clases y de que tipo son, para cada atributo: entropía de cada
atributo y decidirá su
posición en los distintos
Estudiando la base de datos para cada atributo se observa que el atributo que mejor separa un
nodos
número mayor de clases (Menor entropía) es el de
Ya que existen tres vibraciones
de las
siete instancias de
entrenamiento definidas
por Bajas Vibraciones, las
cuales son de la misma CLASE
ATRIBUTO VALORES (ENTROPÍA NULA).
clase
fallará no fallaraá
ALTO 2 2
Temperatura
BAJO 1 2
ALTO 3 1
Nivel de vibraciones
BAJO 0 3
< 1000 2 3
Horas de funcionamiento
> 1000 1 1

> 1 Mes 2 3
Meses desde la revisión
< 1 Mes 1 1

Ejemplo

Arbol hasta el momento: NIVEL DE
VIBRACIÓN

ALTO BAJO

? No fallará

No fallará 1 instancia No fallará 3 instancia
Fallará 3 instancias Fallará 0 instancias

Por la derecha ya hemos acabado por que a la hojas solo le puede llegar
una clase ELECCIÓN DEL SIGUIENTE
ATRIBUTO TENIENDO EN
CUENTA QUE VAMOS A
En cambio en la zona izquierda tenemos entropía distinta de cero, ya ESTUDIAR LAS 4
INSTANCIAS QUE FALTAN
que 25% de los ejemplos dice que la máquina fallara y el resto dice que POR CLASIFICAR TENIENDO
EN CUENTA QUE LAS
no. VIBRACIONES SON ALTAS

Ejemplo
Elección del siguiente atributo
El siguiente atributo que
CLASE
aparte de reducir la entropía,
ATRIBUTO VALORES
la minimiza en un mayor
fallará no fallaraá número de casos es la
Temperatura, por tanto
ALTO 2 0
Temperatura
obtendríamos:
BAJO 1 1
Nivel de vibración
< 1000 2 1
Horas de ALTO BAJO
funcionamiento
> 1000 1 0 Temperatura No fallará

ALTO BAJO (3,0)
> 1 Mes 2 1
Meses desde Fallará ?
la revisión
< 1 Mes 1 0 (2,0) (1,1)

Ejemplo
Siguiendo con lo dicho hasta
ahora, vamos acortando el
Elección del siguiente atributo número de ejemplos d
entrenamiento que no han sido
clasificado, teniendo en cuenta
CLASE
ATRIBUTO VALORES que las vibraciones son ALTAS y
fallará la temperatura BAJA, quedaría
no fallaraá
por clasificar 2 instancias de
< 1000 0 entrenamiento 3
Horas de funcionamiento
> 1000 1 0
> 1 Mes 1 1
Meses desde la revisión
< 1 Mes 0 0

Arbol generado: Nivel de vibración

ALTO BAJO

Temperatura No fallará

ALTO BAJO (3,0)

Fallará Horas de
funcionamiento
(2,0)
<1000 >1000

(1,0) No fallará Fallará (1,0)

Arboles de decisión Mientras que el ID3 nunca produce
árboles demasiado grandes, sino
Poda (Pruning) que dejan de crecer cuando TODOS
los nodos hoja contienen una sola
clase o cuando en un camino del
árbol se han utilizado todos los
atributos, el C4.5 puede repetir
atributos en el árbol Hasta ahora hemos hablado de los

Algoritmos utilizados para construir o ajustar el modelo
modelos de clasificación, pero
algunos de estos modelos poseen
distintitos algoritmos utilizados
a partir de las instancias de entrenamiento para construir o ajustar el
modelo a partir de las instancias
de entrenamiento, vamos a ver 2
algoritmos del clasificador que
ID3: Atributos discretos. Deja de crecer cuando todos los nodos hoja
contienen unas sola clase o cuando en un camino del árbol se han utilizado
todos los atributos

C4.5: Para atributos continuos o reales y discretos. Implementado en WEKA
como J48. Puede repetir atributos en el árbol

Un árbol demasiado grande puede producir
sobreajuste, por tanto es necesario podar los árboles

Poda (Pruning)

Consiste en realizar un test estadístico que indica si el árbol
podado funcionará previsiblemente mejor o peor que el árbol
sin podar.
Se considera el peor caso posible (peor situación posible dentro del
rango previsible).
El rango es mayor o menor en función de un parámetro que es
ajustable denominado nivel de confianza que por defecto vale
El rango es mayor o menor en función del nivel de conﬁanza.
0.25, es decir, estudia si es mejor podar un árbol para el 25%
de los casos más desfavorables según una función de densidad
de probabilidad gaussiana.

Hay dos posibles tipos de poda:
Reemplazo de un subárbol (un subárbol se sustituye por una hoja).
Elevación de un subárbol (un subárbol se eleva en el árbol principal).

Poda (Pruning)
N1
N1
Elevación de
un subárbol
N2 N3 N2 N4

A B C N4 A B C* D*

D E

N1

Remplazo de A+B N3

un subárbol
C N4

D E

Caracteristicas

Capacidad de representación: No muy elevada, las superficies de decisión son
siempre perpendiculares a los ejes.
Legibilidad: Muy elevada, Uno de los mejores modelos en este sentido
Tiempo de computo ON-LINE: Muy rápido, clasificar un nuevo ejemplo es tan sencillo
como recorrer el árbol hasta alcanzar un nodo hoja.
Tiempo de computo OFF-LINE: Rápido, tanto ID3 como C4.5 son algoritmos simples.
Parámetros a ajustar: Fundamentalmente el nivel de confianza para la poda. Fácil de
ajustar: el valor por defecto (25%) da buenos resultados.
Robustez ante instancias de entrenamiento ruidosas: Robusto, cualquier ejemplo de
entrenamiento ruidoso no va a afectar si hay suficientes instancias de entrenamiento.
Sobreajuste (overfitting): No se produce siempre que se realice una poda del árbol
C4.5.

Precisión del clasiﬁcador
Validación cruzada

Validación cruzada
Cross-validation
CROSS-VALIDATION

Es una técnica utilizada para evaluar los resultados de
un análisis estadístico y garantizar que son
independientes de la partición entre datos de
entrenamiento y prueba. Es una forma de
Establecer si el modelo
generado funcionará mal

Con la validación cruzada buscamos: Se utiliza en entornos
donde el objetivo principal
Validar la solidez de un modelo determinado. es la predicción y se quiere
estimar cómo de preciso
es un modelo que se
Evaluar varios modelos de una instrucción única. llevará a cabo a la
práctica.

Generar varios modelos e identiﬁcar a continuación el mejor modelo
basándose en estadísticas.

Validación cruzada
Consiste en...

Consiste en repetir y calcular la media aritmética
obtenida de las medidas de evaluación sobre
diferentes particiones.
Se calcula el porcentaje de aciertos sobre los datos no
utilizados para generar el modelo para proporcionarnos
una medida de cuan de preciso es. Por tanto el procedimiento
de validación cruzada nos
permite obtener una
medida realista y utilizar
todos los ejemplos de
entrenamiento para
generar el árbol

Validación cruzada
Consiste en...

Consiste en repetir y calcular la media aritmética
obtenida de las medidas de evaluación sobre
diferentes particiones.
Se calcula el porcentaje de aciertos sobre los datos no
utilizados para generar el modelo para proporcionarnos
una medida de cuan de preciso es. Por tanto el procedimiento
de validación cruzada nos
permite obtener una
medida realista y utilizar

Problema: No siempre tenemos un conjunto de
todos los ejemplos de
entrenamiento para
generar el árbol
entrenamiento grande

Validación cruzada
Pasos a seguir Para generar por ejemplo
un árbol de decisión

1. Se divide los datos de entrenamiento en 10 grupos (por
defecto) .
2. Separo un grupo y uso el resto (9) para generar el árbol,
midiendo el porcentaje de clasiﬁcación del grupo que no ha
sido utilizado para generar el árbol.
3. Repito el paso 2 para cada grupo
por tanto realizo el
paso 2 10 veces

4. Promedio todos los resultados, habiendo generado 10
arboles
No hay problema si el
5. El árbol deﬁnitivo se genera utilizando TODOS LOS GRUPOS. tiempo de computo OFF-
LINE para generar el
modelo es bajo como es
en el caso de arboles de
decisión

Clasiﬁcador bayesiano
Entrenamiento y decisión del clasiﬁcador

Razonamiento bayesiano
Clasiﬁcador bayesiano
Enfoque probabilístico de la Probabilidad de que un
inferencia. patrón pertenezca a una
clase
Está basado en asumir que las
incógnitas de interés siguen
distribuciones probabilísticas. Clase A Clase C

Se puede conseguir una
solución óptima por medio de Clase B
estas distribuciones y datos
observados.

Aprendizaje bayesiano
Consiste en...

El aprendizaje se puede ver
como el proceso de
Conocimiento previo
encontrar la hipótesis más
probable, dado un conjunto Entrenamiento
de ejemplos de
entrenamiento y un
conocimiento a priori sobre Hipótesis
la probabilidad de cada
hipótesis.
Clasiﬁcación

Caracteristicas

Cada ejemplo de entrenamiento afecta a la
Esto es más efectivo que
probabilidad de las hipótesis. descartar directamente
las hipótesis
incompatibles.

Se puede incluir conocimiento a priori:
Probabilidad de cada hipótesis

Distribución de probabilidades de los ejemplos.

Una nueva instancia es clasiﬁcada como función de la
predicción de múltiples hipótesis, ponderadas por sus
probabilidades.

Teorema de Bayes
En la teoría de la probabilidad el
teorema de Bayes es un resultado
enunciado por Thomas Bayes en
1763 que expresa la probabilidad
condicional de un evento aleatorio A
dado B en términos de la distribución
de probabilidad condicional del evento
B dado A y la distribución de
probabilidad marginal de sólo A.

Termino a calcular para Termino a calcular a partir de
clasiﬁcar un nuevo ejemplo los ejemplos de entrenamiento

Thomas Bayes (Londres, Inglaterra, 1702 -
Tunbridge Wells, 1761) fue un matemático
h Hipótesis (Objeto) británico.

D Conjunto de valores de los atributos

Teorema de Bayes
Probabilidades

P(h) Probabilidad a priori de un de los objetos
P(D) Probabilidad a priori de que los atributos
tengan unos ciertos valores
P(h|D) Probabilidad a posteriori de que una instancia
P(h|D)
Dado que los atributos
muestran ciertos valores.
pertenezca a una clase Este es el dato a obtener para
clasificar una nueva
instancia

P(D|h) Probabilidad a posteriori de que los atributos
posean unos ciertos valores P(D|h)
Dado que la instancia
pertenece a una cierta
clase

Teorema de Bayes
Calculo de probabilidades

P(h) La probabilidad a priori de una clase se puede
P(h)

calcular como el porcentaje de ejemplos de
Fácil de calcular
Suponiendo que los
ejemplos de
entrenamiento pertenecientes a esa clase. entrenamiento se eligen
aleatoriamente

P(D) Para estimar la probabilidad de que los P(D)
atributos tengan un cierto conjunto de valores esMuy difícil de calcular.
Para calcular la

necesario disponer de un número extremadamente distribución que siguen
una serie de atributos
necesitamos un conjunto
elevado de ejemplos de entrenamiento. de entrenamiento muy
grande

Si los atributos son continuos se ha de estimar
Estimar otros tipos de
distribuciones es funciones de densidad. Por lo general gausianas
complicadisimo

Teorema de Bayes
Calculo de probabilidades II

P(D|h)
Complicado de obtener
Similar a estimar la probabilidad de que los atributos
posean un cierto conjunto de valores
Solo aplicable a una fracción de las instancias de
entrenamiento: aquellas cuya clase es h

Clase a la que pertenece una nueva instancia

Por ejemplo aplicamos el teorema de Bayes para dos clases

Para mas ejemplos tan
solo tendríamos que
realizar varias
comprobaciones
siguiendo un algoritmo de
comparación para
obtener el máximo

Con denominadores comunes tan solo hemos de calcular

Por lo que la nueva instancia pertenece a la clase A

Ventajas y desventajas
Ventajas
Es un aprendizaje casi optimo

Desventajas
Necesidad de un conocimiento a priori. Si no se tiene este
conocimiento estas probabilidades han de ser estimadas.

Coste computacional alto para generar el modelo. En el caso
general es lineal con el número de hipótesis candidatas.

Se ha de disponer de un gran número de ejemplos de
entrenamiento

Clasiﬁcador bayesiano ingenuo
Naïve Bayes

Método muy utilizado en la práctica.
Permite aplicar el aprendizaje bayesiano incluso
cuando el número de ejemplos disponible es pequeño.
Se basa en: Es a causa de estas
simplificaciones, que se
suelen resumir en la
Suponer que todos los atributos son independientes hipótesis de
independencia entre las

(más fácil estimar las probabilidades).
variables predictoras, que
recibe el apelativo de
ingenuo.

En la practica esta suposición se cuando elen la gran
¿Por qué es posible aplicar Naïve Bayes da
número de ejemplos es pequeño?

mayoría de los casos atributos son independientes, se cumple:
Cuando dos
P(at =val,at =val )=P(at =val)⋅P(at =val )
Una función de densidad de probabilidad univariante es mucho
más fácil de estimar que una multivariante.

Conclusiones
Capacidad de representación alta: las fronteras de decisión pueden tener cualquier
forma.

Legibilidad: Baja, debido a que los modelos son funciones de densidad de
probabilidad.

Tiempo de computo on-line: Rápido una vez que el modelo ha sido estimado.

Tiempo de computo off-line: Lento: es necesario estimar las funciones de densidad
de probabilidad a partir de las instancias de entrenamiento.

Parámetros a ajustar: Relacionados con el tipo de función de densidad de a ajustar
Parametros
probabilidad de los atributos. Naïve Bayes es fácil de
utilizar, pero en general
el aprendizaje Bayesiano
no lo es.
Robustez ante instancias de entrenamiento ruidosas: Muy alta, dado que el
método está basado en probabilidades.

Sobrepujaste (overﬁtting): Imposible obtener sobreajuste al trabajar con
probabilidades.

Reconocimiento de objetos
Basados en puntos signiﬁcativos


Para cualquier objeto en una imagen, se pueden extraer una
serie de puntos de interés para proporcionar una descripción
del objeto.
Es importante que las características extraídas de la imagen de
entrenamiento sean detectables incluso bajo cambios de
Estos puntos
generalmente se
encuentran en regiones
escala de la imagen, ruido e iluminación. de alto contraste de la
imagen, tales como los
bordes del objeto.

Scale-invariant feature transform

Se trata de un algoritmo para detectar y describir las
características locales de las imágenes.
Fue publicado por David Lowe en 1999.
Los puntos clave de los objetos son extraídos de una
serie de imágenes de referencia y almacenados en una
base de datos. conalmacenan el conjunto de puntos significativos
Se
sus características para cada objeto

El objeto se clasiﬁca por el vecino mas cercano en la
base de datos.


Invariantes a la geometría:
Rotación, traslación, escala...

Invariantes a características
fotometricas: Brillo,
exposición...

Haar features

Haar-like features
Detectores basados en caracteristicas tipo Haar

El esquema del algoritmo está inspirado en el modelo
de Viola-Jones 2001 paradelaalgoritmos de objetos en tiempoViola y Michel Jones en
Una serie
detección
propuesto por Paul
real

Estos detectores se basan en una cascada de
clasiﬁcadores que es explorada por toda la imagen en
múltiples escalas y localizaciones. Boost Adaptative
AdaBoost:

Cada etapa de la cascada se basa en el uso de simples
características tipo Haar seleccionadas y combinadas
mediante AdaBoost durante el entrenamiento.

Haar-like features
Rapidez del clasificador

La eficiencia de este esquema reside en el hecho de
que los negativos van siendo eliminados
progresivamente.

Si Si Si
Imagen Clasificador 1 Clasificador 2
...... Clasificador N Positivo

No No No

Negativo
Muy utilizado para la detección de objetos en tiempo real

Haar-like features
Detección de caras

son 12x12 para ojos1 y nariz,
nuevamente de 2, 3 y 4).
nsionadas con 10 etapas, una
98% y una tasa de falsos
a etapa ha sido entrenada con
s, utilizando 900 ejemplos de
st.
cabamos de dar en el último
a tasa de falsos positivos haya
Fig. 5. Zonas de interés en una cara detectada para ojo izquierdo, o
magnitud respecto al detector
derecho, nariz y boca.
un descenso tan acusado? La por Paul Viola y
Algunas características tipo Haar propuestas
boca son elementos con Jones Michel
una
que la de la cara entera, de III. RESULTADOS
nformación estructural que

Reconocimiento de objetos

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Reconocimiento de objetos

Similar a Reconocimiento de objetos (13)

Reconocimiento de objetos

Notas del editor