Tesis claudiacruzmtz

NAVEGACIÓN REACTIVA DIFUSA
USANDO DATOS DE PROFUNDIDAD
DEL SENSOR KINECT
TESIS
PARA OBTENER EL TÍTULO DE:
INGENIERO EN COMPUTACIÓN
PRESENTA:
CLAUDIA CRUZ MARTÍNEZ
DIRECTOR DE TESIS:
DR. IGNACIO ALGREDO BADILLO
SANTO DOMINGO TEHUANTEPEC, OAXACA, MÉXICO. MARZO 2014

Agradecimientos
Agradezco a Dios por la fortaleza y convicción de seguir adelante, por los momentos buenos y
malos que he tenido en mi carrera universitaria y que me han ayudado a crecer y madurar como
persona.
Infinitas gracias a mis padres, Carlos Cruz López y Silvia Mart´ınez Rosas, por todo el es-
fuerzo hecho para que me fuera posible terminar mis estudios, por los momentos que estuvieron
junto a m´ı, por darme un ejemplo de vida de lo que quiero seguir siendo en el futuro y por ese
ambiente de hogar que me ha cuidado y apoyado incondicionalmente todos estos años.
Gracias a mi hermana, Elvira I. Cruz Mart´ınez por ser parte de mi familia, por su apoyo, su
cuidado y los momentos que ha compartido conmigo, y muy en especial, le agradezco por mis
dos sobrinos, Estefania López Cruz y Carlos Manuel López Cruz, quienes me han acompañado
en estos últimos años, haciendo crecer en m´ı la capacidad de tolerancia y respeto brindándome
su inocencia y alegr´ıa.
Agradezco a mi director de tesis Dr. Ignacio Algredo Badillo por las aportaciones en este
proyecto. Gracias al profesor M.C. Ernesto Cortés Pérez por encaminar en un inicio este pro-
yecto de tesis y al profesor M.C. J. Jesús Arellano Pimentel, no sólo por su función de sinodal,
sino por el apoyo, sus consejos y enseñanzas en estos años de mi carrera. También agradezco a
mis sinodales, M.C. Sergio Juárez Vázquez, M.R. Yara Pérez Maldonado y M.C. V´ıctor Hugo
Garc´ıa Rodr´ıguez por sus valiosos comentarios y correcciones realizados en la revisión de este
documento.
Un agradecimiento especial al Dr. Enrique Sucar Succar por su apoyo en el desarrollo de
mi proyecto de estancia profesional, as´ı como también le agradezco a Juan Irving, Shender,
Kika, Israel, Sol, Ángel y Eduardo, por sus conocimientos, compañ´ıa y amistad en mi tiempo
I

AGRADECIMIENTOS II
de estancia profesional.
Quiero agradecer a todos mis demás amigos, Leydi, Claudia y Rommel, a quienes siempre
tengo presentes y que han compartido conmigo buenos y malos momentos y que han enriquecido
mi vida con sus consejos, compañ´ıa, cr´ıticas, conocimientos y apoyo.
Le agradezco al Programa de Mejoramiento de Profesorado (PROMEP) y al Cuerpo Académi-
co de Ingenier´ıa en Computación por el apoyo económico para la realización de esta tesis.
Gracias Universidad del Istmo por brindarme la oportunidad de estudiar una carrera profe-
sional, por hacerme crecer no sólo como profesionista sino también como persona.

Resumen
En general, el desempeño en las actividades diarias de las personas con capacidades disminuidas
que utilizan silla de ruedas desciende porque estas actividades implican un mayor esfuerzo, lo
cual puede ocasionarles lesiones o representar un peligro para su salud. Los sistemas robóticos de
navegación automática orientados al apoyo de personas con capacidades disminuidas, permiten
el desplazamiento a través de diferentes ambientes. De este modo, el sistema robótico es una
base para la ejecución de las actividades de personas con capacidades disminuidas y se requiere
que dicho sistema presente caracter´ısticas tales como seguridad y estabilidad para prevenir
lesiones del usuario. El principal objetivo de esta tesis es el diseño y desarrollo de una aplicación
software para la navegación automática de manera reactiva, que permite una tolerancia en el
procesamiento de información imprecisa o datos que puedan ser alterados por distintos factores,
todo esto aplicando la lógica difusa. Adicionalmente, esta aplicación adquiere la información del
exterior a través del sensor Kinect y su implementación futura está orientada a la navegación
de una silla de ruedas. La información de profundidad del sensor Kinect es procesada mediante
el algoritmo de lógica difusa para detectar la dirección con la menor probabilidad de colisión.
Esta dirección es expresada en grados sexagesimales que permitan la ejecución de movimientos
suaves y la reacción ante obstáculos imprevistos. La evaluación del sistema de navegación se
realizó en dos ambientes: un ambiente doméstico y en un laboratorio de cómputo. Las pruebas
son ejecutadas en un equipo de cómputo con el sensor Kinect sobre una plataforma móvil, la
cual es controlada manualmente por un operador humano después de recibir las instrucciones
que retorna la aplicación. El sistema de navegación propuesto acierta en un 85.7 % con un
tiempo promedio de ejecución de 38.9 milisegundos por cada captura. En esta tesis se presenta el
desarrollo de cada módulo de la aplicación software, as´ı como de una interfaz gráfica que permite
observar la imagen de profundidad adquirida mediante el sensor Kinect y la visualización de la
dirección de rotación de la plataforma móvil para evitar colisiones.
V

Abstract
In general, the performance of the daily tasks for the people with diminished capacities that
use a wheelchair decreases because these tasks imply a greater effort, which can cause lesions
or health problems. The robotic systems of autonomous navigation that are aimed to the sup-
port of people with diminished capacities allow the movement through different environments.
In this way the robotic system is the base for the execution of the activities of people with
diminished capacities and it is necesary that the robotic system presents characteristics such
security and stability to prevent lesions for the user. The main goal of this thesis is the design
and development of a software application for the reactive autonomous navigation that admit
a tolerance on processing of imprecise information or data that can be disturbed by different
factors and generate gradual movements all of this by applying the fuzzy logic. Additionally,
this application acquires the data of enviroment through Kinect sensor and its future implemen-
tation is oriented to the navegation of a wheelchair. The depth information from a Kinect sensor
is processed through fuzzy logic algorithm to detect the direction with less collision probability.
The direction is expressed by sexagesimal angles that allow the execution of soft movements
and the reactions when unexpected obstacles appear. The evaluation of the navigation system
is made in two different environments: a domestic environment and a computer laboratory. The
tests are executed in a computer with the Kinect on top of a mobile platform, which is manually
controlled by a human operator after he receives the instructions that the application returns.
The proposed navigation system hits in a 85.7 % and its average proccessing time is 38.9 milli-
seconds for each capture. This thesis presents the development of each module of the software
application as well as a graphic interface that allow the display of the depth image acquired
by Kinect sensor and the visualization of the direction of rotation of platform mobile to avoid
collisions.
VII

Índice general
Agradecimientos I
Resumen V
Abstract VII
Índice de figuras XIII
Índice de tablas XVII
Índice de pseudocódigos XIX
1. Introducción 1
1.1. Planteamiento del Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.1. General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.2. Espec´ıficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4. Justificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5. Alcances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.6. Limitaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.7. Metodolog´ıa general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2. Marco Teórico 11
2.1. Navegación robótica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2. Inteligencia Artificial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3. Visión Artificial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4. Sensores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
IX

Índice general X
2.5. Sensor Kinect . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.6. Lógica Difusa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.1. Definiciones básicas y terminolog´ıa . . . . . . . . . . . . . . . . . . . . . 24
2.6.2. Funciones de membres´ıa . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6.3. Sistemas de inferencia difusos . . . . . . . . . . . . . . . . . . . . . . . . 28
3. Estado de Arte 31
3.1. Sistemas de navegación reactiva difusa con sensores de proximidad . . . . . . . . 32
3.2. Sistemas de navegación reactiva difusa con fusión sensorial . . . . . . . . . . . . 34
3.3. Sistemas de navegación reactiva difusa con sensor Kinect . . . . . . . . . . . . . 35
3.4. Discusión de los trabajos relacionados . . . . . . . . . . . . . . . . . . . . . . . . 37
4. Sistema propuesto 39
4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2. Adquisición de datos de profundidad . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3. Transformación de los datos de profundidad . . . . . . . . . . . . . . . . . . . . 43
4.4. Eliminación de regiones desconocidas pequeñas . . . . . . . . . . . . . . . . . . . 45
4.5. Extracción de profundidad promedio . . . . . . . . . . . . . . . . . . . . . . . . 49
4.6. Sistema de control difuso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.6.1. Definición de variables de entrada, variables de salida y del sistema de
inferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.6.2. Definición de valores lingü´ısticos y funciones de membres´ıa . . . . . . . . 56
4.6.3. Conjunto de reglas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5. Resultados y Comparaciones 69
5.1. Resultados generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.2. Resultados por capturas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.3. Resultados por objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.4. Resultados por alcances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.5. Comparaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
6. Conclusiones y trabajo a futuro 95
6.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
6.2. Trabajo a futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Referencias 99

Índice general XI
A. Interfaz gráfica 105
B. Ejecución del programa 109
C. Código fuente 113
C.1. Archivo principal: Grafico.m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
C.2. Transformación de los datos de profundidad: apariencia.m . . . . . . . . . . . . 115
C.3. Dividir imagen de profundidad por regiones: obtenerRegiones.m . . . . . . . . . 115
C.4. Obtener profundidad promedio por región: obtenerProfundidad.m . . . . . . . . 116

Índice de figuras
1.1. Metodolog´ıa del desarrollo del proyecto de tesis. . . . . . . . . . . . . . . . . . . 8
2.1. Esquema de arquitectura estratégica. . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2. Esquema de arquitectura reactiva. . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3. Esquema de arquitectura por comportamientos. . . . . . . . . . . . . . . . . . . 12
2.4. Esquema de arquitectura h´ıbrida. . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.5. Lógica difusa aplicado en la navegación reactiva propuesta. . . . . . . . . . . . . 13
2.6. Diagrama de bloques de las etapas de un sistema de visión artificial. . . . . . . . 18
2.7. Sensor Kinect. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.8. Campo de visión del sensor Kinect. . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.9. Nube de puntos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.10. Imagen de profundidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.11. Elementos de los conjuntos difusos. . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.12. Función triangular. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.13. Función trapezoidal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.14. Función Gaussiana. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.15. Función campana (bell). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.16. Estructura general de un sistema de inferencia difusa tipo Mamdani. . . . . . . . 29
2.17. Estructura general de un sistema de inferencia difusa tipo Sugeno. . . . . . . . . 30
4.1. Diagrama a bloques de las etapas del sistema de navegación reactiva difusa. . . . 40
4.2. Estructura de los bits de profundidad. . . . . . . . . . . . . . . . . . . . . . . . 42
4.3. Rango en metros de la imagen de profundidad. . . . . . . . . . . . . . . . . . . . 42
4.4. Imágenes obtenidas del sensor Kinect. . . . . . . . . . . . . . . . . . . . . . . . . 43
4.5. Imagen de profundidad original. . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.6. Imagen de profundidad principal ImagenProf a escala de grises de 8 bits. . . . 45
4.7. Ejemplo de erosión geodésica de señales. . . . . . . . . . . . . . . . . . . . . . . 47
XIII

Índice de figuras XIV
4.8. Imagen con agujeros rellenados. . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.9. División de imagen de profundidad ImagenProfundidad. . . . . . . . . . . . . . 50
4.10. Imágenes de profundidad con áreas grandes desconocidas. . . . . . . . . . . . . . 51
4.11. Sistema de control difuso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.12. Ejemplo de fusificación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.13. Funciones de membres´ıa para variables de entrada. . . . . . . . . . . . . . . . . 58
4.14. Diagrama del sistema de inferencia Sugeno del control difuso. . . . . . . . . . . . 63
4.15. Diagrama de bloques del sistema de navegación reactiva difusa. . . . . . . . . . 64
4.16. Diagrama general del sistema de control difuso. . . . . . . . . . . . . . . . . . . 65
5.1. Imágenes obtenidas del sensor Kinect en un ambiente doméstico: habitación con
poca luminosidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.2. Imágenes obtenidas del sensor Kinect en un ambiente doméstico: habitación con
luminosidad artificial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.3. Imágenes obtenidas del sensor Kinect en un ambiente doméstico: pared y otros
objetos lejanos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.4. Imágenes obtenidas del sensor Kinect en un ambiente doméstico: espacio con
luminosidad natural menor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
luminosidad natural moderada. . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
ligeros movimientos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.7. Imágenes obtenidas del sensor Kinect en un laboratorio de cómputo: tratamiento
de objetos cercanos y lejanos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.8. Imágenes obtenidas del sensor Kinect en un laboratorio de cómputo: ejecución
con una pared cercana. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.9. Imágenes obtenidas del sensor Kinect en un laboratorio de cómputo: ejecución
con una pared muy cercana. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.10. Imágenes obtenidas del sensor Kinect en un laboratorio de cómputo: caso del
pasillo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.11. Imágenes obtenidas del sensor Kinect en un laboratorio de cómputo: vista del
laboratorio de cómputo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
A.1. Interfaz de usuario del sistema. . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
A.2. Sección de imagen de profundidad. . . . . . . . . . . . . . . . . . . . . . . . . . 106

Índice de figuras XV
A.3. Sección del ángulo de giro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
A.4. Sección gráfica de giro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
A.5. Sección de selección de datos de entrada. . . . . . . . . . . . . . . . . . . . . . . 107
A.6. Sección del porcentaje a omitir de datos desconocidos. . . . . . . . . . . . . . . . 108
A.7. Sección de botones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
B.1. Proceso de compilación: selección de archivos. . . . . . . . . . . . . . . . . . . . 111
B.2. Proceso de compilación: inicialización. . . . . . . . . . . . . . . . . . . . . . . . 111
B.3. Proceso de compilación: selección de compilador. . . . . . . . . . . . . . . . . . . 111
B.4. Proceso de compilación: verificación de datos. . . . . . . . . . . . . . . . . . . . 112

Índice de tablas
2.1. Algunas definiciones de Inteligencia Artificial, organizadas en 4 categor´ıas. . . . 15
4.1. Resultados de medición distancia/profundidad. . . . . . . . . . . . . . . . . . . . 57
4.2. Rangos y funciones de membres´ıa correspondientes a cada valor lingü´ıstico. . . . 59
4.3. Tabla de verdad de la operación lógica AND. . . . . . . . . . . . . . . . . . . . 62
4.4. Tabla de verdad de la operación lógica OR. . . . . . . . . . . . . . . . . . . . . 62
4.5. Conjunto de reglas del sistema de control difuso: giros pronunciados. . . . . . . . 66
4.6. Conjunto de reglas del sistema de control difuso: reglas predictivas. . . . . . . . 66
4.7. Conjunto de reglas del sistema de control difuso: movimiento en linea recta. . . . 67
4.8. Conjunto de reglas del sistema de control difuso: giros básicos. . . . . . . . . . . 67
5.1. Caracter´ısticas de los equipos de cómputo. . . . . . . . . . . . . . . . . . . . . . 70
5.2. Tiempos de ejecución promedio en milisegundos (ms). . . . . . . . . . . . . . . . 70
5.3. Comparación entre los trabajos relacionados. . . . . . . . . . . . . . . . . . . . . 91
XVII

Índice de pseudocódigos
1. Conversión de imagen de profundidad . . . . . . . . . . . . . . . . . . . . . . . . 44
2. Relleno de part´ıculas oscuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3. Reconstrucción morfológica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4. Extracción de profundidad promedio . . . . . . . . . . . . . . . . . . . . . . . . 52
5. Sistema de control difuso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6. Sistema completo de navegación reactiva difusa . . . . . . . . . . . . . . . . . . 65
XIX

Dedicado a Dios y a
mi familia

Cap´ıtulo 1
Introducción
La robótica móvil ha sido empleada en diferentes propósitos, desde proyectos académicos, proce-
sos industriales, aplicaciones de investigación y en el sector salud, entre otros [1]. Para un robot
móvil, la navegación es la habilidad que requiere para desplazarse de un lugar a otro dentro
de un entorno, evitando los obstáculos que se le presenten. La navegación se puede ejecutar ya
sea a) por un operador humano, que toma las decisiones de movimiento y env´ıa una señal al
dispositivo móvil para que éste ejecute el desplazamiento o b) de manera automática, es decir,
sin la intervención directa de un operador [2].
Un sistema de navegación automática busca explorar un ambiente evitando colisionar con los
objetos que se encuentren dentro de dicho ambiente, tratando de simular el raciocinio humano
mediante la inteligencia artificial. Para conocer qué existe en la escena y, en base a esta infor-
mación ejecutar el movimiento adecuado, el sistema robótico requiere la captura de información
externa utilizando diferentes tipos de sensores, ya sea aquellos que toman una imagen de la
escena, la información de proximidad de los objetos con respecto al sensor o una fusión entre
diferentes tipos de sensores. En los últimos años la fusión sensorial ha sido aplicada mediante el
sensor Kinect, el cual permite una extracción de información del ambiente empleando: sensores
de proximidad (láser y cámara infrarrojos), imágenes digitales (cámara RGB), comandos de voz
(arreglo de micrófonos) y sensor propioceptivo (acelerómetro).
Una vez que se obtienen los datos del ambiente, el sistema debe ejecutar una serie de pro-
cesos, basados en inteligencia artificial, para extraer información útil, que le permita conocer
hacia dónde debe moverse lo más rápido e instantáneamente posible aún reaccionando a casos
imprevistos, sin la intervención directa de un operador. La lógica difusa, siendo un sub-campo de
1

Cap´ıtulo 1. Introducción 2
la inteligencia artificial trata de representar el sentido común del humano y puede ser aplicada
en sistemas de navegación para evitar colisiones, tratar datos que pueden estar sujetos a per-
turbaciones y tener una reacción en tiempo real. Además permite la generación de movimientos
no tan bruscos, ya que éstos pueden ocasionar lesiones a los usuarios del sistema.
Considerando los aspectos previamente mencionados, se propone un sistema de navegación
reactiva difusa implementado en software, que se contempla desde el procesamiento de datos
de profundidad hasta la aplicación de la lógica difusa como algoritmo de navegación. Se espera
una posterior implementación en hardware (sistema empotrado) principalmente sobre una silla
de ruedas para personas discapacitadas, aunque se tiene en cuenta que dicho sistema puede ser
implementado en alguna otra plataforma móvil. Por lo tanto, no se consideran caracter´ısticas
espec´ıficas de algún robot móvil ya que la presente aplicación se enfoca en calcular la dirección
de giro hacia el espacio con la menor probabilidad de choque, evaluando los valores de profun-
didad de los objetos en el ambiente, sin adquirir formas ni tamaños de los obstáculos. Al mismo
tiempo, se busca la reducción de costos económicos, recursos de espacio en circuiter´ıa y consumo
de energ´ıa.
Cabe mencionar que este trabajo forma parte del proyecto Desarrollo de una silla de
ruedas autónoma con brazo robótico para asistir a personas con capacidades dis-
minuidas, desarrollado por el Cuerpo Académico de Ingenier´ıa en Computación de la
Universidad del Istmo, Campus Tehuantepec y financiado por el Programa de Mejo-
ramiento del Profesorado, PROMEP.
A continuación se tratan los temas introductorios del proyecto correspondientes a la defini-
ción del problema, justificación, hipótesis y objetivos generales y espec´ıficos. En el Cap´ıtulo 2 se
exponen los conceptos teóricos para el conocimiento de los temas a tratar en cap´ıtulos siguientes.
En el Cap´ıtulo 3 se presentan los trabajos actuales relacionados con el sistema de navegación
reactiva difusa. Posteriormente en el Cap´ıtulo 4 se describe de forma detallada el desarrollo del
sistema propuesto, desde la captura de los datos de profundidad hasta la descripción del sistema
de control difuso. Los resultados que se obtienen en base a experimentación son presentados en
el Cap´ıtulo 5 dividiéndose en resultados generales, por capturas de la escena y por objetivos
y alcances propuestos en el Cap´ıtulo 1, para concluir en dicho cap´ıtulo con las comparaciones
con los trabajos expuestos en el Estado de Arte. Finalmente en el Cap´ıtulo 6 se plantean las
conclusiones obtenidas y el trabajo que se propone para su implementación futura.

1.1. Planteamiento del Problema
Existe una problemática para las personas con discapacidades motrices que utilizan silla de
ruedas al momento del desplazamiento de un lugar a otro, ejecución de actividades cotidianas
y evasión de los obstáculos que se les presentan, ya que son diversas acciones para un mismo
momento. En algunas sillas de ruedas, el desplazamiento depende de la fuerza que pueda gene-
rar el operador, ya sea la misma persona discapacitada o alguien independiente que le ayude a
moverse; sin embargo, esto aumenta la dificultad en la ejecución de otras tareas.
Por un lado, existen diversas sillas de ruedas que utilizan componentes eléctricos que pue-
den ser manejados ya sea mediante un control o joystick, pero aún significa un impedimento
para realizar otras actividades, además de que algunas personas discapacitadas no pueden o se
les dificulta manejar dichos controles. Por otro lado, se han probado sistemas de navegación
automática con diferentes tipos de sensores y algoritmos que tratan de obtener la mayor can-
tidad de información útil del ambiente y as´ı tomar las mejores decisiones en la ejecución del giro.
El presente trabajo de tesis plantea una aplicación software para la navegación reactiva te-
niendo en cuenta que se deben evitar giros bruscos para no ocasionar lesiones al operador, por
lo tanto se busca responder a la siguiente cuestión: ¿La lógica difusa puede implementarse para
la evasión de obstáculos de manera reactiva, permitiendo movimientos suaves y previniendo la
ejecución de giros bruscos? Esta cuestión conlleva a: a) identificar el formato de los datos que se
extraen del ambiente, b) adquirir la dirección de giro de la plataforma móvil hacia el espacio con
la menor probabilidad de colisión, c) ejecutar una navegación casi de forma inmediata evitando
extracción de formas y caracter´ısticas más espec´ıficas de los obstáculos, salvo su proximidad
con respecto al sensor y, además, d) evitar generar movimientos bruscos, adaptándose lo mejor
posible a cualquier tipo de ambiente. Todo esto tratando de obtener un sistema cuya implemen-
tación futura pueda generar la menor cantidad de recursos (espacio, circuiter´ıa, potencia, entre
otros) y sin considerar caracter´ısticas y dimensiones de algún dispositivo móvil en espec´ıfico.
1.2. Hipótesis
Un sistema de navegación reactiva difusa en conjunto con el sensor Kinect permitirá la evasión
de obstáculos de una plataforma móvil sin contemplar sus dimensiones, generando movimientos
suaves y orientado a una posterior implementación en una silla de ruedas para personas con
discapacidades motrices o de la tercera edad.

1.3. Objetivos
En esta sección se presentan los objetivos del trabajo de tesis considerando desde un enfoque
general hasta un desglose espec´ıfico.
1.3.1. General
Diseñar y desarrollar una aplicación software para un sistema de navegación reactiva a través
del procesamiento de datos de profundidad del sensor Kinect y el control difuso sobre las direc-
ciones de giro, orientado a una implementación hardware en una silla de ruedas sin considerar
sus dimensiones.
1.3.2. Espec´ıficos
Examinar los datos de profundidad que adquieren mediante el sensor Kinect.
Identificar los formatos de las imágenes de rango del sensor Kinect.
Determinar el formato de las imágenes de rango del sensor Kinect que servirá como datos
de entrada del programa, en base a tiempo y recursos de procesamiento.
Definir el conjunto de reglas del control difuso.
Establecer los rangos difusos para las variables de entrada y de salida mediante la expe-
rimentación con el sensor Kinect.
Investigar y contrastar el comportamiento de los sistemas de inferencia Mamdani y Sugeno.
Elegir un sistema de inferencia basándose en trabajos relacionados a los estudios compa-
rativos, libros y manuales.
Diseñar la interfaz gráfica de usuario para simular el sistema de navegación reactiva y la
visualización de resultados.
Desarrollar el sistema mediante la herramienta de programación de Matlab 2012a R uti-
lizando Fuzzy Logic ToolboxTM
e Image Processing ToolboxTM
.
Realizar pruebas del sistema de navegación utilizando grabaciones previas del sensor Ki-
nect para visualizar el comportamiento de la aplicación.

Ejecutar pruebas del sistema de navegación en conexión directa con el sensor Kinect sobre
una plataforma móvil, controlada manualmente por un operador humano siguiendo las
instrucciones que retorna la aplicación.
Analizar cada una de las versiones del sistema mediante los resultados obtenidos.
Seleccionar la versión final del programa.
1.4. Justificación
Un sistema de navegación automático utilizando la visión artificial es conveniente, ya que permi-
te un avance tecnológico para diferentes sectores en la realización de tareas peligrosas, repetitivas
o imposibles de ejecutar por un ser humano.
En este trabajo se desarrolla un sistema de navegación automático aplicando una arquitec-
tura reactiva. La navegación reactiva calcula las direcciones o movimientos un menor tiempo en
comparación con otro tipo de arquitecturas de navegación, y es conveniente su implementación
en un sistema empotrado debido al menor consumo de recursos; además, la navegación reactiva
permite no sólo la aplicación de un solo módulo, sino que también deja la posibilidad de com-
binar con otros tipos de arquitecturas para la ejecución de tareas más complejas [3].
Para la adquisición de la información del exterior, se emplea el sensor Kinect, el cual es
uno de los sensores más actuales que fomenta la fusión de sensores con un bajo costo para:
extracción de proximidad (láser y cámara infrarrojos), captura de imágenes digitales (cámara
RGB), adquisición de comandos de voz (arreglo de micrófonos) y obtención de posición del
sensor(acelerómetro). En seguida se mencionan los campos de investigación donde se ha imple-
mentado el uso del Kinect [4].
Reconstrucción 3D.
Realidad aumentada.
Procesamiento de imágenes.
Herramienta de interacción.
Reconocimiento de objetos.

Navegación robótica.
En este trabajo de tesis se utiliza la extracción de datos de profundidad mediante el sensor
Kinect y está orientado al procesamiento de imágenes y navegación robótica, misma que se
controla mediante la lógica difusa. Se selecciona el uso de la lógica difusa para la navegación de
robots móviles debido a que ofrece tolerancia a la incertidumbre, el ruido o perturbaciones en
las medidas que se obtienen de los sensores [5]. La lógica difusa también permite lidiar con los
errores presentes en el sensor Kinect, además, a comparación con los algoritmos probabil´ısticos
de navegación, la navegación difusa requiere menos consumo de tiempo para procesamiento y
determinación de movimientos [6].
La navegación difusa supera las dificultades que se presentan en los ambientes no estructu-
rados y dinámicamente cambiantes que son más complicados de expresar mediante ecuaciones
matemáticas; por ejemplo, aquellos ambientes inicialmente desconocidos que tengan obstáculos
dispersos, con pendientes, entre otros. El control difuso también es utilizado para las aplicacio-
nes donde la velocidad de decisión sea un factor importante, además de la reducción de área
o consumo de recursos al implementarlo en sistemas electrónicos digitales o algún dispositivo
reprogramable [7].
Este trabajo de tesis forma parte del proyecto Desarrollo de una silla de ruedas autóno-
ma con brazo robótico para asistir a personas con capacidades disminuidas por lo
cual se enfoca en su aplicación en el sector salud orientado a su implementación futura en una
silla de ruedas. Los principales beneficiados con la realización de este trabajo son las personas
con discapacidades motrices o de la tercera edad, ya que permite la prueba y evaluación de un
sistema de navegación orientado a una silla de ruedas.
Se tiene en consideración que este sistema puede ser implementado en otro tipo de plata-
formas móviles, como las que se mencionan en [8, 9], donde una de las tareas a ejecutar por
dicho dispositivo sea la evasión de obstáculos de manera casi instantánea y con la generación de
movimientos suaves. Por esta razón, en este trabajo no se detallan las caracter´ısticas espec´ıficas
de un dispositivo móvil en especial, y se plantean valores de salida que puedan ser evaluados
por diferentes plataformas móviles, pasando previamente dichos valores por algún decodificador
o librer´ıa.

1.5. Alcances
Los alcances que se presentan en este trabajo de tesis se describen a continuación.
Desarrollar una aplicación software de navegación que utiliza una arquitectura reactiva.
Aplicar un sistema de control difuso que resuelve las direcciones de giro, generando infor-
mación al simular el sentido común humano.
Utilizar el sensor Kinect para la obtención de datos de profundidad, considerando el tiempo
de procesamiento del sensor.
Plantear la ejecución del sistema en tiempo real aplicando información previamente ad-
quirida o en conexión directa del sensor Kinect.
Diseñar y desarrollar una interfaz gráfica que permite la visualización de la captura y la
dirección de giro.
Ejecutar pruebas con conexión directa al sensor Kinect sobre una plataforma móvil, misma
que será controlada por un operador humano siguiendo las instrucciones que retorna la
aplicación software.
1.6. Limitaciones
Las limitaciones del sistema de navegación se mencionan a continuación.
Los resultados y conclusiones se obtienen de las pruebas ejecutadas ubicando el sensor
Kinect a 1 metro sobre el nivel del suelo y con un ángulo de inclinación vertical de 0◦
, por
lo que sólo se considera la evasión de obstáculos observables con dicha configuración.
El sistema de navegación, al utilizar una arquitectura reactiva, evita la extracción de
formas, color, textura y caracter´ısticas más espec´ıficas de los objetos en la escena con-
centrándose sólo en el conocimiento de la existencia de los mismos.
El sistema se ejecuta en un ambiente con un suelo plano; es decir, sin rampas, escalones
o demás protuberancias como piedras, basura, objetos pequeños, agujeros, entre otros.
El sistema es evaluado en tiempo real y con el sensor Kinect, pretendiéndose generar una
salida que pueda adaptarse a las caracter´ısticas de los motores de una plataforma móvil,
sin embargo la implementación y ejecución sobre un robot móvil no se plantea en este
trabajo.

1.7. Metodolog´ıa general
El proceso a seguir en el desarrollo de este proyecto se muestra en la Figura 1.1. El primer paso
es la recopilación de información relacionada con el trabajo de tesis. Se realiza la revisión del
estado de arte para sustentar el sistema que se está desarrollando e identificar qué se puede
implementar para obtener diferentes y, en su caso, mejores resultados. También se revisa infor-
mación básica para definir conceptos que se utilizarán durante el desarrollo de la tesis, misma
que se plasmará en el marco teórico.
Definición de los parámetros
del sistema difuso
Pruebas y experimentación
del sistema de navegación
Desarrollo del
sistema de control
difuso
Identificación de versión
final del sistema
Pruebas
y resultados
Recopilación de
información
Tratamiento de los
datos de profundidad
del sensor Kinect
Figura 1.1. Metodolog´ıa del desarrollo del proyecto de tesis.
Una vez que se tiene la información necesaria se procede con el desarrollo del sistema de
navegación reactiva difusa. Inicialmente se procesan los parámetros de entrada que son los datos
de profundidad del sensor Kinect, con estos datos se ejecutan una serie de transformaciones que
permiten obtener las caracter´ısticas que son útiles para el controlador difuso. Al finalizar esta

etapa se obtiene la información pertinente que sirve como parámetros de entrada del sistema
de control difuso.
En la siguiente etapa se definen los parámetros del sistema de control difuso. Se definen for-
malmente los parámetros de entrada y salida, as´ı como el sistema de inferencia difusa y demás
caracter´ısticas propias de los sistemas difusos. Posteriormente se desarrolla el sistema de control
difuso utilizando la herramienta de programación Matlab 2012a R y las cajas de herramientas:
Image Processing ToolboxTM
y Fuzzy Logic ToolboxTM
.
Con la primera versión del sistema de navegación, se procede a realizar pruebas y experimen-
tos, adquiriendo información del ambiente mediante el sensor Kinect, procesando las imágenes
o datos de profundidad y obteniendo del control difuso la dirección con menor probabilidad de
colisión. En los resultados de todas estas pruebas, pueden surgir detalles que implican modificar
o mejorar el sistema, por lo cual se recurre a regresar a dos etapas antes para la obtención de
mejores resultados que cumplan con los objetivos del trabajo. En el momento que se tenga un
sistema estable que brinde los resultados esperados, se seleccionará como versión final del siste-
ma y se ejecutarán pruebas y experimentos, para ser documentados y generar las conclusiones
del trabajo de tesis.

Cap´ıtulo 2
Marco Teórico
2.1. Navegación robótica
La navegación es una metodolog´ıa que permite guiar a un robot móvil de manera segura y es-
table, a través de un entorno con obstáculos con el fin de ejecutar alguna tarea en espec´ıfico [3].
Desde el punto de vista de la planificación, existen diferentes arquitecturas que son diseñadas
teniendo en cuenta especificaciones como eficiencia, tiempo de respuesta ante cambios repenti-
nos del ambiente y la disponibilidad de la información del entorno [10]. Entre las principales
arquitecturas están:
Arquitectura estratégica. Utiliza un modelo del entorno y supone una situación en la
que se ejecuta un plan sin tener en cuenta la posibilidad de generalizar el comportamiento.
Este tipo de arquitectura se basa en un planificador que verifica la información suminis-
trada por los sensores y genera una secuencia de acciones o plan, ver Figura 2.1.
Sensado Planificar Actuar
Figura 2.1. Esquema de arquitectura estratégica.
Arquitectura reactiva. Está orientada principalmente a suministrar flexibilidad, adap-
tabilidad y capacidad de respuesta ante situaciones no esperadas. Implementa una estra-
tegia de control como un conjunto de reglas reactivas en forma de pares condición-acción
sin tener un modelo previo del entorno. No ejecuta búsquedas exhaustivas en cada camino,
11

Cap´ıtulo 2. Marco Teórico 12
simplemente busca y ordena la acción apropiada que corresponde a cada lectura de los
sensores, ver Figura 2.2.
Sensado
Conjunto
de
reglas
reactivas
Actuar
Figura 2.2. Esquema de arquitectura reactiva.
Arquitectura basada en comportamientos. Es considerada como una evolución de
la arquitectura reactiva. Se basa en un conjunto de comportamientos que describen la
manera en que reacciona el robot móvil ante algún estado determinado de los sensores,
utilizando un concepto más elaborado que la consulta a una tabla de correspondencias.
Cada comportamiento realiza cálculos internos pudiéndose representar como una máquina
de estados finitos que tiene como entrada la información de los sensores y produce señales
hacia los actuadores, ver Figura 2.3.
Sensado
Conjunto
de
comportamientos
Actuar
Figura 2.3. Esquema de arquitectura por comportamientos.
Arquitectura h´ıbrida. Ofrece una combinación entre arquitectura estratégica y reactiva.
Se emplea el sistema reactivo para el control de bajo nivel (funciones de seguridad ante
colisiones imprevistas) y el sistema estratégico para el control de alto nivel (modelo del
entorno y planificación de acciones), ver Figura 2.4.

Sensado Actuar
Comportamiento
reactivo
Plan
Control bajo nivel Control alto nivel
Figura 2.4. Esquema de arquitectura h´ıbrida.
La navegación es una de las actividades más complejas para un robot móvil, ya que implica
un gran número de conceptos relacionados con la inteligencia artificial debido a que para el
control de robots móviles se incorporan funciones básicas (control de motores, articulaciones
y generación de trayectorias de forma automática o con la intervención de un operador) con
funciones inteligentes (realización parcial o total autónoma de operaciones como planificación
de tareas y de movimientos, percepción sensorial y reacción ante obstáculos) [3]. La lógica difusa
se aplica como un módulo dentro del sistema de navegación propuesto y se encarga de procesar
los datos de entrada y decidir qué dirección es la que tenga menor probabilidad de colisión.
Cada una de las reglas del control difuso propuesto, hacen referencia al módulo dentro de la
arquitectura reactiva definido como conjunto de reglas reactivas; sin embargo, este último difiere
al módulo propuesto ya que se tiene un conjunto de reglas que interpretan las entradas y salidas
convertidas de valores numéricos a valores difusos, generando un conjunto de reglas reactivas
difusas, ver Figura 2.5.
Datos de entrada
Procesamiento
de los datos de
entrada
Algoritmo de
navegación
Dirección de giro
Lógica difusa
SENSADO
CONJUNTO DE
REGLAS
REACTIVAS
ACTUAR
Figura 2.5. Lógica difusa aplicado en la navegación reactiva propuesta.

Existen otras propiedades que motivan al uso de la lógica difusa para el control de la nave-
gación, las cuales se definen a detalle en las secciones siguientes, donde además, se abordan los
conceptos de inteligencia artificial, visión artificial y descripción del sensor Kinect en referencia
a la percepción sensorial.
2.2. Inteligencia Artificial
La inteligencia es la capacidad que tienen las personas de conocer, analizar, comprender y resol-
ver diferentes situaciones as´ı como también un conjunto de destrezas, habilidades y experiencias
en cierto dominio [11, 12].
Los humanos hacen uso de la inteligencia en cada una de las actividades que desempeñan
en la vida diaria; sin embargo, existen ciertas actividades que representan un peligro para una
persona, o que requieren un menor tiempo de ejecución, o que necesitan exactitud y mejores re-
sultados, por lo tanto, se precisa de un equipo o máquina autónoma o que pueda ser controlada
parcial o totalmente por un operador humano.
En algunas ocasiones, las mencionadas actividades necesitan del raciocinio humano aún cuan-
do la persona no pueda estar presente o se le dificulte ejecutar dicha actividad (por cuestiones
de salud, seguridad, falta de conocimientos, poca experiencia, etcétera), entonces se requiere un
sistema que ejecute algoritmos que permitan de cierta forma simular el pensamiento humano,
en otras palabras, se requiere Inteligencia Artificial (IA).
La inteligencia artificial se define como la disciplina cient´ıfica que se ocupa de crear pro-
gramas informáticos que ejecutan operaciones comparables a las que realiza la mente humana,
como el aprendizaje o el razonamiento lógico [12]. En la Tabla 2.1 se muestran más definiciones
las cuales están organizadas en distintas categor´ıas [13].
En las últimas décadas se ha hecho énfasis en el desarrollo de esta disciplina para la au-
tomatización de actividades en distintas áreas como control de sistemas, medicina, econom´ıa,
finanzas, ingenier´ıa, industria, milicia, videojuegos, entre otras.

Tabla 2.1. Algunas definiciones de Inteligencia Artificial, organizadas en 4 categor´ıas.
Sistemas que piensan como humanos
Sistemas que piensan racionalmente
"El nuevo y excitante esfuerzo de hacer que los
computadores piensen...máquinas con mentes, en
el más amplio sentido literal". (Haugeland, 1985)
"[La automatización de] actividades que vincu-
lamos con procesos de pensamiento humano, ac-
tividades como la toma de decisiones, resolución
de problemas, aprendizaje...". (Bellman, 1978)
" El estudio de las facultades mentales median-
te el uso de modelos computacionales". (Char-
niak y McDermott, 1985)
"El estudio de los cálculos que hacen posible
percibir, razonar y actuar". (Winston, 1992)
Sistemas que actúan como humanos
Sistemas que actúan racionalmente
"El arte de desarrollar máquinas con capacidad
para realizar funciones que cuando son realizadas
por personas requieren de inteligencia". (Kurzweil,
1990)
"El estudio de cómo lograr que los computadores
realicen tareas que, por el momento, los humanos
hacen mejor". (Rich y Knight, 1991)
"La Inteligencia Computacional es el estudio
del diseño de agentes inteligentes".
(Poole et al., 1998)
"IA... está relacionada con conductas inteli-
gentes en artefactos". (Nilsson, 1998)
La inteligencia artificial ha sido estudiada desde los años 50s, con la llamada Prueba de Tu-
ring propuesta por Alan Turing, la cual consiste en saber si un evaluador humano, dependiendo
de una serie de preguntas realizadas a una persona y a una máquina, pod´ıa diferenciar entre
la respuesta de la máquina y la persona [13]. Para que una computadora logre pasar la prueba
debe tener la siguientes caracter´ısticas:
Procesar el lenguaje natural
Representar el conocimiento
Razonar automáticamente
Aprender de manera automática
Además, se extendió dicha prueba a la llamada Prueba Global de Turing, que da la oportuni-
dad del evaluador de manejar objetos para su análisis. Para superar esta prueba la computadora
debe tener:
Visión artificial (VA)
Robótica
Cada una de las 7 caracter´ısticas antes mencionadas son disciplinas que están contempladas
dentro de la inteligencia artificial. Para este trabajo se propone un sistema basado en la adqui-
sición y procesamiento de información de profundidad del entorno a través del sensor Kinect

y algoritmos de procesamiento de imágenes, además de generar ángulos de dirección de giro
mediante lógica difusa. Por lo tanto, se requieren conceptos básicos de: a) visión artificial, por
la percepción y adquisición de datos del medio externo mediante el sensor Kinect, b) la repre-
sentación del conocimiento, para almacenar la información que se obtiene mediante matrices
de profundidad, y c) el razonamiento automático, para utilizar la información almacenada y
obtener conclusiones empleando lógica difusa. Estos tres temas serán descritos, en relación con
el sistema propuesto, en las subsecciones siguientes.
2.3. Visión Artificial
El principio de la VA proviene de la importancia que tiene el sentido de la vista para los seres
humanos, ya que estudios cifran su importancia en un 75 % de la información proveniente de los
sentidos que procesa el cerebro [14]. La visión es la interacción de los organismos con el mundo,
la cual tiene como funciones principales reconocer y localizar objetos en un ambiente utilizando
el procesamiento de los datos de entrada (imágenes), por lo tanto, la VA es el estudio de dichas
funciones, para as´ı entenderlas y realizar la construcción de máquinas que tengan capacidades
similares [15].
La visión artificial está muy ligada al procesamiento de imágenes, aunque difieren en el obje-
tivo final. El procesamiento de imágenes tiene como objetivo mejorar la calidad de las imágenes
para su posterior utilización o interpretación. La visión artificial busca extraer caracter´ısticas
de una imagen para su descripción e interpretación mediante una computadora [15].
La visión artificial se basa en diferentes tipos de tecnolog´ıas, de las cuales destacan [14]:
Procesamiento de imágenes. Adquisición de información (forma, color, textura o áreas
de los objetos, entre otros) o transformación de una imagen, considerándose a la imagen
como la materia prima dentro de la visión artificial.
Generación de gráficos por computadora. Transformación de una descripción de los
objetos de una imagen.
Reconocimiento de patrones. Clasificación de un objeto a partir de la obtención de
caracter´ısticas entre un conjunto de candidatos.
A continuación se muestra un resumen de las diferentes áreas donde se aplican algoritmos

de VA [14]:
Militar
• Detección y seguimiento de objetivos
• Análisis del terreno
• Armas inteligentes
Robótica
• Guiado de robots industriales
• Navegación de robots móviles
Agricultura
• Análisis de las plantaciones: crecimiento, enfermedades
• Análisis de imágenes tomadas por satélites
Identificación
• Identificación automática de huellas dactilares
• Reconocimiento de rostros
Control de tráfico
• Identificación de matr´ıculas de veh´ıculos
• Control del tráfico vial
Control de calidad
• Verificación de etiquetas
• Inspección de contenedores
• Inspección de motores
• Inspección de cristales
• Control de calidad de comida
• Inspección de soldaduras

• Inspección de circuitos impresos
• Inspección de madera, tela, fundiciones, papel
Biomedicina
• Análisis de imágenes tomadas por rayos X
• Análisis de imágenes tomadas por ultrasonidos
• Análisis de sangre
• Análisis de ADN
Seguridad
• Vigilancia de edificios
• Detección de explosivos por rayos X
Un sistema de visión artificial lleva consigo una serie de conceptos hardware, software y al-
goritmos de procesamiento de la información. Generalmente, el proceso de un sistema de visión
artificial consta de 5 etapas principales (ver Figura 2.6) [16].
Escena Real
Etapa
Sensorial
Etapa de
Preprocesamiento
Etapa de
Segmentación
Etapa de
Parametrización
Etapa de
Clasificación
Actuación según
Resultados
Entrada
Etapas
Salida
Figura 2.6. Diagrama de bloques de las etapas de un sistema de visión artificial.

La primera etapa se le denomina etapa sensorial ya que consiste en la adquisición de imáge-
nes digitales utilizando algún tipo de sensor y la capacidad de interpretar las señales de dicho
sensor. Una vez que se tiene la imagen en forma digital, la siguiente etapa consta del prepro-
cesamiento de dicha imagen (etapa de preprocesamiento), ya sea aplicando transformaciones
geométricas o filtros sobre las imágenes, todo con la finalidad de obtener una imagen de mejor
calidad que beneficiará a las siguientes etapas. La etapa de segmentación radica en la división
de la imagen en partes que aportan más información de la escena para cumplir con el objetivo
(región de interés); esta etapa es una de las más importantes ya que una correcta segmenta-
ción facilitará la solución de problema mientras que una errónea dirigirá al fallo. La etapa de
parametrización se refiere a la selección de caracter´ısticas que brindan información cuantitati-
va o rasgos básicos que permitan diferenciar una clase de objetos de otra. Posteriormente se
ejecuta la etapa de clasificación donde se asigna una etiqueta a cada objeto segmentado, para
as´ı reconocer dicho objeto dentro de un conjunto de objetos identificados previamente y que se
encuentran almacenados en la memoria del dispositivo que realiza el procesamiento.
Después de las cinco etapas, el sistema ejecuta la acción correspondiente, por ejemplo, la
navegación reactiva. A pesar de que en la Figura 2.6 se muestra un sistema de VA cómo un
conjunto de procesos que se ejecutan uno después de otro, en numerosas ocasiones esto no es as´ı,
y se requiere de la retroalimentación en algunas etapas; por ejemplo, es común regresar a la etapa
de segmentación si el reconocimiento falla, o incluso al preprocesamiento [16]. La descripción
detallada de cada etapa en relación con cada módulo del sistema propuesto se especifica en el
Cap´ıtulo 4.
2.4. Sensores
Para realizar la navegación, se necesitan obtener datos del ambiente donde se requiere desplazar
al robot móvil. Estos datos pueden presentarse en diferentes formatos, siempre y cuando sean
entendibles para la computadora que ejecutará el algoritmo de navegación.
Existen diferentes tipos de sensores que obtienen información del ambiente. En primera
instancia están los sensores que obtienen información básica para la detección de obstáculos y
el conocimiento aproximado de posición del robot móvil [3]. Estos dispositivos se mencionan a
continuación:
Sensores propioceptivos. Son dispositivos que retornan información que el mismo robot

móvil origina en base a sus caracter´ısticas como son: tamaño de ruedas, velocidad de
rotación de las ruedas, GPS (Global Positioning System), entre otros.
Sensores de proximidad. Miden la distancia relativa entre el sensor y los objetos en
el entorno. Los principales dispositivos de proximidad son: sensores ultrasónicos, sensores
infrarrojo y bumpers.
Por otro lado, se tienen los sensores que buscan aproximarse a la percepción humana a base
de imágenes mediante cámaras de video, las cuales utilizan ya sea tecnolog´ıa CCD (Charged
Couple Device) o CMOS (Complementary Metal Oxide Semiconductor) para la detección de luz
visible. Este tipo de dispositivos retornan imágenes en diferente representación de color:
Escala de grises. Cada pixel tiene un valor de 8 bits, representándose en un rango desde
0 (color negro) hasta el 255 (color blanco).
RGB. Representa la suma de tres caracter´ısticas de color: rojo (Red), verde (Green) y
azul (Blue). Esta suma integra un cubo de dimensiones de 256 × 256 × 256.
HSI o HSV. Representación de color mediante: a) matiz (Hue) que representa la longitud
de onda predominante la cual es invariante a la posición del robot u objeto, b) saturación
(Saturation) que indica la falta de blancura en el color, por ejemplo, el rojo está saturado
mientras que el rosa está menos saturado, y c) valor o intensidad (Value/Intensity) que
es la cantidad de luz recibida por el sensor.
Binaria. Imagen que sólo representa 2 valores: 0 (color negro) y 1 (color blanco).
Uno de los inconvenientes con las imágenes de cámaras de video es la falta de información
de profundidad en la imagen, por lo que no se tiene conocimiento de qué tan cerca o lejos se
encuentra un objeto. Uno de los objetivos de la visión computacional es en cierta forma simular
el proceso de visión humana, donde también se extrae información de profundidad.
Para la extracción de profundidad se utiliza el escáner de rango, que realiza el sensado de
puntos en 3D de una escena y retorna un arreglo de tamaño m × n (imagen de rango), que
contiene la distancia relativa (rango) desde el centro del sensor hasta un punto en la escena [17].
Entre los principales sensores de rango, se mencionan los siguientes:
Cámaras estéreo. Se utilizan dos cámaras, suponiendo dos ojos, donde cada una trata
de encontrar el mismo punto en la imagen convirtiéndolo en el centro de la imagen y
as´ı obtener un ángulo relativo.

Trazadores de luz. Proyectan una l´ınea de color (o trazo), red, o patrón de puntos sobre
el ambiente, para que después una cámara observe cómo el patrón es distorsionado en la
imagen.
Láser. Un haz de láser es emitido y se calcula el tiempo en que la señal tarda en regresar;
es decir, la medida de reflectancia. Este dispositivo puede cubrir una gran área y retorna
una imagen donde cada valor representa profundidad.
Kinect. Es un dispositivo que contiene una cámara RGB, un arreglo de micrófonos, un
acelerómetro y un emisor y cámara infrarroja. Éste dispositivo es capaz de capturar imagen
a color y la profundidad en la escena representado en cada pixel de una imagen.
Uno de los dispositivos de rango últimamente utilizado es el sensor Kinect, ya que combina:
la adquisición de imágenes mediante una cámara RGB (información 2D), la obtención de matri-
ces de profundidad (información 21
2
) y la adquisición de nube de puntos (información en 3D), a
un bajo costo en comparación con los sensores tradicionales. Otra ventaja, es que no se necesita
de controladores extras para la compatibilidad entre sensores, por lo que la manipulación del
sensor y la información que adquiere resulta ser más simple [18, 19].
2.5. Sensor Kinect
El sensor Kinect es un dispositivo que apareció el 4 de noviembre del 2010 como un accesorio
de la consola de juego Xbox 360 y que originalmente fue desarrollado por PrimeSense Company
para su posterior colaboración con Microsoft [4]. El sensor Kinect consiste de un sistema de
sensado de profundidad, un acelerómetro, un motor, un arreglo de micrófonos y una cámara
RGB, ver Figura 2.7.
Láser y cámara infrarrojo
Cámara RGB
Arreglo de
micrófonos
Inclinación motorizada
Figura 2.7. Sensor Kinect.

El sistema de sensado de profundidad consta de una cámara infrarroja y un láser emisor
infrarrojo. La cámara infrarroja opera a 30 Hz, el campo de visión (ver Figura 2.8) es de 57◦
horizontal, 43◦
vertical y el rango de operación se encuentra entre 0.8 metros (2.7ft) y 3.2 me-
tros (10.6ft). La cámara RGB soporta una resolución máxima de 1280 × 960, y la cámara de
profundidad soporta una resolución máxima de 640 × 480 [20]. Las imágenes de rango proce-
dentes del Kinect pueden ser representadas de dos formas distintas [21]:
57° Horizontal
43° Vertical
0.8 m
3.2 m
4.0 m
Figura 2.8. Campo de visión del sensor Kinect.
Nube de puntos. Una lista sin orden ni especificaciones compuesta de coordenadas 3D
(x,y,z) dentro de un espacio, ver Figura 2.9.
Figura 2.9. Nube de puntos.
Imágenes de profundidad. Matriz de m × n en la cual cada uno de sus elementos
representan un valor de profundidad en coordenadas 2D (x,y), ver Figura 2.10.

Figura 2.10. Imagen de profundidad.
En este proyecto de tesis, se utiliza el sensor Kinect orientado al área de navegación robóti-
ca y procesamiento de imágenes de profundidad, con lo que se requiere de un algoritmo que
pueda lidiar con una gran cantidad de datos que en ciertas ocasiones puedan ser alterados por
perturbaciones en el ambiente y que, al mismo tiempo, generen una acción casi inmediata o en
tiempo real (idea principal de la navegación reactiva). Una de las formas para el procesamiento
de dichas imágenes es utilizando una de las ramas de la inteligencia artificial: la lógica difusa.
En la siguiente sección se define el concepto de lógica difusa y de cada componente.
2.6. Lógica Difusa
Para la adquisición de la dirección de giro de manera reactiva se puede implementar un con-
trolador difuso, por lo que en primer lugar se procede a definir el concepto de lógica difusa. En
la vida cotidiana es común utilizar expresiones tales como un poco, mucho, no tanto, regular,
etcétera, por ejemplo, decir llegaré un poco tarde a decir llegaré 10 minutos tarde. Este tipo de
expresiones no representan una cantidad exacta, sin embargo, el cerebro humano logra interpre-
tarlas para ejecutar alguna acción; es precisamente este tipo de pensamiento el cual la lógica
difusa busca simular en sistemas artificiales. Lógica difusa se define como la ciencia que admite
una cierta incertidumbre entre la verdad o falsedad de sus proposiciones, con una semejanza del
raciocinio humano [12].
La teor´ıa de conjuntos difusos fue formulada por Lofti A. Zadeh en 1965, quien entonces
era profesor de Ingenier´ıa Eléctrica y de Ciencias de la Computación en la Universidad de
California, Berkeley [22]. Según Zadeh, la lógica difusa es determinada como un conjunto de

principios matemáticos para la representación del conocimiento basado en grados de pertenencia
en lugar de una pertenencia n´ıtida de la lógica binaria clásica [11]. Es decir, mientras que la
lógica binaria clásica sólo permite el valor de 0 (completamente falso) o 1 (completamente
verdadero), la lógica difusa admite múltiples valores.
2.6.1. Definiciones básicas y terminolog´ıa
Los conjuntos difusos son fundamentales dentro de la lógica difusa. Sea X un espacio de objetos
y sea x un elemento genérico de X. Un conjunto clásico A, A ⊆ X, es definido como una
colección de elementos u objetos x ∈ X, tal que cada x puede pertenecer o no al conjunto A.
En un conjunto difuso, un elemento tiene un grado de pertenencia a un conjunto y puede tener
un grado de no pertenencia o de pertenencia a otros conjuntos. Definiendo una función de
membres´ıa para cada elemento x de X, se puede representar un conjunto clásico A por un set
de pares ordenados (x,0) o (x,1), lo cual indica que x /∈ A o x ∈ A, respectivamente. La función
de membres´ıa de un conjunto difuso puede tener valores entre 0 y 1, lo cual indica el grado de
pertenencia de un elemento dentro de un conjunto dado. Ahora bien, si X es una colección de
objetos x, entonces un conjunto difuso A dentro de X se define como en la Ecuación 2.1 [23]:
A = {(x, µA(x)) | x ∈ X} (2.1)
donde:
µA(x), es denominado función de membres´ıa (MF por sus siglas en inglés) para el conjunto
difuso A.
X, se refiere al universo de discurso, o sólo universo, que consiste en objetos discretos
(ordenados o no ordenados) o en un espacio continuo.
Una notación conveniente para un conjunto difuso A donde el universo de discurso X es
discreto y finito es la que se muestra en la Ecuación 2.2; mientras que cuando X es continuo e
infinito, A es denotado por la Ecuación 2.3 [22].
A = {
µA(x1)
x1
+
µA(x2)
x2
+ . . .} = {
i
µA(xi)
xi
} (2.2)
A = {
µA(x)
x
} (2.3)
En la práctica, cuando X es un espacio continuo, X se divide en diversos conjuntos difusos,
donde se define una MF en cada uno o de manera general. Estos conjuntos son nombrados

conforme adjetivos que se utilizan en la vida cotidiana, por ejemplo: “mucho”, “mediano”,
“poco”, etc., y son denominados valores lingüisticos. As´ı que el universo de discurso X
también es llamado variable lingüistica [23]. En la Figura 2.11 se identifican los elementos de
los conjuntos difusos, se observa que cada gráfica representa un valor lingü´ıstico, definidos en
diferentes rangos dentro del universo de discurso, y que al mismo tiempo pertenece a un cierto
grado de membres´ıa.
0 x1 x2 . . xi
0
0.2
0.4
0.6
0.8
1
Universo de discurso
Gradosdemembresía
Valor lingüístico 1 Valor lingüístico 2 Valor lingüístico 3
Figura 2.11. Elementos de los conjuntos difusos.
2.6.2. Funciones de membres´ıa
Una función de membres´ıa es una gráfica que define cómo cada punto componente del universo
de discurso corresponde a un valor de pertenencia (grado de membres´ıa) entre el 0 y 1 [24]. A
continuación se definen diferentes tipos de funciones de membres´ıa, as´ı como los parámetros que
requieren. X es el universo de discurso que representa el conjunto de los valores de entrada, por
lo que al ser el universo, se pueden tener variables y parámetros que permitan definir cada una
de las funciones de membres´ıa para la conversión a valores difusos.
Función triangular. Es una función definida por una variable de entrada x y de tres
parámetros {a,b,c}, lo cuales pertenecen al universo de discurso y determinan las coor-
denadas en x de las tres esquinas de la función triangular. La Ecuación 2.4 especifica la
función triangular, dado el universo de discurso X y los tres parámetros {a,b,c}.

f(x; a, b, c) =



0, x ≤ a
x−a
b−a
, a ≤ x ≤ b
c−x
c−b
, b ≤ x ≤ c
0, c ≤ x
(2.4)
Un ejemplo se muestra en la Figura 2.12 con a = 3, b = 6, c = 8 y el universo de discurso
X = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}.
0 1 2 3 4 5 6 7 8 9 10
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Universo de discurso X
Gradosdemembresía
Figura 2.12. Función triangular.
Función trapezoidal. La función trapezoidal depende de la variable x y de cuatro
parámetros {a,b,c,d}, pertenecientes al universo de discurso y que determinan en la coor-
denada x las tres esquinas de la función trapezoidal, como se muestra en la Ecuación 2.5.
f(x; a, b, c, d) =



0, x ≤ a
x−a
b−a
, a ≤ x ≤ b
1, b ≤ x ≤ c
d−x
d−c
, c ≤ x ≤ d
0, d ≤ x
(2.5)
La Figura 2.13 se muestra un ejemplo con a = 1, b = 5, c = 7, d = 8 y el universo de
discurso definido por X = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}.

0 1 2 3 4 5 6 7 8 9 10
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Gradosdemembresía
Figura 2.13. Función trapezoidal.
Función Gaussiana. Esta función depende de dos parámetros σ (dentro del universo
de discurso representa la amplitud de la función) y c (dentro del universo de discurso
representa el centro de la función) como se representa en la Ecuacıón 2.6.
f(x; σ, c) = exp{
−(x − c)2
2σ2
} (2.6)
Un ejemplo de esta función se observa en la Figura 2.14 con σ = 2, c = 5 y el universo de
discurso X = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}.
0 2 4 6 8 10
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Gradosdemembresía
Figura 2.14. Función Gaussiana.
Función campana (bell) generalizada. La función bell (campana) generalizada está de-
finida mediante la Ecuación 2.7, donde se observa que necesita de tres parámetros a, b
y c que pertenecen al universo de discurso X. El parámetro b normalmente es positivo

(en caso de ser negativo la forma llega a ser una campana inversa), a es la anchura de la
función y c representa el centro de la función.
f(x; a, b, c) =
1
1+ | x−c
a
|2b
(2.7)
Un ejemplo de esta función se expone en la Figura 2.15 con a = 2, b = 4, c = 6 y el
universo de discurso se define con X = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}.
0 2 4 6 8 10
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Gradosdemembresía
Figura 2.15. Función campana (bell).
En este trabajo se utilizan las funciones trapezoidales y triangulares debido a que se ajustan
más a los valores de entrada y salida esperados, además de ser las más utilizadas por aquellos
trabajos relacionados que se mencionan en el estado de arte. Igualmente se hace énfasis en que
en varios ejemplos prácticos el tipo de función no es lo más importante, sino la ubicación de las
curvas dentro del universo de discurso, el número de particiones y el solapamiento de las curvas
[22]; estos parámetros son definidos en los siguientes cap´ıtulos.
2.6.3. Sistemas de inferencia difusos
La inferencia difusa es el proceso de formular la asignación desde un determinado valor de
entrada a un valor de salida utilizando lógica difusa, con esta asignación se tiene una base
desde la cual se pueden tomar decisiones [11]. Existen dos principales sistemas de inferencia
[11, 23], los cuales sólo difieren en la determinación de las salidas, estos sistemas se definen a
continuación:

Modelo difuso Mamdani. Este sistema es uno de los más utilizados en las aplicaciones
difusas. En 1974, Ebrahim Mamdani construyó uno de los primeros sistemas difusos para
controlar la combinación de una caldera y una máquina de vapor aplicando un conjunto
de reglas difusas con la ayuda de operadores humanos experimentados. El sistema de tipo
Mamdani es intuitivo y se adapta a la intervención humana ya que sus salidas se expresan
en el lenguaje humano; es decir, las salidas se expresan de manera difusa. En la Figura
2.16 se muestra la estructura general del sistema Mamdani.
Fusificación
Mecanismo de
inferencia
difusa
Defusificación
Conjunto de Reglas
tipo
IF ’x’ es ’A’ OR ’y’ es ’B’
THEN ’z’ es ’C’
Datos
de entrada
X
Datos
de salida
Y
Figura 2.16. Estructura general de un sistema de inferencia difusa tipo Mamdani.
El sistema consta inicialmente de los valores de entrada los cuales pasan por el proceso de
fusificación. Posteriormente se obtienen resultados difusos mediante el uso de un conjunto
de reglas del tipo que se describe en la Ecuación 2.8.
si x es A and y es B entonces z = C (2.8)
Donde x, y, z son variables lingü´ısticas y A, B, C son conjuntos difusos en el universo de
discurso X y Y . En ocasiones se requiere utilizar el sistema como un controlador, por lo
tanto las salidas pasan por el proceso de defusificación para convertirlos a datos no difusos
ya sea enteros, flotantes, u otros.
Modelo difuso Sugeno. Este método se introdujo por primera vez en 1985 por Michio
Sugeno. Básicamente, este método es similar al método de inferencia de tipo Mamdani
con la diferencia en la salida de las funciones de membres´ıa, las cuales no pasan por
el proceso de defusificación ya que se expresan utilizando una función matemática. El
esquema general del sistema de inferencia Sugeno se muestra en la Figura 2.17.

Fusificación
Mecanismo de
inferencia
difusa
Conjunto de Reglas
tipo
IF ’x’ es ’A’ AND ’y’ es ’B’
THEN ’z’ es f(x,y)
Datos
de entrada
X
Datos
de salida
Y
Figura 2.17. Estructura general de un sistema de inferencia difusa tipo Sugeno.
Una regla t´ıpica en el modelo Sugeno se expresa en la Ecuación 2.9. Usualmente f(x, y)
se representa por ax + by + c, en este caso, al ser un polinomio de primer orden el sistema
es llamado modelo difuso Sugeno de primer orden.
si x es A and y es B entonces z = f(x,y) (2.9)
Existen la posibilidad de modelos difusos Sugeno de orden superior, sin embargo, éstos
introducen una complejidad significativa con poco cambio de resultados. Otra variante es
cuando la salida z es constante; es decir a = 0, b = 0, en este caso el sistema es llamado
modelo difuso Sugeno de orden cero.
El sistema de inferencia es una parte muy importante dentro del control difuso ya que es este
módulo el que se encarga de procesar las variables de entrada y ejecutar los cálculos necesarios
para retornar los valores finales del sistema difuso. Ambos sistemas de inferencia, tanto tipo
Mamdani como Sugeno, tienen algunos elementos y módulos similares, diferenciando en el tipo
de salida que presentan. En el sistema tipo Mamdani, las variables que retorna son expresadas
en términos difusos, es decir, utilizan expresiones cotidianas o de mejor entendimiento para el
usuario; por lo tanto, son defusificadas de tal forma que puedan expresarse numéricamente. Por
otro lado, el sistema tipo Sugeno evita la defusificación al retornar datos numéricos. El estudio
detallado de cada una de las partes del sistema de inferencia que se utiliza en este trabajo y las
ventajas del mismo se describe en el Cap´ıtulo 4.

Cap´ıtulo 3
Estado de Arte
Los sistemas de navegación reactiva basados en control difuso han sido explorados en diferentes
trabajos durante los últimos años [5, 6, 25–33], difiriendo uno de otro en los algoritmos de proce-
samiento de la información, tipo de sistema de inferencia, el conjunto de reglas, las funciones de
membres´ıa, variables de entrada y salida, o en el tipo de sensor que se utiliza para la adquisición
de información del ambiente.
En algunos sistemas de navegación difusa, el sensor que se plantea utilizar es una cámara
de video para as´ı obtener la información del exterior como imágenes digitales en 2D; es decir,
arreglos matriciales bidimensionales que poseen sólo información de ubicación en la coordenada
x y en la coordenada y pero omiten la información de profundidad.
Uno de los sistemas que maneja información en 2D se presenta en “A labview-based autono-
mous vehicle navigation system using robot vision and fuzzy control”[25], donde se utiliza una
mini-cámara JMK, una tarjeta de adquisición de imágenes NI USB-6009 y una tarjeta de cap-
tura de video Dazzle USB. Este sistema es desarrollado bajo la plataforma LabVIEW y emplea
un sistema de inferencia de tipo Mamdani, manejando funciones de membres´ıa tipo triangular
y trapezoidal con 2 variables de entrada (desplazamiento lateral y ángulo de la curva entrante)
y 2 variables de salida (velocidad y ángulo de giro). Las variables de entrada tienen en cuenta
el procesamiento de la imagen en 2D del camino a seguir (la imagen en RGB se convierte a
escala de grises y posteriormente es binarizada) de donde se extrae la curvatura de las l´ıneas
del camino (para conocer si es una l´ınea recta o giro a la derecha o giro a la izquierda) y la
anchura del camino, tratándose como un sistema seguidor de l´ıneas [25]. El sistema de control es
desarrollado como una máquina de estados, en donde cada estado espera el resultado del análisis
31

Cap´ıtulo 3. Estado de Arte 32
de la imagen de entrada y la decisión de giro del sistema de control difuso, para as´ı continuar
con el movimiento adecuado dentro de la máquina de estados.
Aún cuando gracias a la captura de imágenes mediante una cámara digital se tiene un pano-
rama de la escena, se omite la información de proximidad de los objetos en la escena. Basándose
en el estudio de los sensores de proximidad descritos en la Sección 2.4, existen trabajos que
utilizan sensores de este tipo capturando la distancia de los objetos en la escena con respecto al
sensor, como los que se describen en la Sección 3.1. Los sensores de proximidad tienen ciertos
inconvenientes al tener un reducido campo de visión y omitiendo información del exterior por
lo cual algunos trabajos buscan la fusión de sensores de adquisición de imágenes en 2D con sen-
sores de proximidad y se describen en la Sección 3.2. Finalmente, y hacia donde va dirigido este
trabajo, se describen los trabajos que buscan disminuir el costo en la fusión sensorial utilizando
el sensor Kinect [4], ver Sección 3.3.
3.1. Sistemas de navegación reactiva difusa con sensores
de proximidad
Uno de los inconvenientes de la información en 2D es que no se sabe qué tan cerca o qué tan
lejos se encuentra un obstáculo con respecto al robot móvil, por lo cual algunos trabajos como
[5, 26–28], utilizan otro tipo de sensores que permitan obtener información de proximidad.
El trabajo “Intelligent mobile robot motion control in unstructured environments”[26] im-
plementa un sistema de control para la navegación en ambientes no estructurados sobre un
robot Khepera utilizando un controlador difuso y sensores ultrasónicos para la detección de
objetos próximos. Las entradas del controlador difuso son: distancia del obstáculo, orientación
del obstáculo, distancia del objetivo y orientación del objetivo; mientras que las salidas son:
la velocidad angular entre la rueda izquierda y derecha, y la velocidad del veh´ıculo. Se emplea
un sistema de inferencia tipo Mamdani con funciones de membres´ıa tipo Gaussiana y triangular.
En “Implementación de comportamientos para navegación inteligente de robots móviles”[27],
se utiliza un anillo de 8 sensores ultrasónicos los cuales son divididos en 4 grupos para la faci-
lidad de procesamiento de datos ya que se obtienen las partes en dirección izquierda, frontal,
derecha y parte trasera. Con estos grupos, se evita generar una mayor cantidad de pasos para el

procesamiento de datos de entrada del sistema de control difuso, además se tiene en cuenta que
no todos los grupos son necesarios para la descripción de cada comportamiento, lo cual significa
ahorro de energ´ıa para el robot móvil. Este sistema de navegación difuso basado en comporta-
mientos sobre una arquitectura Saphira se compone de 4 comportamientos difusos: navegar por
pasillos, seguir paredes, alcanzar objetivos y evitar obstáculos; manejando un sistema de inferen-
cia tipo Mamdani, cada uno con su respectivo conjunto de reglas además de utilizar funciones
de membres´ıa de tipo triangular. Los valores de entrada al sistema son las lecturas de distancias
que proporcionan los sensores, y los valores de salida de cada comportamiento es la velocidad
y ángulo de giro. Las pruebas se realizan en la plataforma móvil P-METIN. El funcionamiento
del sistema en general es la ejecución de cada comportamiento por separado o individualmente,
además de permitir combinaciones de comportamientos para tareas más complejas, por ejemplo,
un comportamiento complejo de navegar evitando obstáculos hasta alcanzar a un objetivo.
En “Desarrollo de un sistema de navegación para robots móviles mediante diferentes patrones
de comportamientos”[5], se aplica un sistema de navegación difusa por comportamientos sobre
un robot móvil con un microcontrolador PIC18F452 programado en lenguaje C. La información
correspondiente a la distancia en la que se encuentran los objetos con respecto al robot se ob-
tiene mediante 2 sensores ultrasónicos. Este sistema define 3 comportamientos: aproximación a
la pared más cercana, seguir el pasillo y evitar obstáculos. El sistema de inferencia es de tipo
Mamdani, utilizando funciones de membres´ıa trapezoidal y triangular, con un valor de entrada
correspondiente a la distancia del obstáculo con respecto al sensor y con un valor de salida que
indica el ángulo en que se moverá el motor de cada rueda.
Otro trabajo que utiliza un sistema de navegación mediante lógica difusa basada en compor-
tamientos y sensores ultrasónicos es “Navegación de robots móviles mediante comportamientos
utilizando lógica difusa”[28]. Los comportamientos son 2: seguir pared y seguir pasillo. Los sen-
sores ultrasónicos son 8, los cuales de dividen en 3 grupos para un fácil manejo de la información
al tener menor cantidad de datos para los valores de entrada de cada módulo difuso. El controla-
dor difuso obtiene como valores de entrada a las distancias a las que se encuentran los obstáculos
y como salida a la velocidad de cada rueda; utiliza un sistema de inferencia tipo Mamdani y
funciones de membres´ıa de tipo trapezoidal y triangular. Para las pruebas del sistema emplea
Fuzzy Logic ToolboxTM
de Matlab R sobre una plataforma P-METIN del grupo GIROPS.
Al utilizar datos de proximidad, los sistemas de navegación difusa son convenientes ya que
retornan información de distancia entre el sensor y los objetos en la escena además de ser

tolerantes a fallos que pueda tener el sensor; sin embargo, omiten caracter´ısticas espec´ıficas de
los objetos. A continuación se presentan trabajos que buscan adquirir mayor información útil
del ambiente al introducir la fusión entre sensores.
3.2. Sistemas de navegación reactiva difusa con fusión
sensorial
Aún cuando se obtiene una información de proximidad, existen trabajos que buscan obtener
más información de la escena, por ejemplo la forma de los objetos, su ubicación y dimensiones;
por lo tanto, implementan sistemas que fusionan tanto sensores de proximidad como una cáma-
ra de video que captura información externa mediante imágenes digitales. Uno de este tipo de
trabajos es “Un sistema multi-agente que emplea visión activa y ultrasonidos aplicado a nave-
gación con comportamientos difusos”[29], el cual utiliza sensores ultrasónicos y una cámara de
video SONY EVI-401 y se implementa sobre un robot móvil NORMAD 200. En este trabajo se
entiende como agente un proceso software dirigido a alcanzar o mantener un objetivo; el agente
de Navegación utiliza un controlador difuso mediante funciones triangular y trapezoidal basado
en navegación por comportamientos. Cada comportamiento se define como: orientar la torre-
ta, orientar las ruedas, evitar obstáculo en una habitación, seguir la pared de una habitación,
atravesar puerta, orientar las ruedas y la torreta en el pasillo, y mover el robot por el pasillo.
La razón por la que fusiona dos sensores es por la tarea que busca ejecutar, la cual consiste en
navegar y atravesar puertas entre habitaciones basándose en un mapa del entorno donde cada
puerta posee una marca especial.
En “Fuzzy control of a mobile robot”[30] se presenta un sistema de navegación reactiva di-
fusa sobre un Khepera Mobile Robot y una fusión entre 8 sensores de proximidad (en este caso
aplica sensores infrarrojos), y una WebCam. Define 3 controladores difusos: a) búsqueda del
objetivo que ejecuta una búsqueda del objetivo ignorando los obstáculos en el camino, b) evadir
obstáculos que utiliza los sensores infrarrojos y garantiza la seguridad al prevenir colisiones, y c)
explorar el ambiente que está basado en una memoria local de todo el camino recorrido. Dichos
controladores son manejados por un módulo denominado sistema supervisor difuso cuya función
es determinar la prioridad de ejecución de cada comportamiento. Si hay obstáculos cerca, le da
prioridad a evadir obstáculos, por otro lado si el área no es explorada, sólo ejecuta la búsqueda
del objetivo.

En el trabajo “Sistema de navegación para robots móviles utilizando fusión sensorial”[31] se
describe un sistema de navegación difuso desarrollado en lenguaje C y se prueba en un robot
KheperaII. Este sistema utiliza sensores infrarrojos agrupados en 3 partes cuyas señales son
amplificadas, y una cámara con procesador integrado CMUCam2 de donde se adquieren imáge-
nes en el espacio de color YCbCr. Las señales de entrada provienen de cada grupo: izquierdo,
frontal y derecho, y al mismo tiempo del valor de la centroide del objeto. El valor de salida es
el ángulo de giro del robot. Ambos casos utilizan la función de membres´ıa tipo triangular. El
sistema fusiona la información que obtiene del procesamiento de la imagen capturada por la
cámara (centroide del objeto con respecto al eje x) y la información que proviene de los sensores
infrarrojos (proximidad izquierda, frontal y derecha); es decir, se tiene el conocimiento de ubi-
cación de dónde se encuentra el objeto y qué tan cerca se encuentra con respecto al sensor. Con
estos datos, el sistema de navegación decide el ángulo de giro del robot móvil, por ejemplo, si
encuentra un objeto a la derecha que está muy próximo, entonces gira al lado izquierdo evitando
as´ı el obstáculo; si por otro lado, el robot encuentra un objeto de frente pero lo localiza muy
lejano entonces continua con la navegación frontal.
Los trabajos descritos en esta sección buscan definir las caracter´ısticas de los objetos que
se encuentran en la escena, a fin de llegar a un punto en espec´ıfico o utilizar dichas carac-
ter´ısticas para conocer el movimiento a ejecutar, aún cuando represente un mayor costo y una
implementación extra para la adquisición, instalación y compatibilidad de cada sensor. En la
siguiente sección se describen trabajos de navegación difusa utilizando el sensor Kinect, una
reciente tecnolog´ıa de fusión sensorial que busca resolver los inconvenientes antes mencionados.
3.3. Sistemas de navegación reactiva difusa con sensor
Kinect
Buscando fusionar métricas, obtener una mayor cantidad de información y reducir el costo de
los sensores, una reciente tecnolog´ıa es el sensor Kinect, el cual permite obtener datos de pro-
fundidad a base de sensores infrarrojos e imágenes digitales mediante una cámara RGB. Este
sensor ha sido utilizado sobre aplicaciones que se describen en los trabajos de [6, 32, 33].
En “Navegación de robot móvil usando Kinect, OpenCV y Arduino”[32] se presenta un sis-
tema de navegación reactiva utilizando el sensor Kinect como dispositivo de captura de escena,
el driver Libfreenect que permite la comunicación entre sensor y computadora, la biblioteca de

visión artificial OpenCV y la placa Arduino para el control de los motores. Este trabajo aplica
un procesamiento a la imagen de profundidad mediante un filtro Gaussiano de 9×9 para la
eliminación de ruido. Posteriormente se procede a localizar el centroide de un objeto próximo
basándose en las coordenadas x, y y el valor de profundidad que proporciona la imagen de
profundidad. A partir de dicho objeto, obtiene una distancia promedio para evadir el obstáculo
girando al lado contrario a la posición del objeto, deteniendo motores o avanzando hacia ade-
lante.
Aplicando la navegación reactiva difusa utilizando datos de profundidad del sensor Kinect,
el trabajo “Fuzzy based obstacle avoidance for mobil robots with Kinect sensor”[6] implementa
algoritmos para planificar ruta y evadir obstáculos. Emplea un sistema de inferencia Mamda-
ni de 16 reglas, funciones de membres´ıa tipo trapezoidal y triangular, 3 variables de entrada
(profundidad del objeto más cercano del lado derecho, del lado izquierdo y del centro), y una
variable difusa de salida (ángulo de giro del robot móvil). Este trabajo se desarrolla, simula e
implementa utilizando la herramienta Fuzzy Logic ToolboxTM
de Matlab R . Este trabajo mues-
tra resultados de navegación frente a distintas situaciones, desde la detección de obstáculos en
diferentes direcciones, en diagonal y repentinos, detección de paredes, navegación por pasillos y
navegación libre cuando no existen obstáculos cercanos omitiendo los casos cuando da prioridad
a los giros.
El sensor Kinect también puede trabajar en conjunto con otros sensores, por ejemplo en
“Mobile robot navigation and target tracking system”[33] se utilizan las imágenes de profundi-
dad del sensor Kinect junto con sensores odométricos para as´ı obtener los valores de entrada del
controlador difuso: velocidad traslacional y angular del robot, centroide y tamaño del obstácu-
lo. Los valores de salida son: velocidad traslacional y angular. El control difuso se desempeña
utilizando funciones de membres´ıa de tipo triangular para cada variable. Las imágenes de pro-
fundidad pasan por un pre-procesamiento mediante la aplicación del filtro Gradiente-Log para
identificar áreas transversales (suelos). Este sistema está implementado basándose en el modelo
de un robot diferencial. Al mismo tiempo, utiliza los datos para la detección no sólo de obstácu-
los sino para identificar el objetivo final, as´ı como el reconocimiento de formas y los tipos de
caminos por donde navega, por ejemplo, rampas, planos, entre otros, y busca la combinación
entre la planificación de ruta y la navegación de manera reactiva, todo esto mediante lógica
difusa y redes neuronales.

3.4. Discusión de los trabajos relacionados
Todos los trabajos mencionados tienen en común el aplicar la lógica difusa para determinar el
movimiento a ejecutar. Aún cuando utilizan sensores diferentes la idea es básicamente la mis-
ma, es decir, utilizar información de profundidad o proximidad para detectar los obstáculos más
cercanos para posteriormente evadirlos y en algunos casos extraer las dimensiones, formas y el
centroide de cada objeto. Además, estos trabajos están orientados hacia la navegación reactiva,
recordando que la navegación basada en comportamientos es considerada un tipo de navegación
reactiva.
La mayor´ıa de los trabajos buscan responder a la pregunta ¿Existe algún obstáculo? En
algunos trabajos se utilizan cámaras de video para la adquisición de imágenes en 2D para
el reconocimiento de formas. Posteriormente, con el avance tecnológico y aparición de nuevos
algoritmos, otros trabajos se concentraron en la adquisición de información de profundidad,
mientras que en algunos más buscan la fusión entre cámaras de video y sensores de proximidad
para obtener más información y no sólo responder a ¿Existe algún obstáculo? sino que además
responder a Si existe un obstáculo, ¿qué tan cerca se encuentra del sensor?, ¿dicho obstáculo
permite continuar con la navegación?, ¿cuál es su forma, dimensiones, o textura?; es decir, se
busca la extracción de datos que brinden un mejor conocimiento del ambiente donde se navega.
En la siguiente sección se describe el desarrollo del sistema propuesto, basándose en los trabajos
relacionados al utilizar navegación reactiva, la adquisición de datos mediante el sensor Kinect
y la aplicación de un controlador difuso para la toma de decisiones de giro.

Cap´ıtulo 4
Sistema propuesto
4.1. Introducción
En este cap´ıtulo se describe el desarrollo del sistema, el cual permite la navegación automática
y evasión de obstáculos basándose en una arquitectura reactiva mediante control difuso y datos
de profundidad, con el fin de una posterior implementación en una silla de ruedas.
Un sistema se define como un conjunto de entidades relacionadas entre s´ı que contribuyen a
un determinado objetivo. En general, un sistema se compone de entradas, procesos y salidas. En
este trabajo se describe un sistema en el cual cada uno de los módulos representan las entidades
que están relacionadas unas con otras con el fin de cumplir el objetivo de navegar de forma au-
tomática, evadiendo los obstáculos que se presenten. Las entradas del sistema de navegación son
los datos de profundidad que se obtienen mediante el sensor Kinect, estos datos son procesados
por cada módulo hasta obtener la salida que indica la dirección que está libre de obstáculos. Los
módulos que componen el sistema inician desde la etapa de intercambio de información con el
ambiente, siguiendo con las etapas que se encargan de transformar la información para adquirir
algunas caracter´ısticas espec´ıficas de la escena para que finalmente se determine la dirección
de giro. Basándose en el diagrama de bloques de las etapas de un sistema de visión artificial
del Cap´ıtulo 2, en la Figura 4.1 se muestran las etapas que componen el sistema de navegación
propuesto.
39

Cap´ıtulo 4. Sistema propuesto 40
Etapa sensorial
Etapa de
preprocesamiento
Actuación según
resultados
Etapa de
parametrización
Escena real
Transformación de
datos de profundidad
Eliminación de
regiones
desconocidas
pequeñas
Sistema de
control difuso
Extracción de
profundidad
promedio
Adquisición
de datos de
profundidad
Figura 4.1. Diagrama a bloques de las etapas del sistema de navegación reactiva difusa.
El sistema propuesto obtiene información del ambiente mediante los datos de profundidad
del sensor Kinect, el cual se encuentra ubicado sobre una plataforma móvil, elevado a 1 metro
y con un ángulo de inclinación vertical de 0◦
. Los datos de profundidad son procesados para
conocer qué obstáculos existen y decidir cómo actuar controlando la dirección del giro de la
plataforma móvil.
Se inicia con la adquisición de los datos de profundidad, manteniéndose la comunicación entre
el sistema y el ambiente exterior, además de transformar dichos datos a un formato electrónico.
La transformación de los datos de profundidad describe la transformación de las métricas de
profundidad a imágenes en escala de grises. Posteriormente se procede a la eliminación de las
part´ıculas oscuras de menor área dentro de la imagen, las cuales indican información descono-

cida. La extracción de profundidad promedio es el proceso donde se obtienen las profundidades
por cada sección, esto con el fin de detectar la proximidad de obstáculos con respecto del sen-
sor. Se finaliza con el procesamiento del control difuso para navegar hacia una trayectoria que
indique una menor cantidad de obstáculos cercanos.
A continuación, en las siguientes secciones, se presenta la descripción detallada de cada etapa
presentada en el diagrama a bloques, Figura 4.1, as´ı como los resultados generados por cada
módulo.
4.2. Adquisición de datos de profundidad
La fase de adqusición de datos de profundidad, consta de la obtención de la información de
entrada que provienen del mundo real, para que sean transformados a un formato que pueda
ser procesado por la computadora. El sistema trabaja con datos de profundidad, los cuales se
obtienen mediante el sensor Kinect en conjunto con librer´ıas OpenNI [34].
Para la información adquirida del exterior en una imagen digital bidimensional, el color de
un pixel1
se representa mediante una cadena de d´ıgitos binarios (bits), lo que se denomina in-
tensidad de color. Si se tiene una intensidad de color de n, implica que cada pixel que conforma
la imagen puede representar hasta 2n
colores distintos [35].
En el caso de las imágenes de profundidad, la información que se adquiere, cuando el sensor
proyecta un patrón de puntos infrarrojos en una escena, es examinada por la cámara para obte-
ner una referencia entre los puntos de la escena y el Kinect, por lo tanto se generan datos en 21
2
,
es decir, una matriz de m×n donde cada elemento indica un valor de proximidad o profundidad;
a diferencia de la información en 3D que representa una matriz de 3 × n donde cada columna
retorna información del ambiente en coordenadas (x, y, z). El resultado de la comunicación entre
sensor Kinect y computadora es un arreglo matricial de 640 × 480, el cual puede interpretarse
como una imagen y operarse como tal, pero sin perder el enfoque de que cada pixel es un dato
de profundidad y que además, representa unidades f´ısicas en mil´ımetros. La matriz adquirida
del sensor se define en un marco de profundidad de 16 bits (n = 16), representando un rango
de 216
= 65,536 colores (ver Figura 4.2).
1
Unidad más pequeña homogénea de color que forma parte de una imagen digital

15 12 11 8 7 4 3 0
0000 0101 1111 0011
Figura 4.2. Estructura de los bits de profundidad.
La Figura 4.3 muestra una clasificación dependiendo de la distancia de los objetos en la
escena con la ubicación del Kinect [36]; esta clasificación consta de cuatro rangos: desconocido,
muy cercano, valores normales y muy lejano.
Desconocido
Muy cercano
Valores normales
Muy lejano
0 0.4 0.8 3 4 8
Distancia desde el Sensor (metros)
Figura 4.3. Rango en metros de la imagen de profundidad.
Al utilizar OpenNI, el tipo de dato al que pertenece cada pixel de la imagen de profundidad
que se adquiere con el sensor es un entero sin signo de 16 bits, y la imagen puede ser represen-
tada de manera visual mediante la función imagesc de Matlab R .
Las imágenes que se obtienen con las dos cámaras del sensor Kinect se muestran en la Fi-
gura 4.4, donde la imagen que se obtiene de la cámara RGB del Kinect se observa en la Figura
4.4a, mientras que la imagen de profundidad que se obtiene con el sistema infrarrojo, se observa
en la Figura 4.4b, ambas imágenes no coinciden exactamente ya que cada una tiene diferente
punto focal. Se aclara de antemano, que este sistema sólo trabaja con la imagen de profundi-
dad, debido a que la imagen en RGB no proporciona la información de proximidad; la imagen
en RGB se utiliza para una mejor visualización de los ambientes donde se experimenta el sistema.

100 200 300 400 500 600
50
100
150
200
250
300
350
400
450
(a) Imagen RGB
100 200 300 400 500 600
50
100
150
200
250
300
350
400
450
0
1000
2000
3000
4000
5000
6000
7000
(b) Imagen de profundidad en escala de grises
Figura 4.4. Imágenes obtenidas del sensor Kinect.
Enfocándose en la imagen de profundidad, hasta este punto se tiene una imagen con valores
de pixel de tamaño de 16 bits. En la siguiente sección se realiza una transformación de la imagen
de profundidad para pasar de valores de 16 bits a 8 bits, con la finalidad de que el procesamiento
de la imagen, la extracción de datos de profundidad y de la cantidad de datos desconocidos
dentro de la imagen de profundidad consuma la menor cantidad de recursos hardware posibles.
4.3. Transformación de los datos de profundidad
Los datos de profundidad que se obtienen de la escena mediante el sensor Kinect, conforman
un arreglo matricial representado como una imagen de profundidad. El color de cada pixel de
la imagen se basa en el valor de profundidad y su valor puede determinarse en una escala de 0
hasta 65,535; ésto es porque la imagen es de tipo uint16 (número entero sin signo de 16 bits).
Para la representación de la imagen, el 0 se muestra con el color negro mientras que el color
blanco corresponde al valor 65,535.
En la Figura 4.5 se muestra la imagen de profundidad utilizando el comando imshow de
Matlab R . Al mismo tiempo, se observa la escala de la imagen que va de 0 a 65,535. Nótese que
la mayor´ıa de los pixeles caen dentro del espectro más oscuro ya que el valor máximo de 65,535
mil´ımetros (65.535 metros) supera el campo de visión del sensor Kinect que no es mayor a los
10,000 mil´ımetros (10 metros), lo cual provoca dificultad para diferenciar los objetos dentro de
la imagen.

0
1
2
3
4
5
6
x 10
4
Figura 4.5. Imagen de profundidad original.
Para crear una imagen en escala de grises con cada elemento de tamaño de 8 bits a partir
de una imagen de profundidad con datos de 16 bits, se ejecuta el algoritmo especificado por el
Pseudocódigo 1.
Pseudocódigo 1 Conversión de imagen de profundidad
Entrada: ImagenProf16 {Datos de profundidad de 16 bits}
Salida: ImagenProf {Imagen de profundidad de 8 bits}
1: maximaProf = profundidad máxima de ImagenProf16
2: para i = 0 hasta 480 hacer
3: para j = 0 hasta 640 hacer
4: Convertir ImagenProf16(i, j) a tipo double
5: profundidad = 255 ∗ ImagenProf16(i, j)/maximaProf
6: Redondear profundidad hacia el entero más cercano
7: ImagenProf(i, j) = profundidad
8: fin para
9: fin para
Con este procesamiento se obtiene un rango de 0 (que representa el color negro) a 255 (re-
presentando el color blanco). En la imagen de profundidad, el 0 puede significar objetos muy
cercanos, objetos muy lejanos u objetos que no fueron identificados; bajo esta situación, el sis-
tema de navegación se mantendrá lo más seguro posible dirigiéndose sólo a lugares conocidos
y que posean la suficiente información de profundidad para la toma de decisiones, es decir, los

Tesis claudiacruzmtz

Recomendados

Recomendados

Más contenido relacionado

Similar a Tesis claudiacruzmtz

Similar a Tesis claudiacruzmtz (20)

Último

Último (20)

Tesis claudiacruzmtz