EL USO DE REDES NEURALES Y CONJUNTOS BORROSOS EN EL RECONOCIMIENTO DE PATRONES, UN EJEMPLO PARA DETERMINAR LA CONTAMINACIÓN POR OZONO EN EL VALLE DE MÉXICO
Similar a EL USO DE REDES NEURALES Y CONJUNTOS BORROSOS EN EL RECONOCIMIENTO DE PATRONES, UN EJEMPLO PARA DETERMINAR LA CONTAMINACIÓN POR OZONO EN EL VALLE DE MÉXICO
Similar a EL USO DE REDES NEURALES Y CONJUNTOS BORROSOS EN EL RECONOCIMIENTO DE PATRONES, UN EJEMPLO PARA DETERMINAR LA CONTAMINACIÓN POR OZONO EN EL VALLE DE MÉXICO (20)
EL USO DE REDES NEURALES Y CONJUNTOS BORROSOS EN EL RECONOCIMIENTO DE PATRONES, UN EJEMPLO PARA DETERMINAR LA CONTAMINACIÓN POR OZONO EN EL VALLE DE MÉXICO
1. JUAN F BUENO PAGINA 1
.
EL Uso DE REDES NEURALES Y CONJUNTOS
BORROSOS EN EL RECONOCIMIENTO DE PATRONES.
UN EJEMPLO PARA DETERMINAR LA
CONTAMINACIÓN POR OZONO EN EL VALLE DE
MÉxICo
Introducción
En el presente trabajo se propone el uso de la teoría de las Redes
Neurales y los Sistemas Borrosos, como herramientas para la
predicción de los niveles de ozono en la Ciudad de México. Se
propone el uso combinado de estas dos técnicas como el método más
adecuado ya que, con el uso de las Redes Neurales es posible enfrentar
el mayor problema de los sistemas borrosos que es la formulación de
las "reglas" y su ponderación. Y por otro lado, con el uso de los
sistemas borrosos es posible determinar la forma en que el modelo
llega a sus conclusiones y no tener que aceptar las predicciones hechas
por "cajas negras", como son la mayoría de los modelos de
reconocimiento de patrones en uso.
Redes Neurales
Descripción General
Los modelos de redes neurales (RN) tienen una multitud de nombres
tales como: modelos de conexión, modelos paralelos de procesamiento
distribuido y sistemas neuromórficos. Cualquiera que sea el nombre,
todos estos modelos intentan lograr buenos resultados mediante una
2. JUAN F BUENO PAGINA 2
. la
interconexión densa de elementos computacionales simples. En este
respecto, la estructura de las redes neurales se basa en nuestro presente
conocimiento de los sistemas nerviosos biológicos.
Los elementos computacionales, o nodos, usados en los modelos de
redes neurales son no - lineáles, típicamente analógicos y
relativamente lentos, comparados con otros circuitos digitales. El nodo
más simple utilizado, suma N entradas ponderadas y pasa el resultado
a través de una función no - lineal, tal como se muestra en la Figura 1.
En ella se ilustran tres tipos comunes de no - linealidades. Algunos
nodos más complejos pueden incluir formulaciones matemáticas más
complejas, siendo este uno de los campos más nuevos en la
investigación de las redes neurales.
Los modelos de redes neurales se especifican por la topología de la
red, las características de los nodos y las reglas de aprendizaje o
entrenamiento, como usualmente se les llama. Estas reglas especifican
un conjunto inicial de ponderadores e indican como deben de ser estos
adaptados durante su uso, para mejorar su comportamiento. También,
las reglas de aprendizaje y la topología de las redes, son objeto actual
de muchas investigaciones.
Los beneficios potenciales de las redes neurales se extienden más allá
de la posibilidad de altas capacidades de computación, en virtud de su
masivo paralelismo. Ello, a su vez, brinda una gran robustez y
tolerancia a fallas, ya que existe un número grande de nodos y la falla
de uno de ellos o uniones entre ellos, no afecta el comportamiento del
sistema total significativamente.
.....u....u...
3. JUAN F BUENO PAGINA 3
. 1
También, la mayoría de los modelos de redes neurales, pueden
continuar en el tiempo adaptando sus pesos y así seguir aprendiendo,
lo cual brinda un mayor grado de robustez al no ser tan influenciable el
'o
r 11-1
vi(w-e)
ENTRADA
SALIDA
f h
1 PJ.1
(tv)
f () f (k)
-1
ONDA CUADRADA
RAMPA SIGMOIDE
Figura 1 Tipos de funciones neurona/es
que hace que se olviden o confundan las cosas.
modelo por
variaciones
menores. Sin
embargo, es
justo
mencionar que
el mayor
problema de
las redes
neurales, al
igual que en
los cerebros
humanos, es
de cruce de
información
(cros stalk),
Los clasificadores basados en redes neurales son no - paramétricos y
hacen supuestos mucho más débiles acerca de las formas de las
distribuciones de los datos, que los clasificadores estadísticos
tradicionales y usualmente son útiles cuando los datos no pertenecen a
distribuciones gausianas y son altamente no - lineales. Sin embargo,
esto no hay que llevarlo al nivel casi mágico que algunos
investigadores le atribuyen, ya que en muchas ocasiones los modelos
basados en redes neurales son inútiles porque su aprendizaje es
excesivamente lento o sus resultados son mucho menos satisfactorios
que los brindados por modelos más tradicionales. En mucho depende
de la habilidad del analista en formular los modelos y sus
características y esto lo constituye todavía en casi un arte, más que en
una ciencia precisa. También, no hay que olvidar, que es posible
probar 1
que una red neural multicapas, cuando se le entrena con
4. JUAN F BUENO PAGINA 4
u u
propagación inversa (Backpropagation), aproxima la función óptima
de discriminación de Bayes, o sea, las salidas de la red aproximan la
función a posteriori de las funciones de probabilidad de las clases que
están siendo entrenadas y esto borra ya todo vestigio de magia y
acerca el método más a las técnicas tradicionales de la estadística.
El trabajo sobre redes neurales tiene un largo historial. De hecho el
desarrollo de modelos matemáticos detallados empezó hace más de 40
años con los trabajos de McCulloch y Pitts 2 , Hebb3 , Rosenblatt4 ,
Widrow5 y otros. Trabajos más recientes por Hopfield 678 , Rumelhart
y McClelland9 , Sejnowski10 , Feldman11 , Grossberg12 y otros que han
logrado un importante resurgimiento del campo. Este nuevo interés se
debe al desarrollo de nuevas topologías y algoritmos, a la
instrumentación de nuevas técnicas de integración de circuitos de alta
densidad (VLSI) y, en especial, a la fascinación atrayente del
funcionamiento del cerebro humano.
Existen cinco modelos neurales de importancia para el reconocimiento
o clasificación de patrones. Estos clasificadores pueden realizar tres
tipos de tareas: pueden identificar que clase representa mejor a un
patrón de entrada; pueden ser usados como memorias asociativas,
donde se desea un patrón ejemplo y el patrón de entrada se usa para
seleccionarlo; y, pueden ser usados para cuantizar vectores, es decir
reducir N señales de entrada a M ( M < N) de salida. En la Figura 2, se
muestra la taxonomía de estos cinco modelos que pueden ser
utilizados como clasificadores de patrones. Los modelos mostrados
deben de ser tomados únicamente como ejemplos de su clase, ya que
en cada apartado existen muchas variantes, por demás interesantes.
...u..........
5. JUAN F BUENO PAGINA 5
u
DATOS BINARIOS DATOS CONTINUOS
PERVISADOS NO SUPERVISADOSUPERVISADOS NO SUPERVISAD
OPFIELD CARPENTER / PERCEPTRON KOHONEN
AMMING GROSSBERG
Figura 2 Taxono,nía de Redes Neurales
No es el propósito de este trabajo presentar todos los modelos y
algoritmos creados con las redes neurales, que sería muy amplio, ya
que el campo se enriquece a últimas fechas cada día más. Baste con
mencionar dos de los modelos más usados y que serán utilizados
posteriormente en este trabajo. El primero es el clasificador de
Carpenter / Grossberg del cual se utilizará una generalización como
prueba del posible uso de redes neurales "puras" en la predicción de
niveles de ozono y otro una variación de la red de Kohonen' 3 (SOM o
Self Organizing Maps), propuesta por Bart Kosko" conocida como
Differential Competitive Learning.
El clasificador de Carpenter / Grossberg
Carpenter y Grossber en el desarrollo de la teoría de la Resonancia
Adaptiva (ART) han diseñado una red que forma agrupaciones y se
entrena sin supervisión. Esta red instrumenta un algoritmo que es muy
similar al simple algoritmo secuencial "líder" 15 , en el que se
selecciona el primer patrón de entrada como el ejemplo para el primer
agrupamiento. La siguiente entrada se compara contra el ejemplo del
primer agrupamiento. Sigue "al líder" y se agrupa con el primero si la
distancia a este primero es menor que un cierto valor de corte
preestablecido. De otra forma, se vuelve el ejemplo para otro nuevo
agrupamiento. Este proceso se repite para todas las entradas
..............
6. JUAN F BUENO PAGINA 6
. u
siguientes. Por ello, el número de agrupamientos crece con el tiempo y
depende tanto del valor de corte como de la métrica utilizada para
calcular la distancia entre las entradas y los ejemplos de los
agrupamientos.
Esta red difiere otras redes
en que se proveen
conexiones de
retroalimentación entre los
nodos de salida y los de
entrada, tal como se muestra
en la Figura 3, así como la
existencia de mecanismos
para inhibir al nodo de
salida con un valor máximo
y comparar los ejemplos de
agrupamientos con las
entradas.
Figura 3 Red de Grossb erg / Carpen ter
El algoritmo de cálculo de esta red es como sigue:
Paso 1 Inicialización
1
1+N
O<i ~ N-1
O ~ j :c~ M -1
O:5p<1
En estas ecuaciones b 1 (t) es el peso de la conexión desde
la entrada a los nodos de salida, y t, (t) es la conexión
desde los nodos de salida hacia los de entrada que
7. JUAN F BUENO PAGINA 7
. la
proporcionan la retroalimentación. La fracción p es el
factor de vigilancia que indica que tan cerca debe de estar
una entrada a alguno de los ejemplos existentes para no
crear un nuevo agrupamiento.
Paso 2 Aplique una nueva entrada
Paso 3 Calcule las salidas de los nodos y escoja la mejor
X í.
maxMj*¡
Paso 4 Haga la prueba de vigilancia
Ml = Ex
.xi
filT.X11 _
t Ml p
Si Y, que es el resultado de "vigilancia", es mayor que O,
entonces vaya al Paso 6, en caso contrario, continúe con el
Paso 5.
Paso 5 Inhabilite el ejemplo que mejor concuerde
La salida del nodo que mejor concuerde, seleccionado en
el Paso 3, temporalmente se pone en O y no toma parte en
la maximización del Paso 3, al cual se regresa.
Paso 6 Adapte el mejor nodo
..............
8. JUAN F BUENO PAGINA 8
u
+ 1) = t11 (t) x.
b 1 (t + 1) =
t. 3 (t) x.
.5 + t,(t) x.
Paso 7 Regrese al Paso 2
Los resultados de aplicar este tipo de redes usualmente muestran que
aún una pequeña cantidad de ruido en los datos de entrada y el
ordenamiento de los mismos, puede volver inestable al modelo. Por
ello se intentan comúnmente cambios a las tasas en que varían los
pesos y valores de vigilancia también cambiantes.
Red de Kohonen
Si el espacio de entradas a la red tiene muchos elementos y una
distribución de probabilidad complicada, se vuelve de mucha
importancia el poder modelar las estadísticas de entrada fielmente (en
una forma topológica); comprimir los datos reduciendo su
dimensionalidad; y, en ocasiones, descubrir las clases en que se
podrían dividir los datos de forma no supervisada, por ejemplo
siguiendo la ley de aprendizaje de Hebb.
En todos estos casos se pueden obtener resultados positivos mediante
Patrone3 de
ntrenamiento
1.0
1)
Para ello, es necesario diseñar redes
en las que exista alguna competencia
entre las neuronas para obtener al
"ganador", el cual puede entonces ser actualizado en sus pesos, junto
con sus vecinos seleccionados juiciosamente.
el uso cte mapas topograticos, tal
como se usan en los cerebros de
acuerdo a las investigaciones en
mapeos de la actividad cerebral.
..............
9. JUAN F BUENO PAGINA Ç
u
En el tipo de redes propuestopor Kohonen se escoge directamente al
ganador, sin permitir que exista inhibición lateral. Para ello se supone
que la salida de una celda es mayor cuando la distancia entre el vector
de entrada y el vector de pesos es mínima. Maximizar la salida en los
pesos w es un problema de variaciones con solución, en el cual el peso
ganador, llamado Wg es aquel que está más cerca del vector de entrada.
Este peso ganador, y los pesos de las neuronas vecinas, son
actualizadas de forma que se rotan para estar más cerca del vector de
entrada y esto se repite para todos los vectores de entrada.
El algoritmo lo podemos describir de la siguiente manera:
Paso 1 Inicie la Red
Inicie los pesos de N nodos de entrada hacia los M nodos
de salida a valores aleatorios pequeños y fije el radio que
limita cuales se consideran nodos vecinos.
Paso 2 Presente una Nueva Entrada
Paso 3 Calcule la Distancia a todos los Nodos
Calcule las distancias a todos los nodos usando la fórmula
= 1(x, (t) - w(t)) 2
donde x(t) es la entrada al nodo i al tiempo ty w(t) es el
peso desde el nodo de entrada i al nodo de salidaj, al
tiempo t.
Paso 4 Seleccione al nodo ganador
El nodo ganador j * es el nodo de salida con d mínima
Paso 5 Actualice los pesos del nodo f y sus vecinos
•uiuu••uuu••uu
10. JUAN F BUENO PAGINA 10
Los pesos se actualizan para el nodo ganador y todos los
nodos vecinos definidos por Ne(t), de acuerdo a la fórmula
w71 (t + 1) = w1 (t) + 17(0(x1 (t) - w.'3
jENE1 (t) 0:!~ i::~, N-1
El término 17(t) es un término de ganancia (O < q(t) <1) que
decrece con el tiempo.
Paso 6 Regrese al paso 2
El problema usual con las redes de Kohonen es que si no se eligen
adecuadamente los pesos iniciales y la secuencia de entrenamiento, es
posible que la red tenga problemas de convergencia.
Conjuntos Borrosos
Introducción
La teoría de conjuntos borrosos, lo cual es un nombre que se puso de
moda, porque la teoría en sí misma no tiene nada de borrosa (fuzzy en
inglés), mantiene que todas los cosas son cuestión de grado. De alguna
forma mecaniza mucho de nuestra "filosofía popular". La teoría
también reduce la lógica de blanco - negro a casos límites especiales
de relaciones grises. Viola las "leyes de la lógica" Boleana, en
particular la ley de no - contradicción (no puede ser y no ser a la vez) y
la ley de exclusión del medio (o es o no es), y resuelve las paradojas o
antinomias que generan estas leyes. Ejemplos clásicos son las
preguntas como "Dice la verdad cuando dice que miente?".
Matemáticamente, lo borroso significa multivalencia o multivalores y
deriva del principio de incertidumbre posición - momento de
Heisenberg en mecánica cuántica. Un sistema borroso de tres valores
corresponde a verdad, falso e indeterminado o presencia, ausencia y
ambigüedad. Un sistema borroso multivaluado corresponde a grados
..............
f &
11. JUAN F BUENO PAGINA 11
1 .
de indeterminación o ambigüedad, la ocurrencia parcial de eventos o
relaciones.
Consideremos las paradojas ambivalentes de nuevo. Imaginemos una
tarjeta que de un lado dice: la oración de la otra cara es verdadera,y
del otro lado dice: la oración de la otra cara es falsa.Esto forma la
paradoja de la lógica binaria. Todas las paradojas tienen la misma
forma. Una afirmación (S) y su negación (no S) tienen el mismo valor
de verdad t(S)
1(S) = t(,io S) (1)
Las dos afirmaciones son ambas VERDA1)(1) o ambas FALSAS(0).
Esto viola las leyes de no - contradicción y exclusión del medio. Ya
que las tablas de verdad bivalentes nos recuerdan que la negación
cambia el valor de verdad
t(noS) = 1-1(S) (2)
Así que (1) se reduce a
t(S)=1-t(S) (3)
Si 5 es verdadera, t(S)=1, entonces 1=0.
La interpretación borrosa o multivaluada acepta la relación lógica (3)
y, en vez de insistir que t(S)=O o t(S)=1, simplemente resuelve por t(S)
en la ecuación (3)
2t(S)=1 o
t(S) =
(4)
Así, las paradojas se reducen a literalmente medio verdades. Ellas
representan en el extremo la incertidumbre inherente en cada
afirmación empírica y en muchas afirmaciones matemáticas.
..............
12. JUAN F BUENO PAGINA 12
u
Geométricamente, la técnica borrosa coloca las paradojas en el punto
medio del hipercubo [0, 1] de una dimensión. Paradojas más generales
residen en el punto medio de hipercubos de n - dimensiones, un punto
equidistante de todos los 2n vértices.
En 1965, Lofti Zadeh publicó el trabajo "Conjuntos Borrosos" que
formalmente desarrollo la teoría de conjuntos multivaluada, en la cual
extendió la función indicativa lA de la lógica boleana, que indica si un
elemento x pertenece al conjunto A
[i xA
10
xA
(5)
a un indicador multivaluado o función de membresía mA: X
que nos permite combinar a los conjuntos borrosos multivaluados con
las operaciones de conjuntos básicas
rnAflB(x) = min(m4 (x),mB (x))
mA B(x) = max(mA(x),mB(x))
mA (x) = 1 - nlA (x) (6)
A c B iJJ ui4 (x) :c~ mB(x) Vx EX
El valor de membresía mA(x)mide el grado en que cada elemento x
pertenece al conjunto A. Y así como los valores individuales de la
función indicativa I1 (x) se comporta como afirmaciones en el cálculo
de proposiciones bivalente, los valores de la función de membresía
mA(x) corresponde a afirmaciones en la lógica multivaluada.
Inferencia
En los conjuntos boleanos, si se sabe que x e A, y sabemos que A c B,
entonces por la definición de inclusión tendremos que x e B. Esta idea
puede ser usada para construir un esquema de inferencia en el que las
reglas de acción se convierten en afirmaciones de inclusión. Si las
13. JUAN F BUENO PAGINA 13. ~E
nociones no son directamente comparables, es necesario pasar a través
de una función para obtener la inclusión. Como un ejemplo podríamos
tener una función que mapeara el punto "Son 30 grados centígrados"
en la resultante "activa el aire acondicionado". Todas las temperaturas
que llevan a la activación del aire acondicionado forman un conjunto.
El conjunto es mapeado en otro conjunto, el conjunto de condiciones
que activan el aire acondicionado, por una función de control (tal
como un termostato).
En los conjuntos borrosos la inferencia borrosaes un par (A, B)
donde A es un conjunto borroso en un espacio de entradas X y B es un
conjunto borroso en un espacio de salidas Y. Un sistema borroso es
un mapeo entre los conjuntos potentes (power set) 1X e I (un
hipercubo [X
puede ser pensado como card(X) multivalores, cada uno
tomado del intervalo unitario 1 [0, 1]). Como hay un número infinito
de puntos en I e I no es posible escribir todas las inferencias
borrosas que definen a un sistema borroso como una función punto a
punto (entre conjuntos).
Pero puntos cercanos en un hipercubo tienen vectores borrosos
"cercanos", y por ello ocurre frecuentemente que sistemas borrosos
complicados pueden ser descritos en términos de reglas que siempre
se aplican, más o menos, a esos estados cercanos. Reglas tales como
"si la temperatura es alta, entonces auméntale al aire acondicionado" y
"si la temperatura es muy baja, entonces baja casi todo el aire
acondicionado" son suficientes para definir de forma gruesa un
sistema de enfriamiento borroso.
De acuerdo a Kosko, cada regla, formalmente llamada una asociación
borrosa o inferencia borrosa, se modela como una Memoria Asociativa
Borrosa o MAB. Cada MAB calcula un componente de la respuesta
del sistema borroso a una entrada borrosa. La regla se piensa como
continuamente operativa, pero con variantes grados de influencia. Un
nivel de influencia de 1 es máximamente efectiva, y una influencia de
0 impide que la regla tenga algún efecto. Usualmente, el nivel de
14. JUAN F BUENO PAGINA 14
. u
efectividad toma un valor intermedio. La respuesta del sistema es el
resultado agregado de todas las reglas operando en concierto
SISTEMA BORROSO
MABRe1a1
B' B'
MA! Reu1 2 wi
j (A2. B,) B'2 ''~
A w2 C1ARWICIxR
O /o /
..j(ABJ B11(
ir
yiMAB Re1a m
Figura 4 Arquitectura de un Sistema Borroso
En un sistema borroso, el sistema mapea conjuntos de entrada
borrosos A, a conjuntos borrosos de salida B. El sistema almacena
reglas MAB separadas y dispara en paralelo cada regla a un cierto
grado para cada entrada. Expertos o algoritmos adaptivos determinan
los pesos w, de las reglas MAB. Los expertos bien pudieran utilizar
tan solo w11=1 (articula la regla) o w11 0 (omite la regla). Para clarificar
el resultado (desborrar) y obtener un valor único de respuesta existen
varios mecanismos; sin embargo el más socorrido es el método del
centroide en el cual
y=
Jym5(y)dy
$m5 (y)dy
Como es posible observar en la Figura 4, todas las operaciones son
posibles de analizar por separado y conocer con todo detalle cómo se
llega al resultado final del modelo.
..............
15. JUAN F BUENO PAGINA 15
. .
Las redes neurales y los sistemas borrosos procesan ambos
información inexacta y la procesan de forma "inexacta". Las redes
neurales reconocen patrones mal definidos sin un conjunto explícito
de reglas. Los sistemas borrosos estiman funciones y sistemas de
control con una descripción parcial del comportamiento del sistema.
Los sistemas borrosos almacenan bancos de asociaciones borrosas o
"reglas" de sentido común. Un controlador de tráfico borroso puede
contener la asociación "si el tráfico es pesado en esta dirección,
mantén la luz verde más tiempo". Los fenómenos borrosos admiten
grados. Algunas configuraciones de tráfico son más pesadas que otras.
Algunas duraciones de luz verde son más largasque otras. La sola
asociación borrosa (PESADO, LARGA) codifica todas estas
combinaciones.
Así, los sistemas adaptivos borrosos aprenden a controlar procesos
complejos empezando con un conjunto de reglas crudas que lo
describen. Estas pueden provenir de un experto, o se pueden extraer
del propio comportamiento del experto. La experiencia posterior refina
las reglas y, usualmente, mejora el comportamiento.
De acuerdo a lo descrito, los sistemas borrosos "razonan" con
inferencias asociativas paralelas. Cuando se hace una pregunta o se da
una cierta entrada, el sistema borroso dispara cada regla borrosa en
paralelo, pero a un diferente grado, para inferir una conclusión o
salida. Para ello se pueden usar ejemplos lingüísticos (simbólicos) o
numéricos. Un experto puede articular asociaciones simbólicas o, un
sistema borroso, puede de forma adaptiva inferir y modificar sus
asociaciones borrosas a partir de un conjunto de ejemplos numéricos
representativos.
En este último caso se puede encontrar una combinación de los
conjuntos borrosos y las redes neurales. Aunque en realidad tienen
más semejanzas que las que en un principio pudieran apreciarse a
simple vista.
..............
16. JUAN F BUENO PAGINA 16
.
La aplicación de una MAB es un mapeo entre conjuntos borrosos (A i,
B) que puede ser codificada en una matriz Hebiana del estilo
B=ÁoM
en la que
b3 =maxmin(a1'
m.)
Y esto nos lleva a una analogía entre los conjuntos borrosos y las redes
neurales. Supongamos que el vector de entrada es X t = {Xit, X2t, ..., x}
y que la salida está compuesta por un solo valor Yt = {yt}, y que
tenemos un sólo nodo neural y una sola MAB, aunque esto es
fácilmente generalizable a varios nodos y varias MABs. En este
caso, la red neural podría ser descrita como
Y(y) = X(x, )m,)
y el sistema borroso como
Y(y) = max1rnax(rnin(X(x)m 1 ))J
lo cual nos da una clara analogía entre los dos sistemas, aunque es
claro que en el caso de los conjuntos borrosos, las salidas son a su vez
conjuntos borrosos, que se unen ponderando cada una de las salidas y
calculando un valor final por medio de estimar el centroide del
conjunto borroso resultante.
Pero la analogía tiene un interés adicional y es que, seleccionando un
índice de comportamiento (o medida de error) es posible estimar las
MABs con métodos similares a los propuestos para las redes neurales.
Esto es, por medio del aprendizaje de ejemplos.
17. JUAN F BUENO PAGINA 17
. u
Los sistemas borrosos han sido "cailicados como Sistemas Inteligentes,
toda vez que reúnen las propiedades necesarias como: tener un
comportamiento inteligente sin contar con un modelo predeterminado
preciso del fenómeno; pueden generalizar, pueden adaptarse a las
circunstancias; y permiten el procesamiento simbólico. Y más
importante aún, con ellos siempre es posible determinar la forma en
que el modelo llegó a un determinado resultado, lo cual resulta
extremadamente conveniente en múltiples ocasiones.
La Contaminación del aire en la Ciudad de México
Introducción
La Contaminación del aire puede ser definida como cualquier
condición atmosférica, en la cual existen substancias presentes en
concentraciones lo suficientemente por arriba de sus niveles normales
ambiente para producir efectos medibles en los seres humanos,
animales, plantas o materiales.
Por substancias entendemos cualquier elemento químico natural o
hecho por el hombre, o compuestos capaces de permanecer en el aire.
Estas substancias pueden existir en la atmósfera como gases, gotas
líquidas, o partículas sólidas.
Fuentes de Cntntes
Atmósfera Procesos
Receptores
Emisión Químicos
Figura 5 Sistema de la Contaminación
El problema de la contaminación ambiental se puede mostrar
simplemente como un sistema compuesto de tres elementos, tal y
como se muestra en la Figura 5.
18. JUAN F BUENO PAGINA 18
. u
El objetivo último del estudio de este sistema es obtener una respuesta
a la pregunta: Cuál es la manera óptima de abatir la contaminación
del aire?. Es claro que la disminución de la contaminación del aire en
las grandes áreas habitadas del mundo van a requerir inversiones
económicas substanciales y, tal vez, cambios en los patrones de vida y
uso energético también.
No es realista hablar de que no haya ninguna contaminación del aire;
es virtualmente imposible eliminar por entero todas las emisiones
provocadas por el hombre a la atmósfera. Es mucho más sensato
buscar la reducción de emisiones contaminantes hasta el punto en que
los efectos adversos notables por la presencia de contaminantes son
eliminados. Dado que aún para ello se requieren de grandes gastos, los
factores políticos y sociales juegan un papel preponderante en el logro
de esta meta.
Los esfuerzos hechos para formular una estrategia coherente para el
control de la contaminación del aire, han sido estorbados por la falta
de una demostración clara de la relación entre emisiones y
concentraciones en el aire; y los efectos adversos resultantes de
diferentes niveles de concentración de los contaminantes en el aire,
principalmente sobre la salud humana.
Virtualmente todos los elementos de la tabla periódica se encuentran
en la atmósfera; sin embargo, cuando se clasifican los contaminantes
atmosféricos de acuerdo a su composición química, se selecciona un
pequeño número de agrupamientos que son convenientes para estudiar
el fenómeno. estos agrupamientos son:
Compuestos que contienen azufre
Compuestos que contienen nitrógeno
Compuestos que contienen carbón
Compuestos halogenados
Otras substancias tóxicas y radioactivas
..............
19. JUAN F BUENO PAGINA 19
u .
Los contaminantes del aire tambien pueden ser clasificados de acuerdo
a la forma en que llegan a la atmósfera, tal como:
Contaminantes Primarios. Son aquellos emitidos
directamente en las fuentes.
Contaminantes Secundarios. Son aquellos formados en la
atmósfera por interacciones químicas entre los contaminantes
primarios y constituyentes normales del aire.
El primer tipo de contaminación reconocida fue tipificada por altas
concentraciones de compuestos de azufre (SO 2 y sulfatos), y
partículas, resultantes de la combustión de carbón y combustibles con
un alto contenido de azufre. Un segundo tipo de contaminación
apareció sólo con el uso generalizado de la gasolina como un
combustible para los motores y el número de estos creció
desmesuradamente. Históricamente este segundo tipo de
contaminación del aire ha sido llamado "smog", y está compuesto de
los reactivos y productos de una serie compleja de reacciones que
tienen lugar cuando la luz del sol irradia a una atmósfera cargada de
gases orgánicos y óxidos de nitrógeno. El smog fotoquímico ocurre
con altas temperaturas, radiante luz solar y baja humedad. Los
principales contaminantes en el smog fotoquímico son los óxidos de
nitrógeno e hidrocarburos, que rápidamente se convierten en
contaminantes secundarios, como ozono, nitratos orgánicos,
hidrocarburos oxidados y aerosol fotoquímico. Son estos
contaminantes secundarios los responsables de efectos tales como
irritación ocular y daños a las plantas.
La Ciudad de México no ha escapado a este tipo de contaminación, de
hecho en 1992 se pensaba que era el lugar del mundo más aquejado
por este tipo de problemas. Las Autoridades han venido implantando
programas para reducir los niveles de contaminación en el Valle de
México y, aunque se han logrado importantes avances en los
contaminantes con contenidos de azufre, el monóxido de carbono y el
plomo, aún se registran niveles altos de ozono. Todos los días, el
contaminante que alcanza los niveles más por arriba de las normas
..............
20. JUAN F BUENO PAGINA 20
1
establecidas para proteger la salud, es este contaminante; y cuando hay
contingencias, estas se declaran porque los niveles de ozono son
elevados. En este sentido, tiene una gran importancia y relevancia el
poder contar con modelos que permitan la predicción de estos niveles
y les permitan a las Autoridades prever sus acciones con un poco más
de antelación.
La Contaminación por Ozono
La contaminación atmosférica por ozono es un proceso químico -
fisico muy complejo, del cual de hecho aún se desconocen muchos
detalles de como ocurre en algunos lugares específicos. Baste decir
que la National Science Foundation, en 1992, publicó un estudio que
encargo a varios científicos especialistas en el área, intitulado
"Rethinking the Ozone Problem", en el cual se reconocía que después
de mas de tres décadas de estar luchando contra el problema, se habían
obtenido pocos avances y algunos retrocesos; y según el estudio, aún
eran necesarias investigaciones que dieran más luz sobre el proceso.
En ese sentido tienen una ventaja las redes neurales y los conjuntos
borrosos por no requerir para su uso la formulación de un modelo
predeterminado exacto. Sin embargo, no es posible tampoco esperar
entonces resultados como aquellos que provendrían de modelos
exactos del comportamiento del fenómeno. Pero mientras sea muy
dificil o muy caro tener estos modelos, el uso de otro tipo de
herramientas resulta de gran utilidad.
Sin intentar en este trabajo explicar el proceso de formación de ozono,
si es necesario destacar algunos de sus aspectos más importantes, con
objeto de justificar la selección y manejo de las variables que
utilizaremos en la construcción de los modelos. Para ello seguiremos
la exposición que Seinfeld 16 hace al respecto.
El smog fotoquímico es la designación dada a una mezcla dada de
reactantes y productos que resulta de la interacción de orgánicos con
óxidos de nitrógeno. Cuando los óxidos de nitrógeno (NO s) están
..............
21. JUAN F BUENO PÁGINA 21
u u
presentes, la formación de ozono (03) ocurre como un resultado de la
fotólisis del bióxido de nitrógeno (NO2)
NO2 +hv_1 >NO+O
O+02 +M_2
donde M representa a N2 u 02 o cualquier otra tercera molécula que
absorbe el exceso de energía vibratoria producida por la energía
lumínica hv y estabiliza a la molécula de 03 formada. No existen otras
fuentes significativas de ozono en la atmósfera fuera de la reacción 2.
Una vez formado, el 03 reacciona con NO (presente o formado por la
reacción 1) para regenerar el NO 2,
03 +NO 3 >NO2 +02
En la ausencia de otras especies, se alcanza un estado de equilibrio en
el cual la concentración de ozono está dada por la llamada relación de
estado fotoestacionario
[°d
-
-
k1[NO2]
k3 [NO]
De forma muy general podría afirmarse que en la presencia de
radicales libres de compuestos orgánicos se acentúa este proceso
fotolítico. 1 Una curva típica del comportamiento de estos compuestos
en el tiempo, con niveles altos de concentraciones iniciales de
hidrocarburos se muestra en la Figura 6. En ella es importante notar
como los niveles de NO2, primero aumentan para posteriormente
'En realidad existen diversas reacciones que ocurren en la atmósfera al mismo tiempo y que determinan el desarrollo
del proceso fotolítico y que dependen de las condiciones climáticas y del tipo y concentraciones de compuestos
orgánicos presentes, en un comportamiento altamente no lineal. Por ejemplo el tolueno y el xileno, presentes
normalmente en altas concentraciones en la atmósfera de la Ciudad de México, por un lado promueven la
formación de ozono al reaccionar rápidamente con radicales OH y 03, y en su fotooxidación incrementan el nivel
de los radicales promoviendo así la formación de 0 3 por parte de todos los hidrocarburos presentes (y no sólo
ellos), pero, a su vez, si se añaden pequeñas cantidades de ellos a mezclas de hidrocarburos y N0, los fija a estos
últimos e impide que continúen formando ozono.
..u...........
22. JUAN F BUENO
.
PAGINA 22
empezar a disminuir a causade la formación de ácido nítrico y PAN
(peroxyacetil nitrato).
Concentraciones Predichas de un Proceso
Fotolítico
- RH
RHCO
-03
NO2
NO
0.00
0.00 120 240 360 480 600
Tiempo (seg)
Figura 6 Proceso fotolítico cii una a1inósfera rica en hidrocarburos
Debemos considerar también, que dados los compuestos químicos
presentes en la atmósfera de la Ciudad de México (latitud dada), las
variables más importantes que van a afectar las reacciones
fotoquímicas es la intensidad del cambio que ocurre como función de
la hora del día, temporada del año y estado atmosférico (nubes,
aerosoles, reflejos de superficie, ...).
La Red Automática de Monitoreo Atmosférico (RAMA)
Existe en México desde los años de 1970 una Red de Monitoreo de la
contaminación del aire. No es sino hasta 1986, sin embargo, que se
instala ésta con monitores automáticos y a partir de ese momento se
23. JUAN F BUENO PAGINA 23
. .
empieza a contar con datos de los contámiinantes principales, hora a
hora, en varias estaciones y todos los días, lo cual constituye una base
de datos generalmente adecuada y continuada (algunos de los datos de
1986 y 1987, especialmente en ozono, no son confiables ya que
existieron diversos problemas en el arranque).
zona
Temperatura 10 Centígrados Promedio de toda la
zona
Humedad Relativa 10 Porcentaje Promedio de toda la
zona
Velocidad del 10 mps Cambio a una sola
Viento resultante vectorial,
Dirección del Grados con los datos de
J"iento velocidad, dirección
y distancia
perpendicular al
origen
NO 13 (a julio de 1994) ppm Cálculo de NO por
NO2 diferencia (NOs-
NO2) y máximo
horario por zona
Como se puede observar, no existen algunos de los datos que pudieran
ser interesantes para modelar los fenómenos de contaminación
(aunque ahora con la entrada en operación de nuevos equipos como el
RAS - SODAR, esto podrá mejorarse) y en otros casos se decidió
hacer un preprocesamiento de los mismos, ya sea para calcular las
variables necesarias o para disminuir el número de datos
aprovechando la alta correlación existente entre los mismos, como es
el caso de la temperatura medida en las diferentes estaciones
meteorológicas de la RAMA.
..............
24. JUAN F BUENO PAGINA 24
u
Así, los modelos queutilizaremos en este trabajo tendrán la forma
siguiente:
O(t) = f{T(t). RH(t)' N0(t) WSP(t)}
N0(t)
Z E { NO, NE ,CE, SO, SE} zonas de la ciudad
en ella se podrá observar que se toma la relación fundamental del
proceso fotolitico y las variables meteorológicas; en los modelos
prácticos incluiremos también las condiciones inmediatamente
anteriores del proceso. Esto lo hacemos por zona, ya que el
comportamiento de las diferentes zonas de la ciudad lo obliga.
Se podría intentar elaborar los modelos por estación medidora y tomar
en cuenta la dirección del viento en cada una de ellas, lo que será
materia de futuras investigaciones, incluyendo los datos de estabilidad
atmosférica que empezará a proporcionar el RAS-SODAR. Otra línea
de investigación interesante será empezar a considerar los resultados
del modelo ECMA que corre dentro del equipo Air-Track, propiedad
del Departamento del Distrito Federal, así como tomar en cuenta, para
la estimación de reactividades atmosféricas las mediciones que hace el
equipo OPSIS.
Por ello, los modelos actuales no pueden ser considerados sino como
primeras aproximaciones. También, de las ecuaciones, es claro que si
el modelo va a ser usado para predecir es necesario tener sub -
modelos para cada una de las variables que intervienen (como por
ejemplo la temperatura al tiempo t, que no es conocida), o incluir en el
modelo valores con retraso (por ejemplo las temperaturas de las
últimas 6 horas previas). Esta segunda opción es la que utilizaremos,
así como la inclusión de valores rezagados de ozono, con objeto de
tomar en cuenta la dinámica del sistema.
uuuuuuuuuuuuuu
25. JUAN F BUENO PAGINA 25
u u
Determinación de niveles máximos
En esta sección del trabajo mostraremos los resultados obtenidos de la
aplicación de las diferentes técnicas y propondremos una nueva que
combina la utilización de los conjuntos borrosos y las redes neurales.
Regresión Múltiple
En primer término mostraremos los resultados de aplicar un modelo
simple de regresión múltiple. En todos los casos se utilizará la misma
base de datos, consistente en los logaritmos naturales de las lecturas de
la Red Automática de Monitoreo desde Septiembre de 1989, hasta
junio de 1994, para las 12, 13 y 14 horas (que es cuando el 99.6% de
las contingencias ocurren). Los datos anteriores no se toman en
consideración por provenir de una distribución estadística totalmente
diferente'7 ; asimismo sólo se toman en cuenta las lecturas para las
cuales existen datos completos y válidos (por ejemplo no se permite
que la lectura de NO2 sea mayor que la de NON). El modelo de
regresión múltiple estimado es el siguiente:
03 (t)= a0 + a103 .(t - 1) + a203 (1 -2) + a303 (z' -3) + a4Rff(t)
a1MF(t - 1)+ a6WSP(t - 1)+ a7WDR(t - 1)+
a8MOM(t_1)+ao[
NO2(t-1)
1+(No(t -1)- NO2 (i -1))]
aIo [ + aI
NO2 (t-2) 1 r NO2(t-3) 1(0 )J
"[(NO(t-3)-NO2(t-3))]
donde
03(t) = logaritmo natural del ozono al tiempo t;
RH(t) = logaritmo de la humedad relativa al tiempo t;
TMP(t) = logaritmo natural del promedio de temperaturas al
tiempo t;
..............
26. JUAN F BUENO PAGINA 26
u u
WSP(t) = logaritmo de la velocidad del viento promedio al
tiempo t;
WDR(t) = dirección del viento al tiempo t,
MOM(t) = distancia perpendicular desde el vector del viento
hasta el origen en el tiempo t;
NO2(t) = logaritmo natural del bióxido de nitrógeno al
tiempo t;
NO(t)-NO2(t) = logaritmo natural de la estimación de monóxido
de nitrógeno (NO) al tiempo t;
Los resultados de la aplicación del modelo se presentan en la siguiente
tabla-
Zona, Centro 'ro tWk'rl] tIN1C
ao .1719 .1801 .1310 .2519 .04333
a103(1) 1.0481 .8698 1.0855 1.0077 1.1878
(SB) (.01557) (.01668) (.01520) (.01363) (.02251)
-3030 -.1220 -3471 -.2542 -.4190
(SB) (.02029) (.02206) (.01978) (.02082) (.02251)
.06496 .07724 .08379 .02627 .03538
(SB) (.01262) (.01505) (.01266) (.01590) (.01479)
04R1](1) .006080 .01654 -.007321 .008623 -.003671
(SB) (.00894) (.009547) (.00796) (.00833) (.00845)
a5TMP 1) -3553 -.1205 -.13 14 -.1653 -.1182
(SB) (03256) (03476) (02976) (03062) (03036)
0C6WSP(l) -03868 -05478 -05024 -05024 -03996
(SR) (.007442) (.008143) (.00678) (.00732) (.00696)
a7WDR l) .01326 .01523 .02058 .009047 .01400
(SR) (.004119) (.004445) (.00373) (.00398) (.00391)
a8MOM( 1 ) -.01597 -.01477 -.02042 -.02541 -.01785
(SB) (.003969) (.004333) (.00362) (.00388) (.00374)
a9NOR(1) .05230 .02884 .03925 .02846 .03879
(SB) (.007741) (.008011) (.00668) (.00739) (.00723)
alON012) -.02380 -.02056 -.007975 -.02837 -.01572
(SB) (.008712) (.009292) (.00774) (.00833) (.00820)
U II NOR(13) -.02795 -.05083 -.02905 -.01731 -.01928
(SB) (.006855) (.007306) (.00618) (.00683) (.00680)
R2 .7308 .6917 .7794 .7141 .7631
F 1021 807 1309 874 1212
N 4150 3967 4088 3862 4148
27. JUAN F BUENO PAGINA 27
. u
No comentaremos mucho acerca de los resultados de la regresión,
excepto que es útil saber que casi todas las variables resultan
significativas en el modelo lineal. La variable no significativa es la
humedad relativa y también resultan con baja significancia las
variables con retraso de dos o más horas. Esto puede deberse a que las
condiciones de contaminación (el reactor que es la atmósfera de la
Ciudad de México) cambia en sus condiciones mucho en dos horas a
medio día.
Redes Neurales
En este caso se utilizó el modelo conocido como Regresión
Generalizada por Redes Neurales, que es una variación de los modelos
propuestos por Grossberg y Carpenter con una salida continua y que
muchas veces resulta en una aproximación buena a funciones no
lineales. Básicamente la red está formada por tres capas de nodos. La
primera, la capa de entrada tiene tantos nodos como elementos tiene el
vector de entrada; esta capa, simplemente, manda a los nodos de la
capa intermedia la señal de entrada. En esta capa intermedia existe un
nodo por cada vector de entrenamiento que se le presente a la red. Y
finalmente, la tercera capa es la de salida y tiene el mismo número de
nodos que el número de elementos en el vector de salida; uno en
nuestro caso.
Los resultados obtenidos se muestran en la siguiente tabla:
TI1!
ErrorMax 1.377 1.578 1.016 1.036 1.643
Error Min 0.000 0.000 0.000 0.000 0.000
ErrorMeii .138 .122 .132 .128 .124
R2 .850 .865 .863 .841 .865
Correlación .922 .930 .929 .917 .930
Como vemos los resultados son más aceptables que en el caso de la
regresión múltiple. A cambio de ello, tenemos ahora un modelo
inescrutable. Que es el precio que siempre se tiene que pagar por el
•uuu•uiuuu•u.0
28. JUAN F BUENO PÁGINA 28
u .
uso de las redes neurales. De hecho, se pueden lograr mejores
resultados con algunos pequeños cambios en el modelo, pero esto no
se presenta en este escrito para evitar una extensión mayor.
Regresión Generalizada por Redes Neurales
Capa
Capa
X de 1 Capa} Y
Entrada lnter
d
Salida
En este tipo de redes se guardan en la memoria todos los vectores
de entrenamiento que se le presentan. Cuando está operando,
intenta igualar el vector que se le presenta a alguno de los vectores
que tiene almacenados o, en algunas versiones, a la combinación
de algunos de ellos.
Figura 7 Estructura de la Red Neural GRNN
Es interesante analizar el comportamiento del modelo en dos casos:
como predice las
situaciones extremas
y cuál ha sido el
comportamiento del
modelo con los datos
correspondientes a
los meses de junio y
julio de 1994, que no
se usaron para
Figura 8 Comportamiento del Modelo GRIW
entrenarlo. Esto se
muestra en las
siguientes figuras. En ellas puede observarse con claridad que el
modelo funciona mejor en el rango medio y bajo de los valores
............u.
29. JUANFBUENO PAGINA 29
. 1
observados, que en el rango alto. El detalle de lo anterior puede verse
en la
gráfica que amplia los
datos para este rango de Observación detallada dolos Máximos
0
valores. Es claro que el -0.2 38 75 112 149 186 223 260 297 334 571 408 445 482 519 556 593 630 667 754 741 778 815
-0.4
modelo podría mejorarse E
estimándolo en dos pasos;
ya que se cuenta con los
d TI
atos en tiempo real, es 2
0bsrvadones0rdenadasdeMenoraMyor
posible construir dos —ACWW(l) —Nw8(l)
modelos: uno para los
datos normales y otro si la lectura a cierta hora, por ejemplo las 12
horas, ya es mayor que un cierto nivel, como 150 puntos de IMECA.
Esto está siendo implantado con resultados muy aceptables.
En cuanto a la predicción de los niveles de junio y julio de 1994, esto
es posible observarlo en la gráfica contigua. En ella se resalta la línea
que resultaría si la predicción de los niveles fuese perfecta. En la
Predicción de Ozono en Junio y Julio de 1994 práctica para esos dos
meses el modelo se
-25 -2 -15 -1
comporto con una
= 082 R2 = 0.82, más o menos
• • M. Predicción Perfecta 2 dentro del rango de
estimación inicial.
Podemos observar que las
J.NetwO1
predicciones son bastante
aceptables y que podrían
aún mejorarse más dividiendo las predicciones de acuerdo a las
lecturas ya alcanzadas (similar a la estimación bayesiana adaptiva).
Sin embargo, el mayor problema reside en que el modelo se constituye
en una caja negra para propósitos prácticos, en la que el analista debe
confiar con fe ciega. Esto es dificil, y más aún cuando se trata de poner
en marcha programas tan sensitivos socialmente como el Plan de
Contingencias Ambientales de la Ciudad de México.
..............
30. JUAN F BUENO PAGINA 30
u u
Conjuntos Borrosos
El primer modelo propuesto es el clásico de la teoría de conjuntos
borrosos. Debe de considerarse que el uso preferente de los conjuntos
borrosos ha sido en el control de sistemas, dada su capacidad para
mantener su estabilidad, aún en la presencia de señales con un alto
grado de ruido. Son notables los ejemplos de control de péndulos
invertidos, hornos de calcinación y cámaras fotográficas. Sin embargo,
esa misma cualidad hace dificil el reconocimiento de patrones
mediante el uso simple de la teoría de conjuntos.
Es ilustrativo mostrar el modelo más simple de la teoría de conjuntos,
ya que este ilustra las dificultades del sistema y da paso a la
metodología propuesta. este modelo se construye por el simple
expediente de incluir como reglas de operación del sistema todas las
posibilidades del mismo. O sea, incluir dentro del banco de MABs,
todas las relaciones posibles de los hipercubos donde se encuentran
todas las variables del sistema y posteriormente ponderar cada una de
ellas.
En nuestro caso equivaldría en dividir el discurso de cada una de las
variables en, por ejemplo, cinco categorías llamadas: Muy Bajo, Bajo,
Medio, Alto y Muy Alto. Así por ejemplo, podríamos tener que la
Temperatura se encuentra en alguna de estas cinco categorías para una
Figura 9 Funciones de Pertenencia de una Hariable Borrosa
31. JUAN F BUENO PAGINA 3
1 u
hora dada. Lo mismo ocurriría para todas las variables. Qué es Muy
Alto, Alto, Medio, Bajo y Muy Bajo para cada variable depende de los
valores de la misma y el juicio de los expertos. En nuestro caso,
resolvimos este dilema por el simple expediente de dividir el rango
entre el valor máximo histórico de la variable y el valor mínimo
histórico de la misma variable (ampliado en un 10%), en cinco rangos
para colocar las variables lingüísticas propuestas (con un traslape del
25% tal como lo propone Funahashi 18 . Los conjuntos borrosos
resultantes para una variable dada quedarían como se muestra en la
Figura 9.
Como se desea un conjunto denso de MABs, entonces las reglas serían
tales como: "Si la Temperatura es Baja, entonces el Ozono resultante
será Bajo". Y cubrirían todas las posibilidades, aún aquellas que
obviamente no son razonables como: "Si el viento es Muy Alto,
entonces el Ozono será Muy Alto". Posteriormente se le asigna a cada
regla un peso determinado. Por ejemplo, a esa segunda regla
irrazonable se le puede asignar un peso de cero, que es equivalente a
afirmar que esa regla no existe.
Cómo asignar los pesos a cada regla es un trabajo dificil y que exigiría
el concurso de varios expertos. En este trabajo recurrimos a la simple
fórmula de utilizar
las frecuencias
observadas
históricamente de
cada una de las
condiciones que
prevén las reglas.
Mediante este
expediente fue
posible construir
un sistema borroso
para el cual se
obtuvieron los
resultados
Figura JO Resultados del Sistema Borroso Tradicional
.............l
32. JUAN F BUENO PAGINA 32
. u
mostrados en la Figura 10. En ella se muestran los resultados de
aplicar el modelo, comparado con los datos reales clasificados de
menor a mayor.
En posible observar que el modelo no sigue adecuadamente los datos
en los extremos, que es nuestro mayor interés. Como es normal en los
sistemas borrosos, la salida de los mismos se encuentra
preferentemente en algún valor intermedio y no sigue tan fielmente a
los extremos, como en nuestro caso sería deseable. Por la falta de este
seguimiento en los extremos, la correlación entre los datos reales
históricos y las predicciones que hace el modelo, es de únicamente
R2 =.508.
Podría mejorarse mucho el modelo, mediante la selección adecuada de
los niveles de cada variable, cuáles son las reglas que operan en el
mismo y la determinación del peso que habría que aplicarles a cada
una de ellas. Esto es una labor complicada y que requiere comúnmente
varios intentos y aproximaciones sucesivas.
Aquí proponemos el uso de las redes neurales para substituir este
proceso de aproximaciones. En este modelo el supuesto principal es
que existen diferentes categorías de comportamiento en la
..............
33. JUAN F BUENO PAGINA 33
.
contaminación de la Ciudad de México. Es decir, es posible dividir los
fenómenos en categorías distintas (aunque la división entre estas de
hecho sea borrosa), construir una red neural para cada una de estas
categorías (reglas de comportamiento) y estimar la predicción del
modelo por medio de la suma de las salidas (que se estiman como
niveles de pertenencia a los conjuntos borrosos en que dividimos los
niveles de ozono posible) y "clarificando" el resultado con los métodos
tradicionales.
Podemos observar que con este expediente los resultados mejoran, sin
embargo, aún persiste la falta de "seguimiento en los extremos". Tal
como se muestra en la gráfica anterior.
El tercer y último modelo que analizaremos es la propuesta de calcular
por medio de
una red
neural, los
ponderadores
de las salidas
de cada una
de las redes
neurales
propuestas
en el modelo
anterior. Es
decir, al
modelo
anterior se le agrega una red neural que calcula los ponderadores de
cada una de las salidas de las redes, antes de proceder a su suma y
clarificación. Esto se muestra de manera esquemática en la gráfica
anterior.
La manera de obtener la pertenencia a las diferentes categorías de cada
uno de los vectores de entrada, se hizo mediante el uso de una red
neural del tipo de Kohonen (de hecho se usó una red Aprendizaje
Competitivo Diferencial, como la propuesta por Kosko) en la que se
SISTEMA BORROSO
RNCategrít 1
RN ('tgo -la wi
B'2
A w2 (1 .ARIflCADORJ
o /RN Cgria nt WIn/1/
B'rn11,—P- yi
RN Ponderadores W.
A,,,~ W i--------------
..............
34. JUAN F BUENO PAGINA 34
. .
prefijaron el número Mecategorías y posteriormente se asignaron los
vectores a cada una de ellas, de acuerdo a su distancia al centroide de
cada clase (similar al sistema clasificador de n - medias). Y cada una
de las redes de las categorías se estimaron con Redes Neurales simples
de propagación inversa.
Los resultados de este modelo se muestran a continuación. En la
gráfica podemos observar que el modelo sigue ahora con mayor
precisión los datos en los extremos y de hecho se comporta casi igual a
el modelo puro de Redes Neurales. Sin embargo, existe una gran
diferencia. Ya que, obtenido el resultado de la predicción es posible
ahora analizar cómo se conformó esta. Saber a que categoría
preferentemente asigna el modelo el vector de entrada y cuáles son los
ponderadores usados, lo que permite un análisis más detallado de los
fenómenos meteorológicos y decidir, por parte de los expertos en una
situación dada, si es aceptable la clasificación y en su caso la
predicción, basándose en otros elementos, como la climatología por
ejemplo.
Predicción por Conjuntos Borrosos Estimando Funciones de
Pertenencia y Reglas por Redes Neurales
o
241 481 721 961 1201 1441 1681 1921 2161 2401 2641 2881 3121 3361 3601 3841
-1
-2
E
a.
a. -
i:
I p11111
-6 1
Observación
-nder
..............
35. JUAN F BUENO PAGINA 35
.
Conclusiones
Se han presentado dos modelos que pueden ser de utilidad para la
predicción de los niveles de contingencia por ozono en la Ciudad de
México. En el caso del uso de las redes neurales, las predicciones
pueden llegar a tener una alta correlación con los valores
históricamente observados, más si hace uso de los datos en tiempo real
para realizar las predicciones a cortísimo plazo (por ejemplo, cada
hora) y se tienen diversos modelos para cada situación ya alcanzada de
contaminación, tal y como se propone en el texto. Sin embargo, y
aunque los resultados pueden ser de suma utilidad, lo inescrutable del
modelo, que nos impide afirmar cómo llegó el modelo al resultado
obtenido, hace que éste no pueda ser totalmente aceptado, más aún si
con sus resultados se piensa poner en marcha la preparación de
acciones de contingencia ambiental (la contingencia a la fecha sólo se
declara cuando esta ocurre por razones que no son objeto de este
estudio).
El uso de los conjuntos borrosos puede resolver el problema de la
inescrutabilidad de los modelos alcanzados mediante el uso de las
redes neurales. Sin embargo, es muy complicado el lograr una
formulación realista de un sistema tan complejo como es el "reactor"
formado por la atmósfera de la Ciudad de México, donde reaccionan
los contaminantes emitidos por los ciudadanos entre ellos mismos y
con los elementos naturales.
Con el auxilio de las redes neurales, es posible formular un sistema
híbrido que mantiene las cualidades predictivas de otros modelos, y
posee las ventajas de los sistemas borrosos como son su inmunidad a
vectores de entrada con ruido en la señal y permite el análisis de la
forma en que el modelo llegó a sus conclusiones. Lo que resulta de
gran utilidad para sistemas en los cuales es preciso poner en aviso o en
marcha programas con un gran costo social, ya que permite una toma
de decisiones más responsable y no basada en "cajas negras", como
son la mayoría de los modelos de reconocimiento de patrones.
..............
36. JUAN F BUENO PAGINA 36
1
RUCK, DENNIS W. (et al), "Thc Multilayer Perceptron as an Approximation to a Bayes Optimal Discriminant
Function" in IEEE Trans. Neural Networks, 1, 4, 296 -298, 1990.
2
W. S McCulloch, and W. Pitts, "A logical calculus of the Ideas Imminent m Nervous Activity", Buiietm of
Mathematical Biophysics, 5, 115-133, 1943.
DO. Hebb, "The Organization of Behavior", John Wiley & Sons, New York, 1949.
' R. Rosenblatt, "Principies of Neurodynamics", New York, Spartan Books, 1959.
B. Widrow, and M. E. Hoff, "Adaptive Switching Circuits", 1960 IIRE WESCON Conv. rccord, Part 4, 96-104,
Agosto 1960.
6
jj Hopfield, "Neural Networks and Physicai Systems with Emergent Collective Computational Abiities", Proc.
Natl. Acad. Sci. USA, 79, 2554-2558, Abril 1982.
J.J. Hopfield, "Neurons with Graded Response Have Collective Computational Properties Like Those of Two-State
Neurons", Proc. Nati. Acad. Sci., USA, 81, 3088-3092, Mayo 1984.
8
Hopfield and D.W. Tank, "Computing with Neural Circuits: A Model", Science, 233, 625-633, Agosto 1986
'D.E. Rumelhart, G.E. Hinton, and R.J. Williams, "Learning Internal Representations by Error Propagation" in D.E.
Rumelha.rt & J.L. McClelland (Eds) Para/le! Distributed Processing: Explorations in the Microstructure of
Cognition., Vol 1, Foundations. MIT Press, 1986.
° T. Sejnowski and C.R. Rosenberg, "NETtalk: A Parallel Network that Learns to Read Aloud", John Hopkms
University, Technical Report JHU/EECS-86/01, 1986.
11
J.A. Feidman and D.H. Ballard, "Comiectionist Modeis and their Properties", Cognitive Science, Vol. 6, 205-254,
1982.
12
G.A. Carpenter, and S. Grossberg, "Neural Dynamics of Category Learrnng and Recognition: Attention, Memory
Consolidation and Amnesia", in J. Davis, R. Newburgh, and E. Wegman (Eds.) Brain Structure, Learning and
Memory, AAAS Symposium Series, 1986.
13
T. Kohonen, Self Orgamzation and Associative Memoiy, 2nd-ed, Springer-Verlag, New York, 1988
14
B.A. Kosko, Neural Networks for Signal Processing, Prentice Hall, 1992
15
J.A. Hartigan, Clustering Algorithms, John Wiley & Sons, New York, 1975.
16
J.H. Seinfeid, Atmosphenc Chemistry and Physics of Air Pollution, John Wiley & Sons, 1986
17
J.F. Bueno, "Comportamiento de los máximos de Ozono en el Valle de México", 2a Reunión Internacional de
Ozono, México, D.F., 1992
18
K. Funahashi, "On the approximate realization of continous mappmgs by neural networks", Neural Networks
2(3), 183- 192, 1989
Am
..............