Redes Caos

Transmisiń de informaciń mediante secuencias ca´ticas y
o o o
redes neuronales
David Arroyo Guardeõ
n

´
Indice

´
Indice 1

1. Introducciń
o 2

2. Estrategias de transmisiń de secuencias ca´ticas basadas en redes neuronales
o o 2
2.1. Teorema de los retrasos de Takens . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.2. Diseõ de la red neuronal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
n 4
2.2.1. Mapas de Kohonen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2.2. Algoritmo “neural-gas” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.3. Predicciń de series temporales . . . . . . . . . . . . . . . . . . . . . . . . .
o 7
2.3. Estrategias de transmisiń ca´tica v´ redes neuronales . . . . . . . . . . . . . . . .
o o ıa 7
2.4. Simulaciones: resultados y conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4.1. Comparaciń entre los diversos esquemas de codificaciń-decodificaciń para
o o o
un canal de comunicaciń con ruido . . . . . . . . . . . . . . . . . . . . . .
o 9

3. Sistema de comunicaciń basado en un esquema de m´ ltiples niveles ca´ticos
o u o 13
3.1. Elecciń del conjunto de seãles ca´ticas a transmitir . . . . . . . . . . . . . . . . .
o n o 14
3.1.1. Algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2. Clasificaciń de la seãl recibida: diseõ de una red neuronal . . . . . . . . . . . .
o n n 17
3.2.1. Entrenamiento de las redes artificiales basadas en funciones radiales base
(RBF-ANN) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.3. Simulaciones: resultados y conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.1. Agrupamiento mediante el algoritmo EM . . . . . . . . . . . . . . . . . . . 21
3.3.2. Agrupamiento mediante SOM: comparaciń con los resultados generados por
o
el algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3.3. Elecciń de la red artificial RBF adecuada . . . . . . . . . . . . . . . . . . .
o 23
3.3.4. Elecciń de la red neuronal adecuada: comparaciń entre redes RBF y redes
o o
SOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

Lista de figuras 31

Referencias 32

1

1. Introducciń
o
En este documento se presentan diversos m´todos de transmisiń de informaciń basados en
e o o
redes neuronales y sistemas ca´ticos. Una secuencia ca´tica se caracteriza por presentar un com-
o o
portamiento cuasi aleatorio que, a su vez, se traduce en un espectro de potencia casi plano. De este
modo, si se env´ a trav´s del canal de comunicaciń una secuencia ca´tica, y alguien intercepta tal
ıa e o o
seãl, en principio pensar´ que no se ha transmitido informaciń alguna, es decir, que la secuencia
n ıa o
que ha capturado no es m´s que ruido. Ahora bien, ¿c´mo enviar informaciń empleando como
a o o
“soporte conductor” secuencias ca´ticas? En este trabajo se presentan dos posibilidades:
o
1. Alterar la din´mica del sistema ca´tico de modo que esa desviaciń permita inferir la infor-
a o o
maciń que, de forma oculta, ha sido enviada. A este efecto se presentarń diversos esquemas
o a
que parten de lo expuesto en [5].

2. Asignar a cada uno de los niveles l´gicos de un sistema de comunicaciń una secuencia ca´tica.
o o o
De forma m´s exacta, si en un sistema de comunicaciń la informaciń intercambia resulta
a o o
de la combinaciń de M posibles s´
o ımbolos, donde M = 2l (siendo l el n´mero de bits de
u
informaciń por s´
o ımbolo), nuestro objetivo ser´ asignar a cada uno de esos s´
a ımbolos una
secuencia ca´tica y enviar dicha secuencia a trav´s del canal de comunicaciń.
o e o

2. Estrategias de transmisiń de secuencias ca´ticas basadas
o o
en redes neuronales
La utilizaciń de las redes neuronales como mecanismo para decodificar o codificar-decodificar
o
la informaciń ca´ticamente enmascarada, se basa en el concepto de reconstrucciń din´mica de un
o o o a
cierto mapa ca´tico. Dada una cierta serie temporal, la reconstrucciń din´mica pretende generar
o o a
un modelo capaz de captar la din´mica subyacente. La serie temporal no es sino un conjunto de
a
N muestras de una cierta caracter´ ıstica u observable y(n). La principal motivaciń para realizar
o
una reconstrucciń din´mica es conseguir extraer el sentido f´
o a ısico que la serie temporal posee
inherentemente, sin necesidad de conocer en detalle los formulismos matem´ticos que condensan
a
la din´mica subyacente. Es m´s, en muchas ocasiones dichos sistemas encierran una complejidad
a a
no caracterizable matem´ticamente. La unica informaciń disponible es la derivada a partir de las
a ´ o
diversas muestras de la serie temporal obtenida a partir de un cierto observable del sistema.

2.1. Teorema de los retrasos de Takens
Un resultado fundamental en la teor´ de la reconstrucciń din´mica es el teorema de carćter
ıa o a a
geom´trico debido a Takens [1]. Takens consider´ una situaciń libre de ruido, basada en mapas
e o o
de retrasos coordenados o modelos predictivos construidos a partir de la serie temporal que re-
presentan un cierto observable de un determinado sistema din´mico. Para tener una interpretaciń
a o
del teorema de Takens desde el punto de vista de procesamiento de seãl, se parte de un sistema
n
din´mico cuya evoluciń en tiempo discreto se resume en una ecuaciń diferencial no linear
a o o

x(n + 1) = F (x(n)), (1)

donde x(n) es el vector de estados de d dimensiones del sistema para el instante n, mientras F (•)
es una funciń cuya salida es un vector. Se asume que la tasa de muestreo est´ normalizada a la
o a
unidad. Llamando {y(n)} a la serie temporal observable a la salida del sistema, podemos expresar
la misma como
y(n) = g(x(n)) + ν(n), (2)
donde g(•) tiene por salida un escalar, mientras que ν(n) es un ruido aditivo que modela las impre-
cisiones presentes en el observable y(n). Las ecuaciones (1) y (2) caracterizan el comportamiento
del espacio de estados del sistema din´mico. De acuerdo con el teorema de Takens, la estructura
a
geom´trica del sistema puede ser derivada a partir del observable y(n) con ν(n) = 0 haciendo uso
e
de un espacio D-dimensional generado a partir del vector
T
y R = [y(n), y(n − τ ), . . . , y(n − (D − 1)τ )] , (3)

donde τ es un entero positivo denominado retraso embebido normalizado. Pues bien, Takens de-
mostr´ que dado el observable y(n) para n variable, la reconstrucciń din´mica del sistema es
o o a
posible haciendo uso de un vector y R (n) de dimensiń D tal que D ≥ 2d + 1, donde d es la
o

2

dimensiń del espacio de estados del sistema original. Tal condiciń constituye una condiciń su-
o o o
ficiente pero no necesaria para la reconstrucciń din´mica. El procedimiento mediante el cual se
o a
encuentra un valor adecuado para D recibe el nombre de embebido, mientras que el m´ ınimo entero
que permite alcanzar la reconstrucciń din´mica se designa como dimensiń de embebido o DE ,
o a o
tanto en cuanto las caracter´ısticas del sistema van a ser embebidas o empotradas en un espacio de
dimensiń DE .
o
El teorema de los retrasos de Takens arrastra una implicaciń de gran valor: la evoluciń de
o o
los puntos y R (n) → y R (n + 1) en el espacio de reconstrucciń sigue la desconocida evoluciń del
o o
sistema original xn → x(n + 1). Es decir, muchas propiedades importantes del espacio de estados
no observable xn pueden ser reproducidas sin ambigëdad alguna en el espacio definido por y R (n).
u
Sin embargo, para que este importante y satisfactorio resultado sea alcanzado es necesario estimar
adecuadamente DE , as´ como τ .
ı
Desafortunadamente, el teorema de los retrasos de Takens no dice nada respecto al par´metro
a
τ . Es m´s, permite la utilizaciń de cualquier valor del mismo siempre y cuando el n´mero de
a o u
muestras de la serie temporal sea suficientemente grande. En la prćtica, sin embargo, el tamaõ
a n
del conjunto de datos observables es finito y de longitud igual a N . Una buena elecciń del retraso
o
τ es aquella que hace que y(n) sea independiente respecto a y(n−τ ), permitiendo usar tales valores
como coordenadas del espacio de reconstrucciń. Esta circunstancia se ve satisfecha haciendo uso
o
del valor de τ para el cual la informaciń mutua entre y(n) e y(n − τ ) alcanza su m´
o ınimo [2].
La condiciń suficiente D ≥ 2d + 1 permite deshacer las intersecciones de una cierta ´rbita del
o o
atractor consigo misma, proyectando tal ´rbita sobre un espacio de menor dimensiń. La dimensiń
o o o
de embebido DE puede ser menor que 2d + 1, siendo recomendable estimar su valor usando los
datos observables. Un buen m´todo para la estimaciń de dicha dimensiń es el de los falsos vecinos
e o o
m´s pr´ximos, introducido por [3]. Este m´todo va aumentando en uno la dimensiń de D hasta
a o e o
un cierto valor m´ximo Dmax decidido por el usuario. Para cada valor de D, se construyen, a partir
a
del conjunto de N valores de la serie temporal disponibles, vectores de dimensiń D. Suponiendo
o
un cierto valor para el retraso τ , el n´mero de vectores es V = N/τ (es decir, el primer entero
u
menor que N/τ ) para cada valor de D. Para D = 1, los V vectores de dimensiń 1 son:
o
1
v1 = y(1)
1
v2 = y(1 + τ )
1
v3 = y(1 + 2τ )
.
.
.
1
vV = y(1 + (V + 1)τ ).
Para D = 2 los V vectores serń:
a
2 T
v1 = [y(1) y(2)]
2 T
v2 = [y(1 + τ ) y(1 + 2τ )]
.
.
.
2
vV = [y(1 + (V + 1)τ ) y(2 + (V + 1)τ )] .
Para D gen´rico:
e
D T
v1 = [y(1) y(2) . . . y(D)]
D T
v2 = [y(1 + τ ) y(2 + τ ) . . . y(D + τ )]
.
.
.
D T
vV = [y(1 + (V − 1)τ y(2 + (V − 1)τ ) . . . y(D + (V − 1)τ )] ,
deducińdose que debe cumplirse Dmax < τ y (V − 1)τ + Dmax < N . Una vez construido el
e
conjunto de V vectores asociados a un determinado valor de D, para cada uno de esos vectores se
determina la distancia m´ ınima patente entre ´l y cada uno de los restantes vectores. A continuaciń
e o
se incrementa en uno el valor de D volvińdose a repetir el proceso anterior. Para cada vector,
e
se calcula diferencia entre la m´ınima distancia actual y la previamente calculada para dimensiń o
D − 1. Si el valor absoluto del cociente de esa diferencia partido por la antigua distancia m´
ınima es
mayor que un cierto l´ ımite superior (0.08, por ejemplo) se dice que dicho vector presenta un falso
vecino pr´ximo (mirar figura 1). Para cada valor de D se contabiliza el n´mero de falsos vecinos
o u
m´s pr´ximos, de modo que el valor de DE viene dado por aquel valor de D que lleva asociado un
a o
menor n´mero de falsos vecinos m´s pr´ximos.
u a o

3

10

8

6

x3
4

2

0
4
2
10
0
5@
I
−2
0
@
−4
−5 @
x2
−6
x1 @
Vecinos para dimensiń 2,
o
falsos vecinos para dimensiń 3
o
Figura 1: Falsos vecinos pr´ximos
o

2.2. Dise˜ o de la red neuronal
n
En esta secciń se presentan dos esquemas de codificaciń-decodificaciń basados en la predic-
o o o
ciń de series temporales. Concretamente, se emplean los mapas o redes auto-sintonizables -SOM-
o
basados en el algoritmo “neural-gas”, tanto en cuanto la solvencia de los mismos para tal tipo de
aplicaciń qued´ demostrada en [4]. En los siguientes puntos se presentarń los fundamentos te´ri-
o o a o
cos de las mapas autosintonizables y del algoritmo “neural-gas” para, posteriormente, desarrollar
un m´todo de predicciń de series temporales sustentado en tal tipo de redes y en dicho algoritmo.
e o

2.2.1. Mapas de Kohonen
Los mapas de Kohonen o mapas auto-sintonizables (en ingl´s self-organizing maps -SOM-)
e
constituyen un tipo especial de redes neuronales artificiales. Estas redes estń basadas en un
a
aprendizaje competitivo: las salidas de las distintas neuronas de la red compiten entre ellas para
ser activadas o disparadas, de modo que para una cierta entrada, la salida de la red viene dada por la
salida de una sola neurona o de una neurona por grupo. En un mapa auto-sintonizable las neuronas
se encuentran localizadas en los nodos de una red que suele ser unidimensional o bidimensional.
Las neuronas se ajustan selectivamente a diversos patrones o clases de entradas a lo largo del
proceso competitivo de aprendizaje. En consecuencia, los mapas auto-ajustables se caracterizan
por la creaciń de un mapa topogr´fico de los patrones de entrada, en el cual la localizaciń de las
o a o
neuronas en la red viene determinada por las caracter´ ısticas estad´ısticas asociadas a las distintas
clases de entradas. En la creaciń del tipo de redes que nos ocupan podemos distinguir 4 fases:
o

Fase de inicializaciń
o
Fase competitiva
Fase de cooperaciń
o
Fase de adaptaciń
o

Fase de inicializaciń.o
En esta fase se inicializan los pesos asociados a las distintas neuronas. Esta inicializaciń se va a
o
realizar de forma aleatoria, de modo que cada uno de los pesos ser´ un vector de dimensiń igual
a o
a la dimensiń del espacio de entradas, siendo cada una de sus componentes un n´mero obtenido
o u
a partir de una funciń de distribuciń uniforme entre −1 y 1.
o o

Fase competitiva.
Para cada una de las entradas, cada neurona va a computar una cierta funciń de discriminaciń,
o o
constituyendo esta funciń la base sobre la cual se lleva a cabo la competiciń, ya que la neurona
o o
ganadora ser´ aquella que, para una determinada entrada, hace que el valor obtenido a trav´s de
a e
la funciń de discriminaciń sea m´ximo (con respecto al que determinan el resto de neuronas). Si
o o a

4

denotamos como m a la dimensiń del espacio de entradas, una entrada concreta es un vector tal
o
que
T
x = [x1 x2 . . . xm ] , (4)
mientras que los pesos asociados a la neurona j son

wj = [wj1 wj2 . . . wjm ] , j = 1, 2, . . . , l , (5)

donde l es el n´mero de neuronas en la red. Para encontrar el wj m´s cercano al vector de entrada
u a
T
x, se evalá el producto wj x para j = 1, 2, ..., l y nos quedamos con el m´ximo. Ahora bien,
u a
este criterio de emparejamiento entrada-neurona es equivalente a seleccionar aquella neurona cuya
distancia euclidiana es m´
ınima respecto al vector de entrada. Si usamos el ´
ındice i(x) para identificar
a la neurona m´s parecida al vector de entrada x, dicho ´
a ındice puede ser expresado como

i(x) = arg min x − wj , j = 1, 2, . . . , l . (6)
j

Aquella neurona que satisface (6) se dice que es la ganadora para el vector de entrada x, con lo
que al proceder de este modo se lleva a cabo una aplicaciń de un espacio continuo (espacio de
o
entradas) en un espacio discreto (el de las neuronas).

Fase de cooperaciń. o
La neurona que result´ ganadora en la fase anterior es el centro de una cierta vecindad topol´gica
o o
de neuronas cooperantes. Partiendo de un modelo neuro-biol´gico, aquella vecindad va a ser tal
o
que existe una interacciń lateral entre un conjunto de neuronas excitadas. Con vistas a ser m´s
o a
precisos, se define hj,i como la vecindad topol´gica con centro en la neurona i , mientras que el
o
sub´ındice j se refiere a cada una de las restantes neuronas que constituyen la vecindad. La distancia
lateral entre la neurona ganadora y la neurona excitada j es di,j . La funciń de vecindad hj,i se
o
asume funciń unimodal de la distancia lateral di,j y se caracteriza por
o
Ser una funciń sim´trica respecto a su valor m´ximo dado para di,j = 0, el cual corresponde
o e a
a la neurona ganadora.
Su amplitud decrece mon´tonamente a medida que aumenta di,j , de modo que tiendo a cero
o
cuando di,j → ∞, siendo esta una condiciń necesaria para la convergencia.
o
Se considerar´ que la funciń de vecindad viene dada por una funciń gaussiana
a o o
d2
i,j(x)
− 2(σ(n))2
hi,j(x) = e , (7)

donde
2
d2
i,j(x) = w j(x) − w i (8)
y n
σ(n) = σ0 e− τ1 n = 0, 1, 2 . . . (9)
Es decir, la anchura de la vecindad va a ir disminuyendo con el tiempo desde un cierto valor inicial
σ0 y con un ritmo marcado por la constante de tiempo τ1 .

Fase de adaptaciń.o
En esta fase se produce la adaptaciń de los pesos de las neuronas en funciń de la entrada
o o
actual. El m´todo de adaptaciń que se va a utilizar se basa en el postulado de aprendizaje de
e o
Hebb, con la salvedad de que ahora se incorpora un t´rmino de olvido, con el objeto de evitar que
e
todos las variaciones de los pesos se realicen en la misma direcciń, lo que inducir´ la saturaciń
o ıa o
de los mismos. De este modo, la variaciń de los pesos de las diversas neuronas es
o

∆wj = ηhj,i(x) (x − wj ) (10)

donde el factor de olvido viene dado por ηhj,i(x) wj . De este modo, la ley de actualizaciń de todas
o
las neuronas que caen dentro de la vecindad topol´gica de la neurona ganadora i, vendr´ dada por
o a

wj (n + 1) = wj (n) + η(n)hj,i(x) (x − wj (n)) (11)

Con esta forma de adaptaciń se consigue que los pesos de las neuronas de la red capten la forma,
o
la distribuciń de las entradas, producińdose una ordenaciń topol´gica de la red que, en ultima
o e o o ´

5

instancia, hace que neuronas adyacentes muestren pesos similares. Tal y como refleja (11), la tasa
de aprendizaje η depende del tiempo. De hecho, con el objeto de lograr una buena aproximaciń o
estoc´stica, conviene que tal dependencia sea decreciente, es decir, interesa que η, partiendo de un
a
cierto valor inicial η0 , decrezca gradualmente con el n´mero de iteraciones. Esta exigencia queda
u
satisfecha a trav´s de un decaimiento exponencial de η(n) del tipo
e
n
η(n) = η0 e− τ2 , n = 0, 1, 2 . . . (12)

donde τ2 representa una nueva constante de tiempo. Para concluir con la fase de adaptaciń, es
o
preciso hacer referencia a dos etapas claramente diferenciables de la misma:
Etapa de ordenaciń. o
Es la primera etapa de la fase de ordenaciń y en ella se lleva a cabo la ordenaciń topol´gica
o o o
de los pesos. Esta etapa requiere del entorno de 1000 iteraciones. Se han de tener en cuenta
las siguientes precauciones respecto a la elecciń de la tasa de aprendizaje y de la funciń de
o o
vecindad:
• El valor inicial η0 debe ser pr´ximo a 0.1 y decrecer de modo que siempre est´ por
o e
encima de 0.01, lo que se consigue mediante η0 = 0.1 y τ2 = 1000.
• La funciń de vecindad inicialmente debe incluir casi todas las neuronas en la red centra-
o
da en la neurona ganadora i, para despu´s decrecer lentamente con el tiempo. De forma
e
m´s espec´
a ıfica, durante aproximadamente las primeras 1000 iteraciones del algoritmo,
hj,i (n) se reduce de manera que finalmente dicha funciń de vecindad abarca solo un
o
par de neuronas en torno a la neurona ganadora (puede que s´lo incluya a ´sta). Por
o e
1000
consiguiente, dado un cierto valor inicial σ0 tendremos τ2 = log σ0 .
Etapa de convergencia.
En esta fase se lleva a cabo una sintonizaciń del mapa respecto del espacio de entradas
o
de forma m´s precisa. De forma general, esta etapa debe extenderse durante un n´mero de
a u
iteraciones cercano a 500 veces el n´mero de neuronas en la red. Por tanto, esta etapa de
u
convergencia puede dilatarse hasta alcanzar miles, e incluso decenas de miles de iteraciones.
El siguiente par de aclaraciones merecen ser reseãdas:
n
• Con vistas a alcanzar una cierta exactitud estad´ ıstica, conviene que η(n) mantenga
durante esta fase un valor pequeõ del orden de 0.01. Bajo ninguna circunstancia debe
n
permitirse que decrezca hasta cero, pues de lo contrario puede que la red quede atascada
en un estado meta-estable.
• La funciń de vecindad hj,i(x) debe incluir tan s´lo las neuronas vecinas m´s pr´ximas,
o o a o
las cuales se reducirń finalmente a una sola o ninguna.
a

2.2.2. Algoritmo “neural-gas”
Es una variante de los mapas de Kohonen y aparece recogida en [4]. Ahora cada vez que se
presenta una nueva entrada a la red, en lugar de buscar la neurona ganadora como se hacia en
el anterior algoritmo, se establece un “ranking” de vecindad, es decir, se ordenan los distintos
pesos asociados a cada una de las neuronas del mapa de menor a mayor proximidad respecto de
la actual entrada. De este modo, para una cierta entrada x el conjunto ordenado de l pesos queda
(w0 (i), w1 (i), . . . , wl−1 (i)), siendo w0 (i) los pesos de la neurona m´s cercana a x en el sentido de
a
distancia euclidiana y para la i-´sima iteraciń del algoritmo, w1 los pesos de la segunda neurona
e o
m´s cercana a x para la i-´sima iteraciń del algoritmo y as´ sucesivamente. Pues bien, la funciń
a e o ı o
de vecindad a emplear se define a partir del “ranking” construido como

hλ (kj (x, w)) = e−kj (x,w)/λ , j = 0, 1, . . . , l − 1 (13)

donde kj (x, w) es cero para la nuerona asociada con w0 (i), 1 para la neurona asociada con w1 (i), . . . ,
l − 1 para la neurona asociada con wl−1 (i). La constante λ va a determinar la tasa de decaimiento
de la funciń de densidad. Al igual que se rese˜´ para la constante σ involucrada en el algoritmo de
o no
Kohonen, resulta recomendable hacer λ dependiente del tiempo de modo que decrezca con el mismo
, consiguiendo de este modo una progresiva contracciń de la vecindad. Un modo de conseguir esto
o
es haciendo
λ(n) = λi · (λf /λi )n/nmax (14)
donde λi y λf representan el valor inicial y final, respectivamente, del par´metro λ, los cuales se
a
determinarń experimentalmente mediante el mecanismo de prueba-error, mientras que nmax es el
a

6

n´mero m´ximo de iteraciones a realizar. En consecuencia, la nueva funciń de vecindad conduce
u a o
a una funciń de adaptaciń de los pesos dada por
o o

∆wj (i + 1) = · hλ (kj (x, w)) · (x − wj (i)), j = 0, 1, . . . , l − 1 (15)
wj (i + 1) = wj (i) + ∆wj (i + 1), j = 0, 1, . . . , l − 1 (16)

Teniendo en cuenta las consideraciones hechas sobre la fase de adaptaciń en el caso de los mapas
o
de Kohonen, se estima conveniente expresar la tasa de aprendizaje como
n/nmax
(n) = i( f / i) . (17)

2.2.3. Predicciń de series temporales
o
El objetivo es aproximar de forma adaptativa la funciń y = f (v) con v ∈ V ⊂ RD e y ∈ R.
o
V denota la regiń dominio de la funciń. La red a diseãr consta de S neuronas, cada una de las
o o n
cuales lleva asociado un vector de pesos wi , un escalar yi y un vector D-dimensional ai . Los pesos
de neuronas son los vectores de D dimensiones que resultan de aplicar el algoritmo “neural-gas” al
conjunto de vectores de entrada v, los cuales se construyen a partir de la serie temporal teniendo
en cuenta los valores ´ptimos para D y τ segń lo expuesto en el apartado 2.1. De esta forma, si la
o u
serie-temporal es un mapa ca´tico descrito como xn+1 = g(xn , xn−1 , . . . , xn−m , γ), los vectores
o
de entrada se construyen como:
T
v1 = x1+(D−1)τ x1+(D−2)τ . . . x1+τ x1
T
v2 = x1+Dτ x1+(D−1)τ . . . x1+2τ x1+τ
.
.
.
T
vk = x1+(D+k−2)τ x1+(D+k−3)τ . . . x1+kτ x1+(k−1)τ
.
.
.

Este conjunto de vectores determinan el espacio de entrada V , el cual es dividido por medio del
algoritmo “neural-gas” en S regiones Vi (conocidas como poliedros de Voronoi), a cada una de
las cuales se asocia la neurona i del mapa neuronal diseãdo. Por su parte, los coeficientes yi y
n
los vectores ai permiten definir, para cada uno de los poliedros de Voronoi, una aplicaciń linear
o
RD → R mediante
y = yi + ai (v − wi )
˜ (18)
o a ˜ ˜
La funciń y = f (v) ser´, pues, aproximada por medio de y = f (v) con

˜
f (v) = yi(v) + ai(v) v − wi(v) (19)

denotando i(v) la unidad computacional i con su wi m´s pr´ximo a v. En orden a aprender la
a o
aplicaciń entrada-salida, se llevan a cabo una serie de fases de entrenamiento presentando a la
o
red parejas de entrada-salida (v k , y = f (v k )), donde y = x1+(D+k−1)τ . Los vectores de referencia
son ajustados haciendo uso del algoritmo “neural-gas”, mientras que los par´metros ai e yi son
a
obtenidos mediante un proceso iterativo, de modo que en cada iteraciń aquellos par´metros se
o a
actualizan siguiendo la direcciń contraria a la dada por el gradiente, respecto de ai e yi , de la
o
funciń de error existente entre y e y . Pues bien, la actualizaciń, cuya deducciń y justificaciń
o ˜ o o o
se puede encontrar en [4], es:

∆yi = · hλ (ki (v, w))(y − yi ) (20)
∆ai = · hλ (ki (v, w)) (21)

con lo que yi+1 = yi + ∆yi , ai+1 + ∆ai .

2.3. Estrategias de transmisiń ca´tica v´ redes neuronales
o o ıa
Se analizarń dos esquemas de codificaciń-decodificaciń de la seãl v´ caos y haciendo uso
a o o n ıa
de las redes neuronales reciń presentadas:
e

7

Modulaciń ca´tica (codificaciń LM )/decodificaciń mediante inversiń
o o o o o
Responde al esquema indicado en [5]. La codificaciń de la informaciń se efectá a trav´s del
o o u e
mapa log´
ıstico segń
u

xk = rk xk−1 (1 − xk−1 ) (22)
rk = 3.9757 + 0.0145Ik (23)

de modo que Ik se obtiene normalizando la seãl original de voz sk de forma que |Ik | < 1 para
n
todo k. Respecto a la decodificaciń, se lleva a cabo por simple inversiń:
o o
est
rk = xk /(xk−1 (1 − xk−1 )) (24)
est est
Ik = (rk − 3.9757)/0.0145. (25)

El problema de este m´todo es su sensibilidad respecto al ruido existente en el canal de comuni-
e
caciń.
o

Modulaciń ca´tica/decodificaciń v´ algoritmo LMS
o o o ıa
La codificaciń de la informaciń tambiń se efectá mediante (22). Por su parte, la decodificaciń
o o e u o
de la informaciń se consigue por medio del algoritmo LMS. Para ello se define el error como
o
est
ek = xk+1 − rk xk (1 − xk ) , (26)

con lo que la funciń a minimizar ser´
o a
1 2
ξ= e . (27)
2 k
est
El gradiente de (27) respecto a rk es
1 est
ξ = 2 ek ek = ek [−xk (1 − xk )] = − xk − rk xk (1 − xk ) xk (1 − xk ), (28)
2
resultando la siguiente estimaciń del par´metro de bifurcaciń
o a o
est est est
rk+1 = rk + µxk−1 (1 − xk−1 ) xk+1 − rk xk−1 (1 − xk−1 ) , (29)
est
donde se considera r0 = 3.9757 y 0 < µ < 2/var(xk (1 − xk )).

Realimentaciń din´mica -Dynamic Feedback, DF-
o a
Partiendo de los resultados obtenidos en [6], se propone un sistema de codificaciń que, usando
o
el mapa log´ıstico, va a modular la seãl a transmitir como
n

xk = xk−1 · r · (1 − xk−1 ) + 0.005 · Ik (30)

con |Ik | < 1 y r = 3.8. Para la decodificaciń se hace
o
est
Ik = 200 · (xk − xk−1 · r · (1 − xk−1 )). (31)

Modulaciń ca´tica/decodificaciń mediante predicciń no linear (decodificaciń NLP)
o o o o o
De nuevo la codificaciń de la informaciń se efectá mediante (22). Considerando τ = 1 y D = 3
o o u
(m´ınimo valor exigido por el teorema de Takens), se efectá una predicciń no linear del mapa
u o
ca´tico xpred = fSOM −gas−N LP (xk , xk−1 , xk−2 ), lo que permite decodificar la seãl recibida medi-
o k+1 n
ante el modelo de predicciń no linear:
o
est
rk = xest /(xpred (1 − xpred ))
k+1 k k k = 3, . . . (32)
est est
Ik = (rk − 3.9757)/0.0145. (33)

Codificaciń-decodificaciń mediante realimentaciń din´mica v´ SOM-gas: esquema
o o o a ıa
SOM-gas-DF
Ahora en lugar de proyectar el atractor original sobre un espacio D-dimensional, se va a generar
una serie temporal pseudoca´tica haciendo uso de la aproximaciń local del sistema din´mico
o o a
original mediante redes SOM basadas en el algoritmo “neural-gas”. El esquema de codificaciń- o
decodificaciń queda
o

xk = fSOM −gas−DF (xpred , xpred , . . . , xpred ) + 0.3IK
k−1 k−2 k−D (34)
10
est
Ik = (xk − fSOM −gas−DF (xk−1 , xk−2 , . . . , xpred ))
pred pred
k−D (35)
3

8

donde |Ik | < 1. Con este esquema es posible alcanzar una perfecta reconstrucciń de la din´mica
o a
asociada al atractor pseudo-ca´tico generado por el transmisor, consiguiendo una reducciń del
o o
ruido, tanto en cuanto se lleva a cabo una proyecciń de la seãl recibida sobre un espacio de
o n
dimensiń D finita, mientras que el espacio de estados asociado al ruido es de dimensiń infinita
o o
(infinitos grados de libertad). Esta proyecciń, precisamente, es la que permite usar un valor, a
o
primera vista elevado, para el coeficiente que multiplica la seãl de voz en la codificaciń.
n o

2.4. Simulaciones: resultados y conclusiones
Siguiendo lo desarrollado en 2.1, se analiz´ el mapa log´
o ıstico para r = 3.97 y valor inicial 0.5. La
informaciń mutua existente entre la seãl y ella misma desplazada temporalmente, para valores
o n
de desplazamiento temporal entre 1 y 20, aparece e

1.8

1.6

1.4

1.2
Información mutua

1

0.8

0.6

0.4

0.2

0

−0.2
0 5 10 15 20 25 30
τ

Figura 2: B´squeda de τ mediante informaciń mutua
u o

Por otro lado, el an´lisis de los falsos vecinos conduce a los resultados sintetizados en la figura
a
3, los cuales llevan a concluir DE = 4.

Dimensiń de embebido
o

Figura 3: Porcentaje de falsos vecinos en funciń de la dimensiń de embebido para el mapa log´
o o ıstico
con r = 3.97 y τ = 14

2.4.1. Comparaciń entre los diversos esquemas de codificaciń-decodificaciń para
o o o
un canal de comunicaciń con ruido
o
Se van analizar las tćnicas de codificaciń-decodificaciń previamente presentadas para cinco
e o o
seãles de voz, las cuales aparecen en la figura 4. Si denominados Ik a la seãl de voz original, e ik
n n
la seãl de voz estimada, la figura que se va a utilizar para medir las prestaciones de los diversos
n
m´todos a analizar ser´
e a
2
Ik
SN Rsig = 10 log10 (36)
(ik − Ik )2

9

es decir, SN Rsig aumenta a medida que disminuye el error en la estimaciń, esto es, a medida
o
que mejoran las prestaciones de un cierto m´todo de codificaciń-decodificaciń. El mejor m´todo
e o o e
ser´ aquel para el cual (36) es m´ximo. Ahora bien, para determinar dicho m´todo ser´ preciso
a a e a
simular el comportamiento de los diversos esquemas para varios valores de la relaciń seãl a ruido
o n
(SN R) en el canal de comunicaciń. Los resultados que se obtuvieron para cada una de las seãles
o n
de voz previamente citadas aparecen en la figura 5.

1

0.8

0.6
Amplitud normalizada

0.4

0.2

0

−0.2

−0.4

−0.6

−0.8
0 1 2 3 4 5 6 7 8 9 10
(a) 4
x 10

1


0.5
0.5
0
0

−0.5 −0.5

−1
1000 2000 3000 4000 1000 2000 3000 4000
(b) (c)

1 1


0.5 0.5

0 0

−0.5 −0.5

−1 −1
0 2000 4000 6000 8000 0 2000 4000 6000
(d) (e)

Figura 4: Seãles normalizadas empleadas en las simulaciones
n

En las simulaciones realizadas, la red neuronal utilizada en la predicciń temporal consta de
o
200 neuronas, habińdose entrenado la misma durante 400 ´pocas, siendo una ´poca la fase del
e e e
entrenamiento durante la cual se presentan a la red cada una de las parejas entrada-salida, con
lo que cada una de esas parejas es presentada a la red 400 veces. Los tres m´todos que mejores
e
resultados presentan son el SOM − gas − DF , codificaciń v´ mapa log´
o ıa ıstico (LM ) - decod-
ificaciń bien v´ algoritmo LM S bien v´ predictor no linear basado en una red SOM − gas
o ıa ıa
(esquema SOM − gas − N LP ), siendo clara la superioridad del m´todo basado en la codificaciń-
e o
decodificaciń mediante realimentaciń din´mica (Dynamic Feedback ) v´ redes SOM − gas (es-
o o a ıa
quema SOM − gas − DF ). Tal superioridad se da tanto para SN R baja como alta. Adem´s, a
SN Rsig para SOM − gas − DF depende linealmente de la relaciń seãl a ruido en el canal de
o n
comunicaciń, de modo que la superioridad de este esquema respecto a los otros dos crece a medida
o
que se incrementa SN R, ya que en el caso de codificar mediante el mapa log´ ıstico y decodificar
usando el algoritmo LM S, SN Rsig es independiente de SN R para SN R superior a unos 30 dBs,
circunstancia que tambiń se observa cuando se decodifica usando el esquema SOM − gas − N LP
e
para SNR mayor que unos 10 dBs, factor ´ste que hace que para SNR suficientemente elevada un
e
esquema de codificaciń-decodificaciń mediante realimentaciń din´mica mejore las prestaciones
o o o a

10

de estos dos m´todos.
e

0

−20

−40

−60

SNRsig

−80 Cod. LM / Decod. inversión
Cod. LM / Decod. LMS
Cod. DF /Decod. DF
−100 Codif. LM/Decod. NLP−gas
Cod. DF−gas/Decod. DF−gas

−120

−140

−160
1 2 3 4 5 6 7 8 9
SNR dBs
(a)

0 20

0

−20
−50
−40
SNRsig

SNRsig

−60

−80
−100
−100

−120

−150 −140
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
SNR dBs SNR dBs
(b) (c)

20 20

0 0

−20 −20

−40 −40
SNRsig

SNRsig

−60 −60

−80 −80

−100 −100

−120 −120

−140 −140
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
SNR dBs SNR dBs
(d) (e)

Figura 5: Simulaciones con los distintos esquemas de codificaciń-decodificaciń para las cinco
o o
seãles
n

Una vez comentada la superioridad del esquema SOM −gas−DF respecto a los cuatro restantes
m´todos expuestos, es necesario realizar una puntualizaciń. En las simulaciones mostradas m´s
e o a
arriba, la red neuronal utilizada consta de 200 neuronas, las cuales se entrenaron durante 400
´pocas. Ahora bien, si, por ejemplo, nos centramos en los resultados obtenidos al considerar como
e
seãl de voz la que aparece en la figura 4 (e), y aplicamos el esquema de codificaciń SOM −
n o
gas − DF , se observa que conviene reducir el n´mero de neuronas hasta 50, tanto en cuanto
u
se consigue aumentar SN Rsig (mirar figura 6). Asimismo, la figura 7 muestra la conveniencia
de reducir el n´mero de ´pocas en la fase de entrenamiento a tan s´lo 200. De este modo, con
u e o
menos neuronas y menos ´pocas de entrenamiento de las que se ten´ originalmente, se consiguen
e ıa
mejores resultados debido al efecto de lo que se conoce con el nombre de sobre-entrenamiento y
sobre-dimensionamiento.

11

Figura 6: Comparativa n´mero de neuronas y ´pocas en el entrenamiento de una red SOM basada
u e
en el algoritmo neural-gas

En efecto, el proceso de aprendizaje o entrenamiento de una red neuronal puede ser consid-
erado como un problema de interpolaciń no linear, de modo que la red no s´lo ha de ser capaz
o o
de generar la salida correspondiente a cada una de las entradas empleadas en la fase de entre-
namiento, sino que adem´s deber´ determinar adecuadamente la salida correspondiente a entradas
a a
diferentes de aquellas. Por ello se dice que la red neuronal debe realizar una interpolaciń o, mejor,
o
una generalizaciń a partir de los datos que proces´ durante el proceso de aprendizaje. Una buena
o o
generalizaciń exige entrenar la red durante un n´mero suficientemente elevado de ´pocas. Ahora
o u e
bien, si dicho n´mero de ´pocas es excesivamente elevado, puede que la red aprenda ciertas carac-
u e
ter´ısticas presentes en el conjunto de parejas entrada-salida empleadas en la sesiń de aprendizaje,
o
las cuales pueden ser originadas por eventos no deseados tales como el ruido. A esto es a lo que se
llama problema del sobre-entrenamiento, el cual conduce a una pobre generalizaciń. Por otro lado,
o
puede que aunque el n´mero de ´pocas elegido sea el adecuado para lograr buenos resultados, la
u e
generalizaciń finalmente obtenida sea pobre debido a que el n´mero de neuronas es excesivamente
o u
elevado. Esto es, si el n´mero de neuronas de la red neuronal es demasiado grande, la red est´ ca-
u a
pacitada para “aprehender” el ruido que, de forma inherente, se halla presente en el conjunto de
pares entrada-salida de la fase de aprendizaje. Por tanto, a la hora de elegir el n´mero de neuronas
u
de la red se aplicar´ el principio de la navaja de Occam: elegir la funciń de interpolaciń no linear
a o o
m´s simple, es decir, la red con menor n´mero de neuronas tal que el comportamiento del sistema
a u
sea aceptable. En el caso que nos ocupa el principio de Occam se traduce en limitar a 50 el n´mero
u
de neuronas de la red, mientras el problema de sobre-entrenamiento hace recomendable limitar el
proceso de entrenamiento a unas 200 ´pocas aproximadamente.
e

Figura 7: Comparativa n´mero ´pocas en el entrenamiento de una red SOM basada en el algoritmo
u e
neural-gas y con 50 neuronas

12

3. Sistema de comunicaciń basado en un esquema de m´ lti-
o u
ples niveles ca´ticos
o
Sabemos que un mapa ca´tico viene dado por una expresiń del tipo xn+1 = f (xn , xn−1 , . . . , γ),
o o
donde γ representa el par´metro o conjunto de par´metros que determinan la din´mica del sis-
a a a
tema, junto con las condiciones iniciales. Pues bien, se pretende construir un sistema de m´ltiples
u
niveles l´gicos (M = 2l niveles l´gicos, siendo l el n´mero de bits por nivel), de modo que a cada
o o u
uno de ellos se asocia una cierta seãl ca´tica generada como xn+1 = fi (xn , xn1− , . . . , γj ), con
n o
i = 1, 2, . . . , K y j = 1, 2, . . . , mk satisfaciendo m1 + m2 + . . . + mk = M . Si definimos
∞ m0 +β+1
ck (t) = fi (xm , xm−1 , . . . , γj ) × rectTc (t − (n − n0 )TM + (m − m0 )Tc )
n=n0 m=m0

k = 1, 2, . . . , M (37)

donde

1 0 ≤ t ≤ Tc
rectTC = (38)
0 |t| > Tc

Por otro lado, se cumple

1≤ k ≤ m1 ⇒ i = 1
m1 < k ≤ m2 ⇒ i = 2
.
.
. (39)
mk−1 < k ≤ mk ⇒ i = K (40)

El esquema de comunicaciń propuesto es el que recoge la figura 8.
o

´1`=qd
)t(1c rotpeceR
)t(n
)t(s nóicnuf olucláC
)t(2c :nóicalerrocotua DER
´2`=qd )t(p MT adac oeteser LANORUEN olobmíS
sodnuges
odacifidoced

)t(Mc
´M`=qd

Figura 8: Sistema de comunicaciń basado en m´ltiples niveles ca´ticos
o u o

(k)
Si definimos xn+1 = fi (xn , xn−1 , . . . , γj ) como la seãl ca´tica asociada al s´
n o ımbolo ‘k’(con k
cumpliendo 40), la seãl que se transmite por el canal de comunicaciń correspondiente al s´
n o ımbolo
q−´simo dq de una cierta secuencia de s´
e ımbolos es

β−1 (1)


 x rectTc (uTc + (q − 1)TM ] si dq = ‘1
u=0 u+(q−1)β

β−1


 (2)
 xu+(q−1)β rectTc (uTc + (q − 1)TM ] si dq = ‘1
(q)
v (t) = u=0 (41)

 .

 .
.

β−1



 (M )
 xu+(q−1)β rectTc (uTc + (q − 1)TM ] si dq = ‘M
u=0

El receptor va a muestrear el canal de comunicaciń cada Tc segundos. Si TM es el tiempo durante
o
el cual se transmite un s´
ımbolo, y Tb es el tiempo asociado a un bit de informaciń, tenemos que
o
TM = l×Tb , siendo l el n´mero de bits por s´
u ımbolo. Por su parte, β es el factor de esparcimiento
o ensanchamiento del espectro y se cumple TM = βTc , donde Tc es el tiempo de chip, es decir,
el tiempo durante el cual se transmite una muestra de una cierta seãl ca´tica. Suponiendo que
n o
existe sincronizaciń entre emisor y receptor, tras TM segundos el receptor ha recogido todas las
o

13

muestras de la seãl ca´tica asociadas al s´
n o ımbolo transmitido. Pues bien, a ese conjunto de β
muestras se le calcula la funciń de autocorrelaciń, la cual servir´ de criterio para que una red
o o a
neuronal, convenientemente entrenada, decida cu´l es el s´
a ımbolo que se transmiti´. Ahora bien,
o
¿por qu´ utilizar una red neuronal? La respuesta es simple: el decidir qu´ s´
e e ımbolo se ha transmitido
es un problema de clasificaciń, basado en la observaciń de la funciń de autocorrelaciń de la seãl
o o o o n
recibida durante cada instante de tiempo TM , y la solvencia de la aplicaciń de redes neuronales
o
a problemas de clasificaciń est´ m´s que demostrada, pudiendo encontrarse un gran n´mero de
o a a u
ejemplos en [7] y [8].

3.1. Elecciń del conjunto de se˜ ales ca´ticas a transmitir
o n o
Una vez presentado el esquema general, la siguiente labor a acometer es la de decidir e conjunto
de M seãles ca´ticas van a ser transmitidas a trav´s del canal de comunicaciń. Los mapas ca´ticos
n o e o o
con los que se trabaj´ son
o
Mapa log´
ıstico:

xn+1 = rxn (1 − xn )
0≤r<4 (42)

Mapa senoidal:

xn+1 = (a/4)sen (πn)
0≤a≤4 (43)

Mapa de Henon:

xn+1 = yn + 1 − ax2
n (44)
yn+1 = byn (45)

Mapa de Duffing:

xn+1 = yn (46)
3
yn+1 = −bxn + ayn − yn (47)

En el caso de los dos mapas bidimensionales considerados, la variable sobre la que se traba-
jar´ ser´ xn .
a a
Para cada uno de aquellos mapas se determinaron los valores del par´metro o par´metros din´mi-
a a a
cos que hacen que el comportamiento del sistema fuera ca´tico. Para ello, se efectó un an´lisis
o u a
del exponente de Lyapunov con objeto de hallar el valor m´ ınimo que asegura un comportamiento
ca´tico. En principio, un valor positivo de dicho exponente asegura un comportamiento como el
o
deseado. Ahora bien, el procedimiento aplicado para su determinaciń es de corte aproximado, por
o
lo que es preciso buscar esa cota inferior por encima de la cual estamos en condiciones de garantizar
que la din´mica del sistema es ca´tica.
a o
Dado que no vamos a transmitir todas las seãles ca´ticas, lo que se trata es de establecer
n o
un criterio, un mecanismo que nos permita seleccionar M de aquellas seãles. La red neuronal
n
a diseãr va a clasificar las sucesivas seãles recibidas examinando la funciń de autocorrelaciń
n n o o
asociada a cada una de ellas. Por tanto, conviene de alguna manera sintetizar todas las funciones
de autocorrelaciń de las seãles ca´ticas por medio de M de ellas. Dicho de otro modo, conviene
o n o
agrupar las funciones de autocorrelaciń asociadas al conjunto total de seãles ca´ticas en M
o n o
grupos distintos. Fruto de este agrupamiento, el espacio de las funciones de autocorrelaciń queda
o
dividido en M hiper-esferas. A continuaciń, para cada una de esas hiper-esferas se selecciona la
o
seãl ca´tica cuya funciń de autocorrelaciń est´ m´s pr´xima al centro de la misma. Se elige el
n o o o a a o
centro de la hiper-esfera para conseguir una mayor protecciń con respecto al ruido presente en el
o
canal de comunicaciń. Al recibir la seãl y calcular su funciń de autocorrelaciń, el ruido presente
o n o o
en el canal de comunicaciń altera la misma. Ahora bien, si esa alteraciń no es lo suficientemente
o o
grande como para que la funciń de autocorrelaciń “salga” de la hiper-esfera a la que estaba
o o

14

originalmente asociada, la red neuronal en principio clasificar´ adecuadamente la seãl recibida. A
a n
la hora de proceder con el agrupamiento de las funciones de autocorrelaciń, los puntos a tener en
o
cuenta son:
Elegir un m´todo adecuado. Se van a analizar 3 m´todos:
e e

• Mapas de Kohonen (ver 2.2.1).
• El algoritmo “neural-gas”(ver 2.2.2).
• El algoritmo EM.

N´mero de muestras de la funciń de autocorrelaciń que se van a tener en cuenta.
u o o
N´mero m´ximo de grupos o clusters que se pueden crear.
u a

3.1.1. Algoritmo EM
Este algoritmo considera el problema de agrupamiento como un problema de b´squeda de la
u
funciń de distribuciń de una cierta variable aleatoria x, a partir de N muestras de la misma.
o o
Dicha funciń de distribuciń puede ser aproximada de 3 maneras distintas [8]:
o o
1. Mediante una aproximaciń param´trica
o e
Se asume una forma espec´ıfica para la funciń de distribuciń, la cual puede ser muy distinta
o o
de la verdadera. Sin embargo, este tipo de modelos permiten evaluar de forma muy fćil la
a
funciń de probabilidad para nuevos valores de x.
o

2. Mediante una aproximaciń no param´trica
o e
En este caso se trabaja con funciones de distribuciń generales, lo que se traduce en un modelo
o
cuya complejidad crece con el n´mero de datos empleados en la fase de entrenamiento, lo
u
que hace que sea muy complejo evaluar nuevas entradas.

3. Mediante modelos mixtos
Este tipo de modelos combinan las ventajas de los anteriores, de ah´ que se diga que son
ı
m´todos semi-param´tricos. En un modelo mixto la funciń de distribuciń de los datos de
e e o o
entrada es modelada como
M
p(x) = p(x|j)P (j) (48)
j=1

y se denomina distribuciń mixta. Los coeficientes P (j) con los par´metros mixtos. Estos
o a
par´metros deben cumplir
a
M
P (j) = 1 (49)
j=1

0 ≤ P (j) ≤ 1 (50)

p(x|j)dx = 1 (51)

Todos los modelos mixtos que aqu´ se citan se basan en el concepto de funciń de verosimilitud.
ı o
Si los par´metros que definen el modelo se designan como θ la funciń de verosimilitud para cada
a o
una de las funciones base del modelo (p(x|θ) es
N
L(θ) ≡ p(x|θ) = p(xn |σ) (52)
n=1

El objetivo ser´ maximizar esta funciń para el conjunto de las M funciones base. Sin embargo, es
a o
m´s habitual trabajar con la expresiń equivalente
a o

E = − ln(L(θ)) (53)

lo que lleva a  
N N  M 
E = − ln(L) = − ln p(xn ) = ln p(xn |j)p(j) (54)
 
n=1 n=1 j=1

15

Si suponemos que cada una de las funciones base es gaussiana
2
||x−µj ||
1 −
2σ 2
p(x|j) = 2 )d/2
e j (55)
(2πσj

se podr´ pensar en buscar los par´metros µj , σj y P (j) que minimizan la expresiń (54). El
ıa a o
problema es que los datos de entrada no estń etiquetados, esto es, no se sabe a qu´ clase pertenecen
a e
a priori, con lo que maximizaciń directa de la funciń de verosimilitud lleva a un problema de
o o
optimizaciń no lineal sin soluciń anal´
o o ıtica. Pues bien, el algoritmo EM [9] pretende solventar
esta circunstancia. Supongamos que tenemos un conjunto de datos completo, es decir, para cada
entrada xn se conoce la componente del modelo mixto que la genera. Dicho de otro modo, cada
entrada xn lleva asociada una variable z n que toma un valor entero comprendido entre 1 y M .
Dicho valor indica la componente del modelo que genera la entrada en cuestiń. Por tanto, la nueva
o
funciń de error a minimizar vendr´ dada por
o a
N N
E comp = − ln Lcomp = − ln pnueva (xn , z n ) = − ln {pnueva (z n )pnueva (xn |z n )} . (56)
n=1 n=1

Ahora bien, el valor de pnueva (z n ) no es conocido. El primer ser´, pues, calcular de forma aproxi-
a
mada lso valores de los par´metros del modelo mixto (los valores “viejos”) y despu´s usarlos junto
a e
con el teorema de Bayes para encontrar la probabilidad asociada a z n . Este valor ser´ utilizado
a
para determinar el valor esperado de E comp en la fase de c´lculo de esperanzas o fase E del al-
a
goritmo EM . Despu´s de esto, en la fase de maximizaciń o fase M el valor esperado de (56)
e o
permite encontrar los nuevos par´metros del modelo. El m´todo es sintetizado matem´ticamente
a e a
a continuaciń
o
M M N
E [E comp ] = ··· E comp pvieja (z n |xn ) (57)
z 1 =1 z N =1 n=1
N M
E comp = − δjzn ln {pnueva (j)pnueva (xn |j)} . (58)
n=1 j=1

Sustituyendo (58) en (??), y teniendo en cuenta
M
pvieja (z|xn ) = 1 (59)
z=1

se llega a
N M
E [E comp ] = − pvieja (j|xn ) ln {pnueva (j)pnueva (xn |j)} (60)
n=1 j=1

cuya minimizaciń conduce a los nuevos par´metros del modelo
o a
N
1
pnueva (j) = pvieja (j|xn ) (61)
N n=1
N 2
pvieja (j|xn ) xn − µnueva
j
nueva 2 1 n=1
σj = (62)
p N
pvieja (j|xn )
n=1
N
pvieja (j|xn )xn
n=1
µnueva
j
= N
(63)
pvieja (j|xn )
n=1

El algoritmo EM es iterado hasta que se alcanza un cierto valor umbral m´ ınimo para (57), o
hasta que se alcance un cierto n´mero de iteraciones, segń se prefiera. Tras esta operaciń se
u u o
habr´ conseguido dividir el espacio de entradas en M hiper-esferas con centro µj y radio σj . El
a
representante de la clase j es aquel vector xn1 tal que

p(j)p(xn1 |j) > p(j)p(xn |j) ∀n = n1 (64)

16

3.2. Clasificaciń de la se˜ al recibida: dise˜ o de una red neuronal
o n n
Hasta este punto hemos obtenido las M seãles ca´ticas que van a constituir el sistema de
n o
comunicaciń, con lo que el siguiente paso ser´ crear un sistema que, observando la funciń de
o a o
autocorrelaciń de la seãl obtenida a la entrada del receptor tras TM muestreando a una tasa
o n
de Tc segundos. Tal y como se rese˜´ anteriormente, tal problema no es m´s que una problema
no a
de clasificaciń donde la figura a clasificar es la funciń de autocorrelaciń. Por ello, dada la
o o o
solvencia de las redes neuronales en problemas de clasificaciń, esta ser´ la herramienta a emplear
o a
en la decodificaciń de la informaciń enviada a trav´s del canal enmascarada mediante caos. En
o o e
concreto, se van a presentar y, posteriormente, analizar mediante simulaciones 2 tipos de redes
neuronales:
1. Mapas auto-sintonizables o mapas SOM (Self-Organizing Maps).
Ejemplos de la solvencia de los mapas SOM en problemas de clasificaciń pueden encontrarse
o
en [10]-[13], donde se utiliza tanto el modelo de Kohonen como el algoritmo “neural-gas”.
El entrenamiento de los mapas SOM se lleva a cabo del mismo modo que se indic´ en 2.2.1
o
en el caso de trabajar con mapas de Kohonen, o bien como se rese˜´ en 2.2.2 en el caso de
no
emplear el algoritmo “neural-gas”. De forma sucinta, se calcula un conjunto de p muestras de
la funciń de autocorrelaciń de un grupo suficientemente grande de seãles ca´ticas para, a
o o n o
continuaciń, llevar a cabo un proceso de clustering o agrupamiento del espacio
o
p-dimensional generado a partir de la funciń de autocorrelaciń. De este modo, la “esencia”
o o
de la din´mica de aquel espacio p-dimensional queda concretada en M neuronas, cada una
a
de las cuales lleva asociado un peso de dimensiń p. Tras el proceso de entrenamiento, y
o
una vez etiquetas las distintas neuronas del mapa, el receptor dispone de un mecanismo que
va a clasificar el conjunto de β muestras recibidas durante un intervalo de duraciń TM ,
o
atendiendo a la proximidad, respecto de cada neurona, de las p primeras muestras de la
funciń de autocorrelaciń asociada a aquellas β muestras de la seãl recibida. Esto es, el
o o n
receptor considera que ha recibido el s´
ımbolo i-´simo cuando la neurona i del mapa neuronal
e
es aquella cuyo vector de pesos es el m´s cercano eucl´
a ıdianamente al vector determinado por
los p primeros valores de la funciń de autocorrelaciń de las β muestras recibidas.
o o
2. Redes neuronales artificiales basada en funciones radiales base (redes RBF-ANN ).
Las redes RBF-ANN ha sido aplicadas exitosamente en el modelado de secuencias ca´ticas o
basadas en el mapa log´ ıstico [14]-[16], as´ como en problemas de clasificaciń y quantizaciń
ı o o
del espacio de entradas

3.2.1. Entrenamiento de las redes artificiales basadas en funciones radiales base
(RBF-ANN)
La arquitectura de este tipo de redes viene dada por la figura 9, donde
T
R−1 (x−ci )
ϕi (x) = e(x−ci ) i i = 1, 2, . . . , S (65)
son las funciones base, con lo que el entrenamiento de la red se traduce en la b´squeda de los centros
u
ci , de las matrices Ri y de los distintos pesos. Con respecto a las matrices Ri , serń consideradas
a
diagonales con elementos idńticos e iguales a ri , esto es, el radio de la i-´sima funciń base.
e e o

w10
w11
x1 ϕ1 ? y1

wk0
xj ϕi ? yk

wM0
? yM
xp ϕS
wMS

Figura 9: Esquema redes RBF-ANN

17

Redes Caos

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (7)

Similar a Redes Caos

Similar a Redes Caos (20)

Más de darg0001

Más de darg0001 (7)

Último

Último (20)

Redes Caos