Introducción (I)

                                                                    Neurocomputación:
     Neurocomputación                                                  Modelo computacional
                                                                       Basado en redes neuronales
                                                                       Gran apogeo en los 80’s y 90’s.


                                                                    Objetivo de crear sistemas inteligentes:
                                                                        “tareas inteligentes -> reservadas al cerebro”


 Teoría de Autómatas y Lenguajes Formales II. Curso 2005-06.        Idea inicial:
     3º curso de Ingeniería Técnica en Informática de Sistemas
                                                                        “un modelo computacional más cercano al cerebro”
         Escuela Técnica Superior de Ingeniería Informática
                      Universidad de Valladolid




Introducción (II)                                                Modelo biológico (I)

 Modelo alternativo de computación en
 contraposición con el de Von Neumann:

        Masivamente paralelos
        Computación y representación distribuida
        Aprendizaje
        Generalización
        Adaptabilidad
        Procesamiento de la información inherente al contexto
        Tolerante a fallos
                                                                 Entradas: dendritas
        Bajo consumo de energía
                                                                 Salida: axón
                                                                 Soma: procesador de información




                                                                                                                           1
Modelo biológico (II)                             Breve reseña histórica (I)
 Neuronas sensitivas:                              (1943) El neurobiólogo McCulloch y el
     Reciben las entradas directamente
                                                   estadístico Pitts:
                                                       Modelo de neurona artificial
 Neuronas actuadoras:
     Materializan la respuesta
                                                   (1962) Rosenblatt:
 Velocidad de procesamiento:                           Teorema de convergencia del perceptrón
     1011 neuronas en el cortex                        Extendió la euforia: “RNA, solución universal”
     103 – 104 conexiones
     Lentitud de las señales electroquímicas
     Reconocimiento de una cara en milisegundos    (1969) Minsky y Papert:
     Por tanto, es un sistema conexionista             Limitaciones del perceptrón: problema del XOR




Breve reseña histórica (II)                       Modelo de McCulloch y Pitts (I)

 (1982) Hopfield:                                                   RNA (sistema computacional):
     Red más plausible con el modelo biológico
                                                                          Conjunto de autómatas celulares
                                                                          (neuronas)

                                                                          Flujo de información según una
                                                                          topología de interconexiones
                                                                          (sinapsis)
 (1986) Rumelhart y McClelland:
                                                                          El paralelismo está marcado por la
     Aprendizaje del perceptrón multicapa                                 disponibilidad de las entradas
     Original de Werbos (1974): Tesis Doctoral




                                                                                                               2
Modelo de McCulloch y Pitts (II)                                                    Modelo de McCulloch y Pitts (III)
x1      wk1
                                                    uk : activación o salida analógica
                                                                                          Término bias, offset o umbral:
                                                   yk : salida (digital)
                                                                                                   Eliminación del nivel de continua, que no
x2      wk 2              uk                  yk   θ k : umbral, bias u offset                     aporta información:
                     Σ                F (⋅)
                                                   F : Función de activación

                                      θk
xn      wkn
                               n
                      uk = ∑ wkj x j ∈ (−∞, ∞)               yk = F(uk − Θk )
                               j =1

                           n −1
     Práctica:        uk = ∑ wkj x j + wkn                   yk = F(uk )
                           j =0




     Modelo de McCulloch y Pitts (IV)                                                    Modelo de McCulloch y Pitts (IV)

      Si el peso es positivo/negativo:                                                    F(x) debe ser acotada:                            +1



               Sinapsis excitadora/inhibidora                                                                  Heaviside: sgn(x)
                                                                                          No diferenciables                            -1            +1
                                                                                                               Semilineal
      Función de activación F(x):                                                                                                           -1



               Filtrar la salida para acotarla en sintonía con las                                                                 1

               neuronales biológicas:                                                                                                                               1
                                                                                                                                                     F ( x) =
                  Los potenciales electroquímicos están acotados.                                              Arcotangente                                     1 + e − βx
                  Si la intensidad de una señal (sentido) supera un                       N - diferenciables
                  valor, deja de percibirse como tal.                                                          Sigmoide
                        Ejemplo: altas y bajas frecuencias del sonido.
                                                                                                                                   0
                                                                                                                                                 0




                                                                                                                                                                             3
Arquitectura                                                                                Aprendizaje y recuperación (I)
 Grafo dirigido y ponderado                                                                  Sistema neuronal:
 Clasificación: lazos de realimentación                                                          Altamente no lineal
                                               Redes
                                             Neuronales
                                                                                                 Gran robustez
                                                                                                 Tolerante a fallos
                Sin realimentación                             Con realimentación


                                                                                             Adicionalmente:
                                                                                                 Aprendizaje: adaptación de sus pesos a cambios en el
 Perceptrón     Perceptrón     Función de         Redes            Redes de         Redes        entorno
  Simple        Multicapa      Base Radial      Competitivas       Hopfield         ART
                                                                                                 Manejo de información imprecisa, difusa, con ruido y
                                                                                                 basada en probabilidades
                                                                                                 Generalización: respuesta satisfactoria ante casos
                                                                                                 desconocidos




Aprendizaje y recuperación (II)                                                             Aprendizaje y recuperación (III)

 El modelo computacional equivalente al                                                      Aprendizaje:
 de Von Neumann                                                                                  Definir una función objetivo explícita o implícitamente
                                                                                                 para representar el estado de la red.
                                                                                                 Buscar un óptimo de esta función modificando los pesos.
 Principal inconveniente:
              No se conoce algoritmo capaz de entrenar una                                   Tipos:
              RNA arbitraria                                                                     Supervisado: maneja (entrada, salida deseada)
                                                                                                      Ajuste de pesos para minimizar esta diferencia
                                                                                                      Ejemplo: perceptrón multicapa (MLP)
 Actualmente:                                                                                    No supervisado:
              Se conocen tipos particulares de redes con, al                                          Evolución del sistema hasta un estado estable
              menos, un algoritmo de aprendizaje                                                      Ejemplo: mapa autoorganizado (SOM)




                                                                                                                                                           4
Aprendizaje y recuperación (IV)                                Aplicaciones (I)

 Principal característica:                                      Reconocimiento de patrones:
      Capacidad de GENERALIZACIÓN:                                 Asignar a cada entrada un patrón:
         Calidad de la respuesta ante ejemplos desconocidos:          Estáticos
         no utilizados en el aprendizaje
                                                                      Dinámicos: trata explícitamente el tiempo


 Dos modos de funcionamiento:                                   Clustering:
      Aprendizaje y recuperación                                   Agrupamiento no supervisado de muestras
      Redes heteroasociativas
                                                                   Extracción de características diferenciadoras entre
         Aprendizaje conlleva mayor cómputo
                                                                   muestras
      Redes autoasocitivas
         Recuperación es la fase más costosa                       Actúa de forma opaca: espacio de características




Aplicaciones (II)                                              Aplicaciones (III)

 Aproximación funcional:                                        Optimización
    Correspondencia (x, y) contaminados con                        Definir función objetivo
    ruido                                                          Encontrar óptimo bajo restricciones
                                                                   Ejemplo: problema del viajante
 Predicción:
    Adivinar el siguiente término de una serie:                 Memorias asociativas:
      Meteorología                                                 Direccionables por contenido
      Bolsa                                                        Recuperar la información original a partir
      Demanda de consumo                                           de una parcialmente distorsionada




                                                                                                                         5
Aplicaciones (IV)

 Generación de señales de control

   Calcular señales de control para que la
   “consigna” siga a la “referencia”

   Especialmente aplicables en sistemas
   altamente no lineales y complejos

   Se consigue la respuesta a partir del
   aprendizaje con ejemplos




                                             6

Neurocomputacion

  • 1.
    Introducción (I) Neurocomputación: Neurocomputación Modelo computacional Basado en redes neuronales Gran apogeo en los 80’s y 90’s. Objetivo de crear sistemas inteligentes: “tareas inteligentes -> reservadas al cerebro” Teoría de Autómatas y Lenguajes Formales II. Curso 2005-06. Idea inicial: 3º curso de Ingeniería Técnica en Informática de Sistemas “un modelo computacional más cercano al cerebro” Escuela Técnica Superior de Ingeniería Informática Universidad de Valladolid Introducción (II) Modelo biológico (I) Modelo alternativo de computación en contraposición con el de Von Neumann: Masivamente paralelos Computación y representación distribuida Aprendizaje Generalización Adaptabilidad Procesamiento de la información inherente al contexto Tolerante a fallos Entradas: dendritas Bajo consumo de energía Salida: axón Soma: procesador de información 1
  • 2.
    Modelo biológico (II) Breve reseña histórica (I) Neuronas sensitivas: (1943) El neurobiólogo McCulloch y el Reciben las entradas directamente estadístico Pitts: Modelo de neurona artificial Neuronas actuadoras: Materializan la respuesta (1962) Rosenblatt: Velocidad de procesamiento: Teorema de convergencia del perceptrón 1011 neuronas en el cortex Extendió la euforia: “RNA, solución universal” 103 – 104 conexiones Lentitud de las señales electroquímicas Reconocimiento de una cara en milisegundos (1969) Minsky y Papert: Por tanto, es un sistema conexionista Limitaciones del perceptrón: problema del XOR Breve reseña histórica (II) Modelo de McCulloch y Pitts (I) (1982) Hopfield: RNA (sistema computacional): Red más plausible con el modelo biológico Conjunto de autómatas celulares (neuronas) Flujo de información según una topología de interconexiones (sinapsis) (1986) Rumelhart y McClelland: El paralelismo está marcado por la Aprendizaje del perceptrón multicapa disponibilidad de las entradas Original de Werbos (1974): Tesis Doctoral 2
  • 3.
    Modelo de McCullochy Pitts (II) Modelo de McCulloch y Pitts (III) x1 wk1 uk : activación o salida analógica Término bias, offset o umbral: yk : salida (digital) Eliminación del nivel de continua, que no x2 wk 2 uk yk θ k : umbral, bias u offset aporta información: Σ F (⋅) F : Función de activación θk xn wkn n uk = ∑ wkj x j ∈ (−∞, ∞) yk = F(uk − Θk ) j =1 n −1 Práctica: uk = ∑ wkj x j + wkn yk = F(uk ) j =0 Modelo de McCulloch y Pitts (IV) Modelo de McCulloch y Pitts (IV) Si el peso es positivo/negativo: F(x) debe ser acotada: +1 Sinapsis excitadora/inhibidora Heaviside: sgn(x) No diferenciables -1 +1 Semilineal Función de activación F(x): -1 Filtrar la salida para acotarla en sintonía con las 1 neuronales biológicas: 1 F ( x) = Los potenciales electroquímicos están acotados. Arcotangente 1 + e − βx Si la intensidad de una señal (sentido) supera un N - diferenciables valor, deja de percibirse como tal. Sigmoide Ejemplo: altas y bajas frecuencias del sonido. 0 0 3
  • 4.
    Arquitectura Aprendizaje y recuperación (I) Grafo dirigido y ponderado Sistema neuronal: Clasificación: lazos de realimentación Altamente no lineal Redes Neuronales Gran robustez Tolerante a fallos Sin realimentación Con realimentación Adicionalmente: Aprendizaje: adaptación de sus pesos a cambios en el Perceptrón Perceptrón Función de Redes Redes de Redes entorno Simple Multicapa Base Radial Competitivas Hopfield ART Manejo de información imprecisa, difusa, con ruido y basada en probabilidades Generalización: respuesta satisfactoria ante casos desconocidos Aprendizaje y recuperación (II) Aprendizaje y recuperación (III) El modelo computacional equivalente al Aprendizaje: de Von Neumann Definir una función objetivo explícita o implícitamente para representar el estado de la red. Buscar un óptimo de esta función modificando los pesos. Principal inconveniente: No se conoce algoritmo capaz de entrenar una Tipos: RNA arbitraria Supervisado: maneja (entrada, salida deseada) Ajuste de pesos para minimizar esta diferencia Ejemplo: perceptrón multicapa (MLP) Actualmente: No supervisado: Se conocen tipos particulares de redes con, al Evolución del sistema hasta un estado estable menos, un algoritmo de aprendizaje Ejemplo: mapa autoorganizado (SOM) 4
  • 5.
    Aprendizaje y recuperación(IV) Aplicaciones (I) Principal característica: Reconocimiento de patrones: Capacidad de GENERALIZACIÓN: Asignar a cada entrada un patrón: Calidad de la respuesta ante ejemplos desconocidos: Estáticos no utilizados en el aprendizaje Dinámicos: trata explícitamente el tiempo Dos modos de funcionamiento: Clustering: Aprendizaje y recuperación Agrupamiento no supervisado de muestras Redes heteroasociativas Extracción de características diferenciadoras entre Aprendizaje conlleva mayor cómputo muestras Redes autoasocitivas Recuperación es la fase más costosa Actúa de forma opaca: espacio de características Aplicaciones (II) Aplicaciones (III) Aproximación funcional: Optimización Correspondencia (x, y) contaminados con Definir función objetivo ruido Encontrar óptimo bajo restricciones Ejemplo: problema del viajante Predicción: Adivinar el siguiente término de una serie: Memorias asociativas: Meteorología Direccionables por contenido Bolsa Recuperar la información original a partir Demanda de consumo de una parcialmente distorsionada 5
  • 6.
    Aplicaciones (IV) Generaciónde señales de control Calcular señales de control para que la “consigna” siga a la “referencia” Especialmente aplicables en sistemas altamente no lineales y complejos Se consigue la respuesta a partir del aprendizaje con ejemplos 6