Online Incremental Learning of Temporal Sequences

Online Incremental One-Shot Learning
of Temporal Sequences
Dissertação de Mestrado

Rafael C. Pinto.

Orientador: Prof. Dr. Paulo Martins Engel

Universidade Federal do Rio Grande do Sul
Instituto de Informática
Programa de Pós-Graduação em Computação

Roteiro

 Introdução
 IGMN
 TDIGMN
 ESIGMN
 MIGMN
 RecIGMN
 Experimentos e Resultados
 Conclusão

Introdução

 Online: O algoritmo aprende enquanto está em
operação

 Offline: O algoritmo necessita de uma fase de
aprendizagem separada da fase de operação

 Exemplo: os mapas auto-organizáveis (SOM)
necessitam de uma fase de aprendizagem
separada devido aos seus parâmetros

Introdução

 Incremental: O algoritmo consegue aprender a
cada ponto de dados que recebe

 Em Lote (batch): É necessário o lote completo
de dados do problema para que o algoritmo
efetue o aprendizado

 Exemplo: o algoritmo EM trabalha apenas com
lotes completos de dados

Introdução

 One-Shot (agressivo): O algoritmo consegue
aprender após observar cada ponto apenas
uma vez

 Iterativo: São necessárias várias observações
sobre o conjunto de dados até que o algoritmo
consiga efetuar o aprendizado corretamente

 Exemplo: o algoritmo Backpropagation
necessita de várias ”épocas” de aprendizado

Introdução

 Temporal: O algoritmo lida com dados
temporalmente correlacionados (tem memória)

 Estático: O algoritmo lida com dados sem
correlação temporal (sem memória)

 Exemplo: Redes neurais recorrentes lidam com
dados temporais

IGMN

 Incremental Gaussian Mixture Network
 Aproximação incremental do algoritmo EM
(Expectation Maximization) + regressões lineares
locais em cada cluster
✔ Online
✔ Incremental
✔ One-Shot
✗ Estático
 O foco do trabalho está em transformá-lo em um
algoritmo temporal

IGMN
 Composta por uma
camada de entrada...
 ...e uma ”camada oculta”
(chamada de região
cortical)
 Qualquer entrada pode
ser usada para prever
qualquer outra entrada...
 ...portanto uma ”entrada”
pode ser tratada como
saída para aprendizado
supervisionado

IGMN

 Cada neurônio da região
cortical corresponde a
uma componente
gaussiana
 Cada componente j
possui uma média μj,
uma matriz de
covariâncias Cj e uma
probabilidade a priori p(j)

IGMN - Criação de Componentes
 A rede inicia sem
nenhuma componente
 As componentes são
adicionadas conforme
necessário (limiar de erro
εmax)
 Média inicial no ponto x
onde ocorreu o erro
 Matriz de covariâncias
inicial diagonal (esférica)
com um desvio δini

IGMN - Estimação
 Probabilidade a posteriori
de cada componente é
computada a cada
entrada x (somente
porção de entrada)
 Regra de Bayes
 Verossimilhança dada
pela função densidade
de probabilidade da
distribuição normal

IGMN - Estimação

 Regressão linear feita em
cada cluster utilizando os
próprios eixos dos
hiperelipsóides como
hiperplanos de regressão
 Resultados ponderados
conforme ativação
(probabilidade a
posteriori) de cada
componente

IGMN - Margens de Erro

 Também pode-se
estimar a
variância do
resultado a partir
da ponderação
das matrizes de
covariância
 Intervalos de
confiança

IGMN - Aprendizagem
 Agora com x completo
 Médias, matrizes de
covariância e priors são
atualizadas de forma
incremental...
 ...Ponderadas pelas
ativações das
respectivas componentes
 Não requer parâmetro
taxa de aprendizagem

IGMN - Poda
 Componentes têm um
limite de tempo vmin para
demonstrarem utilidade
(ativações acumuladas
spmin)
 Caso contrário, são
podadas (ruído)

IGMN - Criação de Compon. 2.0
 Regra aperfeiçoada
✔ Contribuição deste
trabalho
 Parâmetro εmax
eliminado
 Margem de erro é
utilizada
 Quando x cai fora das
margens, uma
componente é criada

 Critério variável ao longo
dos dados
 Regiões com diferentes
resoluções e densidades
são tratadas de acordo
 Regiões com pontos
mais esparsos toleram
mais erro
 Regiões com maior
precisão toleram menos
erro

 Margens tracejadas →
limiar com εmax = 0.1 e δini
= 0.1...
 ...não detectam a
mudança até o fim da
função (x = 100)
 Margens pontilhadas →
novo limiar com δini =
0.1...
 ...detectam mudança em
x = 94

 Agora com εmax = 0.01 e
δini = 0.01...
 ...cria clusters
desnecessários no
trecho horizontal
 Novo limiar com mesmo
δini é mais econômico

IGMN + Memória

 Incremental Gaussian Mixture Network
 Aproximação incremental do algoritmo EM
(Expectation Maximization) + regressões lineares
locais em cada cluster
✔ Online
✔ Incremental
✔ One-Shot
✗ Estático → Temporal

TDIGMN
 Time-Delay IGMN
 Inclusão de linhas de
atraso nas entradas
 Deve-se definir o número
de atrasos
 Memória exata...
 ...porém limitada
 Inviável para altas
dimensionalidades
 Abordagem usada na
TDNN

TDIGMN
 É online, incremental,
agressiva e temporal...
 ...então para que outras
extensões?
 Memória relativamente
curta
 Multiplica a
dimensionalidade de
entrada (e a IGMN tem
operações O(n³))

Computação por Reservoir
 Abordagem utilizada
na Echo-State
Network
 Camada oculta
recorrente chamada
de ”reservoir”
 Conexões da entrada
para o reservoir são
fixas
 Conexões
recorrentes do
reservoir fixas

Computação por Reservoir
 Idéia: mesmo com
conexões aleatórias
e fixas, o reservoir
pode extrair
informação temporal
da entrada
 Algoritmo estático e
linear + reservoir =
algoritmo temporal e
não-linear
 Propriedade echo-
state

ESIGMN
 Echo-State IGMN
 IGMN + reservoir

ESIGMN
 Dimensionalidade resultante = entradas +
tamanho do reservoir (escolhido manualmente)
 Maior reservoir = maior memória
 Maior reservoir = maior chance de extrair algo útil

MIGMN

 Merge IGMN
 Inspirada no MSOM
(Merge Self-Organizing
Map)
 Média móvel
exponencial das
entradas reconstruídas
(estimativas)
 Parâmetro α para
decaimento / mistura

MIGMN

 Maior α (< 1) = Mais
memória, menos
resolução
 α = 1 → IGMN estática
(não sai do contexto
zerado)
 α = 0 → Armazena
última reconstrução das
entradas

MIGMN

 Memórias se misturam
(resolução cai conforme
profundidade da
memória)
 Dimensionalidade
resultante = dobro da
original

RecIGMN

 Recursive IGMN
 Inspirada no RecSOM
(Recursive Self-
Organizing Map)
 Ativações da região
cortical são
realimentadas na
entrada

RecIGMN

 Nenhum parâmetro
extra...
 ...má idéia. A versão
do artigo (CBIC)
regula a contribuição
do passado e
presente para as
ativações e funciona
melhor
 Potencial para
memória ilimitada

RecIGMN

 Difícil implementação:
a cada nova
componente criada,
médias e matrizes de
covariância devem ser
aumentadas de
acordo (e reduzidas
na poda)
 Em outras palavras, a
entrada passa a ter
tamanho variável

Previsão de Séries Temporais

 Os algoritmos propostos foram testados em 8
tarefas de previsão de séries temporais
univariadas
 1 Passo: prever o valor seguinte em uma série
de valores (dado x(t), prever x(t+1))
 Longo Prazo: prever n valores seguintes em
uma série de valores (dado x(t), prever
x(t+1)...x(t+k))

 Comparados com redes neurais temporais:
TDNN, Elman e o estado-da-arte ESN
 IGMN estática também foi comparada para
avaliar o surgimento das capacidades
temporais
 Além das versões multivariadas (matrizes de
covariância completas), as versões ”naïve”
(matrizes diagonais) também foram
comparadas
 A inclusão de linhas de atraso foi testada em
adição às redes propostas (sempre o mesmo
número de atrasos para todas as redes)


 α = 0.5 para MIGMN (e variantes)
 Reservoir de tamanho 10 para ESN e ESIGMN
(e variantes)
 Camada oculta com 10 neurônios para Elman e
TDNN
 Criação de componentes baseada em outliers
para todos algoritmos baseados em IGMN
 Poda ativada para todos os algoritmos
baseados em IGMN

Métricas
 Para comparação dos algoritmos em previsão
de 1 passo, foi usado o erro normalizado em
relação à solução trivial
 Solução trivial: usar x(t) como previsão para x(t+1)
 Erro > 1 = Pior que a solução trivial
 Erro < 1 = Melhor que a solução trivial
 Na previsão de longo prazo, foi usado o erro
normalizado pela variância do conjunto de
treino
 Erro > 1 = Pior que prever a média
 Erro < 1 = Melhor que prever a média

Métricas
 Medidas de estatística robusta foram usadas
para descrição dos resultados
 Mediana no lugar da média
 MAD (Median Absolute Deviations from the
Median) no lugar do desvio padrão
 MAD-Score (subtração da mediana e divisão pela
MAD) no lugar do Z-Score (subtração da média e
divisão pelo desvio padrão)
 Mais resistentes a outliers

Manchas Solares Anuais

 Série temporal
estocástica usada
amplamente na área
de estatística
 289 valores
 200 primeiros
usados como treino


1 Passo: TDNN X ESIGMN

 TDNN não aprendeu o momento correto de subir
 Memória da ESIGMN conseguiu capturar isso


Longo Prazo: ESN X MIGMN

 MIGMN conseguiu aprender a sazonalidade da
série

Manchas Solares Mensais

 Versão mais difícil
das manchas solares
 2987 valores
 2000 primeiros
usados como treino


1 Passo: ESN X ESIGMN

 ESIGMN foi mal em um pico mas foi mais robusta
às oscilações de alta frequência



 Todos algoritmos se sairam mal, mas a MIGMN
conseguiu ir um pouco melhor nos valores iniciais

Mackey-Glass (tau=17)

 Série temporal
caótica amplamente
utilizada em previsão
de séries temporais
na computação
 1200 valores
 1000 primeiros
usados como treino


1 Passo: TDNN X TDIGMN

 Linhas de atraso selecionadas favorecem os ”TD”
 Mas faltou precisão na TDIGMN



 Previsões de longo prazo ruins como esperado
para uma série caótica


 Versão mais difícil da
Mackey-Glass
 1500 valores
 1000 primeiros
usados como treino



 Idem tau=17


Longo Prazo: ESN X ESIGMN

 Idem tau=17

Passageiros
 Série temporal
estocástica
amplamente utilizada
na estatística
 Também já foi alvo
de uma competição
com redes neurais
 Não-estacionária
 143 valores
 100 primeiros
usados como treino

Passageiros

1 Passo: ESN X TDIGMN

 ESN ficou próxima da solução trivial
 TDIGMN teve excelente desempenho

Passageiros

Longo Prazo: ESN X TDIGMN

 TDIGMN conseguiu generalizar a série para longo
prazo

Passageiros log-dif

 Versão estacionária
da série dos
passageiros
 Verificar quais
algoritmos são
sensíveis a séries
não-estacionárias
 142 valores
 100 primeiros
usados como treino

Passageiros log-dif


 TDNN passou a funcionar bem
 Faltou resolução para a TDIGMN nos 2 primeiros
picos de cada ciclo

Passageiros log-dif

Longo Prazo: TDNN X TDIGMN

 Idem ao caso de 1 passo

Google Stock

 Série temporal
financeira
 Teoricamente segue
um modelo ”random-
walk” (não tem
autocorrelação)
 1800 valores
 1500 primeiros
usados como treino

Google Stock

1 Passo: Elman X RecIGMN

 Aprenderam a solução trivial, como esperado

Google Stock

Longo Prazo: Elman X RecIGMN

 RecIGMN capturou a tendência vagamente

Taxa de Juros

 Série temporal
financeira, mas com
alguma
previsibilidade
 102 valores
 80 primeiros usados
como treino

Taxa de Juros

1 Passo: ESN X RecIGMN

 RecIGMN melhor na subida
 ESN melhor na última descida

Taxa de Juros


 ESN capturou a tendência

Sumário
 TDIGMN é a
melhor no curto
prazo...
 ...mas foi
favorecida por
atrasos
selecionados
(todas ”TD”)
 MIGMN melhor
no longo prazo
 ESIGMN melhor
compromisso

Variantes

 Em geral, os algoritmos propostos foram
beneficiados pelo uso de linhas de atraso
adicionais para previsão de 1 passo, indicando
um papel complementar entre as diferentes
memórias
 As versões naïve tiveram péssimo
desempenho, indicando a necessidade de
considerar as covariâncias das entradas no tipo
de problema considerado

Ajuste de Parâmetros

 Tamanho do reservoir:
 ESIGMN obtém menor erro com reservoir maior
para séries determinísticas (Mackey-Glass)...
 ...porém sofre com overfitting nas séries
estocásticas
 Parâmetro de mistura (α):
 Não tem um padrão definido, necessita de ajuste
para cada problema

Conclusões
 As extensões propostas dão capacidades
temporais para a IGMN
 A ESIGMN e a MIGMN são competitivas
mesmo com apenas uma passada sobre os
dados
 RecIGMN precisa de ajustes
 Os algoritmos propostos são capazes de fazer
processamento temporal agressivo, online e
incremental (e não necessitam de pré-
processamento para séries não-estacionárias)
 Linhas de atraso adicionais são úteis para
previsões de curto prazo

Trabalhos Futuros

 Inclusão de feedback das saídas da ESIGMN para o
reservoir, bem como utilização de técnicas de
otimização de reservoir
 Reimplementação da RecIGMN e da MIGMN com
parâmetro para ponderação passado-presente e
novos experimentos
 Experimentos em tarefas de mais alta
dimensionalidade, como robótica (experimento com o
”road sign problem” em um t-maze em andamento)
 Aplicação em aprendizado por reforço POMDP
 Pesquisa de memórias de mais longo prazo

Publicações Relacionadas

 PINTO, R.; ENGEL, P.; HEINEN, M. Echo State
Incremental Gaussian Mixture Network for Spatio-
Temporal Pattern Processing. In: CSBC 2011 - ENIA,
2011, Natal (RN). Proceedings. . . [S.l.: s.n.], 2011.
 PINTO, R.; ENGEL, P.; HEINEN, M. Recursive
Incremental Gaussian Mixture Network for Spatio-
Temporal Pattern Processing. In: CBIC 2011, 2011,
Fortaleza (CE). Proceedings. . . [S.l.: s.n.], 2011.
 HEINEN, M.; ENGEL, P.; PINTO, R.; IGMN: A
Connectionist Approach for Incremental Function
Approximation. In: IEEE Transactions on Neural
Networks (submitted). → seção sobre previsão de
séries temporais

Online Incremental Learning of Temporal Sequences

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (15)

Más de Rafael Pinto

Más de Rafael Pinto (10)

Online Incremental Learning of Temporal Sequences