SlideShare uma empresa Scribd logo
1 de 33
Visitando a literatura em Redes Neurais
Recorrentes
Mestrado – ECOMP
Diógenes Ricardo Freitas de Oliveira
drfo@ecomp.poli.br
Roteiro
• Introdução
– Redes Neurais
– Redes Recorrentes
– Recorrente Bidirecionais
• Long Short Term Memory
– Framewise Phoneme Classification
– Hidden Markov Model Hybrids
• Multidimensional Recurrent Neural Networks
• Nossa proposta.
Introdução
• Redes Neurais.
– Redes feedforward (MLP - (1988));
– Redes Recorrentes (Reservoir computing, MLP, LSTM, etc);
Redes Recorrentes (1990)
• Inspirada nas NN para dados sequenciais. Uma vez que são
sensíveis ao contexto anterior. (Como?)
• Mais robustos a deformações no tempo do que NN não
recursivas.(Por que?)
• Por exemplo, no reconhecimento de face o
sistema deve ser robusto para atender diferenças
De perspectivas e distancias
Redes Recorrentes (1990)
• Vantagem
– Uma MLP limita-se a mapear vetores de entrada em vetores de saída
enquanto uma RNN é capaz de usar toda a história de entradas
passadas para fazer o mapeamento para saída.
– Mais fáceis de implementar
• Menos camadas;
• Menos interações
Redes Recorrentes
• Funcionamento
– Quanto ao treinamento as RNN possuem assim como NN os
algoritmos de forward e backward, no caso do backpropagation.
Redes Recorrentes Bidirecionais (1997)
Redes Recorrentes Bidirecionais (1997)
• Vantagens
– Utilizada com sucesso em predição de estrutura de proteínas (Baldi et al.,
2001; Chen and Chaudhari,2004), processamento de fala (Schuster, 1999;
Fukada et al., 1999).
– Graves (2008) com rotulamento de sequências de tarefas do mundo real,
como escrita e os modelos de linguagem para reconhecimento de fala.
– Domina a área de bioinformática.
• Desvantagens
– Domínios onde há casualidades, por exemplo, predição financeira,
navegação de robôs.
Redes Recorrentes Bidirecionais
• Conclusão
• Um Modelo Oculto de Markov com processo de Redes Neurais
pra distribuir os pesos/probabilidades.
• O problema é que o efeito de um dado de entrada na camada
escondida, e por conseguinte, a saída da rede, ou decaimentos
ou funde-se exponencialmente, uma vez que os ciclos de
repetição em ligações da rede
Redes Recorrentes Bidirecionais
Redes LSTM (1997)
• Tutorial http://www.idsia.ch/~juergen/lstm/
• O que é?
– Uma rede "inteligente", que pode se lembrar de um valor por um
período arbitrário de tempo. Um bloco LSTM contém portões que
determinam quando a entrada é significativo o suficiente para se
lembrar, quando se deve continuar a lembrar ou esquecer o valor, e
quando deve exibir o valor.
Redes LSTM
• Vantagem: Informação contextual.
• O range das informações contextuais são limitados, ou seja, o
conhecido problema da dissipação do gradiente (vanishing
gradient problem)
• Falha para encontrar as dependências de longo prazo.
Redes LSTM
• Activation of the Input Gate
• Um portão de entrada é introduzido para proteger o conteúdo
da memória de perturbações irrelevantes
Redes LSTM
• Activation of the Output Gate
• Um portão de saída é introduzido para proteger outras
unidades de conteúdo irrelevante da memória.
Ruído
Redes LSTM
• No ano 2001 foi adaptada surgindo um novo “portão”
• Problema:
– Quando os dados de treinamento eram grandes ou contínuos,
obrigando a dividir os dados para um treinamento apropriado.
– Normalmente em séries temporais.
Redes LSTM
• A arquitetura LSTM consiste de um conjunto de sub-redes
conectadas recorrentemente.
Redes LSTM – Aplicações
• Robot control[6]
• Time series prediction[7]
• Speech recognition[8][9]
• Rhythm learning[10]
• Music composition[11]
• Grammar learning[12][13][14]
• Handwriting recognition[15][16]
• Human action recognition[17]
• Protein Homology Detection[18]
Gostei dessa rede! E agora?
• Alex Graves - Rnnlib
Framewise Phoneme Classification
• O problema de dissipação de gradiente afeta diretamente a
longo prazo as dependencias entre os fonemas.
• RNN tradicionais não estão capazes de descobrir as
probabilidades das sequencias das palavras
• Mesmo em curto prazo, as deformações naturais dos fonemas
acabavam atrapalhando os limites.
• LSTM procura resolver esses problemas que RNNs tradicionais
enfrentam.
Framewise Phoneme Classification
• A LSTM RNN mapeia todos os frames de um sinal de voz acústico
em um conjunto fonemas.
• O treinamento envolve o uso de um conjunto de dados de
rotulados.
• Dois RNNs LSTM são usadas:
– Estima-se a probabilidade de um fonema de nível frame,
– Calcula-se um mapeamento das previsões dos fonemas em palavras, ou
seja, quando a rede é treinada, prevê sequências de palavras a partir de
sequências de telefones que foram obtidos a partir da primeira rede.
Framewise Phoneme Classification
Hidden Markov Model Hybrids
• Boa parte dos modelos híbridos são com MLP.
• A idéia básica é usar HMM para modelar a estrutura de longos range
seqüencias dos dados e redes neurais para fornecer classificações
localizadas.
Multidimensional Recurrent Neural Networks
• RNN são eficazes para atividades de aprendizagem de tarefas que
onde os dados estão fortemente correlacionados em uma
dimensão, normalmente o tempo, no entanto, são pouco
adaptadas aos dados multidimensionais.
• Propostas são levantadas com HMM multidimensionais
– Aumento do custo computacional com o Algoritmo de Viterbi
– As probabilidades de transição crescer exponencialmente com as
dimensões
– Algumas propostas também abordam essas limitações, mas que acabam
não explorando a multidimensionalidade completa dos dados
Multidimensional Recurrent Neural Networks
• Como assim multidimensional?
• Por exemplo, uma imagem binaria é uma sequência
bidimensional, um vídeo é uma sequência de três dimensões, e
uma série de exames cerebrais de ressonância magnética é
uma sequência quadridimensional.
Multidimensional Recurrent Neural Networks
• Uma diferença dessa abordagem é que ao invés de uma única
conexão recorrente, existem tantas ligações recorrentes
quanto existe dimensões nos dados.
Multidimensional Recurrent Neural Networks
Vou ter que implementar isso?
Eu fiz e tá na net, pode
pegar, usar, modificar,
fique a vontade, mas é
GNU General Public
License
Nossa proposta
Extração de Características Modelo Acústico
Modelo de Linguagem
Sistema de
combinação
Sinal da fala Sequência
de palavras
Sistema LVCSR
Nossa proposta
– Modelo acústico
– A palavra “cela” e “sela” terão o mesmo valor (e agora?)
P(Palavras|Sinal)
Nossa proposta
• Modelo de linguagem
P(Palavras)
• A probabilidade acima é chamado de modelo de linguagem,
nele especifica-se a probabilidade a priori de encontrar uma
determinada palavra
• Com esse modelo definimos que “cela trancada” é mais
provável que “sela trancada”.
Nossa proposta
• É utilizar modelos de RNN bidirecionais, para classificar os
fonemas, uma vez que o treinamento destas redes não mais
rápidos e tem se mostrado mais eficazes na distribuição dos
pesos na rede.
Referências
[7] H. Mayer, F. Gomez, D. Wierstra, I. Nagy, A. Knoll, and J. Schmidhuber. A System for Robotic Heart Surgery that Learns to Tie Knots Using Recurrent Neural
Networks. Advanced Robotics, 22/13–14, pp. 1521–1537, 2008.
[8] J. Schmidhuber and D. Wierstra and F. J. Gomez. Evolino: Hybrid Neuroevolution / Optimal Linear Search for Sequence Learning. Proceedings of the 19th
International Joint Conference on Artificial Intelligence (IJCAI), Edinburgh, pp. 853–858, 2005.
[9] A. Graves and J. Schmidhuber. Framewise phoneme classification with bidirectional LSTM and other neural network architectures. Neural Networks 18:5–6,
pp. 602–610, 2005.
[10] S. Fernandez, A. Graves, J. Schmidhuber. An application of recurrent neural networks to discriminative keyword spotting. Intl. Conf. on Artificial Neural
Networks ICANN'07, 2007.
[11] F. Gers, N. Schraudolph, J. Schmidhuber. Learning precise timing with LSTM recurrent networks. Journal of Machine Learning Research 3:115–143, 2002.
[12] D. Eck and J. Schmidhuber. Learning The Long-Term Structure of the Blues. In J. Dorronsoro, ed., Proceedings of Int. Conf. on Artificial Neural Networks
ICANN'02, Madrid, pages 284–289, Springer, Berlin, 2002.
[13] J. Schmidhuber, F. Gers, D. Eck. J. Schmidhuber, F. Gers, D. Eck. Learning nonregular languages: A comparison of simple recurrent networks and LSTM.
Neural Computation 14(9):2039–2041, 2002.
[14] F. A. Gers and J. Schmidhuber. LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages. IEEE Transactions on Neural Networks
12(6):1333–1340, 2001.
[15] J. A. Perez-Ortiz, F. A. Gers, D. Eck, J. Schmidhuber. Kalman filters improve LSTM network performance in problems unsolvable by traditional recurrent nets.
Neural Networks 16(2):241–250, 2003.
[16] A. Graves, J. Schmidhuber. Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks. Advances in Neural Information Processing
Systems 22, NIPS'22, pp 545–552, Vancouver, MIT Press, 2009.
[17] A. Graves, S. Fernandez,M. Liwicki, H. Bunke, J. Schmidhuber. Unconstrained online handwriting recognition with recurrent neural networks. Advances in
Neural Information Processing Systems 21, NIPS'21, pp 577–584, 2008, MIT Press, Cambridge, MA, 2008.
[18] M. Baccouche, F. Mamalet, C Wolf, C. Garcia, A. Baskurt. Sequential Deep Learning for Human Action Recognition. 2nd International Workshop on Human
Behavior Understanding (HBU), A.A. Salah, B. Lepri ed. Amsterdam, Netherlands. pp. 29–39. Lecture Notes in Computer Science 7065. Springer. 2011
[19] S. Hochreiter, M. Heusel and K. Obermayer. Fast model-based protein homology detection without alignment. Bioinformatics, 23 (14): 1728–1736, 2007.
Dúvidas?

Mais conteúdo relacionado

Mais procurados

Scilab introduction(Scilab 介紹)
Scilab introduction(Scilab 介紹)Scilab introduction(Scilab 介紹)
Scilab introduction(Scilab 介紹)JIANG MING-LI
 
жаңа нұсқа ақыртас
жаңа нұсқа ақыртасжаңа нұсқа ақыртас
жаңа нұсқа ақыртасShekeyev
 
JESD204B Survival Guide: Practical JESD204B Technical Information, Tips, and ...
JESD204B Survival Guide: Practical JESD204B Technical Information, Tips, and ...JESD204B Survival Guide: Practical JESD204B Technical Information, Tips, and ...
JESD204B Survival Guide: Practical JESD204B Technical Information, Tips, and ...Analog Devices, Inc.
 
Συστήματα Ψηφιακών Ηλεκτρονικών Θεωρία ΚΕΦ 10
Συστήματα Ψηφιακών Ηλεκτρονικών Θεωρία ΚΕΦ 10Συστήματα Ψηφιακών Ηλεκτρονικών Θεωρία ΚΕΦ 10
Συστήματα Ψηφιακών Ηλεκτρονικών Θεωρία ΚΕΦ 10Theodoros Leftheroudis
 
TOTVS LINHA RM - FÓRMULAS - Lógica de construção de fórmulas
TOTVS LINHA RM - FÓRMULAS - Lógica de construção de fórmulasTOTVS LINHA RM - FÓRMULAS - Lógica de construção de fórmulas
TOTVS LINHA RM - FÓRMULAS - Lógica de construção de fórmulasFábio Delboni
 

Mais procurados (11)

Scilab introduction(Scilab 介紹)
Scilab introduction(Scilab 介紹)Scilab introduction(Scilab 介紹)
Scilab introduction(Scilab 介紹)
 
жаңа нұсқа ақыртас
жаңа нұсқа ақыртасжаңа нұсқа ақыртас
жаңа нұсқа ақыртас
 
Exercises3
Exercises3Exercises3
Exercises3
 
JESD204B Survival Guide: Practical JESD204B Technical Information, Tips, and ...
JESD204B Survival Guide: Practical JESD204B Technical Information, Tips, and ...JESD204B Survival Guide: Practical JESD204B Technical Information, Tips, and ...
JESD204B Survival Guide: Practical JESD204B Technical Information, Tips, and ...
 
hedy lamarr.pptx
hedy lamarr.pptxhedy lamarr.pptx
hedy lamarr.pptx
 
Trapeza_Phys_gen_b_lykeioy
Trapeza_Phys_gen_b_lykeioyTrapeza_Phys_gen_b_lykeioy
Trapeza_Phys_gen_b_lykeioy
 
Συστήματα Ψηφιακών Ηλεκτρονικών Θεωρία ΚΕΦ 10
Συστήματα Ψηφιακών Ηλεκτρονικών Θεωρία ΚΕΦ 10Συστήματα Ψηφιακών Ηλεκτρονικών Θεωρία ΚΕΦ 10
Συστήματα Ψηφιακών Ηλεκτρονικών Θεωρία ΚΕΦ 10
 
Exercises2
Exercises2Exercises2
Exercises2
 
Exercises8
Exercises8Exercises8
Exercises8
 
Exercises4
Exercises4Exercises4
Exercises4
 
TOTVS LINHA RM - FÓRMULAS - Lógica de construção de fórmulas
TOTVS LINHA RM - FÓRMULAS - Lógica de construção de fórmulasTOTVS LINHA RM - FÓRMULAS - Lógica de construção de fórmulas
TOTVS LINHA RM - FÓRMULAS - Lógica de construção de fórmulas
 

Destaque

REDES NEURONALES RECURRENTES Elman
REDES NEURONALES RECURRENTES ElmanREDES NEURONALES RECURRENTES Elman
REDES NEURONALES RECURRENTES ElmanESCOM
 
Previsão de Inadimplência por Redes Neurais Artificiais
Previsão de Inadimplência por Redes Neurais ArtificiaisPrevisão de Inadimplência por Redes Neurais Artificiais
Previsão de Inadimplência por Redes Neurais ArtificiaisAnderson Pinho
 
Aula introducao-redes-neurais
Aula introducao-redes-neuraisAula introducao-redes-neurais
Aula introducao-redes-neuraisLeo Laurett
 
Redes Neurais Aplicacoes
Redes Neurais AplicacoesRedes Neurais Aplicacoes
Redes Neurais Aplicacoessemanact2007
 
IA Redes Neurais Artificiais
IA Redes Neurais ArtificiaisIA Redes Neurais Artificiais
IA Redes Neurais Artificiaisrafael.joi
 
FGV - RAE Revista de Administração de Empresas, 2015. Volume 55, Número 4
FGV - RAE Revista de Administração de Empresas, 2015. Volume 55, Número 4FGV - RAE Revista de Administração de Empresas, 2015. Volume 55, Número 4
FGV - RAE Revista de Administração de Empresas, 2015. Volume 55, Número 4FGV | Fundação Getulio Vargas
 
Introdução a Cloud Computing com Amazon Web Services
Introdução a Cloud Computing com Amazon Web ServicesIntrodução a Cloud Computing com Amazon Web Services
Introdução a Cloud Computing com Amazon Web ServicesJose Papo, MSc
 
Utilização de Heurísticas Bioinspiradas em Sistemas de Inteligência Coletiva ...
Utilização de Heurísticas Bioinspiradas em Sistemas de Inteligência Coletiva ...Utilização de Heurísticas Bioinspiradas em Sistemas de Inteligência Coletiva ...
Utilização de Heurísticas Bioinspiradas em Sistemas de Inteligência Coletiva ...Leinylson Fontinele
 
Artificial neural network
Artificial neural networkArtificial neural network
Artificial neural networkmustafa aadel
 
RNA - Redes neurais artificiais
RNA - Redes neurais artificiaisRNA - Redes neurais artificiais
RNA - Redes neurais artificiaisiaudesc
 
Neural network & its applications
Neural network & its applications Neural network & its applications
Neural network & its applications Ahmed_hashmi
 
Artificial neural network
Artificial neural networkArtificial neural network
Artificial neural networkDEEPASHRI HK
 

Destaque (14)

REDES NEURONALES RECURRENTES Elman
REDES NEURONALES RECURRENTES ElmanREDES NEURONALES RECURRENTES Elman
REDES NEURONALES RECURRENTES Elman
 
Previsão de Inadimplência por Redes Neurais Artificiais
Previsão de Inadimplência por Redes Neurais ArtificiaisPrevisão de Inadimplência por Redes Neurais Artificiais
Previsão de Inadimplência por Redes Neurais Artificiais
 
Aula introducao-redes-neurais
Aula introducao-redes-neuraisAula introducao-redes-neurais
Aula introducao-redes-neurais
 
Redes neurais
Redes neuraisRedes neurais
Redes neurais
 
Redes Neurais Aplicacoes
Redes Neurais AplicacoesRedes Neurais Aplicacoes
Redes Neurais Aplicacoes
 
Redes neurais
Redes neuraisRedes neurais
Redes neurais
 
IA Redes Neurais Artificiais
IA Redes Neurais ArtificiaisIA Redes Neurais Artificiais
IA Redes Neurais Artificiais
 
FGV - RAE Revista de Administração de Empresas, 2015. Volume 55, Número 4
FGV - RAE Revista de Administração de Empresas, 2015. Volume 55, Número 4FGV - RAE Revista de Administração de Empresas, 2015. Volume 55, Número 4
FGV - RAE Revista de Administração de Empresas, 2015. Volume 55, Número 4
 
Introdução a Cloud Computing com Amazon Web Services
Introdução a Cloud Computing com Amazon Web ServicesIntrodução a Cloud Computing com Amazon Web Services
Introdução a Cloud Computing com Amazon Web Services
 
Utilização de Heurísticas Bioinspiradas em Sistemas de Inteligência Coletiva ...
Utilização de Heurísticas Bioinspiradas em Sistemas de Inteligência Coletiva ...Utilização de Heurísticas Bioinspiradas em Sistemas de Inteligência Coletiva ...
Utilização de Heurísticas Bioinspiradas em Sistemas de Inteligência Coletiva ...
 
Artificial neural network
Artificial neural networkArtificial neural network
Artificial neural network
 
RNA - Redes neurais artificiais
RNA - Redes neurais artificiaisRNA - Redes neurais artificiais
RNA - Redes neurais artificiais
 
Neural network & its applications
Neural network & its applications Neural network & its applications
Neural network & its applications
 
Artificial neural network
Artificial neural networkArtificial neural network
Artificial neural network
 

Semelhante a Visitando a literatura em redes neurais recorrentes

[Ahirton Lopes e Rafael Arevalo] Deep Learning - Uma Abordagem Visual
[Ahirton Lopes e Rafael Arevalo] Deep Learning - Uma Abordagem Visual[Ahirton Lopes e Rafael Arevalo] Deep Learning - Uma Abordagem Visual
[Ahirton Lopes e Rafael Arevalo] Deep Learning - Uma Abordagem VisualAhirton Lopes
 
[Jose Ahirton Lopes] Deep Learning - Uma Abordagem Visual
[Jose Ahirton Lopes] Deep Learning - Uma Abordagem Visual[Jose Ahirton Lopes] Deep Learning - Uma Abordagem Visual
[Jose Ahirton Lopes] Deep Learning - Uma Abordagem VisualAhirton Lopes
 
[Jose Ahirton Lopes] Deep Learning - Uma Abordagem Visual
[Jose Ahirton Lopes] Deep Learning - Uma Abordagem Visual[Jose Ahirton Lopes] Deep Learning - Uma Abordagem Visual
[Jose Ahirton Lopes] Deep Learning - Uma Abordagem VisualAhirton Lopes
 
Aula 03-introducao-a-redes-e-protocolos-arquitetura-e-topologia-de-rede
Aula 03-introducao-a-redes-e-protocolos-arquitetura-e-topologia-de-redeAula 03-introducao-a-redes-e-protocolos-arquitetura-e-topologia-de-rede
Aula 03-introducao-a-redes-e-protocolos-arquitetura-e-topologia-de-redeEdgar Brito
 
[Jose Ahirton lopes] Do Big ao Better Data
[Jose Ahirton lopes] Do Big ao Better Data[Jose Ahirton lopes] Do Big ao Better Data
[Jose Ahirton lopes] Do Big ao Better DataAhirton Lopes
 
Fundamentos de redes de
Fundamentos de redes deFundamentos de redes de
Fundamentos de redes deMarco Gomes
 
Redes de computadores
Redes de computadoresRedes de computadores
Redes de computadoresJean Rocha
 
Apresentacao-LSTM.pdf
Apresentacao-LSTM.pdfApresentacao-LSTM.pdf
Apresentacao-LSTM.pdfssuser821b0f
 
FIS146 - Informática Aplicada a Fı́sica
FIS146 - Informática Aplicada a Fı́sicaFIS146 - Informática Aplicada a Fı́sica
FIS146 - Informática Aplicada a Fı́sicaMarcilio Guimarães
 
Apostila redes remotas de computadores
Apostila redes remotas de computadoresApostila redes remotas de computadores
Apostila redes remotas de computadoresfernandao777
 
ENSINANDO QUALIDADE DE SERVIÇO NA INTERNET COM O OPNET MODELER
ENSINANDO QUALIDADE DE SERVIÇO NA INTERNET COM O OPNET MODELERENSINANDO QUALIDADE DE SERVIÇO NA INTERNET COM O OPNET MODELER
ENSINANDO QUALIDADE DE SERVIÇO NA INTERNET COM O OPNET MODELERAntonio Marcos Alberti
 
Aula Teste Fatec - Projeto de Redes de Computadores
Aula Teste Fatec - Projeto de Redes de ComputadoresAula Teste Fatec - Projeto de Redes de Computadores
Aula Teste Fatec - Projeto de Redes de ComputadoresDalton Martins
 
#Palestra - Wireless Mesh Network - IFMA ECOMP
#Palestra - Wireless Mesh Network - IFMA ECOMP#Palestra - Wireless Mesh Network - IFMA ECOMP
#Palestra - Wireless Mesh Network - IFMA ECOMPPaulo Henrique
 

Semelhante a Visitando a literatura em redes neurais recorrentes (20)

[Ahirton Lopes e Rafael Arevalo] Deep Learning - Uma Abordagem Visual
[Ahirton Lopes e Rafael Arevalo] Deep Learning - Uma Abordagem Visual[Ahirton Lopes e Rafael Arevalo] Deep Learning - Uma Abordagem Visual
[Ahirton Lopes e Rafael Arevalo] Deep Learning - Uma Abordagem Visual
 
[Jose Ahirton Lopes] Deep Learning - Uma Abordagem Visual
[Jose Ahirton Lopes] Deep Learning - Uma Abordagem Visual[Jose Ahirton Lopes] Deep Learning - Uma Abordagem Visual
[Jose Ahirton Lopes] Deep Learning - Uma Abordagem Visual
 
[Jose Ahirton Lopes] Deep Learning - Uma Abordagem Visual
[Jose Ahirton Lopes] Deep Learning - Uma Abordagem Visual[Jose Ahirton Lopes] Deep Learning - Uma Abordagem Visual
[Jose Ahirton Lopes] Deep Learning - Uma Abordagem Visual
 
Aula 03-introducao-a-redes-e-protocolos-arquitetura-e-topologia-de-rede
Aula 03-introducao-a-redes-e-protocolos-arquitetura-e-topologia-de-redeAula 03-introducao-a-redes-e-protocolos-arquitetura-e-topologia-de-rede
Aula 03-introducao-a-redes-e-protocolos-arquitetura-e-topologia-de-rede
 
Tbr de redes
Tbr de redesTbr de redes
Tbr de redes
 
[Jose Ahirton lopes] Do Big ao Better Data
[Jose Ahirton lopes] Do Big ao Better Data[Jose Ahirton lopes] Do Big ao Better Data
[Jose Ahirton lopes] Do Big ao Better Data
 
Fundamentos de redes de
Fundamentos de redes deFundamentos de redes de
Fundamentos de redes de
 
Redes de computadores
Redes de computadoresRedes de computadores
Redes de computadores
 
Apresentacao-LSTM.pdf
Apresentacao-LSTM.pdfApresentacao-LSTM.pdf
Apresentacao-LSTM.pdf
 
FIS146 - Informática Aplicada a Fı́sica
FIS146 - Informática Aplicada a Fı́sicaFIS146 - Informática Aplicada a Fı́sica
FIS146 - Informática Aplicada a Fı́sica
 
Conceitos de rede
Conceitos de redeConceitos de rede
Conceitos de rede
 
Mudelo osi
Mudelo osiMudelo osi
Mudelo osi
 
Apostila redes remotas de computadores
Apostila redes remotas de computadoresApostila redes remotas de computadores
Apostila redes remotas de computadores
 
Apresentacao
ApresentacaoApresentacao
Apresentacao
 
ENSINANDO QUALIDADE DE SERVIÇO NA INTERNET COM O OPNET MODELER
ENSINANDO QUALIDADE DE SERVIÇO NA INTERNET COM O OPNET MODELERENSINANDO QUALIDADE DE SERVIÇO NA INTERNET COM O OPNET MODELER
ENSINANDO QUALIDADE DE SERVIÇO NA INTERNET COM O OPNET MODELER
 
Aula Teste Fatec - Projeto de Redes de Computadores
Aula Teste Fatec - Projeto de Redes de ComputadoresAula Teste Fatec - Projeto de Redes de Computadores
Aula Teste Fatec - Projeto de Redes de Computadores
 
Icc
IccIcc
Icc
 
Aulas de rede
Aulas de redeAulas de rede
Aulas de rede
 
#Palestra - Wireless Mesh Network - IFMA ECOMP
#Palestra - Wireless Mesh Network - IFMA ECOMP#Palestra - Wireless Mesh Network - IFMA ECOMP
#Palestra - Wireless Mesh Network - IFMA ECOMP
 
Ap topologiarede-final
Ap topologiarede-finalAp topologiarede-final
Ap topologiarede-final
 

Mais de Diogenes Freitas

Proposta de identificação de impressões digitais empregando redes neurais art...
Proposta de identificação de impressões digitais empregando redes neurais art...Proposta de identificação de impressões digitais empregando redes neurais art...
Proposta de identificação de impressões digitais empregando redes neurais art...Diogenes Freitas
 
Uma Proposta de identificação de Impressões Digitais empregando Redes Neurais...
Uma Proposta de identificação de Impressões Digitais empregando Redes Neurais...Uma Proposta de identificação de Impressões Digitais empregando Redes Neurais...
Uma Proposta de identificação de Impressões Digitais empregando Redes Neurais...Diogenes Freitas
 
Um estudo sobre gerenciamento de variabilidade de requisitos em linha de prod...
Um estudo sobre gerenciamento de variabilidade de requisitos em linha de prod...Um estudo sobre gerenciamento de variabilidade de requisitos em linha de prod...
Um estudo sobre gerenciamento de variabilidade de requisitos em linha de prod...Diogenes Freitas
 
Paradigma Lógico e Funcional
Paradigma Lógico e FuncionalParadigma Lógico e Funcional
Paradigma Lógico e FuncionalDiogenes Freitas
 
Apresentacao banco de dados moveis
Apresentacao   banco de dados moveisApresentacao   banco de dados moveis
Apresentacao banco de dados moveisDiogenes Freitas
 
Um estudo sobre o gerenciamento de variabilidade em LInha de produto de software
Um estudo sobre o gerenciamento de variabilidade em LInha de produto de softwareUm estudo sobre o gerenciamento de variabilidade em LInha de produto de software
Um estudo sobre o gerenciamento de variabilidade em LInha de produto de softwareDiogenes Freitas
 

Mais de Diogenes Freitas (12)

Reúso
ReúsoReúso
Reúso
 
Reconhecimento de digital
Reconhecimento de digitalReconhecimento de digital
Reconhecimento de digital
 
Proposta de identificação de impressões digitais empregando redes neurais art...
Proposta de identificação de impressões digitais empregando redes neurais art...Proposta de identificação de impressões digitais empregando redes neurais art...
Proposta de identificação de impressões digitais empregando redes neurais art...
 
Processadores de rede (2)
Processadores de rede (2)Processadores de rede (2)
Processadores de rede (2)
 
Tokenring
TokenringTokenring
Tokenring
 
Uma Proposta de identificação de Impressões Digitais empregando Redes Neurais...
Uma Proposta de identificação de Impressões Digitais empregando Redes Neurais...Uma Proposta de identificação de Impressões Digitais empregando Redes Neurais...
Uma Proposta de identificação de Impressões Digitais empregando Redes Neurais...
 
Modelo de falhas
Modelo de falhasModelo de falhas
Modelo de falhas
 
Open nebula
Open nebulaOpen nebula
Open nebula
 
Um estudo sobre gerenciamento de variabilidade de requisitos em linha de prod...
Um estudo sobre gerenciamento de variabilidade de requisitos em linha de prod...Um estudo sobre gerenciamento de variabilidade de requisitos em linha de prod...
Um estudo sobre gerenciamento de variabilidade de requisitos em linha de prod...
 
Paradigma Lógico e Funcional
Paradigma Lógico e FuncionalParadigma Lógico e Funcional
Paradigma Lógico e Funcional
 
Apresentacao banco de dados moveis
Apresentacao   banco de dados moveisApresentacao   banco de dados moveis
Apresentacao banco de dados moveis
 
Um estudo sobre o gerenciamento de variabilidade em LInha de produto de software
Um estudo sobre o gerenciamento de variabilidade em LInha de produto de softwareUm estudo sobre o gerenciamento de variabilidade em LInha de produto de software
Um estudo sobre o gerenciamento de variabilidade em LInha de produto de software
 

Último

ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx2m Assessoria
 
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx2m Assessoria
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsDanilo Pinotti
 
Programação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdfProgramação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdfSamaraLunas
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx2m Assessoria
 
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx2m Assessoria
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploDanilo Pinotti
 
Luís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdfLuís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdfLuisKitota
 
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docxATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx2m Assessoria
 

Último (9)

ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
 
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object Calisthenics
 
Programação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdfProgramação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdf
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
 
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemplo
 
Luís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdfLuís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdf
 
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docxATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
 

Visitando a literatura em redes neurais recorrentes

  • 1. Visitando a literatura em Redes Neurais Recorrentes Mestrado – ECOMP Diógenes Ricardo Freitas de Oliveira drfo@ecomp.poli.br
  • 2. Roteiro • Introdução – Redes Neurais – Redes Recorrentes – Recorrente Bidirecionais • Long Short Term Memory – Framewise Phoneme Classification – Hidden Markov Model Hybrids • Multidimensional Recurrent Neural Networks • Nossa proposta.
  • 3. Introdução • Redes Neurais. – Redes feedforward (MLP - (1988)); – Redes Recorrentes (Reservoir computing, MLP, LSTM, etc);
  • 4. Redes Recorrentes (1990) • Inspirada nas NN para dados sequenciais. Uma vez que são sensíveis ao contexto anterior. (Como?) • Mais robustos a deformações no tempo do que NN não recursivas.(Por que?) • Por exemplo, no reconhecimento de face o sistema deve ser robusto para atender diferenças De perspectivas e distancias
  • 5. Redes Recorrentes (1990) • Vantagem – Uma MLP limita-se a mapear vetores de entrada em vetores de saída enquanto uma RNN é capaz de usar toda a história de entradas passadas para fazer o mapeamento para saída. – Mais fáceis de implementar • Menos camadas; • Menos interações
  • 6. Redes Recorrentes • Funcionamento – Quanto ao treinamento as RNN possuem assim como NN os algoritmos de forward e backward, no caso do backpropagation.
  • 8. Redes Recorrentes Bidirecionais (1997) • Vantagens – Utilizada com sucesso em predição de estrutura de proteínas (Baldi et al., 2001; Chen and Chaudhari,2004), processamento de fala (Schuster, 1999; Fukada et al., 1999). – Graves (2008) com rotulamento de sequências de tarefas do mundo real, como escrita e os modelos de linguagem para reconhecimento de fala. – Domina a área de bioinformática. • Desvantagens – Domínios onde há casualidades, por exemplo, predição financeira, navegação de robôs.
  • 9. Redes Recorrentes Bidirecionais • Conclusão • Um Modelo Oculto de Markov com processo de Redes Neurais pra distribuir os pesos/probabilidades. • O problema é que o efeito de um dado de entrada na camada escondida, e por conseguinte, a saída da rede, ou decaimentos ou funde-se exponencialmente, uma vez que os ciclos de repetição em ligações da rede
  • 11. Redes LSTM (1997) • Tutorial http://www.idsia.ch/~juergen/lstm/ • O que é? – Uma rede "inteligente", que pode se lembrar de um valor por um período arbitrário de tempo. Um bloco LSTM contém portões que determinam quando a entrada é significativo o suficiente para se lembrar, quando se deve continuar a lembrar ou esquecer o valor, e quando deve exibir o valor.
  • 12. Redes LSTM • Vantagem: Informação contextual. • O range das informações contextuais são limitados, ou seja, o conhecido problema da dissipação do gradiente (vanishing gradient problem) • Falha para encontrar as dependências de longo prazo.
  • 13. Redes LSTM • Activation of the Input Gate • Um portão de entrada é introduzido para proteger o conteúdo da memória de perturbações irrelevantes
  • 14. Redes LSTM • Activation of the Output Gate • Um portão de saída é introduzido para proteger outras unidades de conteúdo irrelevante da memória. Ruído
  • 15. Redes LSTM • No ano 2001 foi adaptada surgindo um novo “portão” • Problema: – Quando os dados de treinamento eram grandes ou contínuos, obrigando a dividir os dados para um treinamento apropriado. – Normalmente em séries temporais.
  • 16. Redes LSTM • A arquitetura LSTM consiste de um conjunto de sub-redes conectadas recorrentemente.
  • 17. Redes LSTM – Aplicações • Robot control[6] • Time series prediction[7] • Speech recognition[8][9] • Rhythm learning[10] • Music composition[11] • Grammar learning[12][13][14] • Handwriting recognition[15][16] • Human action recognition[17] • Protein Homology Detection[18]
  • 18. Gostei dessa rede! E agora? • Alex Graves - Rnnlib
  • 19. Framewise Phoneme Classification • O problema de dissipação de gradiente afeta diretamente a longo prazo as dependencias entre os fonemas. • RNN tradicionais não estão capazes de descobrir as probabilidades das sequencias das palavras • Mesmo em curto prazo, as deformações naturais dos fonemas acabavam atrapalhando os limites. • LSTM procura resolver esses problemas que RNNs tradicionais enfrentam.
  • 20. Framewise Phoneme Classification • A LSTM RNN mapeia todos os frames de um sinal de voz acústico em um conjunto fonemas. • O treinamento envolve o uso de um conjunto de dados de rotulados. • Dois RNNs LSTM são usadas: – Estima-se a probabilidade de um fonema de nível frame, – Calcula-se um mapeamento das previsões dos fonemas em palavras, ou seja, quando a rede é treinada, prevê sequências de palavras a partir de sequências de telefones que foram obtidos a partir da primeira rede.
  • 22. Hidden Markov Model Hybrids • Boa parte dos modelos híbridos são com MLP. • A idéia básica é usar HMM para modelar a estrutura de longos range seqüencias dos dados e redes neurais para fornecer classificações localizadas.
  • 23. Multidimensional Recurrent Neural Networks • RNN são eficazes para atividades de aprendizagem de tarefas que onde os dados estão fortemente correlacionados em uma dimensão, normalmente o tempo, no entanto, são pouco adaptadas aos dados multidimensionais. • Propostas são levantadas com HMM multidimensionais – Aumento do custo computacional com o Algoritmo de Viterbi – As probabilidades de transição crescer exponencialmente com as dimensões – Algumas propostas também abordam essas limitações, mas que acabam não explorando a multidimensionalidade completa dos dados
  • 24. Multidimensional Recurrent Neural Networks • Como assim multidimensional? • Por exemplo, uma imagem binaria é uma sequência bidimensional, um vídeo é uma sequência de três dimensões, e uma série de exames cerebrais de ressonância magnética é uma sequência quadridimensional.
  • 25. Multidimensional Recurrent Neural Networks • Uma diferença dessa abordagem é que ao invés de uma única conexão recorrente, existem tantas ligações recorrentes quanto existe dimensões nos dados.
  • 27. Vou ter que implementar isso? Eu fiz e tá na net, pode pegar, usar, modificar, fique a vontade, mas é GNU General Public License
  • 28. Nossa proposta Extração de Características Modelo Acústico Modelo de Linguagem Sistema de combinação Sinal da fala Sequência de palavras Sistema LVCSR
  • 29. Nossa proposta – Modelo acústico – A palavra “cela” e “sela” terão o mesmo valor (e agora?) P(Palavras|Sinal)
  • 30. Nossa proposta • Modelo de linguagem P(Palavras) • A probabilidade acima é chamado de modelo de linguagem, nele especifica-se a probabilidade a priori de encontrar uma determinada palavra • Com esse modelo definimos que “cela trancada” é mais provável que “sela trancada”.
  • 31. Nossa proposta • É utilizar modelos de RNN bidirecionais, para classificar os fonemas, uma vez que o treinamento destas redes não mais rápidos e tem se mostrado mais eficazes na distribuição dos pesos na rede.
  • 32. Referências [7] H. Mayer, F. Gomez, D. Wierstra, I. Nagy, A. Knoll, and J. Schmidhuber. A System for Robotic Heart Surgery that Learns to Tie Knots Using Recurrent Neural Networks. Advanced Robotics, 22/13–14, pp. 1521–1537, 2008. [8] J. Schmidhuber and D. Wierstra and F. J. Gomez. Evolino: Hybrid Neuroevolution / Optimal Linear Search for Sequence Learning. Proceedings of the 19th International Joint Conference on Artificial Intelligence (IJCAI), Edinburgh, pp. 853–858, 2005. [9] A. Graves and J. Schmidhuber. Framewise phoneme classification with bidirectional LSTM and other neural network architectures. Neural Networks 18:5–6, pp. 602–610, 2005. [10] S. Fernandez, A. Graves, J. Schmidhuber. An application of recurrent neural networks to discriminative keyword spotting. Intl. Conf. on Artificial Neural Networks ICANN'07, 2007. [11] F. Gers, N. Schraudolph, J. Schmidhuber. Learning precise timing with LSTM recurrent networks. Journal of Machine Learning Research 3:115–143, 2002. [12] D. Eck and J. Schmidhuber. Learning The Long-Term Structure of the Blues. In J. Dorronsoro, ed., Proceedings of Int. Conf. on Artificial Neural Networks ICANN'02, Madrid, pages 284–289, Springer, Berlin, 2002. [13] J. Schmidhuber, F. Gers, D. Eck. J. Schmidhuber, F. Gers, D. Eck. Learning nonregular languages: A comparison of simple recurrent networks and LSTM. Neural Computation 14(9):2039–2041, 2002. [14] F. A. Gers and J. Schmidhuber. LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages. IEEE Transactions on Neural Networks 12(6):1333–1340, 2001. [15] J. A. Perez-Ortiz, F. A. Gers, D. Eck, J. Schmidhuber. Kalman filters improve LSTM network performance in problems unsolvable by traditional recurrent nets. Neural Networks 16(2):241–250, 2003. [16] A. Graves, J. Schmidhuber. Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks. Advances in Neural Information Processing Systems 22, NIPS'22, pp 545–552, Vancouver, MIT Press, 2009. [17] A. Graves, S. Fernandez,M. Liwicki, H. Bunke, J. Schmidhuber. Unconstrained online handwriting recognition with recurrent neural networks. Advances in Neural Information Processing Systems 21, NIPS'21, pp 577–584, 2008, MIT Press, Cambridge, MA, 2008. [18] M. Baccouche, F. Mamalet, C Wolf, C. Garcia, A. Baskurt. Sequential Deep Learning for Human Action Recognition. 2nd International Workshop on Human Behavior Understanding (HBU), A.A. Salah, B. Lepri ed. Amsterdam, Netherlands. pp. 29–39. Lecture Notes in Computer Science 7065. Springer. 2011 [19] S. Hochreiter, M. Heusel and K. Obermayer. Fast model-based protein homology detection without alignment. Bioinformatics, 23 (14): 1728–1736, 2007.

Notas do Editor

  1. Falar das motivações, que o tempo de treinamento aumenta com aumento do números de camadas escondidas como a implementação, minimizando o tempo de treinamento e a complexidade de implementação.