SlideShare una empresa de Scribd logo
1 de 29
Descargar para leer sin conexión
Réseaux de neurones récurrents
Avec mécanisme d'Attention
NATURAL LANGUAGE PROCESSING
(NLP)
juillet 2020
JAOUAD DABOUNOU
FST de Settat
Université Hassan 1er
RNN avec Attention
z1
Marrakech
z2
,
z3
fantastic
z4
city
z5
!
x2
,
x1
Marrakech
x3
ville
x4
fantastique
x5
!
x6
<eos>
Réseau récurrent pour la traduction
2
On utilise souvent un réseau récurrent séquence à séquence (ou sequence to sequence: seq2seq) pour la traduction
automatique. Nous présentons ci-dessous une architecture simplifiée basée sur un réseau récurrent composé le plus
souvent de cellules LSTM.
J. DABOUNOU - FST DE SETTAT
z
ct-1 ct
Réseaux LSTM
3J. DABOUNOU - FST DE SETTAT
xt+1
ht+1
+x
 
x
tanh
tanh
x

xt
ht
+x
 
x
tanh
tanh
x

xt-1
ht-1
+x
 
x
tanh
tanh
x

ht-2
ht-1 ht
ct-2 ct+1
ht+1
Les réseaux LSTM (Long Short Term Memory ou mémoire à long terme et à court terme ) sont un type spécial de
RNN, capable d'apprendre les dépendances à long terme. Ils ont été introduits par Hochreiter et Schmidhuber en
1997, et ont été par la suite affinés et popularisés par de nombreuses personnes. Ils fonctionnent extrêmement bien
sur une grande variété de problèmes et sont maintenant largement utilisés.
4
Traduction automatique
J. DABOUNOU - FST DE SETTAT
Réseau de neuronesHe visited the magical medina Il a visité la médina magique
Un réseau de neurones pour la traduction automatique (Neural Machine Translation : NMT) fait un mapping entre
une séquence en entrée dans une langue donnée et une séquence en sortie dans la langue cible.
5
Modèle séquence à séquence
J. DABOUNOU - FST DE SETTAT
Réseau de
neurones
Seq2seq
medinaHe visited the magical médinaIl a visité la magique
Les modèles de séquence à séquence font référence à la classe plus large de modèles qui incluent tous les modèles
qui mappent une séquence à une autre. Il sont très souvent utilisés dans la traduction automatique. Dans ces
modèles, l'entrée et la sortie ne sont pas nécessairement de la même longueur.
6
Modèle SEQ2SEQ de niveau mot
J. DABOUNOU - FST DE SETTAT
medinaHe visited the magical
Réseau de
neurones
Seq2seq
Réseau de
neurones
Seq2seq
Dans les modèles Seq2Seq de niveau mot, le réseau reçoit un à un les mots de la première séquence.
7
Modèle SEQ2SEQ de niveau mot
J. DABOUNOU - FST DE SETTAT
médinaIla visitélamagique
Réseau de
neurones
Seq2seq
Lorsque tous les mots de la séquence en entrée sont reçus par le réseau, il entame la traduction et renvoie les mots
de la séquence en sortie l'un à la suite de l'autre dans la langue cible.
8
Modèle encodeur-décodeur
J. DABOUNOU - FST DE SETTAT
medinaHe visited the magical médinaIl a visité la magique
Encoder
Decoder
Ces modèles peuvent être considérés comme composés de deux réseaux de neurones récurrents: un encodeur et
un décodeur. On parle alors d'une architecture encodeur-décodeur (Encoder/Decoder).
9
Modèle encodeur-décodeur
J. DABOUNOU - FST DE SETTAT
medinaHe visited the magical
Encoder
Decoder
Dans l'architecture codeur-décodeur, la première séquence est entrée mot à mot.
10
Modèle encodeur-décodeur
J. DABOUNOU - FST DE SETTAT
Encoder
Decoder
médinaIla visitélamagique
Encoder
Decoder
Contexte
Lorsque la séquence entière est entrée dans l'encodeur, celui-ci crée un contexte représentant la séquence d'origine.
Ce contexte est ensuite transmis au réseau décodeur qui l'utilise pour construire la séquence en sortie mot après
mot.
Encoder
Decoder
Encoder
Decoder
Contexte
11
Modèle encodeur-décodeur
J. DABOUNOU - FST DE SETTAT
medinaHe visited the magical médinaIl a visité la magique
0.1
-1.1
-0.3
-1.0
0.1
-0.6
0.2
-0.1
-0.9
-0.3
0.2
-0.4
0.5
-0.1
0.2
-0.5
-0.1
0.4
-0.7
0.7
-0.3
0.4
0.2
-0.5
0.1
0.1
0.8
0.2
-0.7
1.1
-0.2
0.2
0.3
-0.4
0.9
0.1
-1.1
-0.3
-1.0
0.1
-0.2
0.4
1.0
0.1
-0.3
-0.5
-0.2
-0.3
0.2
0.7
-0.3
-1.0
0.5
-0.6
0.5
-0.5
-0.1
-0.8
0.5
0.4
Les entrées du réseau sont une représentation vectorielle des mots (One-hot encoding, word embedding,…) et non
les mots eux-mêmes.
Le texte d'entrée est traité par l'encodeur pour être codé en un vecteur contexte, qui est ensuite transmis au
décodeur pour générer la sortie.
12
Modèle encodeur-décodeur
J. DABOUNOU - FST DE SETTAT
visited
h3
the
h4
magical
h5
medina
h6
He
h2
z = h7
<s>
h1
</s>
h7
English encoder French decoder
h2
out
h3
out
h4
out
h5
out
h1
out
h6
out
h7
out
médinaIl a visité la magique </s>Le dernier état caché du premier
réseau RNN est utilisé comme contexte
qui représente la phrase en anglais.
Encoder
Decoder
Encoder
Decoder
Contexte
Le décodeur utilise le contexte comme état initial, génère un premier mot, ensuite l'utilise comme entrée pour
générer le mot suivant et ainsi de suite jusqu'à la génération de la fin de séquence </s>.
<s>
13
Modèle encodeur-décodeur: RNN traduction
J. DABOUNOU - FST DE SETTAT
visited
h3
the
h4
magical
h5
medina
h6
He
h2
z = h7
<s>
h1
</s>
h7
English encoder
French decoder
h2
out
h3
out
h4
out
h5
out
h1
out
h6
out
h7
out
Représente la phrase en anglais
Encoder
Decoder
Encoder
Decoder
Contexte
x1 x2 x3 x4 x5 x6 x7
z1 z2 z3 z4 z5 z6 z7
Embedding
𝐡t = 𝐭𝐚𝐧𝐡(𝐖hh 𝐡t−1 + 𝐖xh 𝐱t)
médinaIl a visité la magique </s>
y1 y2 y3 y4 y5 y6 y7
SoftmaxEmbedding
Lors de la phase d'entrainement, les sorties zt du décodeur sont comparées aux sorties attendues yt dans l'expression
de la fonction de perte.
Dans certaines implémentations,
on utilise les yt comme entrée pour
générer le mot suivant.
<s>
Encoder
Decoder
Encoder
Decoder
Contexte
14
Modèle encodeur-décodeur
J. DABOUNOU - FST DE SETTAT
visited
h3
the
h4
magical
h5
medina
h6
He
h2
z = F(h1, h2, …, h7)
<s>
h1
</s>
h7
English encoder French decoder
h2
out
h3
out
h4
out
h5
out
h1
out
h6
out
h7
out
médinaIl a visité la magique </s>
Combinaison des états cachés hs
représentant la phrase en anglais
Le contexte ainsi obtenu peut ne pas tenir compte des états cachés de début des séquences. Surtout qu'elles sont de
taille variable. Pour résoudre ce problème, lors de la phase d'entrainement, au lieu d'utiliser le dernier état caché du
premier réseau pour commencer le deuxième réseau, on peut choisir une somme pondérée des différents états
cachés h1, h2, …, h7, surtout
qu'ils sont disponibles.
<s>
15
Limites Modèle encodeur-décodeur
J. DABOUNOU - FST DE SETTAT
visited
h3
the
h4
magical
h5
medina
h6
He
h2
z = F(h1, h2, …, h7)
<s>
h1
</s>
h7
English encoder French decoder
h2
out
h3
out
h4
out
h5
out
h1
out
h6
out
h7
out
médinaIl a visité la magique </s>
Représente la phrase en anglais
• Taille fixe quelque soit la taille des séquences qui est
variable
• Perd la dynamique temporelle qui est inhérente aux
séquences
L'information dans le contexte peut s'effacer
lorsque la taille de la sortie est grande
Encoder
Decoder
Encoder
Decoder
Contexte
Reste que le contexte obtenu ainsi continue à présenter quelques inconvénients.
<s>
16
Modèle encodeur-décodeur
J. DABOUNOU - FST DE SETTAT
visited
h3
the
h4
magical
h5
medina
h6
He
h2
ct = Ft(h1, h2, …, h7)
<s>
h1
</s>
h7
English encoder French decoder
h2
out
h3
out
h4
out
h5
out
h1
out
h6
out
h7
out
médinaIl a visité la magique </s>
Le contexte comme
combinaison des hs.
Partager le contexte sur tous les tokens.
Encoder
Decoder
Encoder
Decoder
Contexte
Une idée à développer consiste à utiliser le contexte comme entrée supplémentaire pour obtenir chaque mot du
décodeur.
<s>
EncoderEncoder
Decoder
Contexte
17
Modèle encodeur-décodeur
J. DABOUNOU - FST DE SETTAT
c1 = F1(h1, h2, …, h7)
c2 = F2(h1, h2, …, h7)
c3 = F3(h1, h2, …, h7)
c4 = F4(h1, h2, …, h7)
c5 = F5(h1, h2, …, h7)
c6 = F6(h1, h2, …, h7)
c7 = F7(h1, h2, …, h7)
English encoder French decoder
visited
h3
the
h4
magical
h5
medina
h6
He
h2
<s>
h1
</s>
h7
h2
out
h3
out
h4
out
h5
out
h1
out
h6
out
h7
out
médinaIl a visité la magique </s>
<s>
Le contexte comme
combinaison des hs, mais aussi
adapté aux tokens en sortie
𝐜t =
s=1,7
ats 𝐡s
ats  0 et
s=1,7
ats = 1
18
MÉCANISME D'ATTENTION
J. DABOUNOU - FST DE SETTAT
c1 = F1(h1, h2, …, h7)
c2 = F2(h1, h2, …, h7)
c3 = F3(h1, h2, …, h7)
c4 = F4(h1, h2, …, h7)
c5 = F5(h1, h2, …, h7)
c6 = F6(h1, h2, …, h7)
c7 = F7(h1, h2, …, h7)
English encoder French decoder
visited
h3
the
h4
magical
h5
medina
h6
He
h2
<s>
h1
</s>
h7
MÉCANISME D'ATTENTION h2
out
h3
out
h4
out
h5
out
h1
out
h6
out
h7
out
médinaIl a visité la magique </s>
<s>
𝐜t =
s=1,7
ats 𝐡s
ats  0 et
s=1,7
ats = 1
19
MÉCANISME D'ATTENTION
J. DABOUNOU - FST DE SETTAT
c1 = F1(h1, h2, …, h7)
c2 = F2(h1, h2, …, h7)
c3 = F3(h1, h2, …, h7)
c4 = F4(h1, h2, …, h7)
c5 = F5(h1, h2, …, h7)
c6 = F6(h1, h2, …, h7)
c7 = F7(h1, h2, …, h7)
English encoder French decoder
visited
h3
the
h4
magical
h5
medina
h6
He
h2
<s>
h1
</s>
h7
MÉCANISME D'ATTENTION h2
out
h3
out
h4
out
h5
out
h1
out
h6
out
h7
out
médinaIl a visité la magique </s>
<s>
𝐜t =
s=1,7
ats 𝐡s
ats  0 et
s=1,7
ats = 1
20
Machine Translation avec Attention
J. DABOUNOU - FST DE SETTAT
English encoder French decoder
visited
h3
the
h4
magical
h5
medina
h6
He
h2
<s>
h1
</s>
h7
MÉCANISME D'ATTENTION
ats = softmax score 𝐡t
out
, 𝐡s pour s = 1,7
𝐜t =
s=1,7
ats 𝐡s
𝐡t
att
= tanh(𝐖ch
att
𝐜t + 𝐖hh
att
𝐡t
out
)
Calculer : 𝐡t
out
= tanh(𝐖hh
out
𝐡t−1
out
+ 𝐖xh
out
𝐳t)1
4
𝐳t=Softmax (𝐖hz
out
𝐡t
att
)5
2
3
score 𝐡t
out
, 𝐡s =
𝐡t
out T
𝐡s ∶ Produit scalaire
𝐡t
out
𝐖a 𝐡s ∶ Multiplicatif
𝐯a
T 𝐭𝐚𝐧𝐡(𝐖a[𝐡t
out
; 𝐡s ]) ∶ Concaténation
h2
out
h3
out
h4
out
h5
out
h1
out
h6
out
h7
out
médinaIl a visité la magique </s>
<s>
21
Machine Translation avec Attention
J. DABOUNOU - FST DE SETTAT
English encoder French decoder
visited
h3
the
h4
magical
h5
medina
h6
He
h2
<s>
h1
</s>
h7
h1
out
Représente la phrase en anglais
<s>
Embedding
x1
Calculer : 𝐡1
out
= tanh(𝐖hh
out
𝐡7 + 𝐖xh
out
𝐱1)1
22
Machine Translation avec Attention
J. DABOUNOU - FST DE SETTAT
English encoder French decoder
visited
h3
the
h4
magical
h5
medina
h6
He
h2
<s>
h1
</s>
h7
h1
out
MÉCANISME D'ATTENTION
a1s = softmax score 𝐡1
out
, 𝐡s pour s = 1,7
𝐜1 =
s=1,7
a1s 𝐡s
score 𝐡1
out
, 𝐡s =
𝐡1
out T
𝐡s ∶ Produit scalaire
𝐡1
out
𝐖a 𝐡s ∶ Multiplicatif
𝐯1
T
𝐭𝐚𝐧𝐡(𝐖a[𝐡1
out
; 𝐡s ]) ∶ Concaténation
2
3
<s>
Embedding
x1
Calculer : 𝐡1
out
= tanh(𝐖hh
out
𝐡7 + 𝐖xh
out
𝐱1)1
23
Machine Translation avec Attention
J. DABOUNOU - FST DE SETTAT
English encoder French decoder
visited
h3
the
h4
magical
h5
medina
h6
He
h2
<s>
h1
</s>
h7
h1
out
MÉCANISME D'ATTENTION
a1s = softmax score 𝐡1
out
, 𝐡s pour s = 1,7
𝐜1 =
s=1,7
a1s 𝐡s
𝐡1
att
= tanh(𝐖ch
att
𝐜1 + 𝐖hh
att
𝐡1
out
)
score 𝐡1
out
, 𝐡s =
𝐡1
out T
𝐡s ∶ Produit scalaire
𝐡1
out
𝐖a 𝐡s ∶ Multiplicatif
𝐯1
T
𝐭𝐚𝐧𝐡(𝐖a[𝐡1
out
; 𝐡s ]) ∶ Concaténation
2
3
4
𝐳1=Softmax (𝐖hz
out
𝐡1
att
)5Sortie décodeur:
z1
<s>
Embedding
x1
Calculer : 𝐡1
out
= tanh(𝐖hh
out
𝐡7 + 𝐖xh
out
𝐱1)1
24
Machine Translation avec Attention
J. DABOUNOU - FST DE SETTAT
English encoder French decoder
visited
h3
the
h4
magical
h5
medina
h6
He
h2
<s>
h1
</s>
h7
h1
out
MÉCANISME D'ATTENTION
a2s = softmax score 𝐡2
out
, 𝐡s pour s = 1,7
𝐜2 =
s=1,7
a2s 𝐡s
𝐡2
att
= tanh(𝐖ch
att
𝐜2 + 𝐖hh
att
𝐡2
out
)
score 𝐡2
out
, 𝐡s =
𝐡2
out T
𝐡s ∶ Produit scalaire
𝐡2
out
𝐖a 𝐡s ∶ Multiplicatif
𝐯1
T
𝐭𝐚𝐧𝐡(𝐖a[𝐡2
out
; 𝐡s ]) ∶ Concaténation
Calculer : 𝐡2
out
= tanh(𝐖hh
out
𝐡1
out
+ 𝐖xh
out
𝐳1)1
2
3
4
𝐳2=Softmax (𝐖hz
out
𝐡2
att
)5
z1
h2
out
<s>
Embedding
x1
z2
Sortie décodeur:
25
Machine Translation avec Attention
J. DABOUNOU - FST DE SETTAT
English encoder French decoder
visited
h3
the
h4
magical
h5
medina
h6
He
h2
<s>
h1
</s>
h7
MÉCANISME D'ATTENTION
ats = softmax score 𝐡t
out
, 𝐡s pour s = 1,7
𝐜t =
s=1,7
ats 𝐡s
𝐡t
att
= tanh(𝐖ch
att
𝐜t + 𝐖hh
att
𝐡t
out
)
Calculer : 𝐡t
out
= tanh(𝐖hh
out
𝐡t−1
out
+ 𝐖xh
out
𝐳t)1
4
𝐳t=Softmax (𝐖hz
out
𝐡t
att
)5
2
3
score 𝐡t
out
, 𝐡s =
𝐡t
out T
𝐡s ∶ Produit scalaire
𝐡t
out
𝐖a 𝐡s ∶ Multiplicatif
𝐯a
T 𝐭𝐚𝐧𝐡(𝐖a[𝐡t
out
; 𝐡s ]) ∶ Concaténation
h2
out
h3
out
h4
out
h5
out
h1
out
h6
out
h7
out
médinaIl a visité la magique </s>
<s>
Sortie décodeur:
26
Machine Translation avec Attention
J. DABOUNOU - FST DE SETTAT
visited
h3
the
h4
magical
h5
medina
h6
He
h2
<s>
h1
</s>
h7
MÉCANISME D'ATTENTION
h2
out
h3
out
h4
out
h5
out
h1
out
h6
out
h7
out
médinaIl a visité la magique </s>
<s>
ats = softmax score 𝐡t
out
, 𝐡s
pour s = 1,7
𝐜t =
s=1,7
ats 𝐡s
𝐜3 =
s=1,7
a3s 𝐡s
a3s  0 et
s=1,7
a3s = 1
h1 h2 h3 h4 h5 h6 h7
𝐜3
visité
visited the magical medinaHe<s> </s>
0
1
0.12 0.2 0.61 0.07 10-5 10-5 10-7a3s
27
Machine Translation avec Attention
J. DABOUNOU - FST DE SETTAT
visited
h3
the
h4
magical
h5
medina
h6
He
h2
<s>
h1
</s>
h7
MÉCANISME D'ATTENTION
h2
out
h3
out
h4
out
h5
out
h1
out
h6
out
h7
out
médinaIl a visité la magique </s>
<s>
𝐜6 =
s=1,7
a6s 𝐡s
a6s  0 et
s=1,7
a6s = 1
h1 h2 h3 h4 h5 h6 h7
𝐜6
visited the magical medinaHe<s> </s>
0
1
10-8 10-6 10-4 0.05 0.79 0.15 10-8a3s
magique
ats = softmax score 𝐡t
out
, 𝐡s
pour s = 1,7
𝐜t =
s=1,7
ats 𝐡s
28
Machine Translation avec Attention
J. DABOUNOU - FST DE SETTAT
visited
h3
the
h4
magical
h5
medina
h6
He
h2
<s>
h1
</s>
h7
+ + + ++ + +
médinaIl a visité la magique </s>
𝐜6 =
s=1,7
a6s 𝐡s
a6s  0 et
s=1,7
a6s = 1
h1 h2 h3 h4 h5 h6 h7
𝐜6
visited the magical medinaHe<s> </s>
0
1
10-8 10-6 10-4 0.05 0.79 0.15 10-8a3s
magique
Graphe des liaisons pertinentes
29
Machine Translation avec Attention
J. DABOUNOU - FST DE SETTAT
Il
a
visité
la
médina
magique
</s>
<s>
He
visited
the
magical
medina
</s>
Matrice de distribution de l'attention
visited
h3
the
h4
magical
h5
medina
h6
He
h2
<s>
h1
</s>
h7
+ + + ++ + +
médinaIl a visité la magique </s>
Graphe des liaisons pertinentes

Más contenido relacionado

La actualidad más candente

Mise en oeuvre des Frameworks de Machines et Deep Learning pour les Applicati...
Mise en oeuvre des Frameworks de Machines et Deep Learning pour les Applicati...Mise en oeuvre des Frameworks de Machines et Deep Learning pour les Applicati...
Mise en oeuvre des Frameworks de Machines et Deep Learning pour les Applicati...ENSET, Université Hassan II Casablanca
 
Deep Learning: Recurrent Neural Network (Chapter 10)
Deep Learning: Recurrent Neural Network (Chapter 10) Deep Learning: Recurrent Neural Network (Chapter 10)
Deep Learning: Recurrent Neural Network (Chapter 10) Larry Guo
 
Le Reseau De Neurones
Le Reseau De NeuronesLe Reseau De Neurones
Le Reseau De Neuronesguestf80d95
 
Seq2Seq (encoder decoder) model
Seq2Seq (encoder decoder) modelSeq2Seq (encoder decoder) model
Seq2Seq (encoder decoder) model佳蓉 倪
 
Cours design pattern m youssfi partie 1 introduction et pattern strategy
Cours design pattern m youssfi partie 1 introduction et pattern strategyCours design pattern m youssfi partie 1 introduction et pattern strategy
Cours design pattern m youssfi partie 1 introduction et pattern strategyENSET, Université Hassan II Casablanca
 
Installation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abidInstallation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abidAmal Abid
 
Introduction For seq2seq(sequence to sequence) and RNN
Introduction For seq2seq(sequence to sequence) and RNNIntroduction For seq2seq(sequence to sequence) and RNN
Introduction For seq2seq(sequence to sequence) and RNNHye-min Ahn
 
NLP State of the Art | BERT
NLP State of the Art | BERTNLP State of the Art | BERT
NLP State of the Art | BERTshaurya uppal
 
Recurrent Neural Networks, LSTM and GRU
Recurrent Neural Networks, LSTM and GRURecurrent Neural Networks, LSTM and GRU
Recurrent Neural Networks, LSTM and GRUananth
 
LSTM 네트워크 이해하기
LSTM 네트워크 이해하기LSTM 네트워크 이해하기
LSTM 네트워크 이해하기Mad Scientists
 
5.2 Régression linéaire
5.2 Régression linéaire5.2 Régression linéaire
5.2 Régression linéaireBoris Guarisma
 
Introduction to TensorFlow 2.0
Introduction to TensorFlow 2.0Introduction to TensorFlow 2.0
Introduction to TensorFlow 2.0Databricks
 
Survey of Attention mechanism
Survey of Attention mechanismSurvey of Attention mechanism
Survey of Attention mechanismSwatiNarkhede1
 
Understanding RNN and LSTM
Understanding RNN and LSTMUnderstanding RNN and LSTM
Understanding RNN and LSTM健程 杨
 
Recurrent Neural Networks (RNN) | RNN LSTM | Deep Learning Tutorial | Tensorf...
Recurrent Neural Networks (RNN) | RNN LSTM | Deep Learning Tutorial | Tensorf...Recurrent Neural Networks (RNN) | RNN LSTM | Deep Learning Tutorial | Tensorf...
Recurrent Neural Networks (RNN) | RNN LSTM | Deep Learning Tutorial | Tensorf...Edureka!
 
Design Pattern introduction
Design Pattern introductionDesign Pattern introduction
Design Pattern introductionneuros
 

La actualidad más candente (20)

Mise en oeuvre des Frameworks de Machines et Deep Learning pour les Applicati...
Mise en oeuvre des Frameworks de Machines et Deep Learning pour les Applicati...Mise en oeuvre des Frameworks de Machines et Deep Learning pour les Applicati...
Mise en oeuvre des Frameworks de Machines et Deep Learning pour les Applicati...
 
Deep Learning: Recurrent Neural Network (Chapter 10)
Deep Learning: Recurrent Neural Network (Chapter 10) Deep Learning: Recurrent Neural Network (Chapter 10)
Deep Learning: Recurrent Neural Network (Chapter 10)
 
Le Reseau De Neurones
Le Reseau De NeuronesLe Reseau De Neurones
Le Reseau De Neurones
 
Seq2Seq (encoder decoder) model
Seq2Seq (encoder decoder) modelSeq2Seq (encoder decoder) model
Seq2Seq (encoder decoder) model
 
Cours design pattern m youssfi partie 1 introduction et pattern strategy
Cours design pattern m youssfi partie 1 introduction et pattern strategyCours design pattern m youssfi partie 1 introduction et pattern strategy
Cours design pattern m youssfi partie 1 introduction et pattern strategy
 
Présentation pfe
Présentation pfePrésentation pfe
Présentation pfe
 
Installation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abidInstallation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abid
 
Introduction For seq2seq(sequence to sequence) and RNN
Introduction For seq2seq(sequence to sequence) and RNNIntroduction For seq2seq(sequence to sequence) and RNN
Introduction For seq2seq(sequence to sequence) and RNN
 
NLP State of the Art | BERT
NLP State of the Art | BERTNLP State of the Art | BERT
NLP State of the Art | BERT
 
Recurrent Neural Networks, LSTM and GRU
Recurrent Neural Networks, LSTM and GRURecurrent Neural Networks, LSTM and GRU
Recurrent Neural Networks, LSTM and GRU
 
LSTM 네트워크 이해하기
LSTM 네트워크 이해하기LSTM 네트워크 이해하기
LSTM 네트워크 이해하기
 
Introduction to Transformer Model
Introduction to Transformer ModelIntroduction to Transformer Model
Introduction to Transformer Model
 
5.2 Régression linéaire
5.2 Régression linéaire5.2 Régression linéaire
5.2 Régression linéaire
 
Introduction to TensorFlow 2.0
Introduction to TensorFlow 2.0Introduction to TensorFlow 2.0
Introduction to TensorFlow 2.0
 
Survey of Attention mechanism
Survey of Attention mechanismSurvey of Attention mechanism
Survey of Attention mechanism
 
BERT introduction
BERT introductionBERT introduction
BERT introduction
 
Understanding RNN and LSTM
Understanding RNN and LSTMUnderstanding RNN and LSTM
Understanding RNN and LSTM
 
BERT
BERTBERT
BERT
 
Recurrent Neural Networks (RNN) | RNN LSTM | Deep Learning Tutorial | Tensorf...
Recurrent Neural Networks (RNN) | RNN LSTM | Deep Learning Tutorial | Tensorf...Recurrent Neural Networks (RNN) | RNN LSTM | Deep Learning Tutorial | Tensorf...
Recurrent Neural Networks (RNN) | RNN LSTM | Deep Learning Tutorial | Tensorf...
 
Design Pattern introduction
Design Pattern introductionDesign Pattern introduction
Design Pattern introduction
 

Más de Jaouad Dabounou

اللغة والذكاء الاصطناعي.pdf
اللغة والذكاء الاصطناعي.pdfاللغة والذكاء الاصطناعي.pdf
اللغة والذكاء الاصطناعي.pdfJaouad Dabounou
 
Mrbml004 : Introduction to Information Theory for Machine Learning
Mrbml004 : Introduction to Information Theory for Machine LearningMrbml004 : Introduction to Information Theory for Machine Learning
Mrbml004 : Introduction to Information Theory for Machine LearningJaouad Dabounou
 
Projection sur les ensembles convexes fermés
Projection sur les ensembles convexes fermésProjection sur les ensembles convexes fermés
Projection sur les ensembles convexes fermésJaouad Dabounou
 
Projection d’un point sur un ensemble
Projection d’un point sur un ensembleProjection d’un point sur un ensemble
Projection d’un point sur un ensembleJaouad Dabounou
 
Fonction distance à un ensemble
Fonction distance à un ensembleFonction distance à un ensemble
Fonction distance à un ensembleJaouad Dabounou
 
Théorèmes de Carathéodory
Théorèmes de CarathéodoryThéorèmes de Carathéodory
Théorèmes de CarathéodoryJaouad Dabounou
 
Intérieurs relatifs d’ensembles convexes
Intérieurs relatifs d’ensembles convexesIntérieurs relatifs d’ensembles convexes
Intérieurs relatifs d’ensembles convexesJaouad Dabounou
 
Topologie des ensembles convexes
Topologie des ensembles convexesTopologie des ensembles convexes
Topologie des ensembles convexesJaouad Dabounou
 
Analyse Convexe TD – Série 1 avec correction
Analyse Convexe TD – Série 1 avec correctionAnalyse Convexe TD – Série 1 avec correction
Analyse Convexe TD – Série 1 avec correctionJaouad Dabounou
 
Analyse Factorielle des Correspondances
Analyse Factorielle des CorrespondancesAnalyse Factorielle des Correspondances
Analyse Factorielle des CorrespondancesJaouad Dabounou
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes PrincipalesJaouad Dabounou
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes PrincipalesJaouad Dabounou
 
Analyse numérique interpolation
Analyse numérique interpolationAnalyse numérique interpolation
Analyse numérique interpolationJaouad Dabounou
 
Polycopie Analyse Numérique
Polycopie Analyse NumériquePolycopie Analyse Numérique
Polycopie Analyse NumériqueJaouad Dabounou
 
Sélection de contrôles avec correction
Sélection de contrôles avec correctionSélection de contrôles avec correction
Sélection de contrôles avec correctionJaouad Dabounou
 
Dérivation et Intégration numériques
Dérivation et Intégration numériquesDérivation et Intégration numériques
Dérivation et Intégration numériquesJaouad Dabounou
 

Más de Jaouad Dabounou (17)

اللغة والذكاء الاصطناعي.pdf
اللغة والذكاء الاصطناعي.pdfاللغة والذكاء الاصطناعي.pdf
اللغة والذكاء الاصطناعي.pdf
 
Mrbml004 : Introduction to Information Theory for Machine Learning
Mrbml004 : Introduction to Information Theory for Machine LearningMrbml004 : Introduction to Information Theory for Machine Learning
Mrbml004 : Introduction to Information Theory for Machine Learning
 
Projection sur les ensembles convexes fermés
Projection sur les ensembles convexes fermésProjection sur les ensembles convexes fermés
Projection sur les ensembles convexes fermés
 
Projection d’un point sur un ensemble
Projection d’un point sur un ensembleProjection d’un point sur un ensemble
Projection d’un point sur un ensemble
 
Fonction distance à un ensemble
Fonction distance à un ensembleFonction distance à un ensemble
Fonction distance à un ensemble
 
Théorèmes de Carathéodory
Théorèmes de CarathéodoryThéorèmes de Carathéodory
Théorèmes de Carathéodory
 
Intérieurs relatifs d’ensembles convexes
Intérieurs relatifs d’ensembles convexesIntérieurs relatifs d’ensembles convexes
Intérieurs relatifs d’ensembles convexes
 
Topologie des ensembles convexes
Topologie des ensembles convexesTopologie des ensembles convexes
Topologie des ensembles convexes
 
Analyse Convexe TD – Série 1 avec correction
Analyse Convexe TD – Série 1 avec correctionAnalyse Convexe TD – Série 1 avec correction
Analyse Convexe TD – Série 1 avec correction
 
Analyse Factorielle des Correspondances
Analyse Factorielle des CorrespondancesAnalyse Factorielle des Correspondances
Analyse Factorielle des Correspondances
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes Principales
 
W2 vec001
W2 vec001W2 vec001
W2 vec001
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes Principales
 
Analyse numérique interpolation
Analyse numérique interpolationAnalyse numérique interpolation
Analyse numérique interpolation
 
Polycopie Analyse Numérique
Polycopie Analyse NumériquePolycopie Analyse Numérique
Polycopie Analyse Numérique
 
Sélection de contrôles avec correction
Sélection de contrôles avec correctionSélection de contrôles avec correction
Sélection de contrôles avec correction
 
Dérivation et Intégration numériques
Dérivation et Intégration numériquesDérivation et Intégration numériques
Dérivation et Intégration numériques
 

Último

Bilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfBilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfAmgdoulHatim
 
Cours Généralités sur les systèmes informatiques
Cours Généralités sur les systèmes informatiquesCours Généralités sur les systèmes informatiques
Cours Généralités sur les systèmes informatiquesMohammedAmineHatoch
 
python-Cours Officiel POO Python-m103.pdf
python-Cours Officiel POO Python-m103.pdfpython-Cours Officiel POO Python-m103.pdf
python-Cours Officiel POO Python-m103.pdftrendingv83
 
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...Universidad Complutense de Madrid
 
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxCopie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxikospam0
 
Télécommunication et transport .pdfcours
Télécommunication et transport .pdfcoursTélécommunication et transport .pdfcours
Télécommunication et transport .pdfcourshalima98ahlmohamed
 
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANKRAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANKNassimaMdh
 
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...Nguyen Thanh Tu Collection
 
Neuvaine de la Pentecôte avec des textes de saint Jean Eudes
Neuvaine de la Pentecôte avec des textes de saint Jean EudesNeuvaine de la Pentecôte avec des textes de saint Jean Eudes
Neuvaine de la Pentecôte avec des textes de saint Jean EudesUnidad de Espiritualidad Eudista
 
Apolonia, Apolonia.pptx Film documentaire
Apolonia, Apolonia.pptx         Film documentaireApolonia, Apolonia.pptx         Film documentaire
Apolonia, Apolonia.pptx Film documentaireTxaruka
 
L application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptxL application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptxhamzagame
 
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projetFormation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projetJeanYvesMoine
 
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptx
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptxIntégration des TICE dans l'enseignement de la Physique-Chimie.pptx
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptxabdououanighd
 
L'expression du but : fiche et exercices niveau C1 FLE
L'expression du but : fiche et exercices  niveau C1 FLEL'expression du but : fiche et exercices  niveau C1 FLE
L'expression du but : fiche et exercices niveau C1 FLElebaobabbleu
 
les_infections_a_streptocoques.pptkioljhk
les_infections_a_streptocoques.pptkioljhkles_infections_a_streptocoques.pptkioljhk
les_infections_a_streptocoques.pptkioljhkRefRama
 

Último (16)

Bilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfBilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdf
 
Cours Généralités sur les systèmes informatiques
Cours Généralités sur les systèmes informatiquesCours Généralités sur les systèmes informatiques
Cours Généralités sur les systèmes informatiques
 
python-Cours Officiel POO Python-m103.pdf
python-Cours Officiel POO Python-m103.pdfpython-Cours Officiel POO Python-m103.pdf
python-Cours Officiel POO Python-m103.pdf
 
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
 
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxCopie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
 
Télécommunication et transport .pdfcours
Télécommunication et transport .pdfcoursTélécommunication et transport .pdfcours
Télécommunication et transport .pdfcours
 
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANKRAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
 
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
 
Neuvaine de la Pentecôte avec des textes de saint Jean Eudes
Neuvaine de la Pentecôte avec des textes de saint Jean EudesNeuvaine de la Pentecôte avec des textes de saint Jean Eudes
Neuvaine de la Pentecôte avec des textes de saint Jean Eudes
 
Apolonia, Apolonia.pptx Film documentaire
Apolonia, Apolonia.pptx         Film documentaireApolonia, Apolonia.pptx         Film documentaire
Apolonia, Apolonia.pptx Film documentaire
 
Echos libraries Burkina Faso newsletter 2024
Echos libraries Burkina Faso newsletter 2024Echos libraries Burkina Faso newsletter 2024
Echos libraries Burkina Faso newsletter 2024
 
L application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptxL application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptx
 
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projetFormation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projet
 
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptx
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptxIntégration des TICE dans l'enseignement de la Physique-Chimie.pptx
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptx
 
L'expression du but : fiche et exercices niveau C1 FLE
L'expression du but : fiche et exercices  niveau C1 FLEL'expression du but : fiche et exercices  niveau C1 FLE
L'expression du but : fiche et exercices niveau C1 FLE
 
les_infections_a_streptocoques.pptkioljhk
les_infections_a_streptocoques.pptkioljhkles_infections_a_streptocoques.pptkioljhk
les_infections_a_streptocoques.pptkioljhk
 

RNN avec mécanisme d'attention

  • 1. Réseaux de neurones récurrents Avec mécanisme d'Attention NATURAL LANGUAGE PROCESSING (NLP) juillet 2020 JAOUAD DABOUNOU FST de Settat Université Hassan 1er RNN avec Attention
  • 2. z1 Marrakech z2 , z3 fantastic z4 city z5 ! x2 , x1 Marrakech x3 ville x4 fantastique x5 ! x6 <eos> Réseau récurrent pour la traduction 2 On utilise souvent un réseau récurrent séquence à séquence (ou sequence to sequence: seq2seq) pour la traduction automatique. Nous présentons ci-dessous une architecture simplifiée basée sur un réseau récurrent composé le plus souvent de cellules LSTM. J. DABOUNOU - FST DE SETTAT z
  • 3. ct-1 ct Réseaux LSTM 3J. DABOUNOU - FST DE SETTAT xt+1 ht+1 +x   x tanh tanh x  xt ht +x   x tanh tanh x  xt-1 ht-1 +x   x tanh tanh x  ht-2 ht-1 ht ct-2 ct+1 ht+1 Les réseaux LSTM (Long Short Term Memory ou mémoire à long terme et à court terme ) sont un type spécial de RNN, capable d'apprendre les dépendances à long terme. Ils ont été introduits par Hochreiter et Schmidhuber en 1997, et ont été par la suite affinés et popularisés par de nombreuses personnes. Ils fonctionnent extrêmement bien sur une grande variété de problèmes et sont maintenant largement utilisés.
  • 4. 4 Traduction automatique J. DABOUNOU - FST DE SETTAT Réseau de neuronesHe visited the magical medina Il a visité la médina magique Un réseau de neurones pour la traduction automatique (Neural Machine Translation : NMT) fait un mapping entre une séquence en entrée dans une langue donnée et une séquence en sortie dans la langue cible.
  • 5. 5 Modèle séquence à séquence J. DABOUNOU - FST DE SETTAT Réseau de neurones Seq2seq medinaHe visited the magical médinaIl a visité la magique Les modèles de séquence à séquence font référence à la classe plus large de modèles qui incluent tous les modèles qui mappent une séquence à une autre. Il sont très souvent utilisés dans la traduction automatique. Dans ces modèles, l'entrée et la sortie ne sont pas nécessairement de la même longueur.
  • 6. 6 Modèle SEQ2SEQ de niveau mot J. DABOUNOU - FST DE SETTAT medinaHe visited the magical Réseau de neurones Seq2seq Réseau de neurones Seq2seq Dans les modèles Seq2Seq de niveau mot, le réseau reçoit un à un les mots de la première séquence.
  • 7. 7 Modèle SEQ2SEQ de niveau mot J. DABOUNOU - FST DE SETTAT médinaIla visitélamagique Réseau de neurones Seq2seq Lorsque tous les mots de la séquence en entrée sont reçus par le réseau, il entame la traduction et renvoie les mots de la séquence en sortie l'un à la suite de l'autre dans la langue cible.
  • 8. 8 Modèle encodeur-décodeur J. DABOUNOU - FST DE SETTAT medinaHe visited the magical médinaIl a visité la magique Encoder Decoder Ces modèles peuvent être considérés comme composés de deux réseaux de neurones récurrents: un encodeur et un décodeur. On parle alors d'une architecture encodeur-décodeur (Encoder/Decoder).
  • 9. 9 Modèle encodeur-décodeur J. DABOUNOU - FST DE SETTAT medinaHe visited the magical Encoder Decoder Dans l'architecture codeur-décodeur, la première séquence est entrée mot à mot.
  • 10. 10 Modèle encodeur-décodeur J. DABOUNOU - FST DE SETTAT Encoder Decoder médinaIla visitélamagique Encoder Decoder Contexte Lorsque la séquence entière est entrée dans l'encodeur, celui-ci crée un contexte représentant la séquence d'origine. Ce contexte est ensuite transmis au réseau décodeur qui l'utilise pour construire la séquence en sortie mot après mot.
  • 11. Encoder Decoder Encoder Decoder Contexte 11 Modèle encodeur-décodeur J. DABOUNOU - FST DE SETTAT medinaHe visited the magical médinaIl a visité la magique 0.1 -1.1 -0.3 -1.0 0.1 -0.6 0.2 -0.1 -0.9 -0.3 0.2 -0.4 0.5 -0.1 0.2 -0.5 -0.1 0.4 -0.7 0.7 -0.3 0.4 0.2 -0.5 0.1 0.1 0.8 0.2 -0.7 1.1 -0.2 0.2 0.3 -0.4 0.9 0.1 -1.1 -0.3 -1.0 0.1 -0.2 0.4 1.0 0.1 -0.3 -0.5 -0.2 -0.3 0.2 0.7 -0.3 -1.0 0.5 -0.6 0.5 -0.5 -0.1 -0.8 0.5 0.4 Les entrées du réseau sont une représentation vectorielle des mots (One-hot encoding, word embedding,…) et non les mots eux-mêmes. Le texte d'entrée est traité par l'encodeur pour être codé en un vecteur contexte, qui est ensuite transmis au décodeur pour générer la sortie.
  • 12. 12 Modèle encodeur-décodeur J. DABOUNOU - FST DE SETTAT visited h3 the h4 magical h5 medina h6 He h2 z = h7 <s> h1 </s> h7 English encoder French decoder h2 out h3 out h4 out h5 out h1 out h6 out h7 out médinaIl a visité la magique </s>Le dernier état caché du premier réseau RNN est utilisé comme contexte qui représente la phrase en anglais. Encoder Decoder Encoder Decoder Contexte Le décodeur utilise le contexte comme état initial, génère un premier mot, ensuite l'utilise comme entrée pour générer le mot suivant et ainsi de suite jusqu'à la génération de la fin de séquence </s>. <s>
  • 13. 13 Modèle encodeur-décodeur: RNN traduction J. DABOUNOU - FST DE SETTAT visited h3 the h4 magical h5 medina h6 He h2 z = h7 <s> h1 </s> h7 English encoder French decoder h2 out h3 out h4 out h5 out h1 out h6 out h7 out Représente la phrase en anglais Encoder Decoder Encoder Decoder Contexte x1 x2 x3 x4 x5 x6 x7 z1 z2 z3 z4 z5 z6 z7 Embedding 𝐡t = 𝐭𝐚𝐧𝐡(𝐖hh 𝐡t−1 + 𝐖xh 𝐱t) médinaIl a visité la magique </s> y1 y2 y3 y4 y5 y6 y7 SoftmaxEmbedding Lors de la phase d'entrainement, les sorties zt du décodeur sont comparées aux sorties attendues yt dans l'expression de la fonction de perte. Dans certaines implémentations, on utilise les yt comme entrée pour générer le mot suivant. <s>
  • 14. Encoder Decoder Encoder Decoder Contexte 14 Modèle encodeur-décodeur J. DABOUNOU - FST DE SETTAT visited h3 the h4 magical h5 medina h6 He h2 z = F(h1, h2, …, h7) <s> h1 </s> h7 English encoder French decoder h2 out h3 out h4 out h5 out h1 out h6 out h7 out médinaIl a visité la magique </s> Combinaison des états cachés hs représentant la phrase en anglais Le contexte ainsi obtenu peut ne pas tenir compte des états cachés de début des séquences. Surtout qu'elles sont de taille variable. Pour résoudre ce problème, lors de la phase d'entrainement, au lieu d'utiliser le dernier état caché du premier réseau pour commencer le deuxième réseau, on peut choisir une somme pondérée des différents états cachés h1, h2, …, h7, surtout qu'ils sont disponibles. <s>
  • 15. 15 Limites Modèle encodeur-décodeur J. DABOUNOU - FST DE SETTAT visited h3 the h4 magical h5 medina h6 He h2 z = F(h1, h2, …, h7) <s> h1 </s> h7 English encoder French decoder h2 out h3 out h4 out h5 out h1 out h6 out h7 out médinaIl a visité la magique </s> Représente la phrase en anglais • Taille fixe quelque soit la taille des séquences qui est variable • Perd la dynamique temporelle qui est inhérente aux séquences L'information dans le contexte peut s'effacer lorsque la taille de la sortie est grande Encoder Decoder Encoder Decoder Contexte Reste que le contexte obtenu ainsi continue à présenter quelques inconvénients. <s>
  • 16. 16 Modèle encodeur-décodeur J. DABOUNOU - FST DE SETTAT visited h3 the h4 magical h5 medina h6 He h2 ct = Ft(h1, h2, …, h7) <s> h1 </s> h7 English encoder French decoder h2 out h3 out h4 out h5 out h1 out h6 out h7 out médinaIl a visité la magique </s> Le contexte comme combinaison des hs. Partager le contexte sur tous les tokens. Encoder Decoder Encoder Decoder Contexte Une idée à développer consiste à utiliser le contexte comme entrée supplémentaire pour obtenir chaque mot du décodeur. <s>
  • 17. EncoderEncoder Decoder Contexte 17 Modèle encodeur-décodeur J. DABOUNOU - FST DE SETTAT c1 = F1(h1, h2, …, h7) c2 = F2(h1, h2, …, h7) c3 = F3(h1, h2, …, h7) c4 = F4(h1, h2, …, h7) c5 = F5(h1, h2, …, h7) c6 = F6(h1, h2, …, h7) c7 = F7(h1, h2, …, h7) English encoder French decoder visited h3 the h4 magical h5 medina h6 He h2 <s> h1 </s> h7 h2 out h3 out h4 out h5 out h1 out h6 out h7 out médinaIl a visité la magique </s> <s> Le contexte comme combinaison des hs, mais aussi adapté aux tokens en sortie 𝐜t = s=1,7 ats 𝐡s ats  0 et s=1,7 ats = 1
  • 18. 18 MÉCANISME D'ATTENTION J. DABOUNOU - FST DE SETTAT c1 = F1(h1, h2, …, h7) c2 = F2(h1, h2, …, h7) c3 = F3(h1, h2, …, h7) c4 = F4(h1, h2, …, h7) c5 = F5(h1, h2, …, h7) c6 = F6(h1, h2, …, h7) c7 = F7(h1, h2, …, h7) English encoder French decoder visited h3 the h4 magical h5 medina h6 He h2 <s> h1 </s> h7 MÉCANISME D'ATTENTION h2 out h3 out h4 out h5 out h1 out h6 out h7 out médinaIl a visité la magique </s> <s> 𝐜t = s=1,7 ats 𝐡s ats  0 et s=1,7 ats = 1
  • 19. 19 MÉCANISME D'ATTENTION J. DABOUNOU - FST DE SETTAT c1 = F1(h1, h2, …, h7) c2 = F2(h1, h2, …, h7) c3 = F3(h1, h2, …, h7) c4 = F4(h1, h2, …, h7) c5 = F5(h1, h2, …, h7) c6 = F6(h1, h2, …, h7) c7 = F7(h1, h2, …, h7) English encoder French decoder visited h3 the h4 magical h5 medina h6 He h2 <s> h1 </s> h7 MÉCANISME D'ATTENTION h2 out h3 out h4 out h5 out h1 out h6 out h7 out médinaIl a visité la magique </s> <s> 𝐜t = s=1,7 ats 𝐡s ats  0 et s=1,7 ats = 1
  • 20. 20 Machine Translation avec Attention J. DABOUNOU - FST DE SETTAT English encoder French decoder visited h3 the h4 magical h5 medina h6 He h2 <s> h1 </s> h7 MÉCANISME D'ATTENTION ats = softmax score 𝐡t out , 𝐡s pour s = 1,7 𝐜t = s=1,7 ats 𝐡s 𝐡t att = tanh(𝐖ch att 𝐜t + 𝐖hh att 𝐡t out ) Calculer : 𝐡t out = tanh(𝐖hh out 𝐡t−1 out + 𝐖xh out 𝐳t)1 4 𝐳t=Softmax (𝐖hz out 𝐡t att )5 2 3 score 𝐡t out , 𝐡s = 𝐡t out T 𝐡s ∶ Produit scalaire 𝐡t out 𝐖a 𝐡s ∶ Multiplicatif 𝐯a T 𝐭𝐚𝐧𝐡(𝐖a[𝐡t out ; 𝐡s ]) ∶ Concaténation h2 out h3 out h4 out h5 out h1 out h6 out h7 out médinaIl a visité la magique </s> <s>
  • 21. 21 Machine Translation avec Attention J. DABOUNOU - FST DE SETTAT English encoder French decoder visited h3 the h4 magical h5 medina h6 He h2 <s> h1 </s> h7 h1 out Représente la phrase en anglais <s> Embedding x1 Calculer : 𝐡1 out = tanh(𝐖hh out 𝐡7 + 𝐖xh out 𝐱1)1
  • 22. 22 Machine Translation avec Attention J. DABOUNOU - FST DE SETTAT English encoder French decoder visited h3 the h4 magical h5 medina h6 He h2 <s> h1 </s> h7 h1 out MÉCANISME D'ATTENTION a1s = softmax score 𝐡1 out , 𝐡s pour s = 1,7 𝐜1 = s=1,7 a1s 𝐡s score 𝐡1 out , 𝐡s = 𝐡1 out T 𝐡s ∶ Produit scalaire 𝐡1 out 𝐖a 𝐡s ∶ Multiplicatif 𝐯1 T 𝐭𝐚𝐧𝐡(𝐖a[𝐡1 out ; 𝐡s ]) ∶ Concaténation 2 3 <s> Embedding x1 Calculer : 𝐡1 out = tanh(𝐖hh out 𝐡7 + 𝐖xh out 𝐱1)1
  • 23. 23 Machine Translation avec Attention J. DABOUNOU - FST DE SETTAT English encoder French decoder visited h3 the h4 magical h5 medina h6 He h2 <s> h1 </s> h7 h1 out MÉCANISME D'ATTENTION a1s = softmax score 𝐡1 out , 𝐡s pour s = 1,7 𝐜1 = s=1,7 a1s 𝐡s 𝐡1 att = tanh(𝐖ch att 𝐜1 + 𝐖hh att 𝐡1 out ) score 𝐡1 out , 𝐡s = 𝐡1 out T 𝐡s ∶ Produit scalaire 𝐡1 out 𝐖a 𝐡s ∶ Multiplicatif 𝐯1 T 𝐭𝐚𝐧𝐡(𝐖a[𝐡1 out ; 𝐡s ]) ∶ Concaténation 2 3 4 𝐳1=Softmax (𝐖hz out 𝐡1 att )5Sortie décodeur: z1 <s> Embedding x1 Calculer : 𝐡1 out = tanh(𝐖hh out 𝐡7 + 𝐖xh out 𝐱1)1
  • 24. 24 Machine Translation avec Attention J. DABOUNOU - FST DE SETTAT English encoder French decoder visited h3 the h4 magical h5 medina h6 He h2 <s> h1 </s> h7 h1 out MÉCANISME D'ATTENTION a2s = softmax score 𝐡2 out , 𝐡s pour s = 1,7 𝐜2 = s=1,7 a2s 𝐡s 𝐡2 att = tanh(𝐖ch att 𝐜2 + 𝐖hh att 𝐡2 out ) score 𝐡2 out , 𝐡s = 𝐡2 out T 𝐡s ∶ Produit scalaire 𝐡2 out 𝐖a 𝐡s ∶ Multiplicatif 𝐯1 T 𝐭𝐚𝐧𝐡(𝐖a[𝐡2 out ; 𝐡s ]) ∶ Concaténation Calculer : 𝐡2 out = tanh(𝐖hh out 𝐡1 out + 𝐖xh out 𝐳1)1 2 3 4 𝐳2=Softmax (𝐖hz out 𝐡2 att )5 z1 h2 out <s> Embedding x1 z2 Sortie décodeur:
  • 25. 25 Machine Translation avec Attention J. DABOUNOU - FST DE SETTAT English encoder French decoder visited h3 the h4 magical h5 medina h6 He h2 <s> h1 </s> h7 MÉCANISME D'ATTENTION ats = softmax score 𝐡t out , 𝐡s pour s = 1,7 𝐜t = s=1,7 ats 𝐡s 𝐡t att = tanh(𝐖ch att 𝐜t + 𝐖hh att 𝐡t out ) Calculer : 𝐡t out = tanh(𝐖hh out 𝐡t−1 out + 𝐖xh out 𝐳t)1 4 𝐳t=Softmax (𝐖hz out 𝐡t att )5 2 3 score 𝐡t out , 𝐡s = 𝐡t out T 𝐡s ∶ Produit scalaire 𝐡t out 𝐖a 𝐡s ∶ Multiplicatif 𝐯a T 𝐭𝐚𝐧𝐡(𝐖a[𝐡t out ; 𝐡s ]) ∶ Concaténation h2 out h3 out h4 out h5 out h1 out h6 out h7 out médinaIl a visité la magique </s> <s> Sortie décodeur:
  • 26. 26 Machine Translation avec Attention J. DABOUNOU - FST DE SETTAT visited h3 the h4 magical h5 medina h6 He h2 <s> h1 </s> h7 MÉCANISME D'ATTENTION h2 out h3 out h4 out h5 out h1 out h6 out h7 out médinaIl a visité la magique </s> <s> ats = softmax score 𝐡t out , 𝐡s pour s = 1,7 𝐜t = s=1,7 ats 𝐡s 𝐜3 = s=1,7 a3s 𝐡s a3s  0 et s=1,7 a3s = 1 h1 h2 h3 h4 h5 h6 h7 𝐜3 visité visited the magical medinaHe<s> </s> 0 1 0.12 0.2 0.61 0.07 10-5 10-5 10-7a3s
  • 27. 27 Machine Translation avec Attention J. DABOUNOU - FST DE SETTAT visited h3 the h4 magical h5 medina h6 He h2 <s> h1 </s> h7 MÉCANISME D'ATTENTION h2 out h3 out h4 out h5 out h1 out h6 out h7 out médinaIl a visité la magique </s> <s> 𝐜6 = s=1,7 a6s 𝐡s a6s  0 et s=1,7 a6s = 1 h1 h2 h3 h4 h5 h6 h7 𝐜6 visited the magical medinaHe<s> </s> 0 1 10-8 10-6 10-4 0.05 0.79 0.15 10-8a3s magique ats = softmax score 𝐡t out , 𝐡s pour s = 1,7 𝐜t = s=1,7 ats 𝐡s
  • 28. 28 Machine Translation avec Attention J. DABOUNOU - FST DE SETTAT visited h3 the h4 magical h5 medina h6 He h2 <s> h1 </s> h7 + + + ++ + + médinaIl a visité la magique </s> 𝐜6 = s=1,7 a6s 𝐡s a6s  0 et s=1,7 a6s = 1 h1 h2 h3 h4 h5 h6 h7 𝐜6 visited the magical medinaHe<s> </s> 0 1 10-8 10-6 10-4 0.05 0.79 0.15 10-8a3s magique Graphe des liaisons pertinentes
  • 29. 29 Machine Translation avec Attention J. DABOUNOU - FST DE SETTAT Il a visité la médina magique </s> <s> He visited the magical medina </s> Matrice de distribution de l'attention visited h3 the h4 magical h5 medina h6 He h2 <s> h1 </s> h7 + + + ++ + + médinaIl a visité la magique </s> Graphe des liaisons pertinentes