2. Intuicja
chłopiec ≈ niedorosły człowiek płci męskiej
dziewczynka ≈ niedorosły człowiek płci żeńskiej
mężczyzna ≈ dorosły człowiek płci męskiej
kotka ≈ kot płci żeńskiej
● Znaczenia słów nie są jednorodne, tylko złożone z mniejszych
jednostek.
● Można spróbować przyporządkować słowom ograniczoną
liczbę skalarnych właściwości semantycznych i
gramatycznych.
3. Plan prezentacji
● Omówienie Bengio et al., 2003, gdzie
połączono reprezentacje semantyczne z
sieciami neuronowymi.
● Przykładowe zastosowania tej techniki.
● Obserwacje lingwistyczne.
5. Przekleństwo złożoności (curse of
dimensionality)
● Jak modelować wzajemną dystrybucję wielu
niezależnych zmiennych?
● Przykład: modelowanie ciągu 10 słów przy
słowniku o 100 tys. pozycji daje potencjalnie
100 00010 – 1 = 1050 – 1 zmiennych.
● Pojawia się problem reprezentowania takiej
liczby parametrów np. w sieci neuronowej, a
tym bardziej uczenia ich się.
6. Metoda n-gramów
● Warunkowe prawdopodobieństwo wystąpienia w
tekście jakiegoś słowa na t-tej pozycji, biorąc pod
uwagę wszystkie poprzednie słowa można przybliżyć
przez prawdopodobieństwo biorące pod uwagę tylko n
poprzednich słów.
● W praktyce zakłada się, że często występujące w
korpusie bigramy (trigramy itd.) mają największe
prawdopodobieństwo wystąpienia w przyszłości.
● Ale jesteśmy więźniami bezpośredniego kontekstu.
Jest bardzo możliwe, że poprawna kombinacja nie
wystąpiła nigdy w korpusie.
7. Podobne-niepodobne zdania
● The cat is walking in the bedroom.
● A dog was running in a room.
● A cat is creeping into the closet.
● …
8. Trzypunktowy program
1. Powiążmy z każdym wyrazem w słowniku
wektor właściwości w przestrzeni Rm (tzn.
złożony z m cech rzeczywistych – m to liczba
zakładanych właściwości słów).
2. Niech funkcja wyrażająca
prawdopodobieństwo ciągu słów przyjmuje ich
wektory właściwościowe.
3. Uczmy jednocześnie wektorów
właściwościowych oraz parametrów tejże funkcji.
9. Podobieństwa „funkcji” słów
● The cat is walking in the bedroom.
● A dog was running in a room.
● A cat is creeping into the closet.
● …
Słowa o podobnych funkcjach semantycznych i
gramatycznych otrzymają podobne wektory
właściwościowe.
10. Funkcja obliczana przez sieć
1. Przyporządkowanie C od każdego elementu i
w V (zbiorze wyrazów tworzących słownik) do
wektora C(i) ∈ Rm, gdzie m to liczba wymiarów
wektora (= liczba zakładanych właściwości
słów).
2. Funkcja g przypisuje ciągowi wektorów
(C(wt-n+1), …, C(wt-1)) dystrybucję
prawdopodobieństwa wśród słów w V dla
następnego słowa wt.
12. Uczenie sieci
● Maksymalizujemy zlogarytmowane prawdopodobieństwo korpusu
treningowego:
● θ – wagi i progi połączeń sieci neuronów oraz przyporządkowanie C
● Stochastic gradient ascent:
po każdej iteracji
● ε – szybkość uczenia
● Autorzy uzyskali wynik o 33% lepszy od metod n-gramowych.
14. Relacje międzywyrazowe
● Nauczono sieć podobnego modelu
semantycznego.
● Model koduje relacje gramatyczne, takie jak
stopień przymiotnika, czas czasownika itd., a
także semantyczne: męska/żeńska wersja
słowa, całość/część.
● Sprawdzamy hipotezy w formacie „a ma się do
b, jak c do d” (szukamy d).
(Mikolov et al., 2013a)
15. Relacje międzywyrazowe
● Odpowiedzią jest funkcja oparta na równaniu wektorów xd
= xb
− xa
+ xc
● Autorzy osiągnęli trafność przewidywań na poziomie
39,6%.
16. Relacje międzywyrazowe
● W Mikolov et al. 2013b osiągnięto trafność ok. 50%, przy
korpusie 783-milionowym i 600-wymiarowych wektorach (w
2013a: 320 mln i 1600 wymiarów).
● Wprowadzono także nową architekturę sieci „skip-gramów”.
17. Zdania: badanie sentymentu
● Parser stanfordzki tworzy drzewa składniowe dla zdań z korpusu
recenzji Rotten Tomatoes.
● W rekursywnych modelach neuronowych każdy węzeł w drzewie
(czyli faktycznie n-gram o rosnącej długości) jest oceniany na
podstawie wektorów jego dzieci.
● Wektory właściwościowe n-gramów są takie same, jak wektory
pojedynczych słów. (Sacher et al., 2011?)
19. W kierunku tłumaczenia
maszynowego
● Posługujemy się korpusem odpowiadających sobie
dokumentów (Parlament Europejski, wystąpienia
TED).
● Dla każdego dokumentów składamy kompozycyjnie
jego reprezentację semantyczną, od słów, przez
zdania itd.
● Uczenie odbywa się przez porównywanie reprezentacji
dwóch analogicznych dokumentów i backpropagating
do poszczególnych słów w obu językach.
(Hermann et al., 2014)
22. Wnioski dla badań języka
● Na pewno nie ma prostej odpowiedniości z
procesami w umyśle.
● Ale modele oparte na wektorach
właściwościowych pokazują możliwość
semantyki opartej na czystych stosunkach
między jednostkami języka.
● Możliwość przedstawiania słów w
wielowymiarowej przestrzeni.
23. Bibliografia
● Y. Bengio, R. Ducharme, P. Vincent, and C. Janvin. 2003. A neural
probabilistic language model. Journal of Machine Learning Research,
3:1137–1155, March.
● colah.github.io/posts/2014-07-NLP-RNNs-Representations/
● K.M. Hermann, Ph. Blunsom. 2014. Multilingual Distributed
Representations without Word Alignment. In Proceedings of ICLR.
● T. Mikolov, W. Yih, G. Zweig. 2013a. Linguistic regularities in continuous
spaceword representations. In Proceedeings of HLT-NAACL.
● T. Mikolov, K. Chen, G.S. Corrado, J. Dean. 2013b. Efficient Estimation
of Word Representations in Vector Space. Proceedings of ICLR.
● R. Socher, A. Perelygin, J.Y. Wu, J. Chuang, C.D. Manning, A.Y. Ng, C.
Potts. 2013. Recursive Deep Models for Semantic Compositionality
Over a Sentiment Treebank. In Proceedings of EMNLP.