Word embeddings: reprezentacje właściwościowe słów

Word embeddings:
reprezentacje właściwościowe słów
Szymon Rutkowski (Uniwersytet Warszawski)
szymon@szymonrutkowski.pl

Intuicja
chłopiec ≈ niedorosły człowiek płci męskiej
dziewczynka ≈ niedorosły człowiek płci żeńskiej
mężczyzna ≈ dorosły człowiek płci męskiej
kotka ≈ kot płci żeńskiej
● Znaczenia słów nie są jednorodne, tylko złożone z mniejszych
jednostek.
● Można spróbować przyporządkować słowom ograniczoną
liczbę skalarnych właściwości semantycznych i
gramatycznych.

Plan prezentacji
● Omówienie Bengio et al., 2003, gdzie
połączono reprezentacje semantyczne z
sieciami neuronowymi.
● Przykładowe zastosowania tej techniki.
● Obserwacje lingwistyczne.

„Neuronowy probabilistyczny model
języka”

Przekleństwo złożoności (curse of
dimensionality)
● Jak modelować wzajemną dystrybucję wielu
niezależnych zmiennych?
● Przykład: modelowanie ciągu 10 słów przy
słowniku o 100 tys. pozycji daje potencjalnie
100 00010 – 1 = 1050 – 1 zmiennych.
● Pojawia się problem reprezentowania takiej
liczby parametrów np. w sieci neuronowej, a
tym bardziej uczenia ich się.

Metoda n-gramów
● Warunkowe prawdopodobieństwo wystąpienia w
tekście jakiegoś słowa na t-tej pozycji, biorąc pod
uwagę wszystkie poprzednie słowa można przybliżyć
przez prawdopodobieństwo biorące pod uwagę tylko n
poprzednich słów.
● W praktyce zakłada się, że często występujące w
korpusie bigramy (trigramy itd.) mają największe
prawdopodobieństwo wystąpienia w przyszłości.
● Ale jesteśmy więźniami bezpośredniego kontekstu.
Jest bardzo możliwe, że poprawna kombinacja nie
wystąpiła nigdy w korpusie.

Podobne-niepodobne zdania
● The cat is walking in the bedroom.
● A dog was running in a room.
● A cat is creeping into the closet.
● …

Trzypunktowy program
1. Powiążmy z każdym wyrazem w słowniku
wektor właściwości w przestrzeni Rm (tzn.
złożony z m cech rzeczywistych – m to liczba
zakładanych właściwości słów).
2. Niech funkcja wyrażająca
prawdopodobieństwo ciągu słów przyjmuje ich
wektory właściwościowe.
3. Uczmy jednocześnie wektorów
właściwościowych oraz parametrów tejże funkcji.

Podobieństwa „funkcji” słów
● The cat is walking in the bedroom.
● A dog was running in a room.
● A cat is creeping into the closet.
● …
Słowa o podobnych funkcjach semantycznych i
gramatycznych otrzymają podobne wektory
właściwościowe.

Funkcja obliczana przez sieć
1. Przyporządkowanie C od każdego elementu i
w V (zbiorze wyrazów tworzących słownik) do
wektora C(i) ∈ Rm, gdzie m to liczba wymiarów
wektora (= liczba zakładanych właściwości
słów).
2. Funkcja g przypisuje ciągowi wektorów
(C(wt-n+1), …, C(wt-1)) dystrybucję
prawdopodobieństwa wśród słów w V dla
następnego słowa wt.

Uczenie sieci
● Maksymalizujemy zlogarytmowane prawdopodobieństwo korpusu
treningowego:
● θ – wagi i progi połączeń sieci neuronów oraz przyporządkowanie C
● Stochastic gradient ascent:
po każdej iteracji
● ε – szybkość uczenia
● Autorzy uzyskali wynik o 33% lepszy od metod n-gramowych.

Relacje międzywyrazowe
● Nauczono sieć podobnego modelu
semantycznego.
● Model koduje relacje gramatyczne, takie jak
stopień przymiotnika, czas czasownika itd., a
także semantyczne: męska/żeńska wersja
słowa, całość/część.
● Sprawdzamy hipotezy w formacie „a ma się do
b, jak c do d” (szukamy d).
(Mikolov et al., 2013a)

● Odpowiedzią jest funkcja oparta na równaniu wektorów xd
= xb
− xa
+ xc
● Autorzy osiągnęli trafność przewidywań na poziomie
39,6%.

● W Mikolov et al. 2013b osiągnięto trafność ok. 50%, przy
korpusie 783-milionowym i 600-wymiarowych wektorach (w
2013a: 320 mln i 1600 wymiarów).
● Wprowadzono także nową architekturę sieci „skip-gramów”.

Zdania: badanie sentymentu
● Parser stanfordzki tworzy drzewa składniowe dla zdań z korpusu
recenzji Rotten Tomatoes.
● W rekursywnych modelach neuronowych każdy węzeł w drzewie
(czyli faktycznie n-gram o rosnącej długości) jest oceniany na
podstawie wektorów jego dzieci.
● Wektory właściwościowe n-gramów są takie same, jak wektory
pojedynczych słów. (Sacher et al., 2011?)

Zdania: badanie sentymentu
Powierzchownie podobne zdania, z poprawnie zaklasyfikowanym
odmiennym sentymentem.

W kierunku tłumaczenia
maszynowego
● Posługujemy się korpusem odpowiadających sobie
dokumentów (Parlament Europejski, wystąpienia
TED).
● Dla każdego dokumentów składamy kompozycyjnie
jego reprezentację semantyczną, od słów, przez
zdania itd.
● Uczenie odbywa się przez porównywanie reprezentacji
dwóch analogicznych dokumentów i backpropagating
do poszczególnych słów w obu językach.
(Hermann et al., 2014)

W kierunku tłumaczenia
maszynowego

Wnioski dla badań języka
● Na pewno nie ma prostej odpowiedniości z
procesami w umyśle.
● Ale modele oparte na wektorach
właściwościowych pokazują możliwość
semantyki opartej na czystych stosunkach
między jednostkami języka.
● Możliwość przedstawiania słów w
wielowymiarowej przestrzeni.

Bibliografia
● Y. Bengio, R. Ducharme, P. Vincent, and C. Janvin. 2003. A neural
probabilistic language model. Journal of Machine Learning Research,
3:1137–1155, March.
● colah.github.io/posts/2014-07-NLP-RNNs-Representations/
● K.M. Hermann, Ph. Blunsom. 2014. Multilingual Distributed
Representations without Word Alignment. In Proceedings of ICLR.
● T. Mikolov, W. Yih, G. Zweig. 2013a. Linguistic regularities in continuous
spaceword representations. In Proceedeings of HLT-NAACL.
● T. Mikolov, K. Chen, G.S. Corrado, J. Dean. 2013b. Efficient Estimation
of Word Representations in Vector Space. Proceedings of ICLR.
● R. Socher, A. Perelygin, J.Y. Wu, J. Chuang, C.D. Manning, A.Y. Ng, C.
Potts. 2013. Recursive Deep Models for Semantic Compositionality
Over a Sentiment Treebank. In Proceedings of EMNLP.

Word embeddings: reprezentacje właściwościowe słów

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (20)

Word embeddings: reprezentacje właściwościowe słów