SlideShare una empresa de Scribd logo
1 de 23
Descargar para leer sin conexión
Word embeddings:
reprezentacje właściwościowe słów
Szymon Rutkowski (Uniwersytet Warszawski)
szymon@szymonrutkowski.pl
Intuicja
chłopiec ≈ niedorosły człowiek płci męskiej
dziewczynka ≈ niedorosły człowiek płci żeńskiej
mężczyzna ≈ dorosły człowiek płci męskiej
kotka ≈ kot płci żeńskiej
● Znaczenia słów nie są jednorodne, tylko złożone z mniejszych
jednostek.
● Można spróbować przyporządkować słowom ograniczoną
liczbę skalarnych właściwości semantycznych i
gramatycznych.
Plan prezentacji
● Omówienie Bengio et al., 2003, gdzie
połączono reprezentacje semantyczne z
sieciami neuronowymi.
● Przykładowe zastosowania tej techniki.
● Obserwacje lingwistyczne.
„Neuronowy probabilistyczny model
języka”
Przekleństwo złożoności (curse of
dimensionality)
● Jak modelować wzajemną dystrybucję wielu
niezależnych zmiennych?
● Przykład: modelowanie ciągu 10 słów przy
słowniku o 100 tys. pozycji daje potencjalnie
100 00010 – 1 = 1050 – 1 zmiennych.
● Pojawia się problem reprezentowania takiej
liczby parametrów np. w sieci neuronowej, a
tym bardziej uczenia ich się.
Metoda n-gramów
● Warunkowe prawdopodobieństwo wystąpienia w
tekście jakiegoś słowa na t-tej pozycji, biorąc pod
uwagę wszystkie poprzednie słowa można przybliżyć
przez prawdopodobieństwo biorące pod uwagę tylko n
poprzednich słów.
● W praktyce zakłada się, że często występujące w
korpusie bigramy (trigramy itd.) mają największe
prawdopodobieństwo wystąpienia w przyszłości.
● Ale jesteśmy więźniami bezpośredniego kontekstu.
Jest bardzo możliwe, że poprawna kombinacja nie
wystąpiła nigdy w korpusie.
Podobne-niepodobne zdania
● The cat is walking in the bedroom.
● A dog was running in a room.
● A cat is creeping into the closet.
● …
Trzypunktowy program
1. Powiążmy z każdym wyrazem w słowniku
wektor właściwości w przestrzeni Rm (tzn.
złożony z m cech rzeczywistych – m to liczba
zakładanych właściwości słów).
2. Niech funkcja wyrażająca
prawdopodobieństwo ciągu słów przyjmuje ich
wektory właściwościowe.
3. Uczmy jednocześnie wektorów
właściwościowych oraz parametrów tejże funkcji.
Podobieństwa „funkcji” słów
● The cat is walking in the bedroom.
● A dog was running in a room.
● A cat is creeping into the closet.
● …
Słowa o podobnych funkcjach semantycznych i
gramatycznych otrzymają podobne wektory
właściwościowe.
Funkcja obliczana przez sieć
1. Przyporządkowanie C od każdego elementu i
w V (zbiorze wyrazów tworzących słownik) do
wektora C(i) ∈ Rm, gdzie m to liczba wymiarów
wektora (= liczba zakładanych właściwości
słów).
2. Funkcja g przypisuje ciągowi wektorów
(C(wt-n+1), …, C(wt-1)) dystrybucję
prawdopodobieństwa wśród słów w V dla
następnego słowa wt.
Schemat sieci neuronowej
Uczenie sieci
● Maksymalizujemy zlogarytmowane prawdopodobieństwo korpusu
treningowego:
● θ – wagi i progi połączeń sieci neuronów oraz przyporządkowanie C
● Stochastic gradient ascent:
po każdej iteracji
● ε – szybkość uczenia
● Autorzy uzyskali wynik o 33% lepszy od metod n-gramowych.
Zastosowania
Relacje międzywyrazowe
● Nauczono sieć podobnego modelu
semantycznego.
● Model koduje relacje gramatyczne, takie jak
stopień przymiotnika, czas czasownika itd., a
także semantyczne: męska/żeńska wersja
słowa, całość/część.
● Sprawdzamy hipotezy w formacie „a ma się do
b, jak c do d” (szukamy d).
(Mikolov et al., 2013a)
Relacje międzywyrazowe
● Odpowiedzią jest funkcja oparta na równaniu wektorów xd
= xb
− xa
+ xc
● Autorzy osiągnęli trafność przewidywań na poziomie
39,6%.
Relacje międzywyrazowe
● W Mikolov et al. 2013b osiągnięto trafność ok. 50%, przy
korpusie 783-milionowym i 600-wymiarowych wektorach (w
2013a: 320 mln i 1600 wymiarów).
● Wprowadzono także nową architekturę sieci „skip-gramów”.
Zdania: badanie sentymentu
● Parser stanfordzki tworzy drzewa składniowe dla zdań z korpusu
recenzji Rotten Tomatoes.
● W rekursywnych modelach neuronowych każdy węzeł w drzewie
(czyli faktycznie n-gram o rosnącej długości) jest oceniany na
podstawie wektorów jego dzieci.
● Wektory właściwościowe n-gramów są takie same, jak wektory
pojedynczych słów. (Sacher et al., 2011?)
Zdania: badanie sentymentu
Powierzchownie podobne zdania, z poprawnie zaklasyfikowanym
odmiennym sentymentem.
W kierunku tłumaczenia
maszynowego
● Posługujemy się korpusem odpowiadających sobie
dokumentów (Parlament Europejski, wystąpienia
TED).
● Dla każdego dokumentów składamy kompozycyjnie
jego reprezentację semantyczną, od słów, przez
zdania itd.
● Uczenie odbywa się przez porównywanie reprezentacji
dwóch analogicznych dokumentów i backpropagating
do poszczególnych słów w obu językach.
(Hermann et al., 2014)
W kierunku tłumaczenia
maszynowego
Wnioski dla badań języka
Wnioski dla badań języka
● Na pewno nie ma prostej odpowiedniości z
procesami w umyśle.
● Ale modele oparte na wektorach
właściwościowych pokazują możliwość
semantyki opartej na czystych stosunkach
między jednostkami języka.
● Możliwość przedstawiania słów w
wielowymiarowej przestrzeni.
Bibliografia
● Y. Bengio, R. Ducharme, P. Vincent, and C. Janvin. 2003. A neural
probabilistic language model. Journal of Machine Learning Research,
3:1137–1155, March.
● colah.github.io/posts/2014-07-NLP-RNNs-Representations/
● K.M. Hermann, Ph. Blunsom. 2014. Multilingual Distributed
Representations without Word Alignment. In Proceedings of ICLR.
● T. Mikolov, W. Yih, G. Zweig. 2013a. Linguistic regularities in continuous
spaceword representations. In Proceedeings of HLT-NAACL.
● T. Mikolov, K. Chen, G.S. Corrado, J. Dean. 2013b. Efficient Estimation
of Word Representations in Vector Space. Proceedings of ICLR.
● R. Socher, A. Perelygin, J.Y. Wu, J. Chuang, C.D. Manning, A.Y. Ng, C.
Potts. 2013. Recursive Deep Models for Semantic Compositionality
Over a Sentiment Treebank. In Proceedings of EMNLP.

Más contenido relacionado

Destacado

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationErica Santiago
 

Destacado (20)

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 

Word embeddings: reprezentacje właściwościowe słów

  • 1. Word embeddings: reprezentacje właściwościowe słów Szymon Rutkowski (Uniwersytet Warszawski) szymon@szymonrutkowski.pl
  • 2. Intuicja chłopiec ≈ niedorosły człowiek płci męskiej dziewczynka ≈ niedorosły człowiek płci żeńskiej mężczyzna ≈ dorosły człowiek płci męskiej kotka ≈ kot płci żeńskiej ● Znaczenia słów nie są jednorodne, tylko złożone z mniejszych jednostek. ● Można spróbować przyporządkować słowom ograniczoną liczbę skalarnych właściwości semantycznych i gramatycznych.
  • 3. Plan prezentacji ● Omówienie Bengio et al., 2003, gdzie połączono reprezentacje semantyczne z sieciami neuronowymi. ● Przykładowe zastosowania tej techniki. ● Obserwacje lingwistyczne.
  • 5. Przekleństwo złożoności (curse of dimensionality) ● Jak modelować wzajemną dystrybucję wielu niezależnych zmiennych? ● Przykład: modelowanie ciągu 10 słów przy słowniku o 100 tys. pozycji daje potencjalnie 100 00010 – 1 = 1050 – 1 zmiennych. ● Pojawia się problem reprezentowania takiej liczby parametrów np. w sieci neuronowej, a tym bardziej uczenia ich się.
  • 6. Metoda n-gramów ● Warunkowe prawdopodobieństwo wystąpienia w tekście jakiegoś słowa na t-tej pozycji, biorąc pod uwagę wszystkie poprzednie słowa można przybliżyć przez prawdopodobieństwo biorące pod uwagę tylko n poprzednich słów. ● W praktyce zakłada się, że często występujące w korpusie bigramy (trigramy itd.) mają największe prawdopodobieństwo wystąpienia w przyszłości. ● Ale jesteśmy więźniami bezpośredniego kontekstu. Jest bardzo możliwe, że poprawna kombinacja nie wystąpiła nigdy w korpusie.
  • 7. Podobne-niepodobne zdania ● The cat is walking in the bedroom. ● A dog was running in a room. ● A cat is creeping into the closet. ● …
  • 8. Trzypunktowy program 1. Powiążmy z każdym wyrazem w słowniku wektor właściwości w przestrzeni Rm (tzn. złożony z m cech rzeczywistych – m to liczba zakładanych właściwości słów). 2. Niech funkcja wyrażająca prawdopodobieństwo ciągu słów przyjmuje ich wektory właściwościowe. 3. Uczmy jednocześnie wektorów właściwościowych oraz parametrów tejże funkcji.
  • 9. Podobieństwa „funkcji” słów ● The cat is walking in the bedroom. ● A dog was running in a room. ● A cat is creeping into the closet. ● … Słowa o podobnych funkcjach semantycznych i gramatycznych otrzymają podobne wektory właściwościowe.
  • 10. Funkcja obliczana przez sieć 1. Przyporządkowanie C od każdego elementu i w V (zbiorze wyrazów tworzących słownik) do wektora C(i) ∈ Rm, gdzie m to liczba wymiarów wektora (= liczba zakładanych właściwości słów). 2. Funkcja g przypisuje ciągowi wektorów (C(wt-n+1), …, C(wt-1)) dystrybucję prawdopodobieństwa wśród słów w V dla następnego słowa wt.
  • 12. Uczenie sieci ● Maksymalizujemy zlogarytmowane prawdopodobieństwo korpusu treningowego: ● θ – wagi i progi połączeń sieci neuronów oraz przyporządkowanie C ● Stochastic gradient ascent: po każdej iteracji ● ε – szybkość uczenia ● Autorzy uzyskali wynik o 33% lepszy od metod n-gramowych.
  • 14. Relacje międzywyrazowe ● Nauczono sieć podobnego modelu semantycznego. ● Model koduje relacje gramatyczne, takie jak stopień przymiotnika, czas czasownika itd., a także semantyczne: męska/żeńska wersja słowa, całość/część. ● Sprawdzamy hipotezy w formacie „a ma się do b, jak c do d” (szukamy d). (Mikolov et al., 2013a)
  • 15. Relacje międzywyrazowe ● Odpowiedzią jest funkcja oparta na równaniu wektorów xd = xb − xa + xc ● Autorzy osiągnęli trafność przewidywań na poziomie 39,6%.
  • 16. Relacje międzywyrazowe ● W Mikolov et al. 2013b osiągnięto trafność ok. 50%, przy korpusie 783-milionowym i 600-wymiarowych wektorach (w 2013a: 320 mln i 1600 wymiarów). ● Wprowadzono także nową architekturę sieci „skip-gramów”.
  • 17. Zdania: badanie sentymentu ● Parser stanfordzki tworzy drzewa składniowe dla zdań z korpusu recenzji Rotten Tomatoes. ● W rekursywnych modelach neuronowych każdy węzeł w drzewie (czyli faktycznie n-gram o rosnącej długości) jest oceniany na podstawie wektorów jego dzieci. ● Wektory właściwościowe n-gramów są takie same, jak wektory pojedynczych słów. (Sacher et al., 2011?)
  • 18. Zdania: badanie sentymentu Powierzchownie podobne zdania, z poprawnie zaklasyfikowanym odmiennym sentymentem.
  • 19. W kierunku tłumaczenia maszynowego ● Posługujemy się korpusem odpowiadających sobie dokumentów (Parlament Europejski, wystąpienia TED). ● Dla każdego dokumentów składamy kompozycyjnie jego reprezentację semantyczną, od słów, przez zdania itd. ● Uczenie odbywa się przez porównywanie reprezentacji dwóch analogicznych dokumentów i backpropagating do poszczególnych słów w obu językach. (Hermann et al., 2014)
  • 22. Wnioski dla badań języka ● Na pewno nie ma prostej odpowiedniości z procesami w umyśle. ● Ale modele oparte na wektorach właściwościowych pokazują możliwość semantyki opartej na czystych stosunkach między jednostkami języka. ● Możliwość przedstawiania słów w wielowymiarowej przestrzeni.
  • 23. Bibliografia ● Y. Bengio, R. Ducharme, P. Vincent, and C. Janvin. 2003. A neural probabilistic language model. Journal of Machine Learning Research, 3:1137–1155, March. ● colah.github.io/posts/2014-07-NLP-RNNs-Representations/ ● K.M. Hermann, Ph. Blunsom. 2014. Multilingual Distributed Representations without Word Alignment. In Proceedings of ICLR. ● T. Mikolov, W. Yih, G. Zweig. 2013a. Linguistic regularities in continuous spaceword representations. In Proceedeings of HLT-NAACL. ● T. Mikolov, K. Chen, G.S. Corrado, J. Dean. 2013b. Efficient Estimation of Word Representations in Vector Space. Proceedings of ICLR. ● R. Socher, A. Perelygin, J.Y. Wu, J. Chuang, C.D. Manning, A.Y. Ng, C. Potts. 2013. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank. In Proceedings of EMNLP.