VCWE[論文読み会]

VCWE:Visual Character-Enhanced
Word Embedding
Chi Sun, Xipeng Qiu, Xuanjing Huang
Shanghai Key Laboratory of Intelligent Information Processing,
Fudan University School of Computer Science,
Fudan University 825 Zhangheng Road, Shanghai, China

長澤駿太(テツ)
- 法政大学理工学部応用情報工学科 B4
知的情報処理研究室(彌冨研) 所属
- バイト探してます
- DeNAのコンペで優勝しました！
- ブログ書いてます(論文読みとか）
- https://tetsu316.hatenablog.com
研究分野
- 文字形状を考慮した自然言語処理
- これから話す論文もこれ系です
2
@tetsu316naga
iron316
自己紹介

Chi Sun, Xipeng Qiu, Xuanjing Huang
VCWE:Visual Character-Enhanced Word Embedding
In Proceedings of the 2019 Conference of the North
American Chapter of the Association for Computational
Linguistics: Human Language Technologies
arxiv: https://arxiv.org/abs/1902.08795
3
文献情報

- 文字形状を考慮した中国語の単語分散表現
“Visual Character-Enhanced Word Embedding”
(VCWE)の提案
- 先行研究と比べより良い単語分散表現の獲得
- End-to-Endにすることで先行研究よりも文字形状を
捉えた分散表現の学習が可能
- 先行研究と比べより複雑な文脈を考慮できるようになった
- この論文を選んだ理由
- 自分の進めている研究と近かった
4
TL;DR

中国語や漢字は表意文字と呼ばれている
鯲鯣
5
背景

魚編だし、
魚っぽい？
鯲鯣
6
背景
スルメドジョウ

背景
ドジョウスルメ
魚編だし、
魚っぽい？
漢字の形から
意味を認識
言語の理解に
役に立ちそう
鯲鯣
7

背景
- Image-based Character Embedding for Document
Classification [Shimada+ 2016]
- CAEで文字画像を学習させることで
文字の形を考慮した文字の分散表現の獲得
[Shimada+ 2016] D. Shimada, R. Kotani, and H. Iyatomi, “Document classification through image-based character
embedding and wildcard training,” IEEE International Conference on Big Data, pp. 3922–3927, 2016. 8

背景
- End-to-End Text Classification via
Image-based Embedding using
Character-level Networks [Kitada+ 2018]
- 文書分類タスクとcharacter encoderを
繋げたEnd-to-Endのモデル
- 画像空間と特徴空間による
data augmentationを行うことで精度を向上
- Wikipediaタイトルによる
カテゴリ分類にてstate of the art を達成
9
[Kitada+ 2018] Shunsuke Kitada, Ryunosuke Kotani, Hitoshi Iyatomi, "End-to-End Text Classification via
Image-based Embedding using Character-level Networks”, IEEE Applied Imagery Pattern Recognition
(AIPR) 2018 workshop

先行研究
- 中国語における文字構造を考慮した単語分散表現
- CWE[Yin+ 2015]
- Word2vec + 文字の部首情報を追加
- GWE[Su+ 2017]
- CWE+文字画像による視覚的特徴量の追加
- JWE[Yu+ 2017]
- 単語や文字、部首をそれぞれ別々に扱う
10
[Yin+ 2016] Rongchao Yin, Quan Wang, Rui Li, Peng Li, Bin Wang, “Multi-Granularity Chinese Word
Embedding”, Empirical Methods in Natural Language Processing 2016
[Su and Lee+ 2017] Tzu-Ray Su, Hung-Yi Lee, “Learning Chinese Word Representations From Glyphs Of
Characters”, arXiv preprint arXiv:1708.04755.
[Yu+ 2017], Jinxing Yu, Xun Jian, Hao Xin, and Yangqiu Song, “Joint embeddings of chinese words,
characters, and fine-grained subcharacter components”, Empirical Methods in Natural Language Processing
2017

CWE
- Multi-Granularity Chinese WordEmbedding[Yin+ 2015]
- 文字+部首+単語による単語分散表現
11

GWE
- Learning Chinese Word Representations From
Glyphs Of Characters[Su+ 2017]
- 文字画像からCAEで抽出した、視覚的特徴量を
CWEに組み込んだ単語分散表現
12

JWE
- Joint embeddings of chinese words, characters, and
fine-grained subcharacter components[Yu+ 2017]
- 単語+文字+部首のそれぞれをword2vecの
入力として学習した分散表現
13

先行研究の問題点
- CWEやJWEはより複雑な言語構成が処理できない
- 部首情報により簡単な構成は学習できている
- GWEは柔軟性がword2vecよりも劣っている
- 非構成単語(構成文字に意味が少ない)
- 例: ”沙发”(ソファ) = ”沙”(砂)+"发"(髪)
14

VCWE学習の3 steps
1. CNNによる文字からの視覚的情報量の抽出
2. Bi-LSTMとself-attentionによる単語分散表現の取得
3. Skip-gramによるコンテキスト情報の取得
15

VCWE
サブ要素
- Sub sampling
- レア単語と頻出単語の出現回数の調整
- Negative sampling
- 平等にnegative sampleするよう調整
16

実験(VCWEの学習)
データセット
- 中国のWikipedia dataset
- tokenizer : THULAC 7
- 頻度100回以上の単語のみ使用
ハイパパラメータ
- Optimizer : Adam
- Learning rate : 0.001
- Context window : 5
- Embedding dimension : 100
- Negative sampling : 5
18

評価タスク
- Word Similarity Task
- 単語類似性データセットのスピアマン相関
19

評価タスク
- Sentiment Analysis Task(2値分類)
- 後段のモデルとしてBi-LSTMを使用
- データはノート、車、カメラ、携帯のレビュー
20

評価タスク
- Named Entity Recognition
- 後段のモデルとしてchinese NER modelを使用
- MSRA datasetを使用
- Part-of-speech Tagging Task
- 後段のモデルとしてBi-LSTM使用
21

評価タスク
- Qualitative Analysis
- target単語に最も類似度(cos類似度)の高い単語top10
22

まとめ
- 議論
- ４つのタスクでBaselineよりも良い精度を出すことで、
より良い分散表現が学習されたことが確認できた
- End-to-EndのモデルにすることによりGWEと比べて
より文字形状を捉えた分散表現の学習が可能になった
- 気になった点
- 日本語に適用してみたらどうなるのだろう
- ひらがなとかカタカナとかの扱い方
- 日本語実装やってます(間に合わなかった...)
23

VCWE[論文読み会]

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (20)

VCWE[論文読み会]