40. WALSデータセット The World ATLAS of language structures 504言語について色々な特徴が記述されている。全部ダウンロード出来る。 言語処理学会でも使われていたりする Relation between Word Order Characteristics and Suicide/Homicide Rates (2), ○江原暉将 (山梨英和大), NLP2011 数理的手法を用いた日本語の系統に関する考察, ○小橋昌明, 田中久美子 (東大), NLP2011 この手の研究をしようと思うと、実質、これ一択? 40
41. Phonemic diversity Phoneme diversityとphonemic diversityの2種類が使われているが…たぶん、同じ。 WALSには、consonantの数、vowelの数、toneの数の3つの情報が入っている。(small [2-4], medium [5-6], large [7-14]), consonant (small [6-14], moderately small [15-18], average [19-25], moderately large [26-33], large [34+]) 前処理として、どうやら、次のことをやり、phonemic diversityと呼んでいるらしい。 pd = n(n(c)+n(v)+n(t)) n(x)は平均0、分散1で正規化。 41