Appendix document of Chapter 6 for Mining Text Data
1. Mining
Text
Data
Charu
C.
Aggarwal
and
ChengXiang
Zhai
Chapter
6
補足資料
藤井研究室
D1 中山 祐輝
2012/11/09(金)
1
2. A
set-‐valued
featureとは
• W.
Cohen.
Learning
with
set-‐valued
features.
AAAI
Conference,
1996.
– A
set-‐valued
is
simply
a
feature
whose
value
is
a
set
of
strings.
•
(サイズ,種類,色)を動物に対する特徴空間と
すると
集合値特徴
– 上の写真=(小さい,犬,{白,黒} )
2
3. 補足:ジニ係数
Class
1
Class
2
Class
3
Class
4
w w
w
w
w
•
式(6.1)より
3
4. 補足:クラス分布を考慮するジニ係数
Class
1
Class
2
Class
3
Class
4
w w
w
w
w
クラスiに属する文書数
総文書数
分布による重み
語wを含む文書が
出現する割合
同様に
4