SlideShare a Scribd company logo
1 of 8
Download to read offline
[例3]商品の購買履歴からの商品推薦。
                                     例3]
データ・テキストマイニング
データ・テキストマイニング
                                    流通業では、例えば、書籍やCDについて、どのユーザ
山西 健司(NEC インターネットシステム研究所)           が過去にどのような商品を買ったかという購買履歴デー
                                    タを集めている。そこで、特定のユーザの嗜好を他のユ
1.はじめに                              ーザの情報をもとに学習し、その人が未だ購入していな
  データウェアハウスやデータベースが普及して、大量 い商品を購入しそうかどうかを予測する。そして、これ
の顧客データ、購買データ、ログデータ、アンケートデ に基づいて商品推薦を行う 。
ータ等が蓄積されるようになった。      ビジネスの現場では、[例4]ネットワークアクセスログからの不正検出。
                                     例4]
計算機性能の向上に伴って、このような大量データの中 過去のネットワークアクセスログを調べて、異常なアク
から、売れ筋商品の傾向を発見したり、優良顧客層を発 セスログを検出し、ネットワーク不正侵入を検出する。
見したり、といったことが現実に要求されるようになっ [例5]自由記述アンケートからのテキストマイニング。
                                     例5]
てきた。 これを可能にするのが、データマイニング、 商品評価や苦情など、顧客から寄せられた自由記述アン
                      データマイニング、
テキストマイニングとよばれる技術である。
テキストマイニング                           ケートデータから、特定商品あるいは特定顧客層に特有
 これらは一言でいうと、大量のデータからビジネスに な意見・コメントの特徴を言葉の上で分析する。
有効な価値ある情報を掘り起こす(マイニング)ための
技術である。このような機能は「知識発見」と呼ばれて 3.マイニング技術の要件
いる。一般に、構造化された数値データを対象にする場  人工知能の分野で、80 年代後半から「機械学習               「機械学習
合はデータマイニングと呼ばれるが、自然言語のような (Machine Learning)   Learning)」とよばれる、事例データから
                                                        」
非構造データをも対象にする場合はテキストマイニング 知識を発見するためのアルゴリズムと実装の研究が盛ん
と呼んで区別している。以下、まとめてマイニング技術 に行われてきた。マイニング技術とは、基本的には機械
という言い方をする。マイニング技術の本質は事例デー 学習技術そのものであるといえる。ただし、マイニング
タからの構造的な知識の「学習    学習」にある。
                  学習                と改めて呼び直される背景には、マイニング技術には以
                                    下の要件が求められていることがあげられる。
2.CRMとマイニング                           1)Scalability GB から TB に及ぶ大量のデータを
                                         Scalability:
  マイニング技術は、顧客に関するデータを一元的に管               現実的な計算時間と計算機メモリ容量の制約の
理し、One-to-One マーケティングによって顧客の満足           もとで処理できなければならない
                CRM(                     Effectiveness:
を向上させようとする CRM(Customer Relationship 2)Effectiveness 発見された知識が、現実のデータ
Management)
Management)の分野で特に重要である。CRM は年間           の要約、あるいは未知のデータに対する予測と
20%の伸び率で急成長し、2002 年度には世界的に市              いった面において現実に有効でなければならな
場規模が 4000 億円に上ると見込まれている分野である             い。
(ミック経済研究所調べ)     。                       Readability:
                                      3)Readability 発見された知識が理解しやすいも
  CRMの文脈でどのようなマイニング技術が活かされ               のでなければならない。
ているか、例で示そう。                          尚、マイニング技術の背景には、情報理論、統計学、
[例1]POS データからの購買分析。
 例1]POS                             計算機科学、統計物理学、ニューロサイエンス、計算論
購買履歴データのようなPOSデータから、どのような 的学習理論などといった学際的な分野が広がっている。
商品が同時に売れたかといった相関性を発見する(これ
をバスケット分析とよぶ)      。有名な例としては、スーパ
ーマーケットで紙おむつとビールが同時に売れるといっ
た相関ルールの発見が挙げられる。
[例2]顧客契約データからの解約者分析。
 例2]
通信業やISP事業などでは契約を解約するユーザを予
測することを問題としている(これは Churn 分析とよ
ばれる)  。そこでは解約者と非解約者のプロファイルデ
ータから、それらを分類するルールを発見し、これから
解約しそうなユーザを予測する。ひとたび解約者層が特
定できれば、そういった顧客にダイレクトメールなどを
集中的に送ることによって、解約を防ぐことができる。
     図1.マイニング分野の全体図
                                                     ルールは、サポートσと信頼度pで特徴付けられる。
4.マイニング分野の全体図                                       サポートとは X と Y が同時に含まれるトランザクショ
                                                    サポート
  マイニングに関しては ACM に SIG―KDD(ACM  SIG―KDD             ンが現れる確率である。信頼度信頼度とは、トランザクショ
                                                                  信頼度
Special Interest Group on Knowledge Discovery and   ンに X が含まれる場合に、Y も含まれる条件付き確率
Data Mining[19])という世界最大の組織が生まれ、こ                    である。図2の例に対して CE→A といったルールは、
こが主催になって 1996 年より KDD ( Knowledge
                                KDD(                全トランザクション数が6で、C、E、A の同時出現数
                    Mining)
Discovery and Data Mining)とよばれる世界最大のデ               が4であるからサポートは(4/6)である。また、CE の
ータマイニングの国際会議が毎年開催されている[19]。                         出現数が5で、CE の出現のもとでの A の出現数が4で
他にも SIAM,IEEE でのデータマイニング会議や                         あるから、信頼度は(4 / 5)である。
PAKDD, Discovery Science などといった国際会議もあ                バスケット分析では、サポートと信頼度がある一定以
り、いずれも年を追うごとに盛況になっている。雑誌で                           上の値をもつルールを抽出することを考える。そのステ
は Data Mining and Knowledge Discovery Journal[21]   ップは以下の2つに分かれる。
があり、本分野の最先端の技術を集めている。                                1)頻出アイテム集合の発見。
                                                        頻出アイテム集合の発見。一定値以上のサポー
                                                        頻出アイテム集合の発見。
  KDD では多くの技術要素が新しく生まれている。こ                         トをもつアイテム集合を抽出する。図3は図 2 の例に
れらの基本技術の関係を表したのが図1である。横軸は                           対して 50%以上のサポートをもったアイテム集合を表
左側から右側に移るにつれて数値データからテキストデ                           している(一定値以上のサポートをもつアイテム集合を
ータを対象にすることを示しており、縦軸は上に進むに                           頻出アイテム集合とよぶ)   。この場合、他のアイテム集
従って、比較的新しい技術であることを示している。                            合の部分集合とならないアイテム集合(これを極大頻出
  本稿で全てを解説することは出来ないので、特に基本                          アイテム集合とよぶ)は ABCE と CDE である。ここ
的であると思われる、バスケット分析、分類ルールの学                           における計算時間は O(r・n・2l)である。ここでrは極
習、嗜好学習とリコメンデーション、外れ値検出、テキ                           大頻出アイテム集合の数、nはアイテム数、lは頻出ア
スト分類といった技術をとりあげる。                                   イテム集合のうち最長のものの長さ    (要素の数)である。
                                                       
4.バスケット分析
  バスケット分析は POS データのトランザクションか
らどの商品が一緒に買われるかを分析するものである。
これはデータマイニングの技術の中でも最も単純な機能
であり、機械学習アルゴリズムが出てくるまでもない。
しかし、データマイニングが世の中に普及するきっかけ
となった技術なので、簡単に説明しておこう。
 POS データは図2に示すような、誰がどんなアイテ  
ムを買ったかを記述したトランザクションデータである                 図3.頻出アイテム集合の生成
(データ数は6) 相関ルール Association Rule)[2]、
         。相関ルール
          相関ルール((          Rule)
[13]とは                              2)信頼度の高いルールの発見。
                                       信頼度の高いルールの発見。全ての頻出アイテム集
                                       信頼度の高いルールの発見。
     R: X→Y                         合 Y 対して、全ての X⊂Y(X≠∅)に対して、信頼度が
の形で表されるルールである。これは「顧客が X を買 一定以上のルール:X→Y−X を生成する。図4はア
えば Y を買う」と読む。X、Y は単一のアイテムであっ イテム集合を X=ACE としたときに6つのルールが生
ても、アイテムの集合であっても良い。                  成出来ることを示している。ここでの計算時間は O(f・
                                    2l)である。ここに、f は頻出アイテム集合の要素数、l
                                    は前出と同じである。

                                                      A→CE (4/4) C→AE (4/6)   E→AC (4/5)
                                                      AC→E (4/4) AE→C (4/4)   CE→A (4/5)

                                                           図4.ルール生成と信頼度
     図2.トランザクションデータ
最近のバスケット分析では、上記アルゴリズムを高速     に木を成長させる Growing と、一旦最後まで成長させ
化したり、出現するルールの冗長性を除いたりする研究      た木を刈り込む Pruning とに分けられる。
[16]が進められている。また、相関ルールは時系列にお     Growing
                                Growing では、情報利得を最大化するようにノード
けるパタン抽出などにも用いられている。            を選んでいく。 解約者のデータを1、非解約者のデー
5.分類ルールの学習                     タを0で表すとき、データを表す2元系列を D とし、
 分類ルールの学習とは、属性とクラスからなる事例デ      それがノードの条件を満たすデータとそうでないデータ
ータから、属性とクラスの間の一般的な関係を導き出す      列に分割されたとして、それぞれ、D+、D−とする。そ
手法である。                         こで、ノードが与えられたときの分割による情報利得 情報利得
  例えば、インターネットプロバイダにおける解約者分     を
析の例を考えよう。1つのデータが会員のプロファイル
データであるとして、属性は性別、職業、年齢、収入ラ             I(D)−(I(D+)+I(D−))   (1)
ンク、趣味などであり、クラスは会員が解約したかどう
かを表すものとする。このようなデータが大量に蓄積さ      として計算する。上記値が最も大きくなるような属性条
れたときに、どのような属性条件が満たされれば、その      件をノードとして選ぶ。これは I(D)はノードによらな
人は解約するか?といった一般的関係性を導くのがここ      いから I(D+)+I(D−)を最小化することと等価である。
での問題である(図5)  。これはクラスといった教師情    ここで、I(x)は系列xのもつコンプレキシティであり、
報をもとに学習するので、機械学習の分野では「教師「教師    1と0が半分づつ混じっているときに最大値をとり、全
あり学習」と呼ばれている。
あり学習」                          て1、または全て0の系列に対しては最小値をとる性質
                               をもつとする。例えば、エントロピーを用いて

                                      I(x)=mH(m1/m)

                               のように計算する場合がある。ここに、H(z)はエントロ
                               ピー関数 H(z)=−zlog2 z−(1−z)log2(1−z)であり、
                               mは系列xにおけるデータ数、m1はx中での1の出現
                               数である。また、確率的コンプレキシティ(Stochastic
                                              確率的コンプレキシティ(
                                              確率的コンプレキシティ
                               Complexity)
                               Complexity)[10]と呼ばれる量を用いて

        図5.決定木の学習                 I(x)=mH(m1/m)+(1/2)log2(mπ/2)    (2)

 このような関係性の表現としては決定木、           決定リスト、と計算する場合や、拡張型確率的コンプレキシティを用
回帰式、ニューラルネットワーク、サポートベクトルマ いて計算する場合[17]がある。確率的コンプレキシティ
シン等がある。中でも高い Readability(知識の読みやす は符号化するのに必要な符号長として情報理論的に正確
              決定木(
              決定木         Tree)
さ)を実現するのが決定木(Decision Tree)である。      に定義された量であり、有限長のデータ列に対しては、
 決定木は図 5 のように親ノードから子ノードへたど エントロピーよりも的確に系列の複雑さを捉えている。
って、属性条件を調べることにより、最終的にクラスを
判定する。ひとたび決定木が生成されると、この木を用
いて新しいユーザに対しても解約する可能性を予測する
ことができる。そのためには未知データに対して高い分
類予測精度をもつような決定木を学習しなければならな
い。
 このような決定木を生成する学習アルゴリズムの研究
は機械学習の中でも最も盛んな研究の1つである。有名
なところでは、Breiman 等による CART[3]や Quinlan   
による ID3,C4.5,C5.0 がある[11]。ここではそれらで用           図6.決定木の Growing
いられている代表的な決定木生成の方式を述べよう。
                                      Pruning
 通常、決定木学習のプロセスは、データを増やすごと  Pruning では、全体として情報量規準に関して最適
になるようにノードを刈り込んでいく。ここで、情報                 情報
                                 たときの予測値が最も割れるようなデータを選択的にサ
量規準とは、決定木が定める統計的モデルの最適な構
量規準                              ンプリングすることを繰り返す方法をとっている(図
造を決定するための規準である。                 AIC
                          例えば、 (Akaike’s
                                 7)。この方法ではリサンプリングの繰り返しに計算時
Information Criteria) MDL
                     や   (Minimum Description
                                 間がかかるものの、それは高々サンプル数の線形オーダ
Length)規準などがよく用いられる。例えば、MDL             MDL
                                 であり、サンプル数の二乗に比例して計算時間がかかる
規準[10]では決定木 T を用いたときの全データ列 D の
規準                               決定木生成部分においてサンプル数を劇的に減らしてい
記述長を、    (2)のコンプレキシティを用いて        るので、トータルとして高い Scalability を達成するこ
                                 とができる。しかも、分類予測精度は全データを用いた
   I(D:T)=ΣtI(Dt)+L(T)      (3)ものとほとんど変わらないといった Effectiveness をも
                                 っている。
で計算し、これを T に関して最小化する。ここにtは
決定木の末端のリーフ(葉)を示し、Dt はリーフtに 6.嗜好学習とリコメンデーション
たどり着いたデータ列(クラスに関する2元系列)であ 複数のユーザの商品購買履歴データから、ある特定の
るとする。また、L(T)は T を符号化するのに必要な ユーザの嗜好を推定することを考える。例えば、図8の
最短ビット数である。一般に式(2)の右辺の第1項と ように、縦軸にユーザを、横軸に CD のアーティスト
第2項はトレードオフの関係にある。MDL 規準では、 名を表すとき、表の中にはどのユーザがどの CD を買
そのようなトレードオフのもとで最適な決定木が選ばれ って、どれだけ気に入ったか?という数字が与えられて
る。このような決定木の選択によって、未知のデータに いる。数字が高いほど満足度合いが高いとする。このよ
対する分類予測誤差を小さく抑えることができることが うな表は与えられたデータに対して、埋まっている部分
理論的に明らかになっている。                   は通常少ない。そこで、埋まっていない部分(例えば、
 決定木の学習で重要なのは Scalability の問題である。梅子はユニット F の CD を気に入るかどうか?)を予
C4.5、C5.0 などの標準アルゴリズムを用いた場合は、 測し、これに基づいて商品推薦を行うのが嗜好学習によ
mをデータ数として、O(m2)の計算量を必要とする。 るリコメンデーションである。
したがって、データ数が膨大であるときは大変時間がか ここでは、特定のユーザの嗜好を推定するのに他人の
かってしまう。実際にはmが百万件規模のときにはもは データを用いて嗜好パタンを推定する方式を考える。こ
やメモリに載らなくなることさえある。               れは協調フィルタリング(Collaborative Filtering)[9]
                                   協調フィルタリング(
                                   協調フィルタリング               Filtering)
 そこで、決定木の学習において Scalability を獲得す と呼ばれている。
るための方法として近年、    「選択的サンプリング」とよ
                「選択的サンプリング」
ばれる手法が提案されている[1]。これは全てのデータ
を学習に用いるのではなく、選択的にデータをサンプリ
ングし、メモリに載せて学習を行うというものである。




                                                      図8. 相関係数法

                            協調フィルタリングの方法の代表的手法として相関相関
                           係数法[9]と呼ばれるものがあげられる。これは図8の
                           係数法
                           横軸の相関性に基づくものである。すなわち、梅子の嗜
                           好を他人の嗜好の線形和で予測し、その係数としてユー
       図7.選択的サンプリング        ザ間の相関係数を採用するのが相関係数法である。例え
                           ば、太郎と梅子の嗜好パタンが似ていれば、梅子の嗜好
 例えば、文献[1]では、既に選ばれたデータを複数回 を予測するのには太郎の嗜好が強く反映される。数学的
リサンプリングして、そこで得られたデータセットから には i 番目の人がxという商品に対する嗜好の度合いを
複数の決定木を生成し、これらを用いてクラスを予測し Mix とかくとき次式で計算される。
Mix=Mi+ΣjCij(Mjx−Mj)/ Σj|Cij |

ここに、全ての和は欠損値以外でとられるとし、Mi は
Mix のxに関する平均、Cij は i 行j行の相関係数を表し、
以下で計算される。

  Cij =Σx(Mix−Mi) (Mjx−Mj)
        ×1/ (Σx(Mix−Mi)2Σx(Mjx−Mj)2)1/2
                                               図9.SmartSifter の原理
 近年では、相関係数法に代わる様々な協調フィルタリ
ングの方法が生まれている。[7]では、逐次的二項関係 SmartSifter の原理は以下の通りである。
学習法と呼ばれるものが提案されている。そこでは、ユ 1)ユーザのパタンを統計的モデルを用いて表現する。
ーザ間の相関だけでなく、商品間の相関性も考慮した二         統計モデルとしては離散値変数 x に関してはヒス
項関係をオンライン的に学習する手法を取り入れて、相         トグラム密度を用い、連続値変数 y に関しては次
関係数法を遥かに凌駕する嗜好学習性能を達成している。 式で与えられるガウス混合分布を用いるとする:
 協調フィルタリングの特徴は、顧客の購買履歴データ              p(y)=Σi c i p(y|µi Σi)
のみを用いているという点である。つまり、嗜好予測に
商品に関するコンテンツの情報は必要としない。     一方で、 ここで、c i はΣi c i=1なる正数、p(y|µi Σi)は平均
コンテンツ情報を用いて嗜好学習を行う方法や(これを         がµi 分散行列がΣi のガウス分布を表す。
コンテンツフィルタリングと呼ぶ)
コンテンツフィルタリング         、 協調フィルタリ 2)データを取り込むごとに上記統計的モデルのパラ
ングとコンテンツフィルタリングを結合する様々な方法         メータを、忘却型 EM アルゴリズム
                                            忘却型          アルゴリズムによって学習
も提案されている。                         する。これは過去のデータほどその効果を徐々に
                                  少なくすることによって、データのパタンや異常
7.外れ値検出と不正検出                      値のパタンの変化に適応するというものである。
 通常、データマイニングでは、データの全体的な傾向 3)学習前後の統計的モデルの変化を統計的距離で計
を把握することが主に研究されている。しかしながら、         算し、その値をスコアとする。すなわち、統計的
全体的な傾向から逸れた外れ値を検出することも重要な         モデルをより大きく動かすようなデータほど外れ
データマイニングのテーマの1つである。なぜなら、異         値度合いが大きいと見なされる。
常値の中には単純にノイズといえるものばかりでなく、 SmartSifter を KDDCup99 とよばれるデータセット
異常行動につながるデータや、新しいトレンドを示す重 [18]に対して適用した。このデータセットは侵入とそう
要なデータが含まれているからである。このような異常 でないネットワークアクセスログからなり、元来教師あ
値を検出する技術を「外れ値検出」
              「外れ値検出」とよんでいる。
              「外れ値検出」          り学習による不正検出のためのベンチマークデータとし
 外れ値検出の応用分野の1つに不正検出(Fraud て与えられたが、ここでは教師情報(どれが不正侵入で
                      不正検出(
                      不正検出
Detection)
Detection)がある。応用対象としては、        あるかといった情報)は用いていない。侵入の混合率は
 ・ネットワークの不正侵入検出                0.35%であった。その結果、SmartSifter には以下
 ・携帯電話の成りすまし利用の検出              の特徴を確認することができた。
 ・クレジットカードの不正利用の検出             1)高い不正侵入検出力
                                  高い不正侵入検出力(Effectiveness)
                                  高い不正侵入検出力                       。スコアの上
 ・医療や保険業界おける不正請求検出                位5%のデータの中に全体の侵入の85%が含まれ
などがあげられる。                         ていた。この結果は、同様な機能をもつ競合アルゴ
 本節では、統計的外れ値検出エンジン SmartSifter    リズムと比較しても圧倒的に優れている。
について説明する[11]。これはデータを入力する毎に、 2)高速性 高速性(Scalability)
                                  高速性                 。Service の形態、接続時間、
データのスコアを計算する。スコアの値が高いほど、そ         送信バイト数、受信バイト数などといった4つの属
の外れ値度合いが高いと見なされる。一定数のデータに         性を用いたときには、データ数50万件に対して
対してスコアリングを行ったならば、スコアの降順にこ         140 秒で処理できた。
れをソートし、上位のデータを調査すれば、高い確率で 4)高い適応性 高い適応性。データのパタンが変化しても忘却型
不正データを検出することができると期待できる。           学習アルゴリズムによって適応的に外れ値を検出。
 文献[11]では、不正医療サービスデータから不審な医
療サービスデータを検出できた事例が示されている。
 SmartSifter には、外れ値が何故例外的かを説明する
機能がなく、Readability が不十分であったが、最近で
は、SmartSifter が検出した外れ値の一群をルールで説
明する研究が進められている[12]。
 外れ値検出技術の応用は不正検出に限らない。将来は
意外なトピックの検出や新しい傾向の発見などに応用で
きるものと期待されている。
                                          図11.テキスト分類
8.テキスト分類と自由記述アンケート分析
8.1.テキストマイニング                     このようなテキスト分類は、自然言語の形態素解析と 5
 テキストマイニング
 テキストマイニングは、自然言語処理とデータマイ
 テキストマイニング                        節で触れた教師あり学習技術を組み合わせることで実現
ニング技法を結合した技術である。テキストマイニング         できる。これを以下、やや詳しく述べよう。
の要素技術には、テキストクラスタリング、テキスト分          形態素解析とは、文章を意味のなす単語の単位に分
                                   形態素解析
類、相関性解析、情報抽出、などがあり、それらの応用         解することである。例えば、  「意味のなす単語の単位に
分野としては自由記述アンケート分析、コールセンター         分解する」という文章は「意味/の/なす/単語/の/単位/に/
におけるメールの自動分類、営業レポートの分析など多         分解する」と区切られる。そうして得られる単語の中か
岐に渡っている。要素後術と応用領域の対応関係をまと         ら特に分類にとって重要である単語をなんらかの基準の
めたのが図 10 である。                     下で抽出する(これを属性選択
                                              属性選択とよぶ)
                                              属性選択     。そこで、テキ
                                  ストを属性選択された単語がそれぞれ含まれているか否
                                  かを1、0で表現することにより、バイナリベクトルで
                                  表現する。次に、バイナリベクトルとカテゴリの一般的
                                  な対応関係について事例データから教師あり学習を行う。
                                   テキスト分類の主な目的は、カテゴリが未知のテキス
                                  トに対してそのカテゴリを出来るだけ正しく予測するこ
                                  とである。その場合には、今のところサポートベクトル
                                  マシンを用いた場合が最も分類予測制度が高いことが検
                                  証されている[4]。ところが、それは非ルール形式であ
                                  り、対応関係が複雑な数式で表されるためにReadability
                                  がない。知識発見の立場からは Readability が重要なの
 図 10.テキストマイニングの要素技術と応用領域         で、ルール形式の表現形が有利である。ルール形式の最
                                  もわかりやすい例が決定リスト
                                             決定リストである。決定リストは
                                             決定リスト
8.2.テキスト分類
 テキスト分類はテキストマイニングの中でも最も重 “If テキストが単語 A を含む then カテゴリ=X
 テキスト分類
要な要素技術の1つである。これはテキストを複数のカ else if テキストが単語 B を含む then カテゴリ=X
テゴリに振り分けるための技術である[15](図 11)
                          。例 ……”
えば、ニュース記事を、そのコンテンツに基づいて政治、といった If−then – else 形式でかける。ここで、条件
経済、スポーツなどのカテゴリに自動的に振り分けるの 文には複数の単語の同時出現条件が入ってもよい。この
に用いられる。また、WEB 上を流れるテキストを有害 ような決定リストを 5 節で述べたような情報量規準に
文書(ポルノ、薬物、等)と無害文書のカテゴリに振り 基づいて学習するアルゴリズムが提案されている[6]。
分けて、有害文書をフィルタリングすることにも用いら
れる。そのためにはテキストをカテゴリへの振り分ける 8.3.自由記述アンケート分析
分類ルールをデータから学習しなければならない。      テキスト分類は自由記述アンケート分析に応用するこ
                            とができる[6]。通常、アンケートデータはカテゴリカ
                            ルデータと自由記述文からなっている。例えば、自動車
                            のブランドイメージ調査では、図12のように一人のユ
ーザが回答したデータには、ブランド名(車種)、顧客 域を拡大している。しかし、一貫してマイニング技術の
満足度、年代などといったカテゴリカルデータと、ブラ 目指すところは「知識発見」であり、特に専門家をも驚
ンドイメージに関する自由記述回答部分が含まれている。かせるような新しい知識を大量データの中から発見する
                          ことが最大の課題である。そのためにもマイニング技術
                          は大規模計算技術、並列計算技術、可視化技術などと緊
                          密に結びついて発展していくと期待されている。

                                             参考文献
                                             [1]N. Abe and H. Mamitsuka: Query Learning
                            Strategies Using Boosting and Bagging, Proc .of the 15th
   図 12. 自由記述アンケートデータの構造    Int. Conf.. on Machine Learning (ICML98), pp:1-9(1998)
                            [2]R. Agarwal, H. Mannila ,R. Srikant,H.Toivonen,and
 そこで、カテゴリカルデータの中から特定のカテゴリ A.I.Verkamo: Fast Discovery of Association Rules.
を指定し(例えば、ブランド)  、自由記述回答部分をテ U.Fayyadet.al. editors, Advances in Knowlesge Discovery
キストとして、テキスト分類を行うことを考える。この and Data Mining, pp:307-328, AAAI Press (1996).
ときアンケートデータから分類ルールを決定リストの形 [3] L.Breiman, J.H.Friedman, R.A.Olshen, and
で学習したとき、条件文の中に、そのカテゴリに特徴的 C.J.Stone: Classification and Regression Trees.
な言葉が現れる。 例えば A 車というブランドに注目 Belmnt,CA:Wadsworth. (1984).
して                                [4]T.Joachims: Text Categorization with Support Vector
 If 安全 & 心地良い then ブランド=A車        Machines: Learning with Many Irrelevant Features.
 Else if アウトドア向き then ブランド=A 車    Proc. European Conf. on Machine Learning (ECML’98 )
 Else if …..                      pp:137-142 , (1998)
    図 13. 自由記述アンケート分析             [5]H.Li and K.Yamanishi: Text Classification Using ESC-
というルールが得られたとする。このとき、A車の特徴 based Stochastic Decision Lists. Proc. of 8th Int. Conf.
が、「安全 & 心地良い」    「アウトドア向き」といった on Information and Knowledge Management  (ACM-
言葉で表されるというわけである。このような言葉は情 CIKM’99), pp: 122—130, (2000).
報利得の高い順に選ばれる。     情報利得とは5節の式   (1)[6]H.Li and K.Yamanishi: Mining from Open Answers
で示した量であり、言葉が指定されたカテゴリにとって in Questionnaire Data.. To appear in Proc. of  Seventh
どれだけ特徴的であるかを示している。以上のようなテ ACM            SIGKDD    Int. Conf.  Knowledge Discovery and
                                                               on 
キスト分類に基づく自由記述アンケートは実際にマーケ Data Mining (KDD2001 )(2001)
ティングの中で活用されている[6]、[20]。           [7]A. Nakamura and N. Abe.: Collaborative Filtering Using
 自由記述アンケートを分析する手法としては、他に、 Weighted Majority Prediction Algorithms. Proc. of 15th Int.
テキストクラスタリングや相関分析などがある。            Conf. on Machine Learning (ICML98) , pp.395-403,
 テキストクラスタリングはプレーンなテキストを教 (1998).
 テキストクラスタリング
師無し学習によって指定された数のクラスタ(群)に分 [8]J.R.Quinlan:C4.5 Programs for Machine Learning,
                共起度に基づく相関分析では、 Morgan Kaufmann 1993
けるものである。一方、共起度に基づく相関分析
                共起度に基づく相関分析
単語間の同時出現(共起関係)の情報から主成分分析、 [9]P. Resnick, N. Iacovou, M. Suchak, P. Bergstom and J.
数量化三類、などを行い、言葉同士の連関をポジショニ Riedl.: GroupLens: An Open Architechture for Collaborative
ングマップと呼ばれる二次元マップ上で表現する。以上 Filtering of Netnews . Pro.c . of ACM Conf. on Computer
の技術は[14]、[16]を参考にされたい。            Supported Cooperativ Work (CSCW94 ) pp.175-186, 1994
                                             [10]J.Rissanen: Fisher Information and Stochastic
9.おわりに                                       Complexity. IEEE Trans.on Information Theory, 42(1),
 以上、データ・テキストマイニング技術を、バスケッ                    pp:40-47 (1996).
ト分析、分類ルールの学習、嗜好学習とリコメンデーシ                    [11]K. Yamanishi, J. Takeuchi, G. Williams, P. Milne:
ョン、外れ値検出、テキスト分類に焦点を絞って解説し                    On-line Unsupervised Outlier Detection Using Finite
てきた。データ・テキストマイニングの技術は以上にと                    Mixtures Using Discounting Learning Algorithms.
どまらず、今も多くの要素技術を生み出しながら応用領                    Proc. of Sixth  ACM   SIGKDD    Int. Conf.  Knowledge
                                                                                        on 
Discovery and Data Mining (KDD2000), pp:320-324
(2000)
[12]K. Yamanishi and J. Takeuchi: Discovering Outlier
Filtering Rules from Unlabeled Data. To appear in Proc.
of Seventh ACM SIGKDD Int. Conf. on Knowledge
Discovery and Data Mining (KDD2001 ) (2001)
[13]M.J.Zaki: Generating Non-redundant Association
Rules. Proc. of Sixth ACM SIGKDD Int. Conf. on
Knowledge Discovery and Data Mining (KDD2000),
pp:34-43 (2000)
[14]人工知能学会誌 Vol.16, No.2 (2001 年 3 月) 特集「テ
キストマイニング」
[15]永田、平田: テキスト分類-学習理論の「見本市」-、情
報処理、vol.42(1), pp:32-37 (2001).
[16]日経コンピュータ pp:40-46, 2001 年 8 月
[17]山西 健司:拡張型確率的コンプレキシティと情報論的学
習理論、応用数理、49,pp:71-78 (1998).
[18]http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html
[19]http:///www.acm.org/sigkdd/
[20]http://www.labs.nec.co.jp/DTmining/
[21]http://www.wkap.nl/journalhome. htm/1384-5810

More Related Content

Viewers also liked

推薦システムになにができるのか - Techcompass
推薦システムになにができるのか - Techcompass推薦システムになにができるのか - Techcompass
推薦システムになにができるのか - Techcompass
Yoshifumi Seki
 
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
antibayesian 俺がS式だ
 

Viewers also liked (14)

テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
 
推薦システムになにができるのか - Techcompass
推薦システムになにができるのか - Techcompass推薦システムになにができるのか - Techcompass
推薦システムになにができるのか - Techcompass
 
勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング
勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング
勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング
 
RでTwitterテキストマイニング
RでTwitterテキストマイニングRでTwitterテキストマイニング
RでTwitterテキストマイニング
 
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
 
RではじめるTwitter解析
RではじめるTwitter解析RではじめるTwitter解析
RではじめるTwitter解析
 
第二回データサイエンティスト木曜勉強会20141016
第二回データサイエンティスト木曜勉強会20141016第二回データサイエンティスト木曜勉強会20141016
第二回データサイエンティスト木曜勉強会20141016
 
プログラマのための文書推薦入門
プログラマのための文書推薦入門プログラマのための文書推薦入門
プログラマのための文書推薦入門
 
さくっとはじめるテキストマイニング(R言語)  スタートアップ編
さくっとはじめるテキストマイニング(R言語)  スタートアップ編さくっとはじめるテキストマイニング(R言語)  スタートアップ編
さくっとはじめるテキストマイニング(R言語)  スタートアップ編
 
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
 
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
 
情報推薦システム入門:講義スライド
情報推薦システム入門:講義スライド情報推薦システム入門:講義スライド
情報推薦システム入門:講義スライド
 
データサイエンティスト協会 木曜勉強会 #04 『クラスター分析の基礎と総合通販会社での活用例 〜 ビッグデータ時代にクラスター分析はどう変わるか 〜』
データサイエンティスト協会 木曜勉強会 #04 『クラスター分析の基礎と総合通販会社での活用例  〜 ビッグデータ時代にクラスター分析はどう変わるか 〜』データサイエンティスト協会 木曜勉強会 #04 『クラスター分析の基礎と総合通販会社での活用例  〜 ビッグデータ時代にクラスター分析はどう変わるか 〜』
データサイエンティスト協会 木曜勉強会 #04 『クラスター分析の基礎と総合通販会社での活用例 〜 ビッグデータ時代にクラスター分析はどう変わるか 〜』
 
機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話
 

Similar to データ・テキストマイニング

おしゃスタ@リクルート
おしゃスタ@リクルートおしゃスタ@リクルート
おしゃスタ@リクルート
Issei Kurahashi
 
データマイニングとは
データマイニングとはデータマイニングとは
データマイニングとは
ripper0217
 
Webマイニングと情報論的学習理論
Webマイニングと情報論的学習理論Webマイニングと情報論的学習理論
Webマイニングと情報論的学習理論
Hiroshi Ono
 
Webマイニングと情報論的学習理論
Webマイニングと情報論的学習理論Webマイニングと情報論的学習理論
Webマイニングと情報論的学習理論
Hiroshi Ono
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
Mie Mori
 
大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズム大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズム
Takuya Akiba
 
行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th
行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th
行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th
Yoichi Motomura
 
事例で学ぶトレジャーデータ 20140612
事例で学ぶトレジャーデータ 20140612事例で学ぶトレジャーデータ 20140612
事例で学ぶトレジャーデータ 20140612
Takahiro Inoue
 

Similar to データ・テキストマイニング (20)

データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
 
おしゃスタ@リクルート
おしゃスタ@リクルートおしゃスタ@リクルート
おしゃスタ@リクルート
 
20180117_ICON技術セミナー4_常盤
20180117_ICON技術セミナー4_常盤20180117_ICON技術セミナー4_常盤
20180117_ICON技術セミナー4_常盤
 
データマイニングとは
データマイニングとはデータマイニングとは
データマイニングとは
 
Webマイニングと情報論的学習理論
Webマイニングと情報論的学習理論Webマイニングと情報論的学習理論
Webマイニングと情報論的学習理論
 
Webマイニングと情報論的学習理論
Webマイニングと情報論的学習理論Webマイニングと情報論的学習理論
Webマイニングと情報論的学習理論
 
Introduction to search_and_recommend_algolithm
Introduction to search_and_recommend_algolithmIntroduction to search_and_recommend_algolithm
Introduction to search_and_recommend_algolithm
 
東大計数特別講義20130528
東大計数特別講義20130528東大計数特別講義20130528
東大計数特別講義20130528
 
ae-11. 実データの分析,意味の抽出,外れ値の判断
ae-11. 実データの分析,意味の抽出,外れ値の判断ae-11. 実データの分析,意味の抽出,外れ値の判断
ae-11. 実データの分析,意味の抽出,外れ値の判断
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
 
tut_pfi_2012
tut_pfi_2012tut_pfi_2012
tut_pfi_2012
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
 
マトリックス・データ解析法(主成分分析)
マトリックス・データ解析法(主成分分析)マトリックス・データ解析法(主成分分析)
マトリックス・データ解析法(主成分分析)
 
おしゃスタat銀座
おしゃスタat銀座おしゃスタat銀座
おしゃスタat銀座
 
研究報告 #0 - NII 情報科学の達人 ( R4 / 2 / 5 )
研究報告 #0   - NII 情報科学の達人 ( R4 / 2 / 5 ) 研究報告 #0   - NII 情報科学の達人 ( R4 / 2 / 5 )
研究報告 #0 - NII 情報科学の達人 ( R4 / 2 / 5 )
 
20150903 jasis2015 生島
20150903 jasis2015 生島20150903 jasis2015 生島
20150903 jasis2015 生島
 
大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズム大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズム
 
Ai for marketing
Ai for marketingAi for marketing
Ai for marketing
 
行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th
行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th
行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th
 
事例で学ぶトレジャーデータ 20140612
事例で学ぶトレジャーデータ 20140612事例で学ぶトレジャーデータ 20140612
事例で学ぶトレジャーデータ 20140612
 

More from Hiroshi Ono

Voltdb - wikipedia
Voltdb - wikipediaVoltdb - wikipedia
Voltdb - wikipedia
Hiroshi Ono
 
Gamecenter概説
Gamecenter概説Gamecenter概説
Gamecenter概説
Hiroshi Ono
 
EventDrivenArchitecture
EventDrivenArchitectureEventDrivenArchitecture
EventDrivenArchitecture
Hiroshi Ono
 
program_draft3.pdf
program_draft3.pdfprogram_draft3.pdf
program_draft3.pdf
Hiroshi Ono
 
nodalities_issue7.pdf
nodalities_issue7.pdfnodalities_issue7.pdf
nodalities_issue7.pdf
Hiroshi Ono
 
genpaxospublic-090703114743-phpapp01.pdf
genpaxospublic-090703114743-phpapp01.pdfgenpaxospublic-090703114743-phpapp01.pdf
genpaxospublic-090703114743-phpapp01.pdf
Hiroshi Ono
 
kademlia-1227143905867010-8.pdf
kademlia-1227143905867010-8.pdfkademlia-1227143905867010-8.pdf
kademlia-1227143905867010-8.pdf
Hiroshi Ono
 
pragmaticrealworldscalajfokus2009-1233251076441384-2.pdf
pragmaticrealworldscalajfokus2009-1233251076441384-2.pdfpragmaticrealworldscalajfokus2009-1233251076441384-2.pdf
pragmaticrealworldscalajfokus2009-1233251076441384-2.pdf
Hiroshi Ono
 
downey08semaphores.pdf
downey08semaphores.pdfdowney08semaphores.pdf
downey08semaphores.pdf
Hiroshi Ono
 
BOF1-Scala02.pdf
BOF1-Scala02.pdfBOF1-Scala02.pdf
BOF1-Scala02.pdf
Hiroshi Ono
 
TwitterOct2008.pdf
TwitterOct2008.pdfTwitterOct2008.pdf
TwitterOct2008.pdf
Hiroshi Ono
 
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdfstateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
Hiroshi Ono
 
SACSIS2009_TCP.pdf
SACSIS2009_TCP.pdfSACSIS2009_TCP.pdf
SACSIS2009_TCP.pdf
Hiroshi Ono
 
scalaliftoff2009.pdf
scalaliftoff2009.pdfscalaliftoff2009.pdf
scalaliftoff2009.pdf
Hiroshi Ono
 
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdfstateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
Hiroshi Ono
 
program_draft3.pdf
program_draft3.pdfprogram_draft3.pdf
program_draft3.pdf
Hiroshi Ono
 
nodalities_issue7.pdf
nodalities_issue7.pdfnodalities_issue7.pdf
nodalities_issue7.pdf
Hiroshi Ono
 
genpaxospublic-090703114743-phpapp01.pdf
genpaxospublic-090703114743-phpapp01.pdfgenpaxospublic-090703114743-phpapp01.pdf
genpaxospublic-090703114743-phpapp01.pdf
Hiroshi Ono
 
kademlia-1227143905867010-8.pdf
kademlia-1227143905867010-8.pdfkademlia-1227143905867010-8.pdf
kademlia-1227143905867010-8.pdf
Hiroshi Ono
 

More from Hiroshi Ono (20)

Voltdb - wikipedia
Voltdb - wikipediaVoltdb - wikipedia
Voltdb - wikipedia
 
Gamecenter概説
Gamecenter概説Gamecenter概説
Gamecenter概説
 
EventDrivenArchitecture
EventDrivenArchitectureEventDrivenArchitecture
EventDrivenArchitecture
 
program_draft3.pdf
program_draft3.pdfprogram_draft3.pdf
program_draft3.pdf
 
nodalities_issue7.pdf
nodalities_issue7.pdfnodalities_issue7.pdf
nodalities_issue7.pdf
 
genpaxospublic-090703114743-phpapp01.pdf
genpaxospublic-090703114743-phpapp01.pdfgenpaxospublic-090703114743-phpapp01.pdf
genpaxospublic-090703114743-phpapp01.pdf
 
kademlia-1227143905867010-8.pdf
kademlia-1227143905867010-8.pdfkademlia-1227143905867010-8.pdf
kademlia-1227143905867010-8.pdf
 
pragmaticrealworldscalajfokus2009-1233251076441384-2.pdf
pragmaticrealworldscalajfokus2009-1233251076441384-2.pdfpragmaticrealworldscalajfokus2009-1233251076441384-2.pdf
pragmaticrealworldscalajfokus2009-1233251076441384-2.pdf
 
downey08semaphores.pdf
downey08semaphores.pdfdowney08semaphores.pdf
downey08semaphores.pdf
 
BOF1-Scala02.pdf
BOF1-Scala02.pdfBOF1-Scala02.pdf
BOF1-Scala02.pdf
 
TwitterOct2008.pdf
TwitterOct2008.pdfTwitterOct2008.pdf
TwitterOct2008.pdf
 
camel-scala.pdf
camel-scala.pdfcamel-scala.pdf
camel-scala.pdf
 
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdfstateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
 
SACSIS2009_TCP.pdf
SACSIS2009_TCP.pdfSACSIS2009_TCP.pdf
SACSIS2009_TCP.pdf
 
scalaliftoff2009.pdf
scalaliftoff2009.pdfscalaliftoff2009.pdf
scalaliftoff2009.pdf
 
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdfstateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
 
program_draft3.pdf
program_draft3.pdfprogram_draft3.pdf
program_draft3.pdf
 
nodalities_issue7.pdf
nodalities_issue7.pdfnodalities_issue7.pdf
nodalities_issue7.pdf
 
genpaxospublic-090703114743-phpapp01.pdf
genpaxospublic-090703114743-phpapp01.pdfgenpaxospublic-090703114743-phpapp01.pdf
genpaxospublic-090703114743-phpapp01.pdf
 
kademlia-1227143905867010-8.pdf
kademlia-1227143905867010-8.pdfkademlia-1227143905867010-8.pdf
kademlia-1227143905867010-8.pdf
 

Recently uploaded

Recently uploaded (10)

LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 

データ・テキストマイニング

  • 1. [例3]商品の購買履歴からの商品推薦。 例3] データ・テキストマイニング データ・テキストマイニング 流通業では、例えば、書籍やCDについて、どのユーザ 山西 健司(NEC インターネットシステム研究所) が過去にどのような商品を買ったかという購買履歴デー タを集めている。そこで、特定のユーザの嗜好を他のユ 1.はじめに ーザの情報をもとに学習し、その人が未だ購入していな データウェアハウスやデータベースが普及して、大量 い商品を購入しそうかどうかを予測する。そして、これ の顧客データ、購買データ、ログデータ、アンケートデ に基づいて商品推薦を行う 。 ータ等が蓄積されるようになった。 ビジネスの現場では、[例4]ネットワークアクセスログからの不正検出。 例4] 計算機性能の向上に伴って、このような大量データの中 過去のネットワークアクセスログを調べて、異常なアク から、売れ筋商品の傾向を発見したり、優良顧客層を発 セスログを検出し、ネットワーク不正侵入を検出する。 見したり、といったことが現実に要求されるようになっ [例5]自由記述アンケートからのテキストマイニング。 例5] てきた。 これを可能にするのが、データマイニング、 商品評価や苦情など、顧客から寄せられた自由記述アン データマイニング、 テキストマイニングとよばれる技術である。 テキストマイニング ケートデータから、特定商品あるいは特定顧客層に特有  これらは一言でいうと、大量のデータからビジネスに な意見・コメントの特徴を言葉の上で分析する。 有効な価値ある情報を掘り起こす(マイニング)ための 技術である。このような機能は「知識発見」と呼ばれて 3.マイニング技術の要件 いる。一般に、構造化された数値データを対象にする場  人工知能の分野で、80 年代後半から「機械学習 「機械学習 合はデータマイニングと呼ばれるが、自然言語のような (Machine Learning) Learning)」とよばれる、事例データから 」 非構造データをも対象にする場合はテキストマイニング 知識を発見するためのアルゴリズムと実装の研究が盛ん と呼んで区別している。以下、まとめてマイニング技術 に行われてきた。マイニング技術とは、基本的には機械 という言い方をする。マイニング技術の本質は事例デー 学習技術そのものであるといえる。ただし、マイニング タからの構造的な知識の「学習 学習」にある。 学習 と改めて呼び直される背景には、マイニング技術には以 下の要件が求められていることがあげられる。 2.CRMとマイニング 1)Scalability GB から TB に及ぶ大量のデータを Scalability: マイニング技術は、顧客に関するデータを一元的に管 現実的な計算時間と計算機メモリ容量の制約の 理し、One-to-One マーケティングによって顧客の満足 もとで処理できなければならない CRM( Effectiveness: を向上させようとする CRM(Customer Relationship 2)Effectiveness 発見された知識が、現実のデータ Management) Management)の分野で特に重要である。CRM は年間 の要約、あるいは未知のデータに対する予測と 20%の伸び率で急成長し、2002 年度には世界的に市 いった面において現実に有効でなければならな 場規模が 4000 億円に上ると見込まれている分野である い。 (ミック経済研究所調べ) 。 Readability: 3)Readability 発見された知識が理解しやすいも CRMの文脈でどのようなマイニング技術が活かされ のでなければならない。 ているか、例で示そう。  尚、マイニング技術の背景には、情報理論、統計学、 [例1]POS データからの購買分析。 例1]POS 計算機科学、統計物理学、ニューロサイエンス、計算論 購買履歴データのようなPOSデータから、どのような 的学習理論などといった学際的な分野が広がっている。 商品が同時に売れたかといった相関性を発見する(これ をバスケット分析とよぶ) 。有名な例としては、スーパ ーマーケットで紙おむつとビールが同時に売れるといっ た相関ルールの発見が挙げられる。 [例2]顧客契約データからの解約者分析。 例2] 通信業やISP事業などでは契約を解約するユーザを予 測することを問題としている(これは Churn 分析とよ ばれる) 。そこでは解約者と非解約者のプロファイルデ ータから、それらを分類するルールを発見し、これから 解約しそうなユーザを予測する。ひとたび解約者層が特 定できれば、そういった顧客にダイレクトメールなどを 集中的に送ることによって、解約を防ぐことができる。
  • 2.      図1.マイニング分野の全体図 ルールは、サポートσと信頼度pで特徴付けられる。 4.マイニング分野の全体図 サポートとは X と Y が同時に含まれるトランザクショ サポート マイニングに関しては ACM に SIG―KDD(ACM SIG―KDD ンが現れる確率である。信頼度信頼度とは、トランザクショ 信頼度 Special Interest Group on Knowledge Discovery and ンに X が含まれる場合に、Y も含まれる条件付き確率 Data Mining[19])という世界最大の組織が生まれ、こ である。図2の例に対して CE→A といったルールは、 こが主催になって 1996 年より KDD ( Knowledge KDD( 全トランザクション数が6で、C、E、A の同時出現数 Mining) Discovery and Data Mining)とよばれる世界最大のデ が4であるからサポートは(4/6)である。また、CE の ータマイニングの国際会議が毎年開催されている[19]。 出現数が5で、CE の出現のもとでの A の出現数が4で 他にも SIAM,IEEE でのデータマイニング会議や あるから、信頼度は(4 / 5)である。 PAKDD, Discovery Science などといった国際会議もあ バスケット分析では、サポートと信頼度がある一定以 り、いずれも年を追うごとに盛況になっている。雑誌で 上の値をもつルールを抽出することを考える。そのステ は Data Mining and Knowledge Discovery Journal[21] ップは以下の2つに分かれる。 があり、本分野の最先端の技術を集めている。 1)頻出アイテム集合の発見。 頻出アイテム集合の発見。一定値以上のサポー 頻出アイテム集合の発見。 KDD では多くの技術要素が新しく生まれている。こ トをもつアイテム集合を抽出する。図3は図 2 の例に れらの基本技術の関係を表したのが図1である。横軸は 対して 50%以上のサポートをもったアイテム集合を表 左側から右側に移るにつれて数値データからテキストデ している(一定値以上のサポートをもつアイテム集合を ータを対象にすることを示しており、縦軸は上に進むに 頻出アイテム集合とよぶ) 。この場合、他のアイテム集 従って、比較的新しい技術であることを示している。 合の部分集合とならないアイテム集合(これを極大頻出 本稿で全てを解説することは出来ないので、特に基本 アイテム集合とよぶ)は ABCE と CDE である。ここ 的であると思われる、バスケット分析、分類ルールの学 における計算時間は O(r・n・2l)である。ここでrは極 習、嗜好学習とリコメンデーション、外れ値検出、テキ 大頻出アイテム集合の数、nはアイテム数、lは頻出ア スト分類といった技術をとりあげる。 イテム集合のうち最長のものの長さ (要素の数)である。    4.バスケット分析 バスケット分析は POS データのトランザクションか らどの商品が一緒に買われるかを分析するものである。 これはデータマイニングの技術の中でも最も単純な機能 であり、機械学習アルゴリズムが出てくるまでもない。 しかし、データマイニングが世の中に普及するきっかけ となった技術なので、簡単に説明しておこう。  POS データは図2に示すような、誰がどんなアイテ   ムを買ったかを記述したトランザクションデータである 図3.頻出アイテム集合の生成 (データ数は6) 相関ルール Association Rule)[2]、 。相関ルール 相関ルール(( Rule) [13]とは 2)信頼度の高いルールの発見。 信頼度の高いルールの発見。全ての頻出アイテム集 信頼度の高いルールの発見。      R: X→Y 合 Y 対して、全ての X⊂Y(X≠∅)に対して、信頼度が の形で表されるルールである。これは「顧客が X を買 一定以上のルール:X→Y−X を生成する。図4はア えば Y を買う」と読む。X、Y は単一のアイテムであっ イテム集合を X=ACE としたときに6つのルールが生 ても、アイテムの集合であっても良い。 成出来ることを示している。ここでの計算時間は O(f・ 2l)である。ここに、f は頻出アイテム集合の要素数、l は前出と同じである。   A→CE (4/4) C→AE (4/6) E→AC (4/5) AC→E (4/4) AE→C (4/4) CE→A (4/5)      図4.ルール生成と信頼度      図2.トランザクションデータ
  • 3. 最近のバスケット分析では、上記アルゴリズムを高速 に木を成長させる Growing と、一旦最後まで成長させ 化したり、出現するルールの冗長性を除いたりする研究 た木を刈り込む Pruning とに分けられる。 [16]が進められている。また、相関ルールは時系列にお Growing  Growing では、情報利得を最大化するようにノード けるパタン抽出などにも用いられている。 を選んでいく。 解約者のデータを1、非解約者のデー 5.分類ルールの学習 タを0で表すとき、データを表す2元系列を D とし、  分類ルールの学習とは、属性とクラスからなる事例デ それがノードの条件を満たすデータとそうでないデータ ータから、属性とクラスの間の一般的な関係を導き出す 列に分割されたとして、それぞれ、D+、D−とする。そ 手法である。 こで、ノードが与えられたときの分割による情報利得 情報利得 例えば、インターネットプロバイダにおける解約者分 を 析の例を考えよう。1つのデータが会員のプロファイル データであるとして、属性は性別、職業、年齢、収入ラ        I(D)−(I(D+)+I(D−))   (1) ンク、趣味などであり、クラスは会員が解約したかどう かを表すものとする。このようなデータが大量に蓄積さ として計算する。上記値が最も大きくなるような属性条 れたときに、どのような属性条件が満たされれば、その 件をノードとして選ぶ。これは I(D)はノードによらな 人は解約するか?といった一般的関係性を導くのがここ いから I(D+)+I(D−)を最小化することと等価である。 での問題である(図5) 。これはクラスといった教師情 ここで、I(x)は系列xのもつコンプレキシティであり、 報をもとに学習するので、機械学習の分野では「教師「教師 1と0が半分づつ混じっているときに最大値をとり、全 あり学習」と呼ばれている。 あり学習」 て1、または全て0の系列に対しては最小値をとる性質 をもつとする。例えば、エントロピーを用いて        I(x)=mH(m1/m) のように計算する場合がある。ここに、H(z)はエントロ ピー関数 H(z)=−zlog2 z−(1−z)log2(1−z)であり、 mは系列xにおけるデータ数、m1はx中での1の出現 数である。また、確率的コンプレキシティ(Stochastic 確率的コンプレキシティ( 確率的コンプレキシティ Complexity) Complexity)[10]と呼ばれる量を用いて        図5.決定木の学習    I(x)=mH(m1/m)+(1/2)log2(mπ/2)    (2) このような関係性の表現としては決定木、 決定リスト、と計算する場合や、拡張型確率的コンプレキシティを用 回帰式、ニューラルネットワーク、サポートベクトルマ いて計算する場合[17]がある。確率的コンプレキシティ シン等がある。中でも高い Readability(知識の読みやす は符号化するのに必要な符号長として情報理論的に正確 決定木( 決定木 Tree) さ)を実現するのが決定木(Decision Tree)である。 に定義された量であり、有限長のデータ列に対しては、 決定木は図 5 のように親ノードから子ノードへたど エントロピーよりも的確に系列の複雑さを捉えている。 って、属性条件を調べることにより、最終的にクラスを 判定する。ひとたび決定木が生成されると、この木を用 いて新しいユーザに対しても解約する可能性を予測する ことができる。そのためには未知データに対して高い分 類予測精度をもつような決定木を学習しなければならな い。 このような決定木を生成する学習アルゴリズムの研究 は機械学習の中でも最も盛んな研究の1つである。有名 なところでは、Breiman 等による CART[3]や Quinlan    による ID3,C4.5,C5.0 がある[11]。ここではそれらで用    図6.決定木の Growing いられている代表的な決定木生成の方式を述べよう。 Pruning  通常、決定木学習のプロセスは、データを増やすごと  Pruning では、全体として情報量規準に関して最適
  • 4. になるようにノードを刈り込んでいく。ここで、情報 情報 たときの予測値が最も割れるようなデータを選択的にサ 量規準とは、決定木が定める統計的モデルの最適な構 量規準 ンプリングすることを繰り返す方法をとっている(図 造を決定するための規準である。 AIC 例えば、 (Akaike’s 7)。この方法ではリサンプリングの繰り返しに計算時 Information Criteria) MDL や (Minimum Description 間がかかるものの、それは高々サンプル数の線形オーダ Length)規準などがよく用いられる。例えば、MDL MDL であり、サンプル数の二乗に比例して計算時間がかかる 規準[10]では決定木 T を用いたときの全データ列 D の 規準 決定木生成部分においてサンプル数を劇的に減らしてい 記述長を、 (2)のコンプレキシティを用いて るので、トータルとして高い Scalability を達成するこ とができる。しかも、分類予測精度は全データを用いた    I(D:T)=ΣtI(Dt)+L(T)      (3)ものとほとんど変わらないといった Effectiveness をも っている。 で計算し、これを T に関して最小化する。ここにtは 決定木の末端のリーフ(葉)を示し、Dt はリーフtに 6.嗜好学習とリコメンデーション たどり着いたデータ列(クラスに関する2元系列)であ 複数のユーザの商品購買履歴データから、ある特定の るとする。また、L(T)は T を符号化するのに必要な ユーザの嗜好を推定することを考える。例えば、図8の 最短ビット数である。一般に式(2)の右辺の第1項と ように、縦軸にユーザを、横軸に CD のアーティスト 第2項はトレードオフの関係にある。MDL 規準では、 名を表すとき、表の中にはどのユーザがどの CD を買 そのようなトレードオフのもとで最適な決定木が選ばれ って、どれだけ気に入ったか?という数字が与えられて る。このような決定木の選択によって、未知のデータに いる。数字が高いほど満足度合いが高いとする。このよ 対する分類予測誤差を小さく抑えることができることが うな表は与えられたデータに対して、埋まっている部分 理論的に明らかになっている。 は通常少ない。そこで、埋まっていない部分(例えば、  決定木の学習で重要なのは Scalability の問題である。梅子はユニット F の CD を気に入るかどうか?)を予 C4.5、C5.0 などの標準アルゴリズムを用いた場合は、 測し、これに基づいて商品推薦を行うのが嗜好学習によ mをデータ数として、O(m2)の計算量を必要とする。 るリコメンデーションである。 したがって、データ数が膨大であるときは大変時間がか ここでは、特定のユーザの嗜好を推定するのに他人の かってしまう。実際にはmが百万件規模のときにはもは データを用いて嗜好パタンを推定する方式を考える。こ やメモリに載らなくなることさえある。 れは協調フィルタリング(Collaborative Filtering)[9] 協調フィルタリング( 協調フィルタリング Filtering)  そこで、決定木の学習において Scalability を獲得す と呼ばれている。 るための方法として近年、 「選択的サンプリング」とよ 「選択的サンプリング」 ばれる手法が提案されている[1]。これは全てのデータ を学習に用いるのではなく、選択的にデータをサンプリ ングし、メモリに載せて学習を行うというものである。       図8. 相関係数法 協調フィルタリングの方法の代表的手法として相関相関 係数法[9]と呼ばれるものがあげられる。これは図8の 係数法 横軸の相関性に基づくものである。すなわち、梅子の嗜 好を他人の嗜好の線形和で予測し、その係数としてユー 図7.選択的サンプリング ザ間の相関係数を採用するのが相関係数法である。例え ば、太郎と梅子の嗜好パタンが似ていれば、梅子の嗜好  例えば、文献[1]では、既に選ばれたデータを複数回 を予測するのには太郎の嗜好が強く反映される。数学的 リサンプリングして、そこで得られたデータセットから には i 番目の人がxという商品に対する嗜好の度合いを 複数の決定木を生成し、これらを用いてクラスを予測し Mix とかくとき次式で計算される。
  • 5. Mix=Mi+ΣjCij(Mjx−Mj)/ Σj|Cij | ここに、全ての和は欠損値以外でとられるとし、Mi は Mix のxに関する平均、Cij は i 行j行の相関係数を表し、 以下で計算される。 Cij =Σx(Mix−Mi) (Mjx−Mj) ×1/ (Σx(Mix−Mi)2Σx(Mjx−Mj)2)1/2      図9.SmartSifter の原理  近年では、相関係数法に代わる様々な協調フィルタリ ングの方法が生まれている。[7]では、逐次的二項関係 SmartSifter の原理は以下の通りである。 学習法と呼ばれるものが提案されている。そこでは、ユ 1)ユーザのパタンを統計的モデルを用いて表現する。 ーザ間の相関だけでなく、商品間の相関性も考慮した二 統計モデルとしては離散値変数 x に関してはヒス 項関係をオンライン的に学習する手法を取り入れて、相 トグラム密度を用い、連続値変数 y に関しては次 関係数法を遥かに凌駕する嗜好学習性能を達成している。 式で与えられるガウス混合分布を用いるとする:  協調フィルタリングの特徴は、顧客の購買履歴データ   p(y)=Σi c i p(y|µi Σi) のみを用いているという点である。つまり、嗜好予測に 商品に関するコンテンツの情報は必要としない。 一方で、 ここで、c i はΣi c i=1なる正数、p(y|µi Σi)は平均 コンテンツ情報を用いて嗜好学習を行う方法や(これを がµi 分散行列がΣi のガウス分布を表す。 コンテンツフィルタリングと呼ぶ) コンテンツフィルタリング 、 協調フィルタリ 2)データを取り込むごとに上記統計的モデルのパラ ングとコンテンツフィルタリングを結合する様々な方法 メータを、忘却型 EM アルゴリズム 忘却型 アルゴリズムによって学習 も提案されている。 する。これは過去のデータほどその効果を徐々に 少なくすることによって、データのパタンや異常 7.外れ値検出と不正検出 値のパタンの変化に適応するというものである。 通常、データマイニングでは、データの全体的な傾向 3)学習前後の統計的モデルの変化を統計的距離で計 を把握することが主に研究されている。しかしながら、 算し、その値をスコアとする。すなわち、統計的 全体的な傾向から逸れた外れ値を検出することも重要な モデルをより大きく動かすようなデータほど外れ データマイニングのテーマの1つである。なぜなら、異 値度合いが大きいと見なされる。 常値の中には単純にノイズといえるものばかりでなく、 SmartSifter を KDDCup99 とよばれるデータセット 異常行動につながるデータや、新しいトレンドを示す重 [18]に対して適用した。このデータセットは侵入とそう 要なデータが含まれているからである。このような異常 でないネットワークアクセスログからなり、元来教師あ 値を検出する技術を「外れ値検出」 「外れ値検出」とよんでいる。 「外れ値検出」 り学習による不正検出のためのベンチマークデータとし 外れ値検出の応用分野の1つに不正検出(Fraud て与えられたが、ここでは教師情報(どれが不正侵入で 不正検出( 不正検出 Detection) Detection)がある。応用対象としては、 あるかといった情報)は用いていない。侵入の混合率は ・ネットワークの不正侵入検出 0.35%であった。その結果、SmartSifter には以下 ・携帯電話の成りすまし利用の検出 の特徴を確認することができた。 ・クレジットカードの不正利用の検出 1)高い不正侵入検出力 高い不正侵入検出力(Effectiveness) 高い不正侵入検出力 。スコアの上 ・医療や保険業界おける不正請求検出 位5%のデータの中に全体の侵入の85%が含まれ などがあげられる。 ていた。この結果は、同様な機能をもつ競合アルゴ 本節では、統計的外れ値検出エンジン SmartSifter リズムと比較しても圧倒的に優れている。 について説明する[11]。これはデータを入力する毎に、 2)高速性 高速性(Scalability) 高速性 。Service の形態、接続時間、 データのスコアを計算する。スコアの値が高いほど、そ 送信バイト数、受信バイト数などといった4つの属 の外れ値度合いが高いと見なされる。一定数のデータに 性を用いたときには、データ数50万件に対して 対してスコアリングを行ったならば、スコアの降順にこ 140 秒で処理できた。 れをソートし、上位のデータを調査すれば、高い確率で 4)高い適応性 高い適応性。データのパタンが変化しても忘却型 不正データを検出することができると期待できる。 学習アルゴリズムによって適応的に外れ値を検出。
  • 6.  文献[11]では、不正医療サービスデータから不審な医 療サービスデータを検出できた事例が示されている。  SmartSifter には、外れ値が何故例外的かを説明する 機能がなく、Readability が不十分であったが、最近で は、SmartSifter が検出した外れ値の一群をルールで説 明する研究が進められている[12]。 外れ値検出技術の応用は不正検出に限らない。将来は 意外なトピックの検出や新しい傾向の発見などに応用で きるものと期待されている。         図11.テキスト分類 8.テキスト分類と自由記述アンケート分析 8.1.テキストマイニング このようなテキスト分類は、自然言語の形態素解析と 5  テキストマイニング テキストマイニングは、自然言語処理とデータマイ テキストマイニング 節で触れた教師あり学習技術を組み合わせることで実現 ニング技法を結合した技術である。テキストマイニング できる。これを以下、やや詳しく述べよう。 の要素技術には、テキストクラスタリング、テキスト分 形態素解析とは、文章を意味のなす単語の単位に分 形態素解析 類、相関性解析、情報抽出、などがあり、それらの応用 解することである。例えば、 「意味のなす単語の単位に 分野としては自由記述アンケート分析、コールセンター 分解する」という文章は「意味/の/なす/単語/の/単位/に/ におけるメールの自動分類、営業レポートの分析など多 分解する」と区切られる。そうして得られる単語の中か 岐に渡っている。要素後術と応用領域の対応関係をまと ら特に分類にとって重要である単語をなんらかの基準の めたのが図 10 である。 下で抽出する(これを属性選択 属性選択とよぶ) 属性選択 。そこで、テキ ストを属性選択された単語がそれぞれ含まれているか否 かを1、0で表現することにより、バイナリベクトルで 表現する。次に、バイナリベクトルとカテゴリの一般的 な対応関係について事例データから教師あり学習を行う。 テキスト分類の主な目的は、カテゴリが未知のテキス トに対してそのカテゴリを出来るだけ正しく予測するこ とである。その場合には、今のところサポートベクトル マシンを用いた場合が最も分類予測制度が高いことが検 証されている[4]。ところが、それは非ルール形式であ り、対応関係が複雑な数式で表されるためにReadability がない。知識発見の立場からは Readability が重要なの  図 10.テキストマイニングの要素技術と応用領域 で、ルール形式の表現形が有利である。ルール形式の最 もわかりやすい例が決定リスト 決定リストである。決定リストは 決定リスト 8.2.テキスト分類 テキスト分類はテキストマイニングの中でも最も重 “If テキストが単語 A を含む then カテゴリ=X テキスト分類 要な要素技術の1つである。これはテキストを複数のカ else if テキストが単語 B を含む then カテゴリ=X テゴリに振り分けるための技術である[15](図 11) 。例 ……” えば、ニュース記事を、そのコンテンツに基づいて政治、といった If−then – else 形式でかける。ここで、条件 経済、スポーツなどのカテゴリに自動的に振り分けるの 文には複数の単語の同時出現条件が入ってもよい。この に用いられる。また、WEB 上を流れるテキストを有害 ような決定リストを 5 節で述べたような情報量規準に 文書(ポルノ、薬物、等)と無害文書のカテゴリに振り 基づいて学習するアルゴリズムが提案されている[6]。 分けて、有害文書をフィルタリングすることにも用いら れる。そのためにはテキストをカテゴリへの振り分ける 8.3.自由記述アンケート分析 分類ルールをデータから学習しなければならない。 テキスト分類は自由記述アンケート分析に応用するこ とができる[6]。通常、アンケートデータはカテゴリカ ルデータと自由記述文からなっている。例えば、自動車 のブランドイメージ調査では、図12のように一人のユ
  • 7. ーザが回答したデータには、ブランド名(車種)、顧客 域を拡大している。しかし、一貫してマイニング技術の 満足度、年代などといったカテゴリカルデータと、ブラ 目指すところは「知識発見」であり、特に専門家をも驚 ンドイメージに関する自由記述回答部分が含まれている。かせるような新しい知識を大量データの中から発見する ことが最大の課題である。そのためにもマイニング技術 は大規模計算技術、並列計算技術、可視化技術などと緊 密に結びついて発展していくと期待されている。 参考文献 [1]N. Abe and H. Mamitsuka: Query Learning Strategies Using Boosting and Bagging, Proc .of the 15th   図 12. 自由記述アンケートデータの構造 Int. Conf.. on Machine Learning (ICML98), pp:1-9(1998) [2]R. Agarwal, H. Mannila ,R. Srikant,H.Toivonen,and そこで、カテゴリカルデータの中から特定のカテゴリ A.I.Verkamo: Fast Discovery of Association Rules. を指定し(例えば、ブランド) 、自由記述回答部分をテ U.Fayyadet.al. editors, Advances in Knowlesge Discovery キストとして、テキスト分類を行うことを考える。この and Data Mining, pp:307-328, AAAI Press (1996). ときアンケートデータから分類ルールを決定リストの形 [3] L.Breiman, J.H.Friedman, R.A.Olshen, and で学習したとき、条件文の中に、そのカテゴリに特徴的 C.J.Stone: Classification and Regression Trees. な言葉が現れる。 例えば A 車というブランドに注目 Belmnt,CA:Wadsworth. (1984). して [4]T.Joachims: Text Categorization with Support Vector If 安全 & 心地良い then ブランド=A車 Machines: Learning with Many Irrelevant Features. Else if アウトドア向き then ブランド=A 車 Proc. European Conf. on Machine Learning (ECML’98 ) Else if ….. pp:137-142 , (1998)    図 13. 自由記述アンケート分析 [5]H.Li and K.Yamanishi: Text Classification Using ESC- というルールが得られたとする。このとき、A車の特徴 based Stochastic Decision Lists. Proc. of 8th Int. Conf. が、「安全 & 心地良い」 「アウトドア向き」といった on Information and Knowledge Management  (ACM- 言葉で表されるというわけである。このような言葉は情 CIKM’99), pp: 122—130, (2000). 報利得の高い順に選ばれる。 情報利得とは5節の式 (1)[6]H.Li and K.Yamanishi: Mining from Open Answers で示した量であり、言葉が指定されたカテゴリにとって in Questionnaire Data.. To appear in Proc. of  Seventh どれだけ特徴的であるかを示している。以上のようなテ ACM  SIGKDD  Int. Conf.  Knowledge Discovery and on  キスト分類に基づく自由記述アンケートは実際にマーケ Data Mining (KDD2001 )(2001) ティングの中で活用されている[6]、[20]。 [7]A. Nakamura and N. Abe.: Collaborative Filtering Using 自由記述アンケートを分析する手法としては、他に、 Weighted Majority Prediction Algorithms. Proc. of 15th Int. テキストクラスタリングや相関分析などがある。 Conf. on Machine Learning (ICML98) , pp.395-403, テキストクラスタリングはプレーンなテキストを教 (1998). テキストクラスタリング 師無し学習によって指定された数のクラスタ(群)に分 [8]J.R.Quinlan:C4.5 Programs for Machine Learning, 共起度に基づく相関分析では、 Morgan Kaufmann 1993 けるものである。一方、共起度に基づく相関分析 共起度に基づく相関分析 単語間の同時出現(共起関係)の情報から主成分分析、 [9]P. Resnick, N. Iacovou, M. Suchak, P. Bergstom and J. 数量化三類、などを行い、言葉同士の連関をポジショニ Riedl.: GroupLens: An Open Architechture for Collaborative ングマップと呼ばれる二次元マップ上で表現する。以上 Filtering of Netnews . Pro.c . of ACM Conf. on Computer の技術は[14]、[16]を参考にされたい。 Supported Cooperativ Work (CSCW94 ) pp.175-186, 1994 [10]J.Rissanen: Fisher Information and Stochastic 9.おわりに Complexity. IEEE Trans.on Information Theory, 42(1), 以上、データ・テキストマイニング技術を、バスケッ pp:40-47 (1996). ト分析、分類ルールの学習、嗜好学習とリコメンデーシ [11]K. Yamanishi, J. Takeuchi, G. Williams, P. Milne: ョン、外れ値検出、テキスト分類に焦点を絞って解説し On-line Unsupervised Outlier Detection Using Finite てきた。データ・テキストマイニングの技術は以上にと Mixtures Using Discounting Learning Algorithms. どまらず、今も多くの要素技術を生み出しながら応用領 Proc. of Sixth  ACM  SIGKDD  Int. Conf.  Knowledge on 
  • 8. Discovery and Data Mining (KDD2000), pp:320-324 (2000) [12]K. Yamanishi and J. Takeuchi: Discovering Outlier Filtering Rules from Unlabeled Data. To appear in Proc. of Seventh ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining (KDD2001 ) (2001) [13]M.J.Zaki: Generating Non-redundant Association Rules. Proc. of Sixth ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining (KDD2000), pp:34-43 (2000) [14]人工知能学会誌 Vol.16, No.2 (2001 年 3 月) 特集「テ キストマイニング」 [15]永田、平田: テキスト分類-学習理論の「見本市」-、情 報処理、vol.42(1), pp:32-37 (2001). [16]日経コンピュータ pp:40-46, 2001 年 8 月 [17]山西 健司:拡張型確率的コンプレキシティと情報論的学 習理論、応用数理、49,pp:71-78 (1998). [18]http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html [19]http:///www.acm.org/sigkdd/ [20]http://www.labs.nec.co.jp/DTmining/ [21]http://www.wkap.nl/journalhome. htm/1384-5810