SlideShare una empresa de Scribd logo
1 de 48
ベイズと認知モデル
   と教師なし学習


PFI Seminar 2012.11.08


       能地 宏
自己紹介



‣ 能地宏 @nozyh


‣ 2011年夏インターン,∼アルバイト


‣ 経歴
 - 早稲田 電気情報生命工学科
  - 機械学習,圧縮 (2009∼)
 - 東大 情報理工 (現在 修士2年)
  - 計算言語学,自然言語処理
今日のお話



‣ ベイズと認知モデル(と教師なし学習)


‣ Bayesian models of cognition
 - ベイズモデルを用いて,人間の認知機能を明らかにしよう,という試み
 - 工学ではなく,完全にサイエンス
   - 人間の頭の中にあるカテゴリはどのように形成されるのか?
   - 赤ちゃんはどのようにして言葉を習得するのか?


 - 最近面白いことが起きている?(次)
今日のお話

‣ Bayesian models of cognition
 - 一部で論争(?)が起きている
 - Bayesian just-so stories in psychology and neuroscience
   (Bowers & Davis, 2012)
今日のお話

‣ Bayesian models of cognition
 - 一部で論争(?)が起きている
 - Bayesian just-so stories in psychology and neuroscience
   (Bowers & Davis, 2012)
   - 心理学におけるBayes理論は科学ではなく,単なる作り話である
今日のお話

‣ Bayesian models of cognition
 - 一部で論争(?)が起きている
 - Bayesian just-so stories in psychology and neuroscience
   (Bowers & Davis, 2012)
   - 心理学におけるBayes理論は科学ではなく,単なる作り話である
 - How the Bayesians got their beliefs (and what those beliefs actually are):
   Comment on Bowers and Davis (2012) (Griffiths, Charter, Norris & Pouget)
   - 上の著者は,この分野を正しく理解していない!という反論
今日のお話

‣ Bayesian models of cognition
 - 一部で論争(?)が起きている
 - Bayesian just-so stories in psychology and neuroscience
   (Bowers & Davis, 2012)
   - 心理学におけるBayes理論は科学ではなく,単なる作り話である
 - How the Bayesians got their beliefs (and what those beliefs actually are):
   Comment on Bowers and Davis (2012) (Griffiths, Charter, Norris & Pouget)
   - 上の著者は,この分野を正しく理解していない!という反論
 - Is that what Bayesians believe? Reply to Griffiths, Chater, Norris, and Pouget
   (2012) (Bowers & Davis, 2012)
   - さらに元の著者からの反論 …
今日のお話

‣ Bayesian models of cognition
 - 一部で論争(?)が起きている
 - Bayesian just-so stories in psychology and neuroscience
   (Bowers & Davis, 2012)
   - 心理学におけるBayes理論は科学ではなく,単なる作り話である
 - How the Bayesians got their beliefs (and what those beliefs actually are):
   Comment on Bowers and Davis (2012) (Griffiths, Charter, Norris & Pouget)
   - 上の著者は,この分野を正しく理解していない!という反論
 - Is that what Bayesians believe? Reply to Griffiths, Chater, Norris, and Pouget
   (2012) (Bowers & Davis, 2012)
   - さらに元の著者からの反論 …


 - 何が起きているのか?
 - 議論が起こっているということは,誤解が生じやすいということ.その部分を
   明らかにしたい
認知科学と教師なし学習


‣ 自然言語処理と先ほどの議論は,関係が0ではない?


‣ Computational linguistics Where do we go from here?
  (ACL2012, Mark Johnson)
 - 現在の計算言語学はサイエンスではない
 - 精度(f値)を1%あげても,言語の本質に近づいたとは言えない
 - 計算言語学として言語の本質に近づくためにはどうすれば良いか?


‣ 特に言語の教師なし学習に関して…
 - ベイズで認知モデルを組み立てることと,自然言語の教師なし学習モデルを作る
   ことと,やっていることは同じ(どちらも生成モデルと推論法を考える)
 - 認知モデルへの非難を受けて,教師なし学習はどのようなことを考えて進めば
   良いか?
今日のお話




‣ 技術的,というよりは,完全にお話です


‣ PFIでこんなことを話して良いのかは分からない…
‣ 逆にどれぐらいの人が興味を持ってくれるのか,に興味があります
‣ 認知モデルは専門ではないので,間違ったことを言うかもしれません
Bayesian models of cognition




‣ 人間の行動の原理を理解することが目標
‣ 人間の行動の原理を,確率モデルを用いて表現する
- c.f) コネクショニズム(ニューラルネットによる脳のモデル)


‣ 特定の人間の行動について,その確率モデルと,実際の人間の挙動を比較
  する
‣ 確率モデルが人間の挙動にマッチすれば,人間の脳では同じような確率
  計算が行われている,と結論づける(?)
簡単な例
簡単な例



‣ 丸⃝さんの携帯が壊れてしまったらしい
簡単な例



‣ 丸⃝さんの携帯が壊れてしまったらしい
‣ 理由として考えられるのは?
簡単な例



‣ 丸⃝さんの携帯が壊れてしまったらしい
‣ 理由として考えられるのは?
- 道路に落とした
簡単な例



‣ 丸⃝さんの携帯が壊れてしまったらしい
‣ 理由として考えられるのは?
- 道路に落とした
- お風呂に落とした
簡単な例



‣ 丸⃝さんの携帯が壊れてしまったらしい
‣ 理由として考えられるのは?
- 道路に落とした
- お風呂に落とした
- お酒に落とした
簡単な例



‣ 丸⃝さんの携帯が壊れてしまったらしい
‣ 理由として考えられるのは?
- 道路に落とした
- お風呂に落とした
- お酒に落とした


‣ 理由に対する事後分布を計算する
簡単な例



‣ 丸⃝さんの携帯が壊れてしまったらしい
‣ 理由として考えられるのは?
- 道路に落とした
- お風呂に落とした
- お酒に落とした


‣ 理由に対する事後分布を計算する
- p(H) : 事前分布.(常識として)どのような理由が起こりやすいか?
簡単な例



‣ 丸⃝さんの携帯が壊れてしまったらしい
‣ 理由として考えられるのは?
- 道路に落とした
- お風呂に落とした
- お酒に落とした


‣ 理由に対する事後分布を計算する
- p(H) : 事前分布.(常識として)どのような理由が起こりやすいか?
- p(D¦H) : 尤度関数.Hが起こったとき,壊れる確率は?
簡単な例



‣ 丸⃝さんの携帯が壊れてしまったらしい
‣ 理由として考えられるのは?
- 道路に落とした
- お風呂に落とした
- お酒に落とした


‣ 理由に対する事後分布を計算する
- p(H) : 事前分布.(常識として)どのような理由が起こりやすいか?
- p(D¦H) : 尤度関数.Hが起こったとき,壊れる確率は?
- ベイズの定理 p(H¦D)   p(H) p(D¦H)
丸⃝さんの場合・・・

‣ 事前分布
- p( 道路に落とした ) = 0.2
- p( お風呂に落とした ) = 0.05
- p( お酒に落とした ) = 0.75


‣ 尤度関数
- p( 壊れた ¦ 道路に落とした ) = 0.1
- p( 壊れた ¦ お風呂に落とした ) = 0.9
- p( 壊れた ¦ お酒に落とした ) = 0.5


‣ 事後分布
丸⃝さんの場合・・・

‣ 事前分布
- p( 道路に落とした ) = 0.2
- p( お風呂に落とした ) = 0.05
- p( お酒に落とした ) = 0.75


‣ 尤度関数
- p( 壊れた ¦ 道路に落とした ) = 0.1
- p( 壊れた ¦ お風呂に落とした ) = 0.9
- p( 壊れた ¦ お酒に落とした ) = 0.5


‣ 事後分布
- p( 道路に落とした ¦ 壊れた )     0.02
丸⃝さんの場合・・・

‣ 事前分布
- p( 道路に落とした ) = 0.2
- p( お風呂に落とした ) = 0.05
- p( お酒に落とした ) = 0.75


‣ 尤度関数
- p( 壊れた ¦ 道路に落とした ) = 0.1
- p( 壊れた ¦ お風呂に落とした ) = 0.9
- p( 壊れた ¦ お酒に落とした ) = 0.5


‣ 事後分布
- p( 道路に落とした ¦ 壊れた )     0.02
- p( お風呂に落とした ¦ 壊れた )     0.045
丸⃝さんの場合・・・

‣ 事前分布
- p( 道路に落とした ) = 0.2
- p( お風呂に落とした ) = 0.05
- p( お酒に落とした ) = 0.75


‣ 尤度関数
- p( 壊れた ¦ 道路に落とした ) = 0.1
- p( 壊れた ¦ お風呂に落とした ) = 0.9
- p( 壊れた ¦ お酒に落とした ) = 0.5


‣ 事後分布
- p( 道路に落とした ¦ 壊れた )     0.02
- p( お風呂に落とした ¦ 壊れた )     0.045
- p( お酒に落とした ¦ 壊れた )     0.37
生成モデル

‣ 観測データが発生するまでの,確率モデルを記述したもの
‣ 先ほどの例では,
 - p(H) : 携帯に起こりそうなことと,その確率
 - p(D¦H) : それが起こったときに,携帯が壊れる確率

  で生成モデルを決めたことになる


‣ 推論
 - 生成モデルが与えられたもとで,隠れ変数Hの事後分布を計算すること
 - p(H¦D) を計算した
 - ベイズの枠組みの中では,どんなに複雑な生成モデルを記述しても,全て事後分布
   を求める問題に帰着させることが出来る


‣ 我々の予想が当たったら,それは我々がそういう計算をしている
  と言える(?)
もうちょっと複雑な例




‣ 赤ちゃんが音素列から単語をどのように得るか?(Goldwater+ 2009)


‣ カテゴリーの獲得(Griffiths+ 2007)
computational model can identify which information sources
   ce to do something
 I
       赤ちゃんが音素列から単語をどのように得るか?
     word segmentation is first step to learning a lexicon
                    y Mu Nw Ma Mn Mt Nt Mu Ns Mi ND Me Nb MU Mk   (Johnson, 2012)
 I   using distributional information and syllable structure achieves
     about 90% token f-score
      ‣ 赤ちゃんが言葉をどのように学習するか?の最初の問題
 nergies in acquisition:
     ‣ 母親の話す言葉は,単語に切れてはおらず,連続している
 I   learning word segmentation and syllable structure jointly learns
     both more accurately than learning each on its own
       ‣ 赤ちゃんは連続した音素のみから,単語の切れ目を見つけている,と考える
 I   learning word    object mapping together with word segmentation
       ‣ 生成モデル
     improves word segmentation accuracy
        - p(H)   DirichletProcess(α,P0) : 各単語の出現確率 ex) p( dog ) = 0.01
Animals don’t move on wheels”
      - p(D¦H) = Multinomial(H) : 独立に生成された単語がくっついて,母親が発する確率
   – Tom Wasow
      ‣ 推論
e: Fleck, Goldwater, Swingley and many others p(H) と文の区切りを見つける
       - 単語が繋がった文の集合のみから,単語の集合
      ‣ このモデルが,正しい単語の区切りを見つけることが出来たら,赤ちゃんは
                                        21/43

        このような確率モデルを頭の中に持っていると言える(?)
カテゴリーの獲得




‣ Categorization theory (認知言語学などと関連)
 - 人間は, もの をカテゴリーに分類して,理解している
 - 見た目が犬っぽい動物は,全て 犬 として認識する
 - 種類が違うりんごは,全て りんご というカテゴリーとして認識される


‣ Exemplar Model と Prototype Model
人間はどういうカテゴリーを作るか?
人間はどういうカテゴリーを作るか?

‣ Exemplar Model
 - カテゴリーの要因全てが,カテゴリーを形作る
 - 新しい対象は,各カテゴリーの全ての要素を見て,類似度を測って分類される
人間はどういうカテゴリーを作るか?

‣ Prototype Model
 - 各カテゴリーは,中心の成員1つのみで表現される(最も代表的な要素)
 - 新しい対象は,各カテゴリーの中心のみと比較される
確率モデルとして表現する

‣ x1, ..., xn : n個の観測データ
‣ c1, ..., cn : それぞれのクラスタ割り当て
‣ mn,k : n個のうち,クラスタkに割り当てられている要素の個数
‣ p(x¦k):クラスタkのもとで,データxの発生確率(尤度関数)


‣ 新しいデータxn+1のクラスタはどこに割り当てられる?
‣ クラスタ割り当ての事後分布
 - p(xn+1¦k)   mn,k p(x¦k)


‣ Exemplarか,Prototypeかで,尤度 p(x¦k) が異なる
 - Exemplar : p(x¦k)     (kに含まれる全て要素の類似度との合計)
 - Prototype : p(x¦k)    (代表点との類似度)
‣ Dirichlet Process Mixture においてbase measureを変化させたもの
腑に落ちない(微妙な)ところ




‣ 人間の心が本当にこんな確率モデルで記述出来るの?
‣ 様々な都合の良い(?)仮定を置いている
 - 赤ちゃんは,これまでに聞いた全ての文を頭の中に記憶して,その分割に関する
   事後分布を計算することが出来る?
 - MCMCはコンピュータに数時間∼数週間)かかるのに,人間には一瞬?
   (ベイズの最適化問題は全く凸ではない)


‣ Bowers & Davis の批判は,まさにこの辺り
Bowers & Davis (2012) のabstract

According to Bayesian theories in psychology and neuroscience, minds and brains are (near)
optimal in solving a wide range of tasks. We challenge this view and argue that more
traditional, non-Bayesian approaches are more promising. We make 3 main arguments. First,
we show that the empirical evidence for Bayesian theories in psychology is weak. This
weakness relates to the many arbitrary ways that priors, likelihoods, and utility functions can
be altered in order to account for the data that are obtained, making the models unfalsifiable.
It further relates to the fact that Bayesian theories are rarely better at predicting data
compared with alternative (and simpler) non-Bayesian theories. Second, we show that the
empirical evidence for Bayesian theories in neuroscience is weaker still. There are impressive
mathematical analyses showing how populations of neurons could compute in a Bayesian
manner but little or no evidence that they do. Third, we challenge the general scientific
approach that characterizes Bayesian theorizing in cognitive science. A common premise is
that theories in psychology should largely be constrained by a rational analysis of what the
mind ought to do. We question this claim and argue that many of the important constraints
come from biological, evolutionary, and processing (algorithmic) considerations that have no
adaptive relevance to the problem per se. In our view, these factors have contributed to the
development of many Bayesian “just so” stories in psychology and neuroscience; that is,
mathematical analyses of cognition that can be used to explain almost any behavior as
optimal.
いくつかの言葉




‣ optimal
 - 人間の行動が,常に最前の行動をとる,ということ
 - 単語分割であれば,事後分布に従った分割を常に考える,ということ


‣ optimal learner
 - ベイズモデルは,全ての情報を使って完全な推論を行うという意味で,optimal
 - 従ってモデルのことを optimal learner と呼ぶ
Bowers & Davis (2012)




‣ 非常に長く読みづらい…


‣ Griffithsらの返答は,述べられた問題点を回収しつつ,それらへの疑問を
  解いている
‣ 以降はGriffithsらの論文を紹介しつつ,先に与えた疑問について
  考えていく
ベイズモデルのゴールは,人間がoptimalである
              ことを示すことである?


‣ ベイズモデルの目的はそうではない (Griffiths et al.)
‣ では何のために,人間の行動とモデルを比較するのか?
 - optimal learner が,与えられた問題に対してどのように振る舞うか?を規定する
   ため
 - 人間がどのような問題を解いているのか?を記述することが目的


‣ 別の文献では…
 - 人間がoptimalであるかどうかを論じる前に,optimalなモデルがどのように振る
   舞うか定めておかないと,その判断は出来ないのではないか?


‣ 何だかよく分からない…
 - 恐らく次の (Johnson 2012) と同じことを言っている
Mark Johnson (2012)

‣ A computational model can identify which information sources suffice
  to do something
‣ Synergies in acquisition:
 - learning word segmentation and syllable structure jointly learns
   both more accurately than learning each on its own
 - learning word → object mapping together with word segmentation
   improves word segmentation accuracy


‣ 生成モデルにこんな情報を組み込んだら,こういう現象が観測された,
  ということが大事
 - ベイズモデルだと,そのような情報を陽に記述するので,現象が理解しやすい
‣ optimal learner = 組み込んだ情報を最大限に使えることが保証されている
‣ 人間も,そこで組み込んだ情報を使っているのではないか?という手掛か
  りになる
Ideal learnability analysis
‣ ある特性は,人間が生まれながらに備えているものか?学習によって
  得られるものか?


‣ ある特定の知識を optimal learner が得られないのであれば,その知識は
  人間が生まれたときから持っていると言って良いだろう


‣ Chomskyの生得説 (Poverty of stimulus)
 - 自然言語の文法を,人間は生まれたときから持ち合わせている


‣ 教師なし構文解析
 - 生の文章からどう頑張っても文法が獲得出来ないことが示せれば,Chomskyの
   主張が正しいと言える?
 - 逆にモデルに特定の情報を組み込むことで文法を獲得出来るなら,赤ちゃんは
   そういう情報を抽出している,と言えるかもしれない
 - モデルから仮説を立てて,実際の脳を解析する?
Dan Klein (2005)


‣ The unsupervised learning of natural language structure


 - To be clear on this point: the goal of this work is not to produce a
   psychologically plausible model or simulation. However, while success at the
   tree induction task does not directly speak to the investigation of the human
   language faculty, it does have direct relevance to the logical problem of
   language acquisition, particularly the argument of the poverty of the
   stimulus, and therefore an indirect relevance to cognitive investigations. In
   particular, while no such machine system can tell us how humans do learn
   language, it can demonstrate the presence and strength of statistical patterns
   which are potentially available to a human learner.


‣ 同じような主張をしている
Yoav Seginer (2007)




‣ Learning syntactic structure


 - Even when a computational model is clearly not psychologically realistic, its
   success in learning syntactic structure has important implications to the study
   of language and language acquisition because such successful learning
   indicates a relation between the surface structure of a language and its
   hidden syntactic structure. Even if the method by which this relation is
   established is not actually used by children acquiring a language, the relation
   is still an empirical property of the language and may be used by children in
   some other way in the process of language acquisition.
生物学的な問題




‣ ニューロンは確率的な挙動を行えるのか?


‣ (省略)
計算言語学から見て
教師なし構文解析というタスク

‣ 通常,構文解析は人手で作った正解コーパスから学習する
‣ 教師なし学習
- 生の文章のみを大量に与えて,構文情報を復元出来るか?
- しかし機械は言語に関する情報を何も持ち合わせていないので,
  めちゃくちゃ難しい
- 現在精度は4 5割


‣ 工学的意義:正解データを作る必要がなくなれば,少数言語の解析に
  役立つ
‣ しかし,少数言語の解析でも,多少の言語に関する 常識 を与えてしまっ
  た方が問題はずっと簡単(半教師あり学習)


‣ 工学的な意義が十分に得られないのであれば, 科学的 な貢献がなければ
  ならないのではないか?
科学的な貢献をするには?



‣ いたずらに複雑なモデルを考えるのは,あまり意味がないのでは
- 工学的には,複雑なモデルの推論 = 機械学習への貢献,と言えるかもしれない


‣ 簡単なモデルで良い性能を出す,ということが重要
‣ そのために本質を捉えたモデルの設計を行う
- 当たり前のことかも…


‣ 分野としての問題も色々ありそう?
- 評価方法 (Noah Smith, 2012)
- コーパス(赤ちゃんはWall Street Journalは読まない)
まとめ



‣ 認知科学分野におけるベイズへの非難を受けて,その周辺を調べた
- 人間がベイズ的なモデルに従って行動すると仮定して,モデルを組み立てるのは
  正しくない(危険)
- しかしその部分を認識した上で,optimal learner としてモデルを設計し,挙動を
  観測することには意味がある


‣ 教師なし学習を通じて,科学への貢献をするには
- information source と synergies (Johnson, 2012) を明らかにする
- どのような言語現象が,どのようなモデルによって捉えられるか?を明らかにする
  ことは,計算言語学として可能なはず
ご清聴ありがとうございました

Más contenido relacionado

La actualidad más candente

GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
最適化超入門
最適化超入門最適化超入門
最適化超入門Takami Sato
 
Rで学ぶ逆変換(逆関数)法
Rで学ぶ逆変換(逆関数)法Rで学ぶ逆変換(逆関数)法
Rで学ぶ逆変換(逆関数)法Nagi Teramo
 
ベイジアンネット技術とサービス工学におけるビッグデータ活用技術
ベイジアンネット技術とサービス工学におけるビッグデータ活用技術ベイジアンネット技術とサービス工学におけるビッグデータ活用技術
ベイジアンネット技術とサービス工学におけるビッグデータ活用技術Yoichi Motomura
 
よくわかるフリストンの自由エネルギー原理
よくわかるフリストンの自由エネルギー原理よくわかるフリストンの自由エネルギー原理
よくわかるフリストンの自由エネルギー原理Masatoshi Yoshida
 
基礎からのベイズ統計学第5章
基礎からのベイズ統計学第5章基礎からのベイズ統計学第5章
基礎からのベイズ統計学第5章hiro5585
 
自由エネルギー原理入門: 正規分布を仮定した場合
自由エネルギー原理入門: 正規分布を仮定した場合自由エネルギー原理入門: 正規分布を仮定した場合
自由エネルギー原理入門: 正規分布を仮定した場合Masatoshi Yoshida
 
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」Ken'ichi Matsui
 
多目的強凸最適化のパレート集合のトポロジー
多目的強凸最適化のパレート集合のトポロジー多目的強凸最適化のパレート集合のトポロジー
多目的強凸最適化のパレート集合のトポロジーKLab Inc. / Tech
 
[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数Deep Learning JP
 
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知hagino 3000
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介Naoki Hayashi
 
Transformerを用いたAutoEncoderの設計と実験
Transformerを用いたAutoEncoderの設計と実験Transformerを用いたAutoEncoderの設計と実験
Transformerを用いたAutoEncoderの設計と実験myxymyxomatosis
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向ohken
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類Shintaro Fukushima
 
遺伝的アルゴリズム (Genetic Algorithm)を始めよう!
遺伝的アルゴリズム(Genetic Algorithm)を始めよう!遺伝的アルゴリズム(Genetic Algorithm)を始めよう!
遺伝的アルゴリズム (Genetic Algorithm)を始めよう!Kazuhide Okamura
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-Shiga University, RIKEN
 
アンサンブル学習
アンサンブル学習アンサンブル学習
アンサンブル学習Hidekazu Tanaka
 

La actualidad más candente (20)

GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
最適化超入門
最適化超入門最適化超入門
最適化超入門
 
Rで学ぶ逆変換(逆関数)法
Rで学ぶ逆変換(逆関数)法Rで学ぶ逆変換(逆関数)法
Rで学ぶ逆変換(逆関数)法
 
ベイジアンネット技術とサービス工学におけるビッグデータ活用技術
ベイジアンネット技術とサービス工学におけるビッグデータ活用技術ベイジアンネット技術とサービス工学におけるビッグデータ活用技術
ベイジアンネット技術とサービス工学におけるビッグデータ活用技術
 
よくわかるフリストンの自由エネルギー原理
よくわかるフリストンの自由エネルギー原理よくわかるフリストンの自由エネルギー原理
よくわかるフリストンの自由エネルギー原理
 
基礎からのベイズ統計学第5章
基礎からのベイズ統計学第5章基礎からのベイズ統計学第5章
基礎からのベイズ統計学第5章
 
自由エネルギー原理入門: 正規分布を仮定した場合
自由エネルギー原理入門: 正規分布を仮定した場合自由エネルギー原理入門: 正規分布を仮定した場合
自由エネルギー原理入門: 正規分布を仮定した場合
 
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
 
多目的強凸最適化のパレート集合のトポロジー
多目的強凸最適化のパレート集合のトポロジー多目的強凸最適化のパレート集合のトポロジー
多目的強凸最適化のパレート集合のトポロジー
 
[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数
 
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
Transformerを用いたAutoEncoderの設計と実験
Transformerを用いたAutoEncoderの設計と実験Transformerを用いたAutoEncoderの設計と実験
Transformerを用いたAutoEncoderの設計と実験
 
Stanでガウス過程
Stanでガウス過程Stanでガウス過程
Stanでガウス過程
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
遺伝的アルゴリズム (Genetic Algorithm)を始めよう!
遺伝的アルゴリズム(Genetic Algorithm)を始めよう!遺伝的アルゴリズム(Genetic Algorithm)を始めよう!
遺伝的アルゴリズム (Genetic Algorithm)を始めよう!
 
深層学習 第6章
深層学習 第6章深層学習 第6章
深層学習 第6章
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
 
アンサンブル学習
アンサンブル学習アンサンブル学習
アンサンブル学習
 

Similar a ベイズと認知モデルと教師なし学習

Similar a ベイズと認知モデルと教師なし学習 (6)

Tenenbaum review-20140704-1600
Tenenbaum review-20140704-1600Tenenbaum review-20140704-1600
Tenenbaum review-20140704-1600
 
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
 
プレゼンテーションスキル演習
プレゼンテーションスキル演習プレゼンテーションスキル演習
プレゼンテーションスキル演習
 
Klc 20120225
Klc 20120225Klc 20120225
Klc 20120225
 
Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 

ベイズと認知モデルと教師なし学習

  • 1. ベイズと認知モデル と教師なし学習 PFI Seminar 2012.11.08 能地 宏
  • 2. 自己紹介 ‣ 能地宏 @nozyh ‣ 2011年夏インターン,∼アルバイト ‣ 経歴 - 早稲田 電気情報生命工学科 - 機械学習,圧縮 (2009∼) - 東大 情報理工 (現在 修士2年) - 計算言語学,自然言語処理
  • 3. 今日のお話 ‣ ベイズと認知モデル(と教師なし学習) ‣ Bayesian models of cognition - ベイズモデルを用いて,人間の認知機能を明らかにしよう,という試み - 工学ではなく,完全にサイエンス - 人間の頭の中にあるカテゴリはどのように形成されるのか? - 赤ちゃんはどのようにして言葉を習得するのか? - 最近面白いことが起きている?(次)
  • 4. 今日のお話 ‣ Bayesian models of cognition - 一部で論争(?)が起きている - Bayesian just-so stories in psychology and neuroscience (Bowers & Davis, 2012)
  • 5. 今日のお話 ‣ Bayesian models of cognition - 一部で論争(?)が起きている - Bayesian just-so stories in psychology and neuroscience (Bowers & Davis, 2012) - 心理学におけるBayes理論は科学ではなく,単なる作り話である
  • 6. 今日のお話 ‣ Bayesian models of cognition - 一部で論争(?)が起きている - Bayesian just-so stories in psychology and neuroscience (Bowers & Davis, 2012) - 心理学におけるBayes理論は科学ではなく,単なる作り話である - How the Bayesians got their beliefs (and what those beliefs actually are): Comment on Bowers and Davis (2012) (Griffiths, Charter, Norris & Pouget) - 上の著者は,この分野を正しく理解していない!という反論
  • 7. 今日のお話 ‣ Bayesian models of cognition - 一部で論争(?)が起きている - Bayesian just-so stories in psychology and neuroscience (Bowers & Davis, 2012) - 心理学におけるBayes理論は科学ではなく,単なる作り話である - How the Bayesians got their beliefs (and what those beliefs actually are): Comment on Bowers and Davis (2012) (Griffiths, Charter, Norris & Pouget) - 上の著者は,この分野を正しく理解していない!という反論 - Is that what Bayesians believe? Reply to Griffiths, Chater, Norris, and Pouget (2012) (Bowers & Davis, 2012) - さらに元の著者からの反論 …
  • 8. 今日のお話 ‣ Bayesian models of cognition - 一部で論争(?)が起きている - Bayesian just-so stories in psychology and neuroscience (Bowers & Davis, 2012) - 心理学におけるBayes理論は科学ではなく,単なる作り話である - How the Bayesians got their beliefs (and what those beliefs actually are): Comment on Bowers and Davis (2012) (Griffiths, Charter, Norris & Pouget) - 上の著者は,この分野を正しく理解していない!という反論 - Is that what Bayesians believe? Reply to Griffiths, Chater, Norris, and Pouget (2012) (Bowers & Davis, 2012) - さらに元の著者からの反論 … - 何が起きているのか? - 議論が起こっているということは,誤解が生じやすいということ.その部分を 明らかにしたい
  • 9. 認知科学と教師なし学習 ‣ 自然言語処理と先ほどの議論は,関係が0ではない? ‣ Computational linguistics Where do we go from here? (ACL2012, Mark Johnson) - 現在の計算言語学はサイエンスではない - 精度(f値)を1%あげても,言語の本質に近づいたとは言えない - 計算言語学として言語の本質に近づくためにはどうすれば良いか? ‣ 特に言語の教師なし学習に関して… - ベイズで認知モデルを組み立てることと,自然言語の教師なし学習モデルを作る ことと,やっていることは同じ(どちらも生成モデルと推論法を考える) - 認知モデルへの非難を受けて,教師なし学習はどのようなことを考えて進めば 良いか?
  • 10. 今日のお話 ‣ 技術的,というよりは,完全にお話です ‣ PFIでこんなことを話して良いのかは分からない… ‣ 逆にどれぐらいの人が興味を持ってくれるのか,に興味があります ‣ 認知モデルは専門ではないので,間違ったことを言うかもしれません
  • 11. Bayesian models of cognition ‣ 人間の行動の原理を理解することが目標 ‣ 人間の行動の原理を,確率モデルを用いて表現する - c.f) コネクショニズム(ニューラルネットによる脳のモデル) ‣ 特定の人間の行動について,その確率モデルと,実際の人間の挙動を比較 する ‣ 確率モデルが人間の挙動にマッチすれば,人間の脳では同じような確率 計算が行われている,と結論づける(?)
  • 18. 簡単な例 ‣ 丸⃝さんの携帯が壊れてしまったらしい ‣ 理由として考えられるのは? - 道路に落とした - お風呂に落とした - お酒に落とした ‣ 理由に対する事後分布を計算する
  • 19. 簡単な例 ‣ 丸⃝さんの携帯が壊れてしまったらしい ‣ 理由として考えられるのは? - 道路に落とした - お風呂に落とした - お酒に落とした ‣ 理由に対する事後分布を計算する - p(H) : 事前分布.(常識として)どのような理由が起こりやすいか?
  • 20. 簡単な例 ‣ 丸⃝さんの携帯が壊れてしまったらしい ‣ 理由として考えられるのは? - 道路に落とした - お風呂に落とした - お酒に落とした ‣ 理由に対する事後分布を計算する - p(H) : 事前分布.(常識として)どのような理由が起こりやすいか? - p(D¦H) : 尤度関数.Hが起こったとき,壊れる確率は?
  • 21. 簡単な例 ‣ 丸⃝さんの携帯が壊れてしまったらしい ‣ 理由として考えられるのは? - 道路に落とした - お風呂に落とした - お酒に落とした ‣ 理由に対する事後分布を計算する - p(H) : 事前分布.(常識として)どのような理由が起こりやすいか? - p(D¦H) : 尤度関数.Hが起こったとき,壊れる確率は? - ベイズの定理 p(H¦D) p(H) p(D¦H)
  • 22. 丸⃝さんの場合・・・ ‣ 事前分布 - p( 道路に落とした ) = 0.2 - p( お風呂に落とした ) = 0.05 - p( お酒に落とした ) = 0.75 ‣ 尤度関数 - p( 壊れた ¦ 道路に落とした ) = 0.1 - p( 壊れた ¦ お風呂に落とした ) = 0.9 - p( 壊れた ¦ お酒に落とした ) = 0.5 ‣ 事後分布
  • 23. 丸⃝さんの場合・・・ ‣ 事前分布 - p( 道路に落とした ) = 0.2 - p( お風呂に落とした ) = 0.05 - p( お酒に落とした ) = 0.75 ‣ 尤度関数 - p( 壊れた ¦ 道路に落とした ) = 0.1 - p( 壊れた ¦ お風呂に落とした ) = 0.9 - p( 壊れた ¦ お酒に落とした ) = 0.5 ‣ 事後分布 - p( 道路に落とした ¦ 壊れた ) 0.02
  • 24. 丸⃝さんの場合・・・ ‣ 事前分布 - p( 道路に落とした ) = 0.2 - p( お風呂に落とした ) = 0.05 - p( お酒に落とした ) = 0.75 ‣ 尤度関数 - p( 壊れた ¦ 道路に落とした ) = 0.1 - p( 壊れた ¦ お風呂に落とした ) = 0.9 - p( 壊れた ¦ お酒に落とした ) = 0.5 ‣ 事後分布 - p( 道路に落とした ¦ 壊れた ) 0.02 - p( お風呂に落とした ¦ 壊れた ) 0.045
  • 25. 丸⃝さんの場合・・・ ‣ 事前分布 - p( 道路に落とした ) = 0.2 - p( お風呂に落とした ) = 0.05 - p( お酒に落とした ) = 0.75 ‣ 尤度関数 - p( 壊れた ¦ 道路に落とした ) = 0.1 - p( 壊れた ¦ お風呂に落とした ) = 0.9 - p( 壊れた ¦ お酒に落とした ) = 0.5 ‣ 事後分布 - p( 道路に落とした ¦ 壊れた ) 0.02 - p( お風呂に落とした ¦ 壊れた ) 0.045 - p( お酒に落とした ¦ 壊れた ) 0.37
  • 26. 生成モデル ‣ 観測データが発生するまでの,確率モデルを記述したもの ‣ 先ほどの例では, - p(H) : 携帯に起こりそうなことと,その確率 - p(D¦H) : それが起こったときに,携帯が壊れる確率 で生成モデルを決めたことになる ‣ 推論 - 生成モデルが与えられたもとで,隠れ変数Hの事後分布を計算すること - p(H¦D) を計算した - ベイズの枠組みの中では,どんなに複雑な生成モデルを記述しても,全て事後分布 を求める問題に帰着させることが出来る ‣ 我々の予想が当たったら,それは我々がそういう計算をしている と言える(?)
  • 28. computational model can identify which information sources ce to do something I 赤ちゃんが音素列から単語をどのように得るか? word segmentation is first step to learning a lexicon y Mu Nw Ma Mn Mt Nt Mu Ns Mi ND Me Nb MU Mk (Johnson, 2012) I using distributional information and syllable structure achieves about 90% token f-score ‣ 赤ちゃんが言葉をどのように学習するか?の最初の問題 nergies in acquisition: ‣ 母親の話す言葉は,単語に切れてはおらず,連続している I learning word segmentation and syllable structure jointly learns both more accurately than learning each on its own ‣ 赤ちゃんは連続した音素のみから,単語の切れ目を見つけている,と考える I learning word object mapping together with word segmentation ‣ 生成モデル improves word segmentation accuracy - p(H) DirichletProcess(α,P0) : 各単語の出現確率 ex) p( dog ) = 0.01 Animals don’t move on wheels” - p(D¦H) = Multinomial(H) : 独立に生成された単語がくっついて,母親が発する確率 – Tom Wasow ‣ 推論 e: Fleck, Goldwater, Swingley and many others p(H) と文の区切りを見つける - 単語が繋がった文の集合のみから,単語の集合 ‣ このモデルが,正しい単語の区切りを見つけることが出来たら,赤ちゃんは 21/43 このような確率モデルを頭の中に持っていると言える(?)
  • 29. カテゴリーの獲得 ‣ Categorization theory (認知言語学などと関連) - 人間は, もの をカテゴリーに分類して,理解している - 見た目が犬っぽい動物は,全て 犬 として認識する - 種類が違うりんごは,全て りんご というカテゴリーとして認識される ‣ Exemplar Model と Prototype Model
  • 31. 人間はどういうカテゴリーを作るか? ‣ Exemplar Model - カテゴリーの要因全てが,カテゴリーを形作る - 新しい対象は,各カテゴリーの全ての要素を見て,類似度を測って分類される
  • 32. 人間はどういうカテゴリーを作るか? ‣ Prototype Model - 各カテゴリーは,中心の成員1つのみで表現される(最も代表的な要素) - 新しい対象は,各カテゴリーの中心のみと比較される
  • 33. 確率モデルとして表現する ‣ x1, ..., xn : n個の観測データ ‣ c1, ..., cn : それぞれのクラスタ割り当て ‣ mn,k : n個のうち,クラスタkに割り当てられている要素の個数 ‣ p(x¦k):クラスタkのもとで,データxの発生確率(尤度関数) ‣ 新しいデータxn+1のクラスタはどこに割り当てられる? ‣ クラスタ割り当ての事後分布 - p(xn+1¦k) mn,k p(x¦k) ‣ Exemplarか,Prototypeかで,尤度 p(x¦k) が異なる - Exemplar : p(x¦k) (kに含まれる全て要素の類似度との合計) - Prototype : p(x¦k) (代表点との類似度) ‣ Dirichlet Process Mixture においてbase measureを変化させたもの
  • 34. 腑に落ちない(微妙な)ところ ‣ 人間の心が本当にこんな確率モデルで記述出来るの? ‣ 様々な都合の良い(?)仮定を置いている - 赤ちゃんは,これまでに聞いた全ての文を頭の中に記憶して,その分割に関する 事後分布を計算することが出来る? - MCMCはコンピュータに数時間∼数週間)かかるのに,人間には一瞬? (ベイズの最適化問題は全く凸ではない) ‣ Bowers & Davis の批判は,まさにこの辺り
  • 35. Bowers & Davis (2012) のabstract According to Bayesian theories in psychology and neuroscience, minds and brains are (near) optimal in solving a wide range of tasks. We challenge this view and argue that more traditional, non-Bayesian approaches are more promising. We make 3 main arguments. First, we show that the empirical evidence for Bayesian theories in psychology is weak. This weakness relates to the many arbitrary ways that priors, likelihoods, and utility functions can be altered in order to account for the data that are obtained, making the models unfalsifiable. It further relates to the fact that Bayesian theories are rarely better at predicting data compared with alternative (and simpler) non-Bayesian theories. Second, we show that the empirical evidence for Bayesian theories in neuroscience is weaker still. There are impressive mathematical analyses showing how populations of neurons could compute in a Bayesian manner but little or no evidence that they do. Third, we challenge the general scientific approach that characterizes Bayesian theorizing in cognitive science. A common premise is that theories in psychology should largely be constrained by a rational analysis of what the mind ought to do. We question this claim and argue that many of the important constraints come from biological, evolutionary, and processing (algorithmic) considerations that have no adaptive relevance to the problem per se. In our view, these factors have contributed to the development of many Bayesian “just so” stories in psychology and neuroscience; that is, mathematical analyses of cognition that can be used to explain almost any behavior as optimal.
  • 36. いくつかの言葉 ‣ optimal - 人間の行動が,常に最前の行動をとる,ということ - 単語分割であれば,事後分布に従った分割を常に考える,ということ ‣ optimal learner - ベイズモデルは,全ての情報を使って完全な推論を行うという意味で,optimal - 従ってモデルのことを optimal learner と呼ぶ
  • 37. Bowers & Davis (2012) ‣ 非常に長く読みづらい… ‣ Griffithsらの返答は,述べられた問題点を回収しつつ,それらへの疑問を 解いている ‣ 以降はGriffithsらの論文を紹介しつつ,先に与えた疑問について 考えていく
  • 38. ベイズモデルのゴールは,人間がoptimalである ことを示すことである? ‣ ベイズモデルの目的はそうではない (Griffiths et al.) ‣ では何のために,人間の行動とモデルを比較するのか? - optimal learner が,与えられた問題に対してどのように振る舞うか?を規定する ため - 人間がどのような問題を解いているのか?を記述することが目的 ‣ 別の文献では… - 人間がoptimalであるかどうかを論じる前に,optimalなモデルがどのように振る 舞うか定めておかないと,その判断は出来ないのではないか? ‣ 何だかよく分からない… - 恐らく次の (Johnson 2012) と同じことを言っている
  • 39. Mark Johnson (2012) ‣ A computational model can identify which information sources suffice to do something ‣ Synergies in acquisition: - learning word segmentation and syllable structure jointly learns both more accurately than learning each on its own - learning word → object mapping together with word segmentation improves word segmentation accuracy ‣ 生成モデルにこんな情報を組み込んだら,こういう現象が観測された, ということが大事 - ベイズモデルだと,そのような情報を陽に記述するので,現象が理解しやすい ‣ optimal learner = 組み込んだ情報を最大限に使えることが保証されている ‣ 人間も,そこで組み込んだ情報を使っているのではないか?という手掛か りになる
  • 40. Ideal learnability analysis ‣ ある特性は,人間が生まれながらに備えているものか?学習によって 得られるものか? ‣ ある特定の知識を optimal learner が得られないのであれば,その知識は 人間が生まれたときから持っていると言って良いだろう ‣ Chomskyの生得説 (Poverty of stimulus) - 自然言語の文法を,人間は生まれたときから持ち合わせている ‣ 教師なし構文解析 - 生の文章からどう頑張っても文法が獲得出来ないことが示せれば,Chomskyの 主張が正しいと言える? - 逆にモデルに特定の情報を組み込むことで文法を獲得出来るなら,赤ちゃんは そういう情報を抽出している,と言えるかもしれない - モデルから仮説を立てて,実際の脳を解析する?
  • 41. Dan Klein (2005) ‣ The unsupervised learning of natural language structure - To be clear on this point: the goal of this work is not to produce a psychologically plausible model or simulation. However, while success at the tree induction task does not directly speak to the investigation of the human language faculty, it does have direct relevance to the logical problem of language acquisition, particularly the argument of the poverty of the stimulus, and therefore an indirect relevance to cognitive investigations. In particular, while no such machine system can tell us how humans do learn language, it can demonstrate the presence and strength of statistical patterns which are potentially available to a human learner. ‣ 同じような主張をしている
  • 42. Yoav Seginer (2007) ‣ Learning syntactic structure - Even when a computational model is clearly not psychologically realistic, its success in learning syntactic structure has important implications to the study of language and language acquisition because such successful learning indicates a relation between the surface structure of a language and its hidden syntactic structure. Even if the method by which this relation is established is not actually used by children acquiring a language, the relation is still an empirical property of the language and may be used by children in some other way in the process of language acquisition.
  • 45. 教師なし構文解析というタスク ‣ 通常,構文解析は人手で作った正解コーパスから学習する ‣ 教師なし学習 - 生の文章のみを大量に与えて,構文情報を復元出来るか? - しかし機械は言語に関する情報を何も持ち合わせていないので, めちゃくちゃ難しい - 現在精度は4 5割 ‣ 工学的意義:正解データを作る必要がなくなれば,少数言語の解析に 役立つ ‣ しかし,少数言語の解析でも,多少の言語に関する 常識 を与えてしまっ た方が問題はずっと簡単(半教師あり学習) ‣ 工学的な意義が十分に得られないのであれば, 科学的 な貢献がなければ ならないのではないか?
  • 46. 科学的な貢献をするには? ‣ いたずらに複雑なモデルを考えるのは,あまり意味がないのでは - 工学的には,複雑なモデルの推論 = 機械学習への貢献,と言えるかもしれない ‣ 簡単なモデルで良い性能を出す,ということが重要 ‣ そのために本質を捉えたモデルの設計を行う - 当たり前のことかも… ‣ 分野としての問題も色々ありそう? - 評価方法 (Noah Smith, 2012) - コーパス(赤ちゃんはWall Street Journalは読まない)
  • 47. まとめ ‣ 認知科学分野におけるベイズへの非難を受けて,その周辺を調べた - 人間がベイズ的なモデルに従って行動すると仮定して,モデルを組み立てるのは 正しくない(危険) - しかしその部分を認識した上で,optimal learner としてモデルを設計し,挙動を 観測することには意味がある ‣ 教師なし学習を通じて,科学への貢献をするには - information source と synergies (Johnson, 2012) を明らかにする - どのような言語現象が,どのようなモデルによって捉えられるか?を明らかにする ことは,計算言語学として可能なはず

Notas del editor

  1. \n
  2. \n
  3. \n
  4. \n
  5. \n
  6. \n
  7. \n
  8. \n
  9. \n
  10. \n
  11. \n
  12. \n
  13. \n
  14. \n
  15. \n
  16. \n
  17. \n
  18. \n
  19. \n
  20. \n
  21. \n
  22. \n
  23. \n
  24. \n
  25. \n
  26. \n
  27. \n
  28. \n
  29. \n
  30. \n
  31. \n
  32. \n
  33. \n
  34. \n
  35. \n
  36. \n
  37. \n
  38. \n
  39. \n
  40. \n
  41. \n
  42. \n
  43. \n
  44. \n
  45. \n
  46. \n
  47. \n
  48. \n
  49. \n
  50. \n
  51. \n
  52. \n
  53. \n
  54. \n
  55. \n
  56. \n
  57. \n
  58. \n
  59. \n
  60. \n
  61. \n
  62. \n
  63. \n
  64. \n