SlideShare una empresa de Scribd logo
1 de 39
Descargar para leer sin conexión
Априорные распределения
      Конкретные примеры




     Априорные распределения

               Сергей Николенко



Computer Science Club, Екатеринбург, 2011




         Сергей Николенко   Априорные распределения
Априорные распределения   Задача байесовского вывода
                   Конкретные примеры    Сопряжённые априорные распределения


Outline



  1   Априорные распределения
        Задача байесовского вывода
        Сопряжённые априорные распределения


  2   Конкретные примеры
        Монетка и мультиномиальное распределение
        Нормальное распределение и экспоненциальное семейство




                      Сергей Николенко   Априорные распределения
Априорные распределения   Задача байесовского вывода
                 Конкретные примеры    Сопряжённые априорные распределения


Напоминание


     Напоминаю, что основная наша задача – как обучить
     параметры распределения и/или предсказать следующие
     его точки по имеющимся данным.
     В байесовском выводе участвуют:
         p(x | θ) – правдоподобие данных;
         p(θ) – априорное распределение;
         p(x) = Θ p(x | θ)p(θ)d θ – маргинальное правдоподобие;
         p(θ | x) = p(x|θ)p(θ) – апостериорное распределение;
                       p(x)
         p(x | x) = Θ p(x | θ)p(θ | x)d θ – предсказание нового x .
     Задача обычно в том, чтобы найти p(θ | x) и/или p(x | x).



                    Сергей Николенко   Априорные распределения
Априорные распределения   Задача байесовского вывода
                 Конкретные примеры    Сопряжённые априорные распределения


Априорные распределения


     Когда мы проводим байесовский вывод, у нас, кроме
     правдоподобия, должно быть ещё априорное
     распределение (prior distribution) по всем возможным
     значениям параметров.
     Мы раньше к ним специально не присматривались, но они
     очень важны.
     Задача байесовского вывода – как подсчитать p(θ | x)
     и/или p(x | x).
     Но чтобы это сделать, сначала надо выбрать p(θ).




                    Сергей Николенко   Априорные распределения
Априорные распределения   Задача байесовского вывода
                Конкретные примеры    Сопряжённые априорные распределения


Субъективные и объективные априорные распределения



     Априорное распределение может быть
         субъективным: поговорили с экспертами, поняли, что они
         говорят, выбрали p(θ);
         объективным: априорное распределение берётся из
         имеющихся (имевшихся ранее) данных и получается тоже
         байесовскими методами.
     Про субъективные мне, в общем, больше нечего сказать,
     так что будем говорить об объективных.




                   Сергей Николенко   Априорные распределения
Априорные распределения   Задача байесовского вывода
                 Конкретные примеры    Сопряжённые априорные распределения


Сопряжённые априорные распределения



     Разумная цель: давайте будем выбирать распределения
     так, чтобы они оставались такими же и a posteriori.
     До начала вывода есть априорное распределение p(θ).
     После него есть какое-то новое апостериорное
     распределение p(θ | x).
     Я хочу, чтобы p(θ | x) тоже имело тот же вид, что и p(θ),
     просто с другими параметрами.




                    Сергей Николенко   Априорные распределения
Априорные распределения   Задача байесовского вывода
                 Конкретные примеры    Сопряжённые априорные распределения


Сопряжённые априорные распределения


     Не слишком формальное определение: семейство
     распределений p(θ | α) называется семейством
     сопряжённых априорных распределений для семейства
     правдоподобий p(x | θ), если после умножения на
     правдоподобие апостериорное распределение p(θ | x, α)
     остаётся в том же семействе: p(θ | x, α) = p(θ | α ).
     α называются гиперпараметрами (hyperparameters), это
      параметры распределения параметров .
     Тривиальный пример: семейство всех распределений будет
     сопряжённым чему угодно, но это не очень интересно.



                    Сергей Николенко   Априорные распределения
Априорные распределения   Задача байесовского вывода
                Конкретные примеры    Сопряжённые априорные распределения


Сопряжённые априорные распределения




     Разумеется, вид хорошего априорного распределения
     зависит от вида распределения собственно данных,
     p(x | θ).
     Сопряжённые априорные распределения подсчитаны для
     многих распределений, мы приведём несколько примеров.




                   Сергей Николенко   Априорные распределения
Априорные распределения   Монетка и мультиномиальное распределение
                   Конкретные примеры    Нормальное распределение и экспоненциальное семейств


Outline



  1   Априорные распределения
        Задача байесовского вывода
        Сопряжённые априорные распределения


  2   Конкретные примеры
        Монетка и мультиномиальное распределение
        Нормальное распределение и экспоненциальное семейство




                      Сергей Николенко   Априорные распределения
Априорные распределения   Монетка и мультиномиальное распределение
                 Конкретные примеры    Нормальное распределение и экспоненциальное семейств


Испытания Бернулли



     Каким будет сопряжённое априорное распределение для
     бросания нечестной монетки (испытаний Бернулли)?
     Ответ: это будет бета-распределение; плотность
     распределения нечестности монетки θ

                                       θα−1 (1 − θ)β−1
                     p(θ | α, β) =                     .
                                          B(α, β)




                    Сергей Николенко   Априорные распределения
Априорные распределения       Монетка и мультиномиальное распределение
                 Конкретные примеры        Нормальное распределение и экспоненциальное семейств


Испытания Бернулли
     Плотность распределения нечестности монетки θ
                                          θα−1 (1 − θ)β−1
                       p(θ | α, β) =                      .
                                             B(α, β)
     Тогда, если мы посэмплируем монетку, получив s орлов и
     f решек, получится
                                         s +f
                     p(s, f | θ) =            θs (1 − θ)f , и
                                           s

                        s+f
                         s     θs+α−1 (1 − θ)f +β−1 /B(α, β)
      p(θ|s, f ) =    1 s+f
                                                                           =
                      0  s     x s+α−1 (1 − x)f +β−1 /B(α, β)dx
                                                      θs+α−1 (1 − θ)f +β−1
                                                  =                        .
                                                        B(s + α, f + β)
                      Сергей Николенко     Априорные распределения
Априорные распределения   Монетка и мультиномиальное распределение
                Конкретные примеры    Нормальное распределение и экспоненциальное семейств


Испытания Бернулли

     Итого получается, что сопряжённое априорное
     распределение для параметра нечестной монетки θ – это

                     p(θ | α, β) ∝ θα−1 (1 − θ)β−1 .

     После получения новых данных c s орлами и f решками
     гиперпараметры меняются на

             p(θ | s + α, f + β) ∝ θs+α−1 (1 − θ)f +β−1 .

     На этом этапе можно забыть про сложные формулы и
     выводы, получилось очень простое правило обучения (под
     обучением теперь понимается изменение
     гиперпараметров).

                   Сергей Николенко   Априорные распределения
Априорные распределения   Монетка и мультиномиальное распределение
               Конкретные примеры    Нормальное распределение и экспоненциальное семейств


Бета–распределение




                  Сергей Николенко   Априорные распределения
Априорные распределения     Монетка и мультиномиальное распределение
                 Конкретные примеры      Нормальное распределение и экспоненциальное семейств


Мультиномиальное распределение

     Простое обобщение: рассмотрим мультиномиальное
     распределение с n испытаниями, k категориями и по xi
     экспериментов дали категорию i.
     Параметры θi показывают вероятность попасть в
     категорию i:

                                        n
                 p(x | θ) =                      θx1 θx2 . . . θxk .
                                 x1 , . . . , xn 1 2            k


     Сопряжённым априорным распределением будет
     распределение Дирихле:

                    p(θ | α) ∝ θ1 1 −1 θα2 −1 . . . θαk −1 .
                                α
                                        2            k




                    Сергей Николенко     Априорные распределения
Априорные распределения   Монетка и мультиномиальное распределение
                    Конкретные примеры    Нормальное распределение и экспоненциальное семейств


Мультиномиальное распределение


      Сопряжённым априорным распределением будет
      распределение Дирихле:

                       p(θ | α) ∝ θ1 1 −1 θα2 −1 . . . θαk −1 .
                                   α
                                           2            k


  Упражнение. Докажите, что при получении данных x1 , . . . , xk
  гиперпараметры изменятся на

     p(θ | x, α) = p(θ | x + α) ∝ θx1 +α1 −1 θx2 +α2 −1 . . . θxk +αk −1 .
                                   1          2                k




                       Сергей Николенко   Априорные распределения
Априорные распределения   Монетка и мультиномиальное распределение
               Конкретные примеры    Нормальное распределение и экспоненциальное семейств


Распределение Дирихле




                  Сергей Николенко   Априорные распределения
Априорные распределения     Монетка и мультиномиальное распределение
                  Конкретные примеры      Нормальное распределение и экспоненциальное семейств


Нормальное распределение: фиксируем σ



     Теперь давайте займёмся нормальным распределением:

                                        1        1
        p(x1 , . . . , xn | µ, σ2 ) ∝    n
                                           exp − 2              (xi − µ)2     .
                                        σ       2σ
                                                            i

     Хотим: найти сопряжённое априорное распределение,
     подсчитать правдоподобие, решить задачу предсказания.
     Для начала зафиксируем σ2 и будем в качестве параметра
     рассматривать только µ.




                     Сергей Николенко     Априорные распределения
Априорные распределения   Монетка и мультиномиальное распределение
                Конкретные примеры    Нормальное распределение и экспоненциальное семейств


Нормальное распределение: фиксируем σ



     Сопряжённое априорное распределение для µ при
     фиксированном σ2 тоже нормальное и выглядит как

                                 1         1
             p(µ | µ0 , σ2 ) ∝
                         0        n exp −      (µ − µ0 )2 .
                                 σ0       2σ20

     Обычно выбирают µ0 = 0, σ2 → ∞ (порой буквально).
                              0
     Давайте рассмотрим сначала случай ровно одного
     наблюдения x и найдём p(µ | x).




                   Сергей Николенко   Априорные распределения
Априорные распределения         Монетка и мультиномиальное распределение
                      Конкретные примеры          Нормальное распределение и экспоненциальное семейств


Нормальное распределение: фиксируем σ

       При нашем априорном распределении у µ и x совместное
       нормальное распределение:

                 x =µ+σ ,            µ = µ0 + σ0 δ,               , δ ∼ N (0, 1).

  Упражнение. Пусть (z1 , z2 ) – случайные величины с совместным
  нормальным распределением. Докажите, что случайная величина z1 | z2
  распределена нормально с параметрами
                                             Cov (z1 , z2 )
                  E (z1 | z2 ) = E (z1 ) +                  (z2 − E (z2 )) ,
                                              Var (z2 )

                                                       Cov 2 (z1 , z2 )
                       Var (z1 | z2 ) = Var (z1 ) −
                                                         Var (z2 )
  (Var (x) = E (x − Ex)2 , Cov (x, y ) = E [(x − Ex)(y − Ey )]).


                         Сергей Николенко         Априорные распределения
Априорные распределения      Монетка и мультиномиальное распределение
                 Конкретные примеры       Нормальное распределение и экспоненциальное семейств


Нормальное распределение: фиксируем σ
     В нашем случае:
                 x =µ+σ ,              µ = µ0 + σ0 δ,         , δ ∼ N (0, 1),
             E (x) = µ0 ,
           Var (x) = E (Var (x | µ)) + Var (E (x | µ)) = σ2 + σ2 ,
                                                               0
        Cov (x, µ) = E [(x − µ0 )(µ − µ0 )] = σ2 .
                                               0

     Применив упражнение, получаем:
                           σ2                σ2         σ2
      E (µ | x) = µ0 +      0
                                (x − µ0 ) = 2 0 2 x + 2      µ0 ,
                       σ2 + σ2
                         0                 σ0 + σ    σ0 + σ2
                   σ2 σ2         1
     Var (µ | x) = 2 0 2 = 1        1
                                      .
                  σ0 + σ      σ2
                                 + σ2
                                   0




                    Сергей Николенко      Априорные распределения
Априорные распределения   Монетка и мультиномиальное распределение
                  Конкретные примеры    Нормальное распределение и экспоненциальное семейств


Нормальное распределение: фиксируем σ

     Итого:
                                                                        −1
                            σ2        σ2                  1    1
       p(µ | x) ∼ N          0
                                 x+ 2      µ0 ,              +                .
                         σ2 + σ2
                          0        σ0 + σ2                σ2 σ2
                                                           0

     Опять же, сложные вычисления можно забыть и
     пользоваться этими формулами.
                                       1
     Замечание: часто используют τ = σ2 как параметр
     нормального распределения (precision). Тогда

                                 τµ|x = τµ + τ.




                     Сергей Николенко   Априорные распределения
Априорные распределения   Монетка и мультиномиальное распределение
                   Конкретные примеры    Нормальное распределение и экспоненциальное семейств


Нормальное распределение: фиксируем σ




      А что, если данных больше, x1 , . . . , xn ?
      Тогда можно повторить всё то же самое, а можно
      заметить, что набор данных описывается своим средним.
  Упражнение. Докажите, что если p(xi | µ) ∼ N (µ, σ2 ) и xi
                                   2
  независимы, то p(x | µ) ∼ N (µ, σ ).
                                 n




                      Сергей Николенко   Априорные распределения
Априорные распределения      Монетка и мультиномиальное распределение
                    Конкретные примеры       Нормальное распределение и экспоненциальное семейств


Нормальное распределение: фиксируем σ



     Для апостериорной вероятности будет

     p(µ | x1 , . . . , xn ) ∝ p(x1 , . . . , xn | µ)p(µ) ∝ p(x | µ)p(µ) ∝ p(µ | x ).
                                                                                

     Подставляя в наш предыдущий результат, получим:
                                                                                      −1
                                       σ2                σ2             1    n
     p(µ | x1 , . . . , xn ) ∼ N        0
                                                 x+            µ0 ,        + 2               .
                                   σ2 +
                                    0
                                            σ2
                                            n
                                                      nσ2 + σ2
                                                        0
                                                                         2
                                                                        σ0 σ




                        Сергей Николенко     Априорные распределения
Априорные распределения       Монетка и мультиномиальное распределение
                  Конкретные примеры        Нормальное распределение и экспоненциальное семейств


Нормальное распределение: фиксируем µ

     Если зафиксировать µ и менять σ2 , то сопряжённым
     априорным распределением будет обратное
     гамма-распределение:
                                               βα −α−1                −β
          p(σ2 | α, β) ∝ IG (α, β) =                z  exp                    .
                                              Γ (α)                    z
     Тогда в апостериорном распределении будет
                                                 n     1
      p(σ2 | x1 , . . . , xn , α, β) ∝ IG     α + ,β +                (xi − µ) .
                                                 2     2
                           1
     А в терминах τ =      σ2
                                будет обычное гамма-распределение:

                                              n      1
     p(τ | x1 , . . . , xn , α, β) ∝ Gamma α + , β +                     (xi − µ) .
                                              2      2

                     Сергей Николенко       Априорные распределения
Априорные распределения   Монетка и мультиномиальное распределение
               Конкретные примеры    Нормальное распределение и экспоненциальное семейств


Гамма–распределение




                  Сергей Николенко   Априорные распределения
Априорные распределения   Монетка и мультиномиальное распределение
                 Конкретные примеры    Нормальное распределение и экспоненциальное семейств


Когда и µ, и σ2 меняются

     Что делать, когда и µ, и σ2 меняются?
     Можно было бы предположить, что µ и σ2 независимы;
     тогда просто априорное распределение будет

            p(µ, σ | µ0 , σ0 , α, β) ∝ N (µ0 , σ2 ) · IG (α, β).
                                                0

     К сожалению, это распределение не будет сопряжённым к
     нормальному. Почему?




                    Сергей Николенко   Априорные распределения
Априорные распределения   Монетка и мультиномиальное распределение
                 Конкретные примеры    Нормальное распределение и экспоненциальное семейств


Когда и µ, и σ2 меняются

     Что делать, когда и µ, и σ2 меняются?
     Можно было бы предположить, что µ и σ2 независимы;
     тогда просто априорное распределение будет

            p(µ, σ | µ0 , σ0 , α, β) ∝ N (µ0 , σ2 ) · IG (α, β).
                                                0

     К сожалению, это распределение не будет сопряжённым к
     нормальному. Почему?
     Потому что µ и σ2 зависимы. :) Новая точка x вводит
     зависимость между ними.
     В результате получается распределение Стьюдента.




                    Сергей Николенко   Априорные распределения
Априорные распределения   Монетка и мультиномиальное распределение
                Конкретные примеры    Нормальное распределение и экспоненциальное семейств


Экспоненциальное семейство




     Вообще говоря, всё, о чём мы говорили – частные случаи
     экспоненциального семейства распределений:

                      p(x | η) = h(x)g (η)e η       u(x)
                                                           .

     η называются естественными параметрами (natural
     parameters).




                   Сергей Николенко   Априорные распределения
Априорные распределения    Монетка и мультиномиальное распределение
                  Конкретные примеры     Нормальное распределение и экспоненциальное семейств


Экспоненциальное семейство


     Например, распределение Бернулли:

       p(x | µ) = µx (1 − µ)1−x = e x ln µ+(1−x) ln(1−µ) =
                                                                           µ
                                                                     ln   1−µ
                                                                                x
                                                     = (1 − µ)e                     ,

                                                                µ
     и естественный параметр получился η = ln                  1−µ    :

                             p(x | η) = σ(−η)e −ηx ,
                     1
     где σ(y ) =   1+e −y   – сигмоид-функция.



                      Сергей Николенко   Априорные распределения
Априорные распределения    Монетка и мультиномиальное распределение
                 Конкретные примеры     Нормальное распределение и экспоненциальное семейств


Экспоненциальное семейство


     Для мультиномиального распределения с параметрами
     µ1 , . . . , µM−1 получаются

                                            µk
                         ηk = ln                           и
                                       1−        j   µj

                                        M−1               −1

                   p(x | η) =      1+            e   ηk
                                                               eη   x
                                                                        .
                                        k=1


  Упражнение. Проверьте!



                    Сергей Николенко    Априорные распределения
Априорные распределения   Монетка и мультиномиальное распределение
                 Конкретные примеры    Нормальное распределение и экспоненциальное семейств


Экспоненциальное семейство

     Так вот, для распределений из экспоненциального
     семейства
                     p(x | η) = h(x)g (η)e η u(x)
     можно сразу оптом найти сопряжённые априорные
     распределения:

                    p(η | χ, ν) = f (χ, ν)g (η)ν e νη      χ
                                                               ,

     где χ – гиперпараметры, а g то же самое, что в исходном
     распределении.
  Упражнение. Проверьте это и получите вышеописанные
  примеры как частные случаи.


                    Сергей Николенко   Априорные распределения
Априорные распределения   Монетка и мультиномиальное распределение
                 Конкретные примеры    Нормальное распределение и экспоненциальное семейств


Thank you!




               Спасибо за внимание!




                    Сергей Николенко   Априорные распределения
Априорные распределения   Монетка и мультиномиальное распределение
               Конкретные примеры    Нормальное распределение и экспоненциальное семейств


Графическая модель




                  Сергей Николенко   Априорные распределения
Априорные распределения   Монетка и мультиномиальное распределение
                Конкретные примеры    Нормальное распределение и экспоненциальное семейств


Когда и µ, и σ2 меняются



     В настоящем сопряжённом априорном распределении
     будут:
                     x | µ, τ ∼ N (µ, τ),
                        µ | τ ∼ N (µ0 , n0 τ),
                            τ ∼ G (α, β).
     Давайте выясним, как изменятся параметры, и заодно
     докажем.




                   Сергей Николенко   Априорные распределения
Априорные распределения   Монетка и мультиномиальное распределение
                 Конкретные примеры    Нормальное распределение и экспоненциальное семейств


Когда и µ, и σ2 меняются



     Самое простое – это, по уже известным результатам,

                             nτ          n0 τ
         µ | x, τ ∼ N               
                                    x+           µ0 , nτ + n0 τ .
                          nτ + n0 τ    nτ + n0 τ

     Затем давайте разберёмся с τ | x:

                p(τ, µ | x) ∝ p(τ) · p(µ | τ) · p(x | τ, µ),

     и мы хотим это распределение маргинализовать по µ...




                    Сергей Николенко   Априорные распределения
Априорные распределения       Монетка и мультиномиальное распределение
                  Конкретные примеры        Нормальное распределение и экспоненциальное семейств


Когда и µ, и σ2 меняются



     Подсчитаем:

       p(τ, µ | x) ∝ p(τ) · p(µ | τ) · p(x | τ, µ)
                                        n0 τ
                                 1
                                             (µ−µ0 )2       n   τ
                                                                     (xi −µ)2
              ∝ τα−1 e −τβ · τ 2 e −     2              · τ 2 e− 2
                       n   1            1
                                                                           
                                            (xi −x )2 ) − τ (n0 (µ−µ0 )2 +n(x −µ)2 )
               ∝ τα+ 2 − 2 e −τ(β+ 2                    e 2



                                   
     (простой трюк: xi − µ = xi − x + x − µ).




                     Сергей Николенко       Априорные распределения
Априорные распределения          Монетка и мультиномиальное распределение
                 Конкретные примеры           Нормальное распределение и экспоненциальное семейств


Когда и µ, и σ2 меняются


     Теперь надо проинтегрировать
                               τ                2
                                                       
                                                    +n(x −µ)2 )
                            e − 2 (n0 (µ−µ0 )                     d µ.
                        µ


  Упражнение. Проинтегрируйте. :) Должна получиться
  нормировочная константа
                                    −nn0 τ
                               1               
                                              (x −µ0 )2
                            τ− 2 e 2(n+n0 )               .




                    Сергей Николенко          Априорные распределения
Априорные распределения   Монетка и мультиномиальное распределение
                     Конкретные примеры    Нормальное распределение и экспоненциальное семейств


Когда и µ, и σ2 меняются



     Таким образом, получается апостериорное распределение
                                                             nn
                               n     −τ β+ 1         
                                                (xi −x )2 + 2(n+n
                                                                0       
                                                                       (x −µ0 )2
           p(τ | x) ∝ τα+ 2 −1 e           2                      0)               .

     Итого результаты такие:

      µ | τ, x    ∼N       nτ
                                      n0 τ
                         nτ+n0 τ x + nτ+n0 τ µ0 , nτ + n0 τ ,
         τ|x      ∼G     α + n , β + 1 (xi − x )2 + 2(n+n0 )
                              2      2                    nn0
                                                                           (x − µ0 )2 .
                                                                            




                        Сергей Николенко   Априорные распределения
Априорные распределения       Монетка и мультиномиальное распределение
                 Конкретные примеры        Нормальное распределение и экспоненциальное семейств


Предсказание


     Теперь предсказание нового xnew :

       p(xnew | x) =         Gamma · Gaussian · Gaussian d τd µ =
                               τ|x             µ|τ,x         xnew |τ,µ

              =    Gamma Gaussian · Gaussian d τd µ =
                       τ|x             µ|τ,x           xnew |τ,µ

                                       =       Gamma · Gaussian d τ = . . .
                                                  τ|x          xnew |τ,x

     В результате получится распределение Стьюдента.



                    Сергей Николенко       Априорные распределения

Más contenido relacionado

La actualidad más candente

L2: Задача классификации и регрессии. Метрики ошибок
L2: Задача классификации и регрессии. Метрики ошибокL2: Задача классификации и регрессии. Метрики ошибок
L2: Задача классификации и регрессии. Метрики ошибокTechnosphere1
 
20110925 circuit complexity_seminar_lecture01_kulikov
20110925 circuit complexity_seminar_lecture01_kulikov20110925 circuit complexity_seminar_lecture01_kulikov
20110925 circuit complexity_seminar_lecture01_kulikovComputer Science Club
 
Исследование производной
Исследование производнойИсследование производной
Исследование производнойagafonovalv
 
Kuznecova 9klass
Kuznecova 9klassKuznecova 9klass
Kuznecova 9klassqwasar1
 
Fractal Geometry
Fractal GeometryFractal Geometry
Fractal GeometrySSA KPI
 
20091129 algorithmsfornphardproblems kulikov_lecture10
20091129 algorithmsfornphardproblems kulikov_lecture1020091129 algorithmsfornphardproblems kulikov_lecture10
20091129 algorithmsfornphardproblems kulikov_lecture10Computer Science Club
 
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Technosphere1
 
20110403 quantum algorithms_vyali_lecture03
20110403 quantum algorithms_vyali_lecture0320110403 quantum algorithms_vyali_lecture03
20110403 quantum algorithms_vyali_lecture03Computer Science Club
 
20110306 systems of_typed_lambda_calculi_moskvin_lecture04
20110306 systems of_typed_lambda_calculi_moskvin_lecture0420110306 systems of_typed_lambda_calculi_moskvin_lecture04
20110306 systems of_typed_lambda_calculi_moskvin_lecture04Computer Science Club
 
L3: Линейная и логистическая регрессия
L3: Линейная и логистическая регрессияL3: Линейная и логистическая регрессия
L3: Линейная и логистическая регрессияTechnosphere1
 
20120309 formal semantics shilov_lecture06
20120309 formal semantics shilov_lecture0620120309 formal semantics shilov_lecture06
20120309 formal semantics shilov_lecture06Computer Science Club
 
Линейная алгебра - I
Линейная алгебра - IЛинейная алгебра - I
Линейная алгебра - IDEVTYPE
 
20110313 systems of_typed_lambda_calculi_moskvin_lecture06
20110313 systems of_typed_lambda_calculi_moskvin_lecture0620110313 systems of_typed_lambda_calculi_moskvin_lecture06
20110313 systems of_typed_lambda_calculi_moskvin_lecture06Computer Science Club
 
20091206 algorithmsfornphardproblems kulikov_lecture11
20091206 algorithmsfornphardproblems kulikov_lecture1120091206 algorithmsfornphardproblems kulikov_lecture11
20091206 algorithmsfornphardproblems kulikov_lecture11Computer Science Club
 
20111015 inroduction to_combinatorics_on_words_frid_lecture01
20111015 inroduction to_combinatorics_on_words_frid_lecture0120111015 inroduction to_combinatorics_on_words_frid_lecture01
20111015 inroduction to_combinatorics_on_words_frid_lecture01Computer Science Club
 
L5: Л5 Байесовские алгоритмы
L5: Л5 Байесовские алгоритмыL5: Л5 Байесовские алгоритмы
L5: Л5 Байесовские алгоритмыTechnosphere1
 
20081123 structuralcomplexitytheory lecture11-12
20081123 structuralcomplexitytheory lecture11-1220081123 structuralcomplexitytheory lecture11-12
20081123 structuralcomplexitytheory lecture11-12Computer Science Club
 

La actualidad más candente (20)

L2: Задача классификации и регрессии. Метрики ошибок
L2: Задача классификации и регрессии. Метрики ошибокL2: Задача классификации и регрессии. Метрики ошибок
L2: Задача классификации и регрессии. Метрики ошибок
 
20110925 circuit complexity_seminar_lecture01_kulikov
20110925 circuit complexity_seminar_lecture01_kulikov20110925 circuit complexity_seminar_lecture01_kulikov
20110925 circuit complexity_seminar_lecture01_kulikov
 
Исследование производной
Исследование производнойИсследование производной
Исследование производной
 
Kuznecova 9klass
Kuznecova 9klassKuznecova 9klass
Kuznecova 9klass
 
Fractal Geometry
Fractal GeometryFractal Geometry
Fractal Geometry
 
20091129 algorithmsfornphardproblems kulikov_lecture10
20091129 algorithmsfornphardproblems kulikov_lecture1020091129 algorithmsfornphardproblems kulikov_lecture10
20091129 algorithmsfornphardproblems kulikov_lecture10
 
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение"
 
20110403 quantum algorithms_vyali_lecture03
20110403 quantum algorithms_vyali_lecture0320110403 quantum algorithms_vyali_lecture03
20110403 quantum algorithms_vyali_lecture03
 
20110306 systems of_typed_lambda_calculi_moskvin_lecture04
20110306 systems of_typed_lambda_calculi_moskvin_lecture0420110306 systems of_typed_lambda_calculi_moskvin_lecture04
20110306 systems of_typed_lambda_calculi_moskvin_lecture04
 
L3: Линейная и логистическая регрессия
L3: Линейная и логистическая регрессияL3: Линейная и логистическая регрессия
L3: Линейная и логистическая регрессия
 
Pr i-7
Pr i-7Pr i-7
Pr i-7
 
20120309 formal semantics shilov_lecture06
20120309 formal semantics shilov_lecture0620120309 formal semantics shilov_lecture06
20120309 formal semantics shilov_lecture06
 
теория множеств
теория множествтеория множеств
теория множеств
 
Линейная алгебра - I
Линейная алгебра - IЛинейная алгебра - I
Линейная алгебра - I
 
20110313 systems of_typed_lambda_calculi_moskvin_lecture06
20110313 systems of_typed_lambda_calculi_moskvin_lecture0620110313 systems of_typed_lambda_calculi_moskvin_lecture06
20110313 systems of_typed_lambda_calculi_moskvin_lecture06
 
20091206 algorithmsfornphardproblems kulikov_lecture11
20091206 algorithmsfornphardproblems kulikov_lecture1120091206 algorithmsfornphardproblems kulikov_lecture11
20091206 algorithmsfornphardproblems kulikov_lecture11
 
20111015 inroduction to_combinatorics_on_words_frid_lecture01
20111015 inroduction to_combinatorics_on_words_frid_lecture0120111015 inroduction to_combinatorics_on_words_frid_lecture01
20111015 inroduction to_combinatorics_on_words_frid_lecture01
 
L5: Л5 Байесовские алгоритмы
L5: Л5 Байесовские алгоритмыL5: Л5 Байесовские алгоритмы
L5: Л5 Байесовские алгоритмы
 
20081123 structuralcomplexitytheory lecture11-12
20081123 structuralcomplexitytheory lecture11-1220081123 structuralcomplexitytheory lecture11-12
20081123 structuralcomplexitytheory lecture11-12
 
20131027 h10 lecture5_matiyasevich
20131027 h10 lecture5_matiyasevich20131027 h10 lecture5_matiyasevich
20131027 h10 lecture5_matiyasevich
 

Destacado

20111002 circuit complexity_seminar_lecture03_kulikov
20111002 circuit complexity_seminar_lecture03_kulikov20111002 circuit complexity_seminar_lecture03_kulikov
20111002 circuit complexity_seminar_lecture03_kulikovComputer Science Club
 
20111204 intro malware_livshits_lecture02
20111204 intro malware_livshits_lecture0220111204 intro malware_livshits_lecture02
20111204 intro malware_livshits_lecture02Computer Science Club
 
20111030 computer graphics_galinsky_lecture07_3_dvisualization
20111030 computer graphics_galinsky_lecture07_3_dvisualization20111030 computer graphics_galinsky_lecture07_3_dvisualization
20111030 computer graphics_galinsky_lecture07_3_dvisualizationComputer Science Club
 
20110925 csseminar formal_grammars_complexity
20110925 csseminar formal_grammars_complexity20110925 csseminar formal_grammars_complexity
20110925 csseminar formal_grammars_complexityComputer Science Club
 
20111023 csseminar geometry_algorithms_implementation_kovalev
20111023 csseminar geometry_algorithms_implementation_kovalev20111023 csseminar geometry_algorithms_implementation_kovalev
20111023 csseminar geometry_algorithms_implementation_kovalevComputer Science Club
 
20111120 csseminar expert_forum_chabanovski
20111120 csseminar expert_forum_chabanovski20111120 csseminar expert_forum_chabanovski
20111120 csseminar expert_forum_chabanovskiComputer Science Club
 
20111204 web security_livshits_lecture01
20111204 web security_livshits_lecture0120111204 web security_livshits_lecture01
20111204 web security_livshits_lecture01Computer Science Club
 
20111202 machine learning_nikolenko_lecture07
20111202 machine learning_nikolenko_lecture0720111202 machine learning_nikolenko_lecture07
20111202 machine learning_nikolenko_lecture07Computer Science Club
 
20111030 csseminar machine_learning_kuralenok
20111030 csseminar machine_learning_kuralenok20111030 csseminar machine_learning_kuralenok
20111030 csseminar machine_learning_kuralenokComputer Science Club
 
20120413 videorecognition konushin_lecture02
20120413 videorecognition konushin_lecture0220120413 videorecognition konushin_lecture02
20120413 videorecognition konushin_lecture02Computer Science Club
 
20120218 model cheсking_karpov_lecture01
20120218 model cheсking_karpov_lecture0120120218 model cheсking_karpov_lecture01
20120218 model cheсking_karpov_lecture01Computer Science Club
 
20120218 model checking_karpov_lecture02
20120218 model checking_karpov_lecture0220120218 model checking_karpov_lecture02
20120218 model checking_karpov_lecture02Computer Science Club
 
20121006 algorithmsinbioinformatics vyahhi_lecture02
20121006 algorithmsinbioinformatics vyahhi_lecture0220121006 algorithmsinbioinformatics vyahhi_lecture02
20121006 algorithmsinbioinformatics vyahhi_lecture02Computer Science Club
 
20110925 computer graphics_galinsky_lecture03_color
20110925 computer graphics_galinsky_lecture03_color20110925 computer graphics_galinsky_lecture03_color
20110925 computer graphics_galinsky_lecture03_colorComputer Science Club
 
20110919 computer graphics_galinsky_lecture01_intro
20110919 computer graphics_galinsky_lecture01_intro20110919 computer graphics_galinsky_lecture01_intro
20110919 computer graphics_galinsky_lecture01_introComputer Science Club
 

Destacado (18)

20111002 circuit complexity_seminar_lecture03_kulikov
20111002 circuit complexity_seminar_lecture03_kulikov20111002 circuit complexity_seminar_lecture03_kulikov
20111002 circuit complexity_seminar_lecture03_kulikov
 
20111204 intro malware_livshits_lecture02
20111204 intro malware_livshits_lecture0220111204 intro malware_livshits_lecture02
20111204 intro malware_livshits_lecture02
 
20111030 computer graphics_galinsky_lecture07_3_dvisualization
20111030 computer graphics_galinsky_lecture07_3_dvisualization20111030 computer graphics_galinsky_lecture07_3_dvisualization
20111030 computer graphics_galinsky_lecture07_3_dvisualization
 
20110925 csseminar formal_grammars_complexity
20110925 csseminar formal_grammars_complexity20110925 csseminar formal_grammars_complexity
20110925 csseminar formal_grammars_complexity
 
20110918 csseminar smal_privacy
20110918 csseminar smal_privacy20110918 csseminar smal_privacy
20110918 csseminar smal_privacy
 
20111023 csseminar geometry_algorithms_implementation_kovalev
20111023 csseminar geometry_algorithms_implementation_kovalev20111023 csseminar geometry_algorithms_implementation_kovalev
20111023 csseminar geometry_algorithms_implementation_kovalev
 
20111120 csseminar expert_forum_chabanovski
20111120 csseminar expert_forum_chabanovski20111120 csseminar expert_forum_chabanovski
20111120 csseminar expert_forum_chabanovski
 
20111204 web security_livshits_lecture01
20111204 web security_livshits_lecture0120111204 web security_livshits_lecture01
20111204 web security_livshits_lecture01
 
20111202 machine learning_nikolenko_lecture07
20111202 machine learning_nikolenko_lecture0720111202 machine learning_nikolenko_lecture07
20111202 machine learning_nikolenko_lecture07
 
20121021 bspapproach tiskin
20121021 bspapproach tiskin20121021 bspapproach tiskin
20121021 bspapproach tiskin
 
20111030 csseminar machine_learning_kuralenok
20111030 csseminar machine_learning_kuralenok20111030 csseminar machine_learning_kuralenok
20111030 csseminar machine_learning_kuralenok
 
20120413 videorecognition konushin_lecture02
20120413 videorecognition konushin_lecture0220120413 videorecognition konushin_lecture02
20120413 videorecognition konushin_lecture02
 
20120408 text detection_vasilieva
20120408 text detection_vasilieva20120408 text detection_vasilieva
20120408 text detection_vasilieva
 
20120218 model cheсking_karpov_lecture01
20120218 model cheсking_karpov_lecture0120120218 model cheсking_karpov_lecture01
20120218 model cheсking_karpov_lecture01
 
20120218 model checking_karpov_lecture02
20120218 model checking_karpov_lecture0220120218 model checking_karpov_lecture02
20120218 model checking_karpov_lecture02
 
20121006 algorithmsinbioinformatics vyahhi_lecture02
20121006 algorithmsinbioinformatics vyahhi_lecture0220121006 algorithmsinbioinformatics vyahhi_lecture02
20121006 algorithmsinbioinformatics vyahhi_lecture02
 
20110925 computer graphics_galinsky_lecture03_color
20110925 computer graphics_galinsky_lecture03_color20110925 computer graphics_galinsky_lecture03_color
20110925 computer graphics_galinsky_lecture03_color
 
20110919 computer graphics_galinsky_lecture01_intro
20110919 computer graphics_galinsky_lecture01_intro20110919 computer graphics_galinsky_lecture01_intro
20110919 computer graphics_galinsky_lecture01_intro
 

Más de Computer Science Club

20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugsComputer Science Club
 
20140531 serebryany lecture02_find_scary_cpp_bugs
20140531 serebryany lecture02_find_scary_cpp_bugs20140531 serebryany lecture02_find_scary_cpp_bugs
20140531 serebryany lecture02_find_scary_cpp_bugsComputer Science Club
 
20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugsComputer Science Club
 
20140511 parallel programming_kalishenko_lecture12
20140511 parallel programming_kalishenko_lecture1220140511 parallel programming_kalishenko_lecture12
20140511 parallel programming_kalishenko_lecture12Computer Science Club
 
20140427 parallel programming_zlobin_lecture11
20140427 parallel programming_zlobin_lecture1120140427 parallel programming_zlobin_lecture11
20140427 parallel programming_zlobin_lecture11Computer Science Club
 
20140420 parallel programming_kalishenko_lecture10
20140420 parallel programming_kalishenko_lecture1020140420 parallel programming_kalishenko_lecture10
20140420 parallel programming_kalishenko_lecture10Computer Science Club
 
20140413 parallel programming_kalishenko_lecture09
20140413 parallel programming_kalishenko_lecture0920140413 parallel programming_kalishenko_lecture09
20140413 parallel programming_kalishenko_lecture09Computer Science Club
 
20140329 graph drawing_dainiak_lecture02
20140329 graph drawing_dainiak_lecture0220140329 graph drawing_dainiak_lecture02
20140329 graph drawing_dainiak_lecture02Computer Science Club
 
20140329 graph drawing_dainiak_lecture01
20140329 graph drawing_dainiak_lecture0120140329 graph drawing_dainiak_lecture01
20140329 graph drawing_dainiak_lecture01Computer Science Club
 
20140310 parallel programming_kalishenko_lecture03-04
20140310 parallel programming_kalishenko_lecture03-0420140310 parallel programming_kalishenko_lecture03-04
20140310 parallel programming_kalishenko_lecture03-04Computer Science Club
 
20140216 parallel programming_kalishenko_lecture01
20140216 parallel programming_kalishenko_lecture0120140216 parallel programming_kalishenko_lecture01
20140216 parallel programming_kalishenko_lecture01Computer Science Club
 

Más de Computer Science Club (20)

20141223 kuznetsov distributed
20141223 kuznetsov distributed20141223 kuznetsov distributed
20141223 kuznetsov distributed
 
Computer Vision
Computer VisionComputer Vision
Computer Vision
 
20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs
 
20140531 serebryany lecture02_find_scary_cpp_bugs
20140531 serebryany lecture02_find_scary_cpp_bugs20140531 serebryany lecture02_find_scary_cpp_bugs
20140531 serebryany lecture02_find_scary_cpp_bugs
 
20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs
 
20140511 parallel programming_kalishenko_lecture12
20140511 parallel programming_kalishenko_lecture1220140511 parallel programming_kalishenko_lecture12
20140511 parallel programming_kalishenko_lecture12
 
20140427 parallel programming_zlobin_lecture11
20140427 parallel programming_zlobin_lecture1120140427 parallel programming_zlobin_lecture11
20140427 parallel programming_zlobin_lecture11
 
20140420 parallel programming_kalishenko_lecture10
20140420 parallel programming_kalishenko_lecture1020140420 parallel programming_kalishenko_lecture10
20140420 parallel programming_kalishenko_lecture10
 
20140413 parallel programming_kalishenko_lecture09
20140413 parallel programming_kalishenko_lecture0920140413 parallel programming_kalishenko_lecture09
20140413 parallel programming_kalishenko_lecture09
 
20140329 graph drawing_dainiak_lecture02
20140329 graph drawing_dainiak_lecture0220140329 graph drawing_dainiak_lecture02
20140329 graph drawing_dainiak_lecture02
 
20140329 graph drawing_dainiak_lecture01
20140329 graph drawing_dainiak_lecture0120140329 graph drawing_dainiak_lecture01
20140329 graph drawing_dainiak_lecture01
 
20140310 parallel programming_kalishenko_lecture03-04
20140310 parallel programming_kalishenko_lecture03-0420140310 parallel programming_kalishenko_lecture03-04
20140310 parallel programming_kalishenko_lecture03-04
 
20140223-SuffixTrees-lecture01-03
20140223-SuffixTrees-lecture01-0320140223-SuffixTrees-lecture01-03
20140223-SuffixTrees-lecture01-03
 
20140216 parallel programming_kalishenko_lecture01
20140216 parallel programming_kalishenko_lecture0120140216 parallel programming_kalishenko_lecture01
20140216 parallel programming_kalishenko_lecture01
 
20131106 h10 lecture6_matiyasevich
20131106 h10 lecture6_matiyasevich20131106 h10 lecture6_matiyasevich
20131106 h10 lecture6_matiyasevich
 
20131027 h10 lecture5_matiyasevich
20131027 h10 lecture5_matiyasevich20131027 h10 lecture5_matiyasevich
20131027 h10 lecture5_matiyasevich
 
20131013 h10 lecture4_matiyasevich
20131013 h10 lecture4_matiyasevich20131013 h10 lecture4_matiyasevich
20131013 h10 lecture4_matiyasevich
 
20131006 h10 lecture3_matiyasevich
20131006 h10 lecture3_matiyasevich20131006 h10 lecture3_matiyasevich
20131006 h10 lecture3_matiyasevich
 
20131006 h10 lecture3_matiyasevich
20131006 h10 lecture3_matiyasevich20131006 h10 lecture3_matiyasevich
20131006 h10 lecture3_matiyasevich
 
20131006 h10 lecture2_matiyasevich
20131006 h10 lecture2_matiyasevich20131006 h10 lecture2_matiyasevich
20131006 h10 lecture2_matiyasevich
 

20111202 machine learning_nikolenko_lecture02

  • 1. Априорные распределения Конкретные примеры Априорные распределения Сергей Николенко Computer Science Club, Екатеринбург, 2011 Сергей Николенко Априорные распределения
  • 2. Априорные распределения Задача байесовского вывода Конкретные примеры Сопряжённые априорные распределения Outline 1 Априорные распределения Задача байесовского вывода Сопряжённые априорные распределения 2 Конкретные примеры Монетка и мультиномиальное распределение Нормальное распределение и экспоненциальное семейство Сергей Николенко Априорные распределения
  • 3. Априорные распределения Задача байесовского вывода Конкретные примеры Сопряжённые априорные распределения Напоминание Напоминаю, что основная наша задача – как обучить параметры распределения и/или предсказать следующие его точки по имеющимся данным. В байесовском выводе участвуют: p(x | θ) – правдоподобие данных; p(θ) – априорное распределение; p(x) = Θ p(x | θ)p(θ)d θ – маргинальное правдоподобие; p(θ | x) = p(x|θ)p(θ) – апостериорное распределение; p(x) p(x | x) = Θ p(x | θ)p(θ | x)d θ – предсказание нового x . Задача обычно в том, чтобы найти p(θ | x) и/или p(x | x). Сергей Николенко Априорные распределения
  • 4. Априорные распределения Задача байесовского вывода Конкретные примеры Сопряжённые априорные распределения Априорные распределения Когда мы проводим байесовский вывод, у нас, кроме правдоподобия, должно быть ещё априорное распределение (prior distribution) по всем возможным значениям параметров. Мы раньше к ним специально не присматривались, но они очень важны. Задача байесовского вывода – как подсчитать p(θ | x) и/или p(x | x). Но чтобы это сделать, сначала надо выбрать p(θ). Сергей Николенко Априорные распределения
  • 5. Априорные распределения Задача байесовского вывода Конкретные примеры Сопряжённые априорные распределения Субъективные и объективные априорные распределения Априорное распределение может быть субъективным: поговорили с экспертами, поняли, что они говорят, выбрали p(θ); объективным: априорное распределение берётся из имеющихся (имевшихся ранее) данных и получается тоже байесовскими методами. Про субъективные мне, в общем, больше нечего сказать, так что будем говорить об объективных. Сергей Николенко Априорные распределения
  • 6. Априорные распределения Задача байесовского вывода Конкретные примеры Сопряжённые априорные распределения Сопряжённые априорные распределения Разумная цель: давайте будем выбирать распределения так, чтобы они оставались такими же и a posteriori. До начала вывода есть априорное распределение p(θ). После него есть какое-то новое апостериорное распределение p(θ | x). Я хочу, чтобы p(θ | x) тоже имело тот же вид, что и p(θ), просто с другими параметрами. Сергей Николенко Априорные распределения
  • 7. Априорные распределения Задача байесовского вывода Конкретные примеры Сопряжённые априорные распределения Сопряжённые априорные распределения Не слишком формальное определение: семейство распределений p(θ | α) называется семейством сопряжённых априорных распределений для семейства правдоподобий p(x | θ), если после умножения на правдоподобие апостериорное распределение p(θ | x, α) остаётся в том же семействе: p(θ | x, α) = p(θ | α ). α называются гиперпараметрами (hyperparameters), это параметры распределения параметров . Тривиальный пример: семейство всех распределений будет сопряжённым чему угодно, но это не очень интересно. Сергей Николенко Априорные распределения
  • 8. Априорные распределения Задача байесовского вывода Конкретные примеры Сопряжённые априорные распределения Сопряжённые априорные распределения Разумеется, вид хорошего априорного распределения зависит от вида распределения собственно данных, p(x | θ). Сопряжённые априорные распределения подсчитаны для многих распределений, мы приведём несколько примеров. Сергей Николенко Априорные распределения
  • 9. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Outline 1 Априорные распределения Задача байесовского вывода Сопряжённые априорные распределения 2 Конкретные примеры Монетка и мультиномиальное распределение Нормальное распределение и экспоненциальное семейство Сергей Николенко Априорные распределения
  • 10. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Испытания Бернулли Каким будет сопряжённое априорное распределение для бросания нечестной монетки (испытаний Бернулли)? Ответ: это будет бета-распределение; плотность распределения нечестности монетки θ θα−1 (1 − θ)β−1 p(θ | α, β) = . B(α, β) Сергей Николенко Априорные распределения
  • 11. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Испытания Бернулли Плотность распределения нечестности монетки θ θα−1 (1 − θ)β−1 p(θ | α, β) = . B(α, β) Тогда, если мы посэмплируем монетку, получив s орлов и f решек, получится s +f p(s, f | θ) = θs (1 − θ)f , и s s+f s θs+α−1 (1 − θ)f +β−1 /B(α, β) p(θ|s, f ) = 1 s+f = 0 s x s+α−1 (1 − x)f +β−1 /B(α, β)dx θs+α−1 (1 − θ)f +β−1 = . B(s + α, f + β) Сергей Николенко Априорные распределения
  • 12. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Испытания Бернулли Итого получается, что сопряжённое априорное распределение для параметра нечестной монетки θ – это p(θ | α, β) ∝ θα−1 (1 − θ)β−1 . После получения новых данных c s орлами и f решками гиперпараметры меняются на p(θ | s + α, f + β) ∝ θs+α−1 (1 − θ)f +β−1 . На этом этапе можно забыть про сложные формулы и выводы, получилось очень простое правило обучения (под обучением теперь понимается изменение гиперпараметров). Сергей Николенко Априорные распределения
  • 13. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Бета–распределение Сергей Николенко Априорные распределения
  • 14. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Мультиномиальное распределение Простое обобщение: рассмотрим мультиномиальное распределение с n испытаниями, k категориями и по xi экспериментов дали категорию i. Параметры θi показывают вероятность попасть в категорию i: n p(x | θ) = θx1 θx2 . . . θxk . x1 , . . . , xn 1 2 k Сопряжённым априорным распределением будет распределение Дирихле: p(θ | α) ∝ θ1 1 −1 θα2 −1 . . . θαk −1 . α 2 k Сергей Николенко Априорные распределения
  • 15. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Мультиномиальное распределение Сопряжённым априорным распределением будет распределение Дирихле: p(θ | α) ∝ θ1 1 −1 θα2 −1 . . . θαk −1 . α 2 k Упражнение. Докажите, что при получении данных x1 , . . . , xk гиперпараметры изменятся на p(θ | x, α) = p(θ | x + α) ∝ θx1 +α1 −1 θx2 +α2 −1 . . . θxk +αk −1 . 1 2 k Сергей Николенко Априорные распределения
  • 16. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Распределение Дирихле Сергей Николенко Априорные распределения
  • 17. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Нормальное распределение: фиксируем σ Теперь давайте займёмся нормальным распределением: 1 1 p(x1 , . . . , xn | µ, σ2 ) ∝ n exp − 2 (xi − µ)2 . σ 2σ i Хотим: найти сопряжённое априорное распределение, подсчитать правдоподобие, решить задачу предсказания. Для начала зафиксируем σ2 и будем в качестве параметра рассматривать только µ. Сергей Николенко Априорные распределения
  • 18. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Нормальное распределение: фиксируем σ Сопряжённое априорное распределение для µ при фиксированном σ2 тоже нормальное и выглядит как 1 1 p(µ | µ0 , σ2 ) ∝ 0 n exp − (µ − µ0 )2 . σ0 2σ20 Обычно выбирают µ0 = 0, σ2 → ∞ (порой буквально). 0 Давайте рассмотрим сначала случай ровно одного наблюдения x и найдём p(µ | x). Сергей Николенко Априорные распределения
  • 19. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Нормальное распределение: фиксируем σ При нашем априорном распределении у µ и x совместное нормальное распределение: x =µ+σ , µ = µ0 + σ0 δ, , δ ∼ N (0, 1). Упражнение. Пусть (z1 , z2 ) – случайные величины с совместным нормальным распределением. Докажите, что случайная величина z1 | z2 распределена нормально с параметрами Cov (z1 , z2 ) E (z1 | z2 ) = E (z1 ) + (z2 − E (z2 )) , Var (z2 ) Cov 2 (z1 , z2 ) Var (z1 | z2 ) = Var (z1 ) − Var (z2 ) (Var (x) = E (x − Ex)2 , Cov (x, y ) = E [(x − Ex)(y − Ey )]). Сергей Николенко Априорные распределения
  • 20. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Нормальное распределение: фиксируем σ В нашем случае: x =µ+σ , µ = µ0 + σ0 δ, , δ ∼ N (0, 1), E (x) = µ0 , Var (x) = E (Var (x | µ)) + Var (E (x | µ)) = σ2 + σ2 , 0 Cov (x, µ) = E [(x − µ0 )(µ − µ0 )] = σ2 . 0 Применив упражнение, получаем: σ2 σ2 σ2 E (µ | x) = µ0 + 0 (x − µ0 ) = 2 0 2 x + 2 µ0 , σ2 + σ2 0 σ0 + σ σ0 + σ2 σ2 σ2 1 Var (µ | x) = 2 0 2 = 1 1 . σ0 + σ σ2 + σ2 0 Сергей Николенко Априорные распределения
  • 21. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Нормальное распределение: фиксируем σ Итого: −1 σ2 σ2 1 1 p(µ | x) ∼ N 0 x+ 2 µ0 , + . σ2 + σ2 0 σ0 + σ2 σ2 σ2 0 Опять же, сложные вычисления можно забыть и пользоваться этими формулами. 1 Замечание: часто используют τ = σ2 как параметр нормального распределения (precision). Тогда τµ|x = τµ + τ. Сергей Николенко Априорные распределения
  • 22. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Нормальное распределение: фиксируем σ А что, если данных больше, x1 , . . . , xn ? Тогда можно повторить всё то же самое, а можно заметить, что набор данных описывается своим средним. Упражнение. Докажите, что если p(xi | µ) ∼ N (µ, σ2 ) и xi 2 независимы, то p(x | µ) ∼ N (µ, σ ). n Сергей Николенко Априорные распределения
  • 23. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Нормальное распределение: фиксируем σ Для апостериорной вероятности будет p(µ | x1 , . . . , xn ) ∝ p(x1 , . . . , xn | µ)p(µ) ∝ p(x | µ)p(µ) ∝ p(µ | x ). Подставляя в наш предыдущий результат, получим: −1 σ2 σ2 1 n p(µ | x1 , . . . , xn ) ∼ N 0 x+ µ0 , + 2 . σ2 + 0 σ2 n nσ2 + σ2 0 2 σ0 σ Сергей Николенко Априорные распределения
  • 24. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Нормальное распределение: фиксируем µ Если зафиксировать µ и менять σ2 , то сопряжённым априорным распределением будет обратное гамма-распределение: βα −α−1 −β p(σ2 | α, β) ∝ IG (α, β) = z exp . Γ (α) z Тогда в апостериорном распределении будет n 1 p(σ2 | x1 , . . . , xn , α, β) ∝ IG α + ,β + (xi − µ) . 2 2 1 А в терминах τ = σ2 будет обычное гамма-распределение: n 1 p(τ | x1 , . . . , xn , α, β) ∝ Gamma α + , β + (xi − µ) . 2 2 Сергей Николенко Априорные распределения
  • 25. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Гамма–распределение Сергей Николенко Априорные распределения
  • 26. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Когда и µ, и σ2 меняются Что делать, когда и µ, и σ2 меняются? Можно было бы предположить, что µ и σ2 независимы; тогда просто априорное распределение будет p(µ, σ | µ0 , σ0 , α, β) ∝ N (µ0 , σ2 ) · IG (α, β). 0 К сожалению, это распределение не будет сопряжённым к нормальному. Почему? Сергей Николенко Априорные распределения
  • 27. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Когда и µ, и σ2 меняются Что делать, когда и µ, и σ2 меняются? Можно было бы предположить, что µ и σ2 независимы; тогда просто априорное распределение будет p(µ, σ | µ0 , σ0 , α, β) ∝ N (µ0 , σ2 ) · IG (α, β). 0 К сожалению, это распределение не будет сопряжённым к нормальному. Почему? Потому что µ и σ2 зависимы. :) Новая точка x вводит зависимость между ними. В результате получается распределение Стьюдента. Сергей Николенко Априорные распределения
  • 28. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Экспоненциальное семейство Вообще говоря, всё, о чём мы говорили – частные случаи экспоненциального семейства распределений: p(x | η) = h(x)g (η)e η u(x) . η называются естественными параметрами (natural parameters). Сергей Николенко Априорные распределения
  • 29. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Экспоненциальное семейство Например, распределение Бернулли: p(x | µ) = µx (1 − µ)1−x = e x ln µ+(1−x) ln(1−µ) = µ ln 1−µ x = (1 − µ)e , µ и естественный параметр получился η = ln 1−µ : p(x | η) = σ(−η)e −ηx , 1 где σ(y ) = 1+e −y – сигмоид-функция. Сергей Николенко Априорные распределения
  • 30. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Экспоненциальное семейство Для мультиномиального распределения с параметрами µ1 , . . . , µM−1 получаются µk ηk = ln и 1− j µj M−1 −1 p(x | η) = 1+ e ηk eη x . k=1 Упражнение. Проверьте! Сергей Николенко Априорные распределения
  • 31. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Экспоненциальное семейство Так вот, для распределений из экспоненциального семейства p(x | η) = h(x)g (η)e η u(x) можно сразу оптом найти сопряжённые априорные распределения: p(η | χ, ν) = f (χ, ν)g (η)ν e νη χ , где χ – гиперпараметры, а g то же самое, что в исходном распределении. Упражнение. Проверьте это и получите вышеописанные примеры как частные случаи. Сергей Николенко Априорные распределения
  • 32. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Thank you! Спасибо за внимание! Сергей Николенко Априорные распределения
  • 33. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Графическая модель Сергей Николенко Априорные распределения
  • 34. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Когда и µ, и σ2 меняются В настоящем сопряжённом априорном распределении будут: x | µ, τ ∼ N (µ, τ), µ | τ ∼ N (µ0 , n0 τ), τ ∼ G (α, β). Давайте выясним, как изменятся параметры, и заодно докажем. Сергей Николенко Априорные распределения
  • 35. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Когда и µ, и σ2 меняются Самое простое – это, по уже известным результатам, nτ n0 τ µ | x, τ ∼ N x+ µ0 , nτ + n0 τ . nτ + n0 τ nτ + n0 τ Затем давайте разберёмся с τ | x: p(τ, µ | x) ∝ p(τ) · p(µ | τ) · p(x | τ, µ), и мы хотим это распределение маргинализовать по µ... Сергей Николенко Априорные распределения
  • 36. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Когда и µ, и σ2 меняются Подсчитаем: p(τ, µ | x) ∝ p(τ) · p(µ | τ) · p(x | τ, µ) n0 τ 1 (µ−µ0 )2 n τ (xi −µ)2 ∝ τα−1 e −τβ · τ 2 e − 2 · τ 2 e− 2 n 1 1 (xi −x )2 ) − τ (n0 (µ−µ0 )2 +n(x −µ)2 ) ∝ τα+ 2 − 2 e −τ(β+ 2 e 2 (простой трюк: xi − µ = xi − x + x − µ). Сергей Николенко Априорные распределения
  • 37. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Когда и µ, и σ2 меняются Теперь надо проинтегрировать τ 2 +n(x −µ)2 ) e − 2 (n0 (µ−µ0 ) d µ. µ Упражнение. Проинтегрируйте. :) Должна получиться нормировочная константа −nn0 τ 1 (x −µ0 )2 τ− 2 e 2(n+n0 ) . Сергей Николенко Априорные распределения
  • 38. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Когда и µ, и σ2 меняются Таким образом, получается апостериорное распределение nn n −τ β+ 1 (xi −x )2 + 2(n+n 0 (x −µ0 )2 p(τ | x) ∝ τα+ 2 −1 e 2 0) . Итого результаты такие: µ | τ, x ∼N nτ n0 τ nτ+n0 τ x + nτ+n0 τ µ0 , nτ + n0 τ , τ|x ∼G α + n , β + 1 (xi − x )2 + 2(n+n0 ) 2 2 nn0 (x − µ0 )2 . Сергей Николенко Априорные распределения
  • 39. Априорные распределения Монетка и мультиномиальное распределение Конкретные примеры Нормальное распределение и экспоненциальное семейств Предсказание Теперь предсказание нового xnew : p(xnew | x) = Gamma · Gaussian · Gaussian d τd µ = τ|x µ|τ,x xnew |τ,µ = Gamma Gaussian · Gaussian d τd µ = τ|x µ|τ,x xnew |τ,µ = Gamma · Gaussian d τ = . . . τ|x xnew |τ,x В результате получится распределение Стьюдента. Сергей Николенко Априорные распределения