SlideShare una empresa de Scribd logo
1 de 32
Descargar para leer sin conexión
Статистическое сравнение классификаторов

                  Влад Шахуро

        Факультет ВМК МГУ им. М.В.Ломоносова
                  Лаборатория КГиМ
           Семинар «Компьютерное зрение»




               18 февраля 2013 г.
Постановка задачи



  Дано k обученных классификаторов, протестированных на N
                         j
  наборов данных. Пусть ci — оценка качества j-го
  классификатора на i-м наборе данных. Предполагается, что
  оценки качества классификаторов достаточно надежны.
                                     j
  Требуется определить по значениям ci , являются ли результаты
  классификаторов статистически различными и, в случае k > 2,
  определить, какие именно классификаторы отличаются по
  качеству.
Проверка гипотез

   X = (X1 , . . . , Xn ) - данные (выборка)
      — совокупность априори допустимых распределений X
   FX — неизвестное истинное распределение данных, FX ∈
     0⊂        — выделенное множество функций распределения

   Задача проверки гипотез: необходимо по данным X проверить
   справедливость утверждения H0 : FX ∈ 0 . H0 называется
   нулевой гипотезой. Утверждение H1 : FX ∈  0 называется
   альтернативной гипотезой.

   Правило, согласно которому мы, наблюдая X, принимаем
   решение принять гипотезу H0 как истинную либо принять
   альтернативную гипотезу H1 , называется статистическим
   критерием.
Проверка гипотез (продолжение)



  P(H1 |H0 ) = α — вероятность ошибки I рода или уровень
  значимости (significance level) критерия

  P(H0 |H1 ) = β — вероятность ошибки II рода, 1 − β —
  мощность критерия

  На практике обычно стараются выбрать наиболее мощный
  критерий при заданном значении ошибки первого рода.
Проверка гипотез (продолжение)


  В случае сравнения классификаторов в качестве нулевой
  гипотезы выступает предположение о том, что все
  классификаторы в некотором роде эквивалентны, в качестве
  альтернативной гипотезы — предположение о том, что хотя бы
  два некоторых классификатора неэквивалентны.

  Критерии, включающие в себя расчет параметров
  вероятностного распределения признака, называются
  параметрическими.

  Критерии, основанные на оперировании частотами и рангами,
  называются непараметрическими.
Сравнение двух классификаторов




  Простейший способ сравнения множества классификаторов —
  выделить все возможные пары классификаторов и сравнивать
  каждую пару классификаторов выбранным критерием.
Парный критерий Стьюдента



  Пусть c1 , c2 — результаты двух классификаторов на i-м из N
         i i
  наборов данных и di = c2 − c1 — их разница.
                          i   i


  Статистика t = d/σd распределена по закону Стьюдента
  с N − 1 степенью свободы. Здесь d — среднее арифметическое
  разниц результатов, а σd — стандартная ошибка.

                           t ∼ t(N − 1)
Парный критерий Стьюдента (продолжение)


  Недостатки критерия:
      Не работает на несоизмеримых наборах данных,
      отвечающих различным проблемам. Можно решить,
                                                            c2 −c1
      поделив разницу на среднее значение качества di =      i   i
                                                          (c1 +c2 )/2
                                                            i   i

      Требует, чтобы k был достаточно большим ( 30).
      В противном случае выборка должна быть взята из
      нормального распределения. Любопытно, что все тесты на
      нормальное распределение недостаточно мощны при таких
      размерах выборки
      Чувствителен к выбросам
Критерий Уилкинсона
  Проранжируем di по возрастанию модулей. Посчитаем суммы
  рангов результатов на наборах данных, на которых один
  классификатор показал результат лучше другого.
                                              1
                 R+ =           rank(di ) +            rank(di )
                        di >0
                                              2 d =0
                                                  i


                                              1
                 R− =           rank(di ) +            rank(di )
                        di <0
                                              2 d =0
                                                  i


  Введем статистику T = min(R+ , R− ). Для T при N < 25 есть
  таблицы точных критических значений, при больших N
  статистика
                               1
                           T − 4 N(N + 1)
                   z=
                          1
                         24
                            N(N + 1)(2N + 1)
  имеет примерно нормальное распределение.
Критерий Уилкинсона (продолжение)



  Особенности критерия:
      Работает на несоизмеримых наборах данных
      Устойчив к выбросам
      Не требует предположений о характере распределения
      результатов классификаторов
      Если выполняются условия для критерия Стьюдента, то
      критерий Уилкинсона менее мощен
Критерий знаков

  Посчитаем количество наборов данных, на которых один
  классификатор превосходит второй. Если гипотеза
  эквивалентности классификаторов верна, то каждый
  классификатор должен выиграть примерно N/2 раз на N
  наборах данных. Количество побед является случайной
  величиной, распределенной по биномиальному закону.

  При больших N количество побед при условии верности
  гипотезы распределено по нормальному закону (N/2, N/2).
  Тогда для проверки гипотезы эквивалентности можно
  использовать z-тест: если количество побед по меньшей мере
  равно N/2 + N , то алгоритм значительно превосходит другой
  алгоритм с ошибкой предсказания 5%.
Критерий знаков (продолжение)



  Особенности критерия:
      Применим к любым наборам данных, не требует ни
      соизмеримости сложности данных, ни нормальности
      результатов
      Намного слабее критерия Уилкинсона, не отвергает
      нулевую гипотезу до тех пор, пока исследуемый алгоритм
      не превосходит значительно второй алгоритм
Биномиальный тест Пуассона
  Для алгоритмов      и          на j-м наборе данных посчитаем
              j     j
  статистики k10 и k01 :
                   j
                  k10 =          (       (xi ) = yi ,       (xi ) = yi )
                           i

                   j
                  k01 =          (       (xi ) = yi ,       (xi ) = yi )
                           i

  Здесь xi — i-ый объект набора данных, yi — соответствующий
  ему ответ. Определим вектор p = (p1 , . . . , pN ), где pj —
  вероятность того, что алгоритм    лучше алгоритма            на j-м
  наборе данных:
                                     1     j            j
                       pj = Bc           , k10 + 1, k01 + 1
                                     2
                                               x
                       Bc (x; α, β) =              B(t; α, β)dt
                                               0
Биномиальный тест Пуассона (продолжение)


  Вероятность того, что алгоритм             лучше алгоритма          на
  совокупности наборов данных:
                            N
                                             1
          P(           )=         qN (k)Bc       , N − k + 1, k + 1
                            k=0
                                             2
                       
                       1    при i = 0 и k = 0
               qi (k) = 0 при k < 0 или k > i
                       
                        pi qi−1 (k − 1) + (1 − pi )qi−1 (k)

  qN (k) можно вычислить напрямую за O(N 2 ) времени. Кроме
  того, есть алгоритм, требующий всего O(N log2 N) времени.
Сравнение множества классификаторов



  Приведенные ранее критерии не были созданы специально для
  исследования множества случайный величин. В силу того, что
  для проверки нулевой гипотезы нужно сделать k(k−1)
                                                 2
  сравнений, определенная доля нулевых гипотез отвергается
  из-за погрешностей и случайностей.

  В статистике существуют методы, специально предназначенные
  для тестирования эквивалентности многих случайных величин.
ANOVA

  В случае множественного сравнения классификаторов выборка
  поделена на k групп с N наблюдений в каждой группе.
                                          k
                                     N
                        2
                       σbg   =                 (cj − c)2
                                 k−1     j=1

                                          k     N
                                 1                    j
                  2
                 σwg   =                            (ci − cj )2
                           k(N − 1)      j=1 i=1

  σbg — межгрупповая дисперсия, σwg —внутригрупповая
  дисперсия
                     σbg
                       2
                 F = 2 ∼ (k − 1, k(N − 1))
                     σwg
ANOVA (продолжение)



  Для попарного сравнения классификаторов используется
  статистика
                        N(ci − cj )
                  T=                ∼ t(k(N − 1))
                             2
                          2σwg

  Необходимые условия для теста:
      Выборки должны быть взяты из нормального
      распределения
      Равенство дисперсий результатов каждого классификатора
Тест Фридмана




  Тест Фридмана является непараметрическим аналогом ANOVA
         j
  Пусть ri — ранг j-го алгоритма на i-м наборе данных,
       1   j
  Rj = N ri — средний ранг j-го алгоритма. Если верна гипотеза
        i
  об эквивалентности алгоритмов, их средние ранги также
  должны быть равны.
Тест Фридмана (продолжение)

  Введем статистику Фридмана
                                                        
                2
                      12N                    k(k + 1) 
                                                     2
               χF =                    R2 −
                    k(k + 1)            j
                                                  4
                                                      
                                   j


                 χF ∼ χ 2 (k − 1), k > 5, N > 10
                  2


  Статистика Фридмана консервативна (т.е. стремится к
  недооценке). Можно ввести более надежную статистику

                                 (N − 1)χF
                                         2
                         FF =
                                N(k − 1) − χF
                                            2


                  FF ∼     (k − 1, (k − 1)(N − 1))
Тест Фридмана (продолжение)




  Если тест Фридмана отвергает нулевую гипотезу, можно ввести
  нормально распределенную статистику для сравнения i-го и
  j-го классификаторов:

                              Ri − Rj
                         z=
                               k(k+1)
                                 6N
Корректировки вероятностей ошибок



  В самом простом случае каждая гипотеза, соответствующая
  паре классификаторов, тестируется независимо от всех
  остальных гипотез. Более хорошие результаты дает
  тестирование гипотез в совокупности.

  Будем контролировать ошибку на семействе гипотез
  (family-wise error) — вероятность совершить хотя бы одну
  ошибку I рода при сравнении множества пар.
Процедуры Nemenyi и Хольма



  Nemenyi: значение ошибки α делится на количество
  произведенных сравнений классификаторов m = k(k−1) .
                                                 2

  Хольм-Бонферрони: пусть p1 , . . . , pm — упорядоченные
  вероятности (p-values) и H1 , . . . Hm — соответствующие им
  гипотезы. Процедура Хольма отвергает гипотезы H1 , . . . , Hi−1 ,
  если i — минимальное целое число, для которого выполнено
  неравенство pi > α/(m − i + 1).
Процедура Бергманна и Хоммеля

  Множество индексов I ⊆ {1, . . . , m} называется исчерпывающим
  (exhaustive), если в точности все гипотезы Hj , j ∈ I, могут быть
  верными.

  Рассмотрим это определение для трех классификаторов.
  H1 : C1 ∼ C2 , H2 : C2 ∼ C3 , H3 : C3 ∼ C1

  Из 23 возможных сочетаний гипотез исчерпывающими
  являются следующие:
      Все гипотезы верны
      H1 верна, H2 и H3 неверны
      H2 верна, H1 и H3 неверны
      H3 верна, H1 и H2 неверны
      Все гипотезы неверны
Процедура Бергманна и Хоммеля (продолжение)



  Существует рекурсивный алгоритм перечисления всех
  исчерпывающих множеств, его сложность — O(2n ).

  Процедура Бергманна и Хоммеля: отвергнуть гипотезу Hj , если
  j∈A

         A=      I : I − exhaustive, min pi : i ∈ I > α/|I|
Статическая процедура Шеффера

  Пусть p1 , . . . , pm — упорядоченные вероятности (p-values) и
  H1 , . . . , Hm — соответствующие им гипотезы. Процедура
  отвергает гипотезы H1 , . . . , Hi−1 , если i — минимальное целое
  число, для которого выполнено неравенство pi > α/ti , где ti —
  максимальное число гипотез, которые могут быть верны, при
  условии, что какая-то i − 1 гипотеза неверна.

  ti ∈ S(k), где S(k) — набор чисел возможных верных гипотез
  при k сравниваемых классификаторов.
                             k
                   S(k) =         Cj2 + x : x ∈ S(k − j)
                            j=1
Сравнение критериев
  Будем сравнивать мощности критериев косвенно через
  следующие параметры:
      Количество отвергнутых нулевых гипотез
      Среднее значение статистики критерия (average p-value,
      APV) Чем меньше значение APV, тем больше вероятность
      отвергнуть нулевую гипотезу на заданном уровне доверия
      Воспроизводимость результатов — вероятность того, что
      два эксперимента на одной и той же паре алгоритмов
      дадут одинаковый результат (отвергнут или примут
      нулевую гипотезу):

                                                 i (pi   − p)2
               R(p) = 1 − 2 · var(p) = 1 − 2 ·
                                                  n−1
      Здесь pi — значение статистики (p-value) на i-м
      из n экспериментов.
Сравнение критериев (продолжение)




  При сравнении двух классификаторов сэмплирование
  производится из нескольких наборов данных так, что
  вероятность выбрать i-й набор данных пропорциональна
  1/(1 + e−kdi ), где di — разница точности классификаторов на
  этом наборе данных, а k — коэффициент смещенности.
Сравнение парных критериев




  Слева: k и APV, справа: k и количество отвергнутых нулевых
  гипотез
Сравнение множественных критериев




  Слева: k, APV и R(p), справа: k и количество отвергнутых
  нулевых гипотез
Сравнение процедур корректировки
Резюме


  При сравнении классификаторов на реальных данных
  непараметрические критерии более предпочтительны, т.к. они
  накладывают меньшие ограничения на выборку результатов.

  Для сравнения большого количества классификаторов стоит
  пользоваться специализированными критериями, например,
  тестом Фридмана.

  Для попарного сравнения классификаторов после того, как
  отвергнута нулевая гипотеза, стоит пользоваться
  корректировками (post hoc tests), учитывающими зависимость
  гипотез друг от друга.
Список литературы
  Demˇar. Statistical Comparison of Classifiers over Multiple Data
       s
  Sets. JMLR 6 (2006).

  Garc´ Herrera. An Extension on «Statistical Comparison of
      ıa,
  Classifiers over Multiple Data Sets» for all Pairwise Comparisons.
  JMLR 9 (2008).

  Lacoste, Laviolette, Marchand. Bayesian Comparison of Machine
  Learning Algorithms on Single and Multiple Datasets. JMLR
  W&CP 22 (2012).

  Ивченко, Медведев. Введение в математическую статистику.

  http://statmaster.sdu.dk/courses/st111/module11/index.html

  http://en.wikipedia.org/wiki/F-test

Más contenido relacionado

La actualidad más candente

Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Technosphere1
 
К автоматизированной проверке решений некоторого класса задач
К автоматизированной проверке решений некоторого класса задачК автоматизированной проверке решений некоторого класса задач
К автоматизированной проверке решений некоторого класса задачNatalia Smirnova
 
L6: Метод опорных векторов
L6: Метод опорных векторовL6: Метод опорных векторов
L6: Метод опорных векторовTechnosphere1
 
Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"Technosphere1
 
20110403 quantum algorithms_vyali_lecture03
20110403 quantum algorithms_vyali_lecture0320110403 quantum algorithms_vyali_lecture03
20110403 quantum algorithms_vyali_lecture03Computer Science Club
 
Методы обучения линейных моделей
Методы обучения линейных моделейМетоды обучения линейных моделей
Методы обучения линейных моделейAlex
 
Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Technosphere1
 
К.В. Воронцов "Линейные методы классификации"
К.В. Воронцов "Линейные методы классификации"К.В. Воронцов "Линейные методы классификации"
К.В. Воронцов "Линейные методы классификации"Yandex
 
К.В.Воронцов "Статистические (байесовские) методы классификации"
К.В.Воронцов "Статистические (байесовские) методы классификации"К.В.Воронцов "Статистические (байесовские) методы классификации"
К.В.Воронцов "Статистические (байесовские) методы классификации"Yandex
 
L10: Алгоритмы кластеризации
L10: Алгоритмы кластеризацииL10: Алгоритмы кластеризации
L10: Алгоритмы кластеризацииTechnosphere1
 
Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"Technosphere1
 
L3: Линейная и логистическая регрессия
L3: Линейная и логистическая регрессияL3: Линейная и логистическая регрессия
L3: Линейная и логистическая регрессияTechnosphere1
 
L2: Задача классификации и регрессии. Метрики ошибок
L2: Задача классификации и регрессии. Метрики ошибокL2: Задача классификации и регрессии. Метрики ошибок
L2: Задача классификации и регрессии. Метрики ошибокTechnosphere1
 
L11: Метод ансамблей
L11: Метод ансамблейL11: Метод ансамблей
L11: Метод ансамблейTechnosphere1
 
Use of eliptic curves for generating digital signature
Use of eliptic curves for generating digital signatureUse of eliptic curves for generating digital signature
Use of eliptic curves for generating digital signatureAndrei Poliakov
 
Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining" Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining" Technosphere1
 
Методы численного интегрирования
Методы численного интегрированияМетоды численного интегрирования
Методы численного интегрированияTheoretical mechanics department
 

La actualidad más candente (20)

Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
 
К автоматизированной проверке решений некоторого класса задач
К автоматизированной проверке решений некоторого класса задачК автоматизированной проверке решений некоторого класса задач
К автоматизированной проверке решений некоторого класса задач
 
L6: Метод опорных векторов
L6: Метод опорных векторовL6: Метод опорных векторов
L6: Метод опорных векторов
 
Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"
 
20110403 quantum algorithms_vyali_lecture03
20110403 quantum algorithms_vyali_lecture0320110403 quantum algorithms_vyali_lecture03
20110403 quantum algorithms_vyali_lecture03
 
Методы обучения линейных моделей
Методы обучения линейных моделейМетоды обучения линейных моделей
Методы обучения линейных моделей
 
Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства"
 
К.В. Воронцов "Линейные методы классификации"
К.В. Воронцов "Линейные методы классификации"К.В. Воронцов "Линейные методы классификации"
К.В. Воронцов "Линейные методы классификации"
 
К.В.Воронцов "Статистические (байесовские) методы классификации"
К.В.Воронцов "Статистические (байесовские) методы классификации"К.В.Воронцов "Статистические (байесовские) методы классификации"
К.В.Воронцов "Статистические (байесовские) методы классификации"
 
L10: Алгоритмы кластеризации
L10: Алгоритмы кластеризацииL10: Алгоритмы кластеризации
L10: Алгоритмы кластеризации
 
Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"
 
Метод конечных разностей
Метод конечных разностейМетод конечных разностей
Метод конечных разностей
 
L3: Линейная и логистическая регрессия
L3: Линейная и логистическая регрессияL3: Линейная и логистическая регрессия
L3: Линейная и логистическая регрессия
 
L2: Задача классификации и регрессии. Метрики ошибок
L2: Задача классификации и регрессии. Метрики ошибокL2: Задача классификации и регрессии. Метрики ошибок
L2: Задача классификации и регрессии. Метрики ошибок
 
L11: Метод ансамблей
L11: Метод ансамблейL11: Метод ансамблей
L11: Метод ансамблей
 
Use of eliptic curves for generating digital signature
Use of eliptic curves for generating digital signatureUse of eliptic curves for generating digital signature
Use of eliptic curves for generating digital signature
 
Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining" Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining"
 
Основы MATLAB. Численные методы
Основы MATLAB. Численные методыОсновы MATLAB. Численные методы
Основы MATLAB. Численные методы
 
Сплайн интерполяция
Сплайн интерполяцияСплайн интерполяция
Сплайн интерполяция
 
Методы численного интегрирования
Методы численного интегрированияМетоды численного интегрирования
Методы численного интегрирования
 

Similar a Статистическое сравнение классификаторов

Classifier evaluation and comparison
Classifier evaluation and comparisonClassifier evaluation and comparison
Classifier evaluation and comparisonAnton Konushin
 
Тестирование гипотез о нелинейных связях с использованием языка программирова...
Тестирование гипотез о нелинейных связях с использованием языка программирова...Тестирование гипотез о нелинейных связях с использованием языка программирова...
Тестирование гипотез о нелинейных связях с использованием языка программирова...Vladimir Bakhrushin
 
1.4 Точечные оценки и их свойства
1.4 Точечные оценки и их свойства1.4 Точечные оценки и их свойства
1.4 Точечные оценки и их свойстваDEVTYPE
 
Лекция №9. Сортировка. Часть №1. Предмет "Структуры и алгоритмы обработки дан...
Лекция №9. Сортировка. Часть №1. Предмет "Структуры и алгоритмы обработки дан...Лекция №9. Сортировка. Часть №1. Предмет "Структуры и алгоритмы обработки дан...
Лекция №9. Сортировка. Часть №1. Предмет "Структуры и алгоритмы обработки дан...Nikolay Grebenshikov
 
Решение задач на собственные значения
Решение задач на собственные значенияРешение задач на собственные значения
Решение задач на собственные значенияTheoretical mechanics department
 
Лекция №10. Сортировка. Часть №2. Предмет "Структуры и алгоритмы обработки да...
Лекция №10. Сортировка. Часть №2. Предмет "Структуры и алгоритмы обработки да...Лекция №10. Сортировка. Часть №2. Предмет "Структуры и алгоритмы обработки да...
Лекция №10. Сортировка. Часть №2. Предмет "Структуры и алгоритмы обработки да...Nikolay Grebenshikov
 
Мезенцев Павел - Машинное обучение на MapReduce
Мезенцев Павел - Машинное обучение на MapReduceМезенцев Павел - Машинное обучение на MapReduce
Мезенцев Павел - Машинное обучение на MapReducePavel Mezentsev
 
Лекция №3. Анализ алгоритмов. Предмет "Структуры и алгоритмы обработки данных"
Лекция №3. Анализ алгоритмов. Предмет "Структуры и алгоритмы обработки данных"Лекция №3. Анализ алгоритмов. Предмет "Структуры и алгоритмы обработки данных"
Лекция №3. Анализ алгоритмов. Предмет "Структуры и алгоритмы обработки данных"Nikolay Grebenshikov
 
20111202 machine learning_nikolenko_lecture05
20111202 machine learning_nikolenko_lecture0520111202 machine learning_nikolenko_lecture05
20111202 machine learning_nikolenko_lecture05Computer Science Club
 
1332519 (1).pptx
1332519 (1).pptx1332519 (1).pptx
1332519 (1).pptxrdes1
 
Линейная регрессия
Линейная регрессияЛинейная регрессия
Линейная регрессияDEVTYPE
 
Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.Vladimir Tcherniak
 
Свойства оценок
Свойства оценокСвойства оценок
Свойства оценокKurbatskiy Alexey
 
Лекция 13 Теоретико-числовые алгоритмы Часть 2
Лекция 13 Теоретико-числовые алгоритмы Часть 2Лекция 13 Теоретико-числовые алгоритмы Часть 2
Лекция 13 Теоретико-числовые алгоритмы Часть 2simple_people
 
20101007 proof complexity_hirsch_lecture04
20101007 proof complexity_hirsch_lecture0420101007 proof complexity_hirsch_lecture04
20101007 proof complexity_hirsch_lecture04Computer Science Club
 
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессияПрогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессияGleb Zakhodiakin
 
Юрий Владимирович Матиясевич. Десятая проблема Гильберта. Решение и применени...
Юрий Владимирович Матиясевич. Десятая проблема Гильберта. Решение и применени...Юрий Владимирович Матиясевич. Десятая проблема Гильберта. Решение и применени...
Юрий Владимирович Матиясевич. Десятая проблема Гильберта. Решение и применени...Computer Science Club
 
Логические алгоритмы классификации
Логические алгоритмы классификацииЛогические алгоритмы классификации
Логические алгоритмы классификацииyaevents
 
Анализ данных. Лекция 2
Анализ данных. Лекция 2Анализ данных. Лекция 2
Анализ данных. Лекция 2Sergey Khlebnikov
 

Similar a Статистическое сравнение классификаторов (20)

Classifier evaluation and comparison
Classifier evaluation and comparisonClassifier evaluation and comparison
Classifier evaluation and comparison
 
Тестирование гипотез о нелинейных связях с использованием языка программирова...
Тестирование гипотез о нелинейных связях с использованием языка программирова...Тестирование гипотез о нелинейных связях с использованием языка программирова...
Тестирование гипотез о нелинейных связях с использованием языка программирова...
 
1.4 Точечные оценки и их свойства
1.4 Точечные оценки и их свойства1.4 Точечные оценки и их свойства
1.4 Точечные оценки и их свойства
 
Лекция №9. Сортировка. Часть №1. Предмет "Структуры и алгоритмы обработки дан...
Лекция №9. Сортировка. Часть №1. Предмет "Структуры и алгоритмы обработки дан...Лекция №9. Сортировка. Часть №1. Предмет "Структуры и алгоритмы обработки дан...
Лекция №9. Сортировка. Часть №1. Предмет "Структуры и алгоритмы обработки дан...
 
Решение задач на собственные значения
Решение задач на собственные значенияРешение задач на собственные значения
Решение задач на собственные значения
 
Лекция №10. Сортировка. Часть №2. Предмет "Структуры и алгоритмы обработки да...
Лекция №10. Сортировка. Часть №2. Предмет "Структуры и алгоритмы обработки да...Лекция №10. Сортировка. Часть №2. Предмет "Структуры и алгоритмы обработки да...
Лекция №10. Сортировка. Часть №2. Предмет "Структуры и алгоритмы обработки да...
 
Мезенцев Павел - Машинное обучение на MapReduce
Мезенцев Павел - Машинное обучение на MapReduceМезенцев Павел - Машинное обучение на MapReduce
Мезенцев Павел - Машинное обучение на MapReduce
 
4
44
4
 
Лекция №3. Анализ алгоритмов. Предмет "Структуры и алгоритмы обработки данных"
Лекция №3. Анализ алгоритмов. Предмет "Структуры и алгоритмы обработки данных"Лекция №3. Анализ алгоритмов. Предмет "Структуры и алгоритмы обработки данных"
Лекция №3. Анализ алгоритмов. Предмет "Структуры и алгоритмы обработки данных"
 
20111202 machine learning_nikolenko_lecture05
20111202 machine learning_nikolenko_lecture0520111202 machine learning_nikolenko_lecture05
20111202 machine learning_nikolenko_lecture05
 
1332519 (1).pptx
1332519 (1).pptx1332519 (1).pptx
1332519 (1).pptx
 
Линейная регрессия
Линейная регрессияЛинейная регрессия
Линейная регрессия
 
Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.
 
Свойства оценок
Свойства оценокСвойства оценок
Свойства оценок
 
Лекция 13 Теоретико-числовые алгоритмы Часть 2
Лекция 13 Теоретико-числовые алгоритмы Часть 2Лекция 13 Теоретико-числовые алгоритмы Часть 2
Лекция 13 Теоретико-числовые алгоритмы Часть 2
 
20101007 proof complexity_hirsch_lecture04
20101007 proof complexity_hirsch_lecture0420101007 proof complexity_hirsch_lecture04
20101007 proof complexity_hirsch_lecture04
 
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессияПрогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
 
Юрий Владимирович Матиясевич. Десятая проблема Гильберта. Решение и применени...
Юрий Владимирович Матиясевич. Десятая проблема Гильберта. Решение и применени...Юрий Владимирович Матиясевич. Десятая проблема Гильберта. Решение и применени...
Юрий Владимирович Матиясевич. Десятая проблема Гильберта. Решение и применени...
 
Логические алгоритмы классификации
Логические алгоритмы классификацииЛогические алгоритмы классификации
Логические алгоритмы классификации
 
Анализ данных. Лекция 2
Анализ данных. Лекция 2Анализ данных. Лекция 2
Анализ данных. Лекция 2
 

Más de Anton Konushin

CV2015. Лекция 7. Поиск изображений по содержанию.
CV2015. Лекция 7. Поиск изображений по содержанию.CV2015. Лекция 7. Поиск изображений по содержанию.
CV2015. Лекция 7. Поиск изображений по содержанию.Anton Konushin
 
CV2015. Лекция 6. Нейросетевые алгоритмы.
CV2015. Лекция 6. Нейросетевые алгоритмы.CV2015. Лекция 6. Нейросетевые алгоритмы.
CV2015. Лекция 6. Нейросетевые алгоритмы.Anton Konushin
 
CV2015. Лекция 5. Выделение объектов.
CV2015. Лекция 5. Выделение объектов.CV2015. Лекция 5. Выделение объектов.
CV2015. Лекция 5. Выделение объектов.Anton Konushin
 
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.Anton Konushin
 
CV2015. Лекция 2. Основы обработки изображений.
CV2015. Лекция 2. Основы обработки изображений.CV2015. Лекция 2. Основы обработки изображений.
CV2015. Лекция 2. Основы обработки изображений.Anton Konushin
 
CV2015. Лекция 8. Распознавание лиц людей.
CV2015. Лекция 8. Распознавание лиц людей.CV2015. Лекция 8. Распознавание лиц людей.
CV2015. Лекция 8. Распознавание лиц людей.Anton Konushin
 
CV2015. Лекция 1. Понятия и история компьютерного зрения. Свет и цвет.
CV2015. Лекция 1. Понятия и история компьютерного зрения. Свет и цвет.CV2015. Лекция 1. Понятия и история компьютерного зрения. Свет и цвет.
CV2015. Лекция 1. Понятия и история компьютерного зрения. Свет и цвет.Anton Konushin
 
CV2015. Лекция 2. Простые методы распознавания изображений.
CV2015. Лекция 2. Простые методы распознавания изображений.CV2015. Лекция 2. Простые методы распознавания изображений.
CV2015. Лекция 2. Простые методы распознавания изображений.Anton Konushin
 
Технологии разработки ПО
Технологии разработки ПОТехнологии разработки ПО
Технологии разработки ПОAnton Konushin
 
CV2011-2. Lecture 08. Multi-view stereo.
CV2011-2. Lecture 08. Multi-view stereo.CV2011-2. Lecture 08. Multi-view stereo.
CV2011-2. Lecture 08. Multi-view stereo.Anton Konushin
 
CV2011-2. Lecture 12. Face models.
CV2011-2. Lecture 12.  Face models.CV2011-2. Lecture 12.  Face models.
CV2011-2. Lecture 12. Face models.Anton Konushin
 
CV2011-2. Lecture 11. Face analysis.
CV2011-2. Lecture 11. Face analysis.CV2011-2. Lecture 11. Face analysis.
CV2011-2. Lecture 11. Face analysis.Anton Konushin
 
CV2011-2. Lecture 10. Pose estimation.
CV2011-2. Lecture 10.  Pose estimation.CV2011-2. Lecture 10.  Pose estimation.
CV2011-2. Lecture 10. Pose estimation.Anton Konushin
 
CV2011-2. Lecture 07. Binocular stereo.
CV2011-2. Lecture 07.  Binocular stereo.CV2011-2. Lecture 07.  Binocular stereo.
CV2011-2. Lecture 07. Binocular stereo.Anton Konushin
 
CV2011-2. Lecture 06. Structure from motion.
CV2011-2. Lecture 06.  Structure from motion.CV2011-2. Lecture 06.  Structure from motion.
CV2011-2. Lecture 06. Structure from motion.Anton Konushin
 
CV2011-2. Lecture 05. Video segmentation.
CV2011-2. Lecture 05.  Video segmentation.CV2011-2. Lecture 05.  Video segmentation.
CV2011-2. Lecture 05. Video segmentation.Anton Konushin
 
CV2011-2. Lecture 04. Semantic image segmentation
CV2011-2. Lecture 04.  Semantic image segmentationCV2011-2. Lecture 04.  Semantic image segmentation
CV2011-2. Lecture 04. Semantic image segmentationAnton Konushin
 
CV2011-2. Lecture 03. Photomontage, part 2.
CV2011-2. Lecture 03.  Photomontage, part 2.CV2011-2. Lecture 03.  Photomontage, part 2.
CV2011-2. Lecture 03. Photomontage, part 2.Anton Konushin
 
CV2011-2. Lecture 02. Photomontage and graphical models.
CV2011-2. Lecture 02.  Photomontage and graphical models.CV2011-2. Lecture 02.  Photomontage and graphical models.
CV2011-2. Lecture 02. Photomontage and graphical models.Anton Konushin
 
CV2011-2. Lecture 09. Single view reconstructin.
CV2011-2. Lecture 09.  Single view reconstructin.CV2011-2. Lecture 09.  Single view reconstructin.
CV2011-2. Lecture 09. Single view reconstructin.Anton Konushin
 

Más de Anton Konushin (20)

CV2015. Лекция 7. Поиск изображений по содержанию.
CV2015. Лекция 7. Поиск изображений по содержанию.CV2015. Лекция 7. Поиск изображений по содержанию.
CV2015. Лекция 7. Поиск изображений по содержанию.
 
CV2015. Лекция 6. Нейросетевые алгоритмы.
CV2015. Лекция 6. Нейросетевые алгоритмы.CV2015. Лекция 6. Нейросетевые алгоритмы.
CV2015. Лекция 6. Нейросетевые алгоритмы.
 
CV2015. Лекция 5. Выделение объектов.
CV2015. Лекция 5. Выделение объектов.CV2015. Лекция 5. Выделение объектов.
CV2015. Лекция 5. Выделение объектов.
 
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
 
CV2015. Лекция 2. Основы обработки изображений.
CV2015. Лекция 2. Основы обработки изображений.CV2015. Лекция 2. Основы обработки изображений.
CV2015. Лекция 2. Основы обработки изображений.
 
CV2015. Лекция 8. Распознавание лиц людей.
CV2015. Лекция 8. Распознавание лиц людей.CV2015. Лекция 8. Распознавание лиц людей.
CV2015. Лекция 8. Распознавание лиц людей.
 
CV2015. Лекция 1. Понятия и история компьютерного зрения. Свет и цвет.
CV2015. Лекция 1. Понятия и история компьютерного зрения. Свет и цвет.CV2015. Лекция 1. Понятия и история компьютерного зрения. Свет и цвет.
CV2015. Лекция 1. Понятия и история компьютерного зрения. Свет и цвет.
 
CV2015. Лекция 2. Простые методы распознавания изображений.
CV2015. Лекция 2. Простые методы распознавания изображений.CV2015. Лекция 2. Простые методы распознавания изображений.
CV2015. Лекция 2. Простые методы распознавания изображений.
 
Технологии разработки ПО
Технологии разработки ПОТехнологии разработки ПО
Технологии разработки ПО
 
CV2011-2. Lecture 08. Multi-view stereo.
CV2011-2. Lecture 08. Multi-view stereo.CV2011-2. Lecture 08. Multi-view stereo.
CV2011-2. Lecture 08. Multi-view stereo.
 
CV2011-2. Lecture 12. Face models.
CV2011-2. Lecture 12.  Face models.CV2011-2. Lecture 12.  Face models.
CV2011-2. Lecture 12. Face models.
 
CV2011-2. Lecture 11. Face analysis.
CV2011-2. Lecture 11. Face analysis.CV2011-2. Lecture 11. Face analysis.
CV2011-2. Lecture 11. Face analysis.
 
CV2011-2. Lecture 10. Pose estimation.
CV2011-2. Lecture 10.  Pose estimation.CV2011-2. Lecture 10.  Pose estimation.
CV2011-2. Lecture 10. Pose estimation.
 
CV2011-2. Lecture 07. Binocular stereo.
CV2011-2. Lecture 07.  Binocular stereo.CV2011-2. Lecture 07.  Binocular stereo.
CV2011-2. Lecture 07. Binocular stereo.
 
CV2011-2. Lecture 06. Structure from motion.
CV2011-2. Lecture 06.  Structure from motion.CV2011-2. Lecture 06.  Structure from motion.
CV2011-2. Lecture 06. Structure from motion.
 
CV2011-2. Lecture 05. Video segmentation.
CV2011-2. Lecture 05.  Video segmentation.CV2011-2. Lecture 05.  Video segmentation.
CV2011-2. Lecture 05. Video segmentation.
 
CV2011-2. Lecture 04. Semantic image segmentation
CV2011-2. Lecture 04.  Semantic image segmentationCV2011-2. Lecture 04.  Semantic image segmentation
CV2011-2. Lecture 04. Semantic image segmentation
 
CV2011-2. Lecture 03. Photomontage, part 2.
CV2011-2. Lecture 03.  Photomontage, part 2.CV2011-2. Lecture 03.  Photomontage, part 2.
CV2011-2. Lecture 03. Photomontage, part 2.
 
CV2011-2. Lecture 02. Photomontage and graphical models.
CV2011-2. Lecture 02.  Photomontage and graphical models.CV2011-2. Lecture 02.  Photomontage and graphical models.
CV2011-2. Lecture 02. Photomontage and graphical models.
 
CV2011-2. Lecture 09. Single view reconstructin.
CV2011-2. Lecture 09.  Single view reconstructin.CV2011-2. Lecture 09.  Single view reconstructin.
CV2011-2. Lecture 09. Single view reconstructin.
 

Статистическое сравнение классификаторов

  • 1. Статистическое сравнение классификаторов Влад Шахуро Факультет ВМК МГУ им. М.В.Ломоносова Лаборатория КГиМ Семинар «Компьютерное зрение» 18 февраля 2013 г.
  • 2. Постановка задачи Дано k обученных классификаторов, протестированных на N j наборов данных. Пусть ci — оценка качества j-го классификатора на i-м наборе данных. Предполагается, что оценки качества классификаторов достаточно надежны. j Требуется определить по значениям ci , являются ли результаты классификаторов статистически различными и, в случае k > 2, определить, какие именно классификаторы отличаются по качеству.
  • 3. Проверка гипотез X = (X1 , . . . , Xn ) - данные (выборка) — совокупность априори допустимых распределений X FX — неизвестное истинное распределение данных, FX ∈ 0⊂ — выделенное множество функций распределения Задача проверки гипотез: необходимо по данным X проверить справедливость утверждения H0 : FX ∈ 0 . H0 называется нулевой гипотезой. Утверждение H1 : FX ∈ 0 называется альтернативной гипотезой. Правило, согласно которому мы, наблюдая X, принимаем решение принять гипотезу H0 как истинную либо принять альтернативную гипотезу H1 , называется статистическим критерием.
  • 4. Проверка гипотез (продолжение) P(H1 |H0 ) = α — вероятность ошибки I рода или уровень значимости (significance level) критерия P(H0 |H1 ) = β — вероятность ошибки II рода, 1 − β — мощность критерия На практике обычно стараются выбрать наиболее мощный критерий при заданном значении ошибки первого рода.
  • 5. Проверка гипотез (продолжение) В случае сравнения классификаторов в качестве нулевой гипотезы выступает предположение о том, что все классификаторы в некотором роде эквивалентны, в качестве альтернативной гипотезы — предположение о том, что хотя бы два некоторых классификатора неэквивалентны. Критерии, включающие в себя расчет параметров вероятностного распределения признака, называются параметрическими. Критерии, основанные на оперировании частотами и рангами, называются непараметрическими.
  • 6. Сравнение двух классификаторов Простейший способ сравнения множества классификаторов — выделить все возможные пары классификаторов и сравнивать каждую пару классификаторов выбранным критерием.
  • 7. Парный критерий Стьюдента Пусть c1 , c2 — результаты двух классификаторов на i-м из N i i наборов данных и di = c2 − c1 — их разница. i i Статистика t = d/σd распределена по закону Стьюдента с N − 1 степенью свободы. Здесь d — среднее арифметическое разниц результатов, а σd — стандартная ошибка. t ∼ t(N − 1)
  • 8. Парный критерий Стьюдента (продолжение) Недостатки критерия: Не работает на несоизмеримых наборах данных, отвечающих различным проблемам. Можно решить, c2 −c1 поделив разницу на среднее значение качества di = i i (c1 +c2 )/2 i i Требует, чтобы k был достаточно большим ( 30). В противном случае выборка должна быть взята из нормального распределения. Любопытно, что все тесты на нормальное распределение недостаточно мощны при таких размерах выборки Чувствителен к выбросам
  • 9. Критерий Уилкинсона Проранжируем di по возрастанию модулей. Посчитаем суммы рангов результатов на наборах данных, на которых один классификатор показал результат лучше другого. 1 R+ = rank(di ) + rank(di ) di >0 2 d =0 i 1 R− = rank(di ) + rank(di ) di <0 2 d =0 i Введем статистику T = min(R+ , R− ). Для T при N < 25 есть таблицы точных критических значений, при больших N статистика 1 T − 4 N(N + 1) z= 1 24 N(N + 1)(2N + 1) имеет примерно нормальное распределение.
  • 10. Критерий Уилкинсона (продолжение) Особенности критерия: Работает на несоизмеримых наборах данных Устойчив к выбросам Не требует предположений о характере распределения результатов классификаторов Если выполняются условия для критерия Стьюдента, то критерий Уилкинсона менее мощен
  • 11. Критерий знаков Посчитаем количество наборов данных, на которых один классификатор превосходит второй. Если гипотеза эквивалентности классификаторов верна, то каждый классификатор должен выиграть примерно N/2 раз на N наборах данных. Количество побед является случайной величиной, распределенной по биномиальному закону. При больших N количество побед при условии верности гипотезы распределено по нормальному закону (N/2, N/2). Тогда для проверки гипотезы эквивалентности можно использовать z-тест: если количество побед по меньшей мере равно N/2 + N , то алгоритм значительно превосходит другой алгоритм с ошибкой предсказания 5%.
  • 12. Критерий знаков (продолжение) Особенности критерия: Применим к любым наборам данных, не требует ни соизмеримости сложности данных, ни нормальности результатов Намного слабее критерия Уилкинсона, не отвергает нулевую гипотезу до тех пор, пока исследуемый алгоритм не превосходит значительно второй алгоритм
  • 13. Биномиальный тест Пуассона Для алгоритмов и на j-м наборе данных посчитаем j j статистики k10 и k01 : j k10 = ( (xi ) = yi , (xi ) = yi ) i j k01 = ( (xi ) = yi , (xi ) = yi ) i Здесь xi — i-ый объект набора данных, yi — соответствующий ему ответ. Определим вектор p = (p1 , . . . , pN ), где pj — вероятность того, что алгоритм лучше алгоритма на j-м наборе данных: 1 j j pj = Bc , k10 + 1, k01 + 1 2 x Bc (x; α, β) = B(t; α, β)dt 0
  • 14. Биномиальный тест Пуассона (продолжение) Вероятность того, что алгоритм лучше алгоритма на совокупности наборов данных: N 1 P( )= qN (k)Bc , N − k + 1, k + 1 k=0 2  1 при i = 0 и k = 0 qi (k) = 0 при k < 0 или k > i  pi qi−1 (k − 1) + (1 − pi )qi−1 (k) qN (k) можно вычислить напрямую за O(N 2 ) времени. Кроме того, есть алгоритм, требующий всего O(N log2 N) времени.
  • 15. Сравнение множества классификаторов Приведенные ранее критерии не были созданы специально для исследования множества случайный величин. В силу того, что для проверки нулевой гипотезы нужно сделать k(k−1) 2 сравнений, определенная доля нулевых гипотез отвергается из-за погрешностей и случайностей. В статистике существуют методы, специально предназначенные для тестирования эквивалентности многих случайных величин.
  • 16. ANOVA В случае множественного сравнения классификаторов выборка поделена на k групп с N наблюдений в каждой группе. k N 2 σbg = (cj − c)2 k−1 j=1 k N 1 j 2 σwg = (ci − cj )2 k(N − 1) j=1 i=1 σbg — межгрупповая дисперсия, σwg —внутригрупповая дисперсия σbg 2 F = 2 ∼ (k − 1, k(N − 1)) σwg
  • 17. ANOVA (продолжение) Для попарного сравнения классификаторов используется статистика N(ci − cj ) T= ∼ t(k(N − 1)) 2 2σwg Необходимые условия для теста: Выборки должны быть взяты из нормального распределения Равенство дисперсий результатов каждого классификатора
  • 18. Тест Фридмана Тест Фридмана является непараметрическим аналогом ANOVA j Пусть ri — ранг j-го алгоритма на i-м наборе данных, 1 j Rj = N ri — средний ранг j-го алгоритма. Если верна гипотеза i об эквивалентности алгоритмов, их средние ранги также должны быть равны.
  • 19. Тест Фридмана (продолжение) Введем статистику Фридмана   2 12N  k(k + 1)  2 χF = R2 − k(k + 1) j 4   j χF ∼ χ 2 (k − 1), k > 5, N > 10 2 Статистика Фридмана консервативна (т.е. стремится к недооценке). Можно ввести более надежную статистику (N − 1)χF 2 FF = N(k − 1) − χF 2 FF ∼ (k − 1, (k − 1)(N − 1))
  • 20. Тест Фридмана (продолжение) Если тест Фридмана отвергает нулевую гипотезу, можно ввести нормально распределенную статистику для сравнения i-го и j-го классификаторов: Ri − Rj z= k(k+1) 6N
  • 21. Корректировки вероятностей ошибок В самом простом случае каждая гипотеза, соответствующая паре классификаторов, тестируется независимо от всех остальных гипотез. Более хорошие результаты дает тестирование гипотез в совокупности. Будем контролировать ошибку на семействе гипотез (family-wise error) — вероятность совершить хотя бы одну ошибку I рода при сравнении множества пар.
  • 22. Процедуры Nemenyi и Хольма Nemenyi: значение ошибки α делится на количество произведенных сравнений классификаторов m = k(k−1) . 2 Хольм-Бонферрони: пусть p1 , . . . , pm — упорядоченные вероятности (p-values) и H1 , . . . Hm — соответствующие им гипотезы. Процедура Хольма отвергает гипотезы H1 , . . . , Hi−1 , если i — минимальное целое число, для которого выполнено неравенство pi > α/(m − i + 1).
  • 23. Процедура Бергманна и Хоммеля Множество индексов I ⊆ {1, . . . , m} называется исчерпывающим (exhaustive), если в точности все гипотезы Hj , j ∈ I, могут быть верными. Рассмотрим это определение для трех классификаторов. H1 : C1 ∼ C2 , H2 : C2 ∼ C3 , H3 : C3 ∼ C1 Из 23 возможных сочетаний гипотез исчерпывающими являются следующие: Все гипотезы верны H1 верна, H2 и H3 неверны H2 верна, H1 и H3 неверны H3 верна, H1 и H2 неверны Все гипотезы неверны
  • 24. Процедура Бергманна и Хоммеля (продолжение) Существует рекурсивный алгоритм перечисления всех исчерпывающих множеств, его сложность — O(2n ). Процедура Бергманна и Хоммеля: отвергнуть гипотезу Hj , если j∈A A= I : I − exhaustive, min pi : i ∈ I > α/|I|
  • 25. Статическая процедура Шеффера Пусть p1 , . . . , pm — упорядоченные вероятности (p-values) и H1 , . . . , Hm — соответствующие им гипотезы. Процедура отвергает гипотезы H1 , . . . , Hi−1 , если i — минимальное целое число, для которого выполнено неравенство pi > α/ti , где ti — максимальное число гипотез, которые могут быть верны, при условии, что какая-то i − 1 гипотеза неверна. ti ∈ S(k), где S(k) — набор чисел возможных верных гипотез при k сравниваемых классификаторов. k S(k) = Cj2 + x : x ∈ S(k − j) j=1
  • 26. Сравнение критериев Будем сравнивать мощности критериев косвенно через следующие параметры: Количество отвергнутых нулевых гипотез Среднее значение статистики критерия (average p-value, APV) Чем меньше значение APV, тем больше вероятность отвергнуть нулевую гипотезу на заданном уровне доверия Воспроизводимость результатов — вероятность того, что два эксперимента на одной и той же паре алгоритмов дадут одинаковый результат (отвергнут или примут нулевую гипотезу): i (pi − p)2 R(p) = 1 − 2 · var(p) = 1 − 2 · n−1 Здесь pi — значение статистики (p-value) на i-м из n экспериментов.
  • 27. Сравнение критериев (продолжение) При сравнении двух классификаторов сэмплирование производится из нескольких наборов данных так, что вероятность выбрать i-й набор данных пропорциональна 1/(1 + e−kdi ), где di — разница точности классификаторов на этом наборе данных, а k — коэффициент смещенности.
  • 28. Сравнение парных критериев Слева: k и APV, справа: k и количество отвергнутых нулевых гипотез
  • 29. Сравнение множественных критериев Слева: k, APV и R(p), справа: k и количество отвергнутых нулевых гипотез
  • 31. Резюме При сравнении классификаторов на реальных данных непараметрические критерии более предпочтительны, т.к. они накладывают меньшие ограничения на выборку результатов. Для сравнения большого количества классификаторов стоит пользоваться специализированными критериями, например, тестом Фридмана. Для попарного сравнения классификаторов после того, как отвергнута нулевая гипотеза, стоит пользоваться корректировками (post hoc tests), учитывающими зависимость гипотез друг от друга.
  • 32. Список литературы Demˇar. Statistical Comparison of Classifiers over Multiple Data s Sets. JMLR 6 (2006). Garc´ Herrera. An Extension on «Statistical Comparison of ıa, Classifiers over Multiple Data Sets» for all Pairwise Comparisons. JMLR 9 (2008). Lacoste, Laviolette, Marchand. Bayesian Comparison of Machine Learning Algorithms on Single and Multiple Datasets. JMLR W&CP 22 (2012). Ивченко, Медведев. Введение в математическую статистику. http://statmaster.sdu.dk/courses/st111/module11/index.html http://en.wikipedia.org/wiki/F-test