2. Постановка задачи
Дано k обученных классификаторов, протестированных на N
j
наборов данных. Пусть ci — оценка качества j-го
классификатора на i-м наборе данных. Предполагается, что
оценки качества классификаторов достаточно надежны.
j
Требуется определить по значениям ci , являются ли результаты
классификаторов статистически различными и, в случае k > 2,
определить, какие именно классификаторы отличаются по
качеству.
3. Проверка гипотез
X = (X1 , . . . , Xn ) - данные (выборка)
— совокупность априори допустимых распределений X
FX — неизвестное истинное распределение данных, FX ∈
0⊂ — выделенное множество функций распределения
Задача проверки гипотез: необходимо по данным X проверить
справедливость утверждения H0 : FX ∈ 0 . H0 называется
нулевой гипотезой. Утверждение H1 : FX ∈ 0 называется
альтернативной гипотезой.
Правило, согласно которому мы, наблюдая X, принимаем
решение принять гипотезу H0 как истинную либо принять
альтернативную гипотезу H1 , называется статистическим
критерием.
4. Проверка гипотез (продолжение)
P(H1 |H0 ) = α — вероятность ошибки I рода или уровень
значимости (significance level) критерия
P(H0 |H1 ) = β — вероятность ошибки II рода, 1 − β —
мощность критерия
На практике обычно стараются выбрать наиболее мощный
критерий при заданном значении ошибки первого рода.
5. Проверка гипотез (продолжение)
В случае сравнения классификаторов в качестве нулевой
гипотезы выступает предположение о том, что все
классификаторы в некотором роде эквивалентны, в качестве
альтернативной гипотезы — предположение о том, что хотя бы
два некоторых классификатора неэквивалентны.
Критерии, включающие в себя расчет параметров
вероятностного распределения признака, называются
параметрическими.
Критерии, основанные на оперировании частотами и рангами,
называются непараметрическими.
6. Сравнение двух классификаторов
Простейший способ сравнения множества классификаторов —
выделить все возможные пары классификаторов и сравнивать
каждую пару классификаторов выбранным критерием.
7. Парный критерий Стьюдента
Пусть c1 , c2 — результаты двух классификаторов на i-м из N
i i
наборов данных и di = c2 − c1 — их разница.
i i
Статистика t = d/σd распределена по закону Стьюдента
с N − 1 степенью свободы. Здесь d — среднее арифметическое
разниц результатов, а σd — стандартная ошибка.
t ∼ t(N − 1)
8. Парный критерий Стьюдента (продолжение)
Недостатки критерия:
Не работает на несоизмеримых наборах данных,
отвечающих различным проблемам. Можно решить,
c2 −c1
поделив разницу на среднее значение качества di = i i
(c1 +c2 )/2
i i
Требует, чтобы k был достаточно большим ( 30).
В противном случае выборка должна быть взята из
нормального распределения. Любопытно, что все тесты на
нормальное распределение недостаточно мощны при таких
размерах выборки
Чувствителен к выбросам
9. Критерий Уилкинсона
Проранжируем di по возрастанию модулей. Посчитаем суммы
рангов результатов на наборах данных, на которых один
классификатор показал результат лучше другого.
1
R+ = rank(di ) + rank(di )
di >0
2 d =0
i
1
R− = rank(di ) + rank(di )
di <0
2 d =0
i
Введем статистику T = min(R+ , R− ). Для T при N < 25 есть
таблицы точных критических значений, при больших N
статистика
1
T − 4 N(N + 1)
z=
1
24
N(N + 1)(2N + 1)
имеет примерно нормальное распределение.
10. Критерий Уилкинсона (продолжение)
Особенности критерия:
Работает на несоизмеримых наборах данных
Устойчив к выбросам
Не требует предположений о характере распределения
результатов классификаторов
Если выполняются условия для критерия Стьюдента, то
критерий Уилкинсона менее мощен
11. Критерий знаков
Посчитаем количество наборов данных, на которых один
классификатор превосходит второй. Если гипотеза
эквивалентности классификаторов верна, то каждый
классификатор должен выиграть примерно N/2 раз на N
наборах данных. Количество побед является случайной
величиной, распределенной по биномиальному закону.
При больших N количество побед при условии верности
гипотезы распределено по нормальному закону (N/2, N/2).
Тогда для проверки гипотезы эквивалентности можно
использовать z-тест: если количество побед по меньшей мере
равно N/2 + N , то алгоритм значительно превосходит другой
алгоритм с ошибкой предсказания 5%.
12. Критерий знаков (продолжение)
Особенности критерия:
Применим к любым наборам данных, не требует ни
соизмеримости сложности данных, ни нормальности
результатов
Намного слабее критерия Уилкинсона, не отвергает
нулевую гипотезу до тех пор, пока исследуемый алгоритм
не превосходит значительно второй алгоритм
13. Биномиальный тест Пуассона
Для алгоритмов и на j-м наборе данных посчитаем
j j
статистики k10 и k01 :
j
k10 = ( (xi ) = yi , (xi ) = yi )
i
j
k01 = ( (xi ) = yi , (xi ) = yi )
i
Здесь xi — i-ый объект набора данных, yi — соответствующий
ему ответ. Определим вектор p = (p1 , . . . , pN ), где pj —
вероятность того, что алгоритм лучше алгоритма на j-м
наборе данных:
1 j j
pj = Bc , k10 + 1, k01 + 1
2
x
Bc (x; α, β) = B(t; α, β)dt
0
14. Биномиальный тест Пуассона (продолжение)
Вероятность того, что алгоритм лучше алгоритма на
совокупности наборов данных:
N
1
P( )= qN (k)Bc , N − k + 1, k + 1
k=0
2
1 при i = 0 и k = 0
qi (k) = 0 при k < 0 или k > i
pi qi−1 (k − 1) + (1 − pi )qi−1 (k)
qN (k) можно вычислить напрямую за O(N 2 ) времени. Кроме
того, есть алгоритм, требующий всего O(N log2 N) времени.
15. Сравнение множества классификаторов
Приведенные ранее критерии не были созданы специально для
исследования множества случайный величин. В силу того, что
для проверки нулевой гипотезы нужно сделать k(k−1)
2
сравнений, определенная доля нулевых гипотез отвергается
из-за погрешностей и случайностей.
В статистике существуют методы, специально предназначенные
для тестирования эквивалентности многих случайных величин.
16. ANOVA
В случае множественного сравнения классификаторов выборка
поделена на k групп с N наблюдений в каждой группе.
k
N
2
σbg = (cj − c)2
k−1 j=1
k N
1 j
2
σwg = (ci − cj )2
k(N − 1) j=1 i=1
σbg — межгрупповая дисперсия, σwg —внутригрупповая
дисперсия
σbg
2
F = 2 ∼ (k − 1, k(N − 1))
σwg
17. ANOVA (продолжение)
Для попарного сравнения классификаторов используется
статистика
N(ci − cj )
T= ∼ t(k(N − 1))
2
2σwg
Необходимые условия для теста:
Выборки должны быть взяты из нормального
распределения
Равенство дисперсий результатов каждого классификатора
18. Тест Фридмана
Тест Фридмана является непараметрическим аналогом ANOVA
j
Пусть ri — ранг j-го алгоритма на i-м наборе данных,
1 j
Rj = N ri — средний ранг j-го алгоритма. Если верна гипотеза
i
об эквивалентности алгоритмов, их средние ранги также
должны быть равны.
20. Тест Фридмана (продолжение)
Если тест Фридмана отвергает нулевую гипотезу, можно ввести
нормально распределенную статистику для сравнения i-го и
j-го классификаторов:
Ri − Rj
z=
k(k+1)
6N
21. Корректировки вероятностей ошибок
В самом простом случае каждая гипотеза, соответствующая
паре классификаторов, тестируется независимо от всех
остальных гипотез. Более хорошие результаты дает
тестирование гипотез в совокупности.
Будем контролировать ошибку на семействе гипотез
(family-wise error) — вероятность совершить хотя бы одну
ошибку I рода при сравнении множества пар.
22. Процедуры Nemenyi и Хольма
Nemenyi: значение ошибки α делится на количество
произведенных сравнений классификаторов m = k(k−1) .
2
Хольм-Бонферрони: пусть p1 , . . . , pm — упорядоченные
вероятности (p-values) и H1 , . . . Hm — соответствующие им
гипотезы. Процедура Хольма отвергает гипотезы H1 , . . . , Hi−1 ,
если i — минимальное целое число, для которого выполнено
неравенство pi > α/(m − i + 1).
23. Процедура Бергманна и Хоммеля
Множество индексов I ⊆ {1, . . . , m} называется исчерпывающим
(exhaustive), если в точности все гипотезы Hj , j ∈ I, могут быть
верными.
Рассмотрим это определение для трех классификаторов.
H1 : C1 ∼ C2 , H2 : C2 ∼ C3 , H3 : C3 ∼ C1
Из 23 возможных сочетаний гипотез исчерпывающими
являются следующие:
Все гипотезы верны
H1 верна, H2 и H3 неверны
H2 верна, H1 и H3 неверны
H3 верна, H1 и H2 неверны
Все гипотезы неверны
24. Процедура Бергманна и Хоммеля (продолжение)
Существует рекурсивный алгоритм перечисления всех
исчерпывающих множеств, его сложность — O(2n ).
Процедура Бергманна и Хоммеля: отвергнуть гипотезу Hj , если
j∈A
A= I : I − exhaustive, min pi : i ∈ I > α/|I|
25. Статическая процедура Шеффера
Пусть p1 , . . . , pm — упорядоченные вероятности (p-values) и
H1 , . . . , Hm — соответствующие им гипотезы. Процедура
отвергает гипотезы H1 , . . . , Hi−1 , если i — минимальное целое
число, для которого выполнено неравенство pi > α/ti , где ti —
максимальное число гипотез, которые могут быть верны, при
условии, что какая-то i − 1 гипотеза неверна.
ti ∈ S(k), где S(k) — набор чисел возможных верных гипотез
при k сравниваемых классификаторов.
k
S(k) = Cj2 + x : x ∈ S(k − j)
j=1
26. Сравнение критериев
Будем сравнивать мощности критериев косвенно через
следующие параметры:
Количество отвергнутых нулевых гипотез
Среднее значение статистики критерия (average p-value,
APV) Чем меньше значение APV, тем больше вероятность
отвергнуть нулевую гипотезу на заданном уровне доверия
Воспроизводимость результатов — вероятность того, что
два эксперимента на одной и той же паре алгоритмов
дадут одинаковый результат (отвергнут или примут
нулевую гипотезу):
i (pi − p)2
R(p) = 1 − 2 · var(p) = 1 − 2 ·
n−1
Здесь pi — значение статистики (p-value) на i-м
из n экспериментов.
27. Сравнение критериев (продолжение)
При сравнении двух классификаторов сэмплирование
производится из нескольких наборов данных так, что
вероятность выбрать i-й набор данных пропорциональна
1/(1 + e−kdi ), где di — разница точности классификаторов на
этом наборе данных, а k — коэффициент смещенности.
31. Резюме
При сравнении классификаторов на реальных данных
непараметрические критерии более предпочтительны, т.к. они
накладывают меньшие ограничения на выборку результатов.
Для сравнения большого количества классификаторов стоит
пользоваться специализированными критериями, например,
тестом Фридмана.
Для попарного сравнения классификаторов после того, как
отвергнута нулевая гипотеза, стоит пользоваться
корректировками (post hoc tests), учитывающими зависимость
гипотез друг от друга.
32. Список литературы
Demˇar. Statistical Comparison of Classifiers over Multiple Data
s
Sets. JMLR 6 (2006).
Garc´ Herrera. An Extension on «Statistical Comparison of
ıa,
Classifiers over Multiple Data Sets» for all Pairwise Comparisons.
JMLR 9 (2008).
Lacoste, Laviolette, Marchand. Bayesian Comparison of Machine
Learning Algorithms on Single and Multiple Datasets. JMLR
W&CP 22 (2012).
Ивченко, Медведев. Введение в математическую статистику.
http://statmaster.sdu.dk/courses/st111/module11/index.html
http://en.wikipedia.org/wiki/F-test