SlideShare a Scribd company logo
1 of 41
9.4. ОБЩИЕ МОДЕЛИ ДИСКРИМИНАНТНОГО АНАЛИЗА
Известно, что методы дискриминации можно условно разделить на параметрические и
непараметрические. Классический дискриминантный анализ (DA) является параметрическим
методом и, применяется в предположении, что наблюдаемые величины непрерывные,
измерены как минимум в интервальной шкале, имеют нормальное распределение. Также
предполагается, что дисперсии и ковариации наблюдаемых переменных в разных классах
однородны. Если перечисленные условия не выполняются, необходимо воспользоваться
методом общие модели дискриминантного анализа (GDA). Метод имеет такое название,
потому что в нем для анализа дискриминантных функций используется общая линейная
модель (GLA). В этом методе анализ дискриминантных функций рассматривается как
общая многомерная линейная модель, в которой категориальная зависимая переменная
(отклик) представляется векторами с кодами, обозначающими различные группы.
Например, если категориальная переменная Состояние – принимает значения легкое,
среднее, тяжелое и в методе DA эти значения можно кодировать целыми числами 1, 2, 3,
то в методе GDA эти значения будут закодированы векторами (1, 0, 0), (0, 1, 0), (0, 0, 1):
Состояние Коды
легкое 1 0 0
среднее 0 1 0
тяжелое 0 0 1
Метод GDA обладает рядом существенных преимуществ перед классическим методом DA:
– не устанавливается никаких ограничений на тип используемого предиктора и на тип
определяемой модели. Предикторы могут быть категориальными, или непрерывными
переменными. В методе GDA категориальные предикторы по аналогии с методом общие
линейные модели также называются факторами;
– предусмотрены опции для пошагового выбора предикторов и выбора наилучшего
подмножества предикторов на основе статистик F-включить и p-включить;
– в таблице данных можно выделить кросс-проверочную выборку. В этом случае
выбор наилучшего подмножества предикторов можно провести на основе долей
ошибочной классификации для кросс-проверочной выборки, такой способ выбора модели
позволяет получать в итоге высокую точность прогноза, избегая при этом переобучения;
– другой уникальной особенностью метода GDA является наличие опций для
построения и анализа профилей предсказанных значений отклика и показателя
желательности. Вычисляются предсказанные значения отклика, полученные значения
объединяются в один показатель желательности. Чтобы наглядно показать «поведение»
предсказанных откликов и показателя желательности, для различных диапазонов
значений предикторов можно строить различные графики – профили. Также метод
позволяет строить профили апостериорных вероятностей предсказания. Профили
позволяют анализировать, насколько различные уровни предикторов влияют на
классификацию наблюдений, что в конечном итоге дает возможность определить
комбинации значений предикторов, которые максимизируют правдоподобие того, что
соответствующее наблюдение принадлежит тому или иному классу;
– в методе предусмотрена возможность включения категориальных «ANOVA-
подобных» эффектов в сложные ANOVA-подобные модели для предикторов. Возможно
проведение поиска наилучшего подмножества предикторов для ANOVA-подобных
эффектов.
Для ознакомления с возможностями метода GDA и технологии работы с
соответствующим модулем программы STATISTICA воспользуемся файлом данных 50
больных, страдающих острым панкреатитом, который нами уже был использован в §7.2.
Наша задача – показать возможности GDA для идентификации тяжести состояния
больных. В качестве независимых количественных переменных – предикторов используем
клинико-лабораторные показатели: возраст, температуру тела (Т), частоту сердечных
сокращений (ЧСС), частоту дыхания (ЧД), уровень содержания в организме калия (К),
натрия (Na), креатинина, лейкоцитов, гемотокрита (Ht). Категориальными предикторами
являются Пол и Форма течения (рис.9.4.1). Относительно первого предиктора пояснения
излишни, а по второму предиктору – Форма течения, заметим, что больные разделены на
3 группы – отечный (интерстициальный) панкреатит (ОП), стерильный панкреонекроз
(СТПН) и инфицированный панкреонекроз (ИНП). Состояние больного оценивали в
порядковой шкале, поэтому в качестве зависимой группирующей переменной – отклика в
таблице данных использовали переменную Состояние с текстовыми значениями: легкое,
среднее, тяжелое.
Для более глубокого понимания структуры категориальных предикторов и их
взаимосвязи с состоянием больных воспользуемся таблицами сопряженности. На рис.9.4.2
представлена таблица со значением критериев Пирсона Хи-квадрат, М-П Хи-квадрат,
статистикой гамма и коэффициентом корреляции Спирмена для переменных Форма
течения и Состояние. Так как уровни значимости обоих критериев Хи-квадрат
значительно меньше, чем 0,05, а статистика гамма и корреляция Спирмена больше, чем
0,75, то ожидаемые частоты статистически значимо отличаются от наблюдаемых.
Следовательно, между формой течения заболевания и состоянием больных существует
сильная взаимосвязь.
1
№
2
Возраст
3
Пол
4
Форма
течения
5
Т
6
ЧСС
7
ЧД
8
К
9
Na
10
Креа-
тинин
11
Лейко-
циты
12
Ht
13
Состояние
1 21 муж ОП 36,2 76 20 3,79 140,03 64,67 6,80 0,34 легкое
2 75 муж ИНП 39,0 99 43 4,29 132,21 411,20 8,45 0,58 тяжелое
3 18 жен ОП 37,7 79 20 3,83 141,48 61,51 6,87 0,36 легкое
4 30 муж ОП 38,1 90 26 4,01 141,75 171,49 5,31 0,41 легкое
5 37 жен СТ ПН 36,9 84 19 3,34 144,67 25,58 7,13 0,40 среднее
6 32 жен ОП 37,5 85 20 3,58 139,25 36,44 6,83 0,35 легкое
7 37 муж ИНП 41,4 99 42 3,68 134,86 328,67 7,52 0,49 тяжелое
8 48 муж СТ ПН 40,4 105 41 3,23 137,26 178,88 11,05 0,45 тяжелое
9 31 жен СТ ПН 39,6 93 32 4,22 138,19 127,71 6,06 0,48 среднее
10 36 жен ИНП 39,2 85 28 3,84 131,66 140,72 9,84 0,47 среднее
11 42 муж ОП 40,3 88 31 3,94 126,52 116,07 9,13 0,50 легкое
12 38 жен ИНП 37,6 86 30 3,52 139,37 130,60 10,10 0,50 легкое
13 74 муж ИНП 40,7 94 42 4,52 138,95 465,77 12,47 0,45 тяжелое
14 46 жен СТ ПН 39,2 90 26 4,49 144,85 124,36 8,39 0,47 среднее
15 18 жен ОП 36,1 77 25 3,55 140,33 52,39 6,29 0,31 легкое
16 63 муж СТ ПН 40,4 99 41 3,86 130,98 300,01 12,96 0,56 тяжелое
17 67 муж СТ ПН 39,1 103 36 4,18 132,10 360,23 11,76 0,54 тяжелое
18 31 муж СТ ПН 37,2 81 24 3,23 141,34 65,25 7,07 0,44 среднее
19 59 муж ИНП 39,7 95 43 3,70 134,58 152,89 2,11 0,59 тяжелое
20 32 жен СТ ПН 37,3 77 17 3,88 144,67 65,86 6,79 0,37 среднее
21 33 жен ОП 38,4 76 15 3,87 140,73 58,56 5,71 0,39 легкое
22 58 муж ИНП 39,7 98 41 3,00 133,33 218,19 8,46 0,51 тяжелое
23 40 жен ОП 37,5 91 29 4,60 127,61 136,15 7,37 0,41 легкое
24 39 муж ОП 36,8 83 29 4,41 136,86 131,22 6,58 0,41 среднее
25 28 жен СТ ПН 35,6 91 23 3,33 144,49 33,28 7,53 0,49 легкое
26 35 жен СТ ПН 39,4 82 33 4,01 142,72 168,99 8,87 0,47 среднее
27 44 жен СТ ПН 37,8 89 33 4,71 139,18 80,26 9,63 0,45 среднее
28 44 жен СТ ПН 38,3 87 32 4,28 139,88 93,29 5,59 0,49 среднее
29 43 муж ИНП 39,6 93 35 4,29 140,46 142,50 4,76 0,48 тяжелое
30 47 муж ОП 37,3 80 19 3,61 140,17 48,25 5,80 0,44 легкое
31 76 муж ИНП 41,3 106 44 4,66 136,92 298,82 10,91 0,49 тяжелое
32 63 муж ИНП 40,5 109 36 3,53 133,85 153,31 11,67 0,46 тяжелое
33 68 муж СТ ПН 38,9 99 40 3,89 136,13 354,02 11,65 0,43 тяжелое
34 36 жен СТ ПН 39,2 87 31 4,14 135,12 225,82 8,43 0,48 среднее
35 47 муж СТ ПН 41,0 82 30 4,37 139,92 158,24 11,99 0,47 среднее
36 30 жен ОП 37,5 73 19 3,63 138,56 51,62 5,28 0,46 легкое
37 38 муж СТ ПН 39,4 90 30 4,23 135,23 112,03 7,00 0,43 среднее
38 41 жен ОП 40,5 81 32 4,80 127,39 216,46 8,36 0,37 легкое
39 44 жен СТ ПН 38,4 83 29 3,93 143,10 202,17 6,82 0,45 среднее
40 26 жен ОП 36,6 82 18 3,44 140,13 50,96 5,92 0,39 легкое
41 44 жен СТ ПН 37,9 94 29 4,22 130,40 143,16 9,64 0,45 среднее
42 65 муж ИНП 39,9 105 39 4,84 131,45 273,46 6,01 0,41 тяжелое
43 49 муж ИНП 39,3 96 44 3,95 131,52 234,29 12,48 0,48 тяжелое
44 46 жен СТ ПН 37,8 80 27 3,57 138,22 206,94 6,06 0,50 среднее
45 30 муж СТ ПН 36,4 77 17 3,57 139,00 41,82 5,90 0,44 среднее
46 42 муж ОП 40,3 88 27 4,40 129,30 160,31 3,66 0,49 легкое
47 54 муж ИНП 39,9 95 40 3,70 138,28 144,38 3,85 0,48 тяжелое
48 27 жен ОП 38,3 77 29 3,73 141,05 44,72 6,10 0,40 легкое
49 49 муж ИНП 40,7 100 39 3,43 129,07 243,37 12,66 0,47 тяжелое
50 34 жен ИНП 39,9 95 23 4,41 133,60 157,95 14,11 0,45 среднее
Рис.9.4.1
Статистики: Форма течения(3) x Состояние(3) (Об мод. дискрим.ана
Статист. Хи-квадрат ст.св. p
Пирсона Хи-квадрат
М-П Хи-квадрат
Гамма
Корр. Спирмена
55,87384 сс=4 p=,00000
56,02675 сс=4 p=,00000
,9172611
,8068715t=9,4632 p=,00000
Рис.9.4.2
Для понимания структуры взаимосвязи следует обратиться к таблице частот на
рис.9.4.3, из которой видно, что наибольший процент больных – 93,33% с формой течения
заболевания ОП находятся в легком состоянии. Наибольший процент больных – 75 % с
формой течения заболевания СТПН находятся в среднем состоянии. Наибольший
процент больных – 80 % с формой течения заболевания ИНП находятся в тяжелом
состоянии.
2-входовая итоговая: наблюдаемые частоты (Об мод. дискрим.анализ)
Частоты выделенных ячеек > 10
Форма течения
Состояние
легкое
Состояние
среднее
Состояние
тяжелое
Всего
по стр.
ОП
строк.%
СТ ПН
строк.%
ИНП
строк.%
Всего
14 1 0 15
93,33% 6,67% 0,00%
1 15 4 20
5,00% 75,00% 20,00%
1 2 12 15
6,67% 13,33% 80,00%
16 18 16 50
Рис.9.4.3
На рис.9.4.4 представлена таблица со значением критериев Пирсона Хи-квадрат, М-
П Хи-квадрат, статистикой гамма и коэффициентом корреляции Спирмена для
переменных Пол и Состояние. Так как уровни значимости обоих критериев Пирсона Хи-
квадрат и М-П Хи-квадрат значительно меньше, чем 0,05, а статистика гамма и
корреляция Спирмена по абсолютной величине близки к 0,75 (рис.9.4.4), то ожидаемые
частоты статистически значимо отличаются от наблюдаемых, следовательно, между
полом и состоянием больных существует близкая к сильной взаимосвязь.
Статистики: Пол(2) x Состояние(3) (Об мод. дискрим.анализ)
Статист. Хи-квадрат ст.св. p
Пирсона Хи-квадрат
М-П Хи-квадрат
Гамма
Корр. Спирмена
21,76037 сс=2 p=,00002
28,08961 сс=2 p=,00000
-,742063
-,550441 t=-4,568 p=,00003
Рис.9.4.4
Для анализа структуры взаимосвязи воспользуемся таблицей частот на рис.9.4.5, из
которой видно, что наибольший процент мужчин – 61,54% пребывают в тяжелом
состоянии. Наибольший процент женщин – 54,17 % пребывают в среднем состоянии.
2-входовая итоговая: наблюдаемые частоты (Об мод. дискрим.анализ)
Частоты выделенных ячеек > 10
Пол
Состояние
легкое
Состояние
среднее
Состояние
тяжелое
Всего
по стр.
муж
строк.%
жен
строк.%
Всего
5 5 16 26
19,23% 19,23% 61,54%
11 13 0 24
45,83% 54,17% 0,00%
16 18 16 50
Рис.9.4.5
Таким образом, категориальные предикторы Форма течения и Пол взаимосвязаны с
откликом Состояние, поэтому целесообразно для оценки состояния больных включить в
модель дискриминации эти категориальные предикторы.
Щелкнем по кнопке Анализ на панели инструментов и, выберем команду
Многомерный разведочный анализ, в появившемся меню – Общие модели
дискриминантного анализа (рис.9.4.6).
Рис.9.4.6
Откроется стартовое окно, в рамке Вид анализа следует выбрать Общий
дискриминантный анализ, в рамке Задание анализа – Диалог (рис.9.4.7) и щелкнуть по ОК.
В появившемся диалоге (рис.9.4.8) надо нажать на кнопку Переменные и выделить
переменные в соответствии с рис.9. Если щелкнуть по ОК и в диалоге на рис.9.4.8 указать
коды зависимой переменой и коды факторов (предикторов), то диалог Общий
дискриминантный анализ примет вид, представленный на рис.9.4.10. В соответствии с
диалогом на рис.9.4.10, при построении модели дискриминации в качестве эффектов по
умолчанию будут использованы все непрерывные предикторы, оба категориальных
предиктора и их комбинация (взаимодействие).
Рис.9.4.7
Рис.9.4.8
Рис.9
Рис.9.4.10
Если пользователя интересуют не все эффекты, или дополнительные эффекты,
являющиеся комбинациями непрерывных и категориальных предикторов, то следует
щелкнуть по кнопке Эффекты. В открывшемся окне Эффекты в плане (рис.9.4.11) надо
выбрать опцию Использовать пользовательские эффекты в плане, тогда в рамке
Предикторы активными станут поля Категориальные и Непрерывные, в которых
указываются имена предикторов.
Рис.9.4.11
Далее надо в рамке Метод нажать на кнопку Добавить, в поле Эффекты в плане
появятся названия предикторов. Если нажать на кнопку Взаимодействие, появится
взаимодействие предикторов. Если щелкнуть по кнопке Полный факторный, программа
высветит факторный план, в соответствии с которым будет проведен дискриминантный
анализ. Выберем опцию Использовать стандартные эффекты в плане, щелкнем по ОК
чтобы вернуться в диалог на рис.9.4.10.
Рассмотрим опции вкладки Дополнительно (рис.9.4.12). В рамке Априорные
вероятности задаются способы вычисления априорных вероятностей, которые
используются для классификации наблюдений на основе текущего множества
предикторов. Опция Пропорциональные размерам означает, что априорные вероятности
пропорциональны размерам классов, которые определяются зависимой переменной –
откликом. Например, если имеется три класса наблюдений и в каждом классе
соответственно 20, 30 и 50 наблюдений, то априорные вероятности будут равны
соответственно 0,2, 0,3, 0,5. Опция Равные присваивает априорным вероятностям
одинаковые значения. Например, если три группы наблюдений, то априорные
вероятности будут равны 1/3 для каждой группы. Опция Пользователя предполагает
задание априорных вероятностей пользователями, она не доступна, если на вкладке
Быстрый указаны коды отклика.
Кнопка Кросс-проверка вызывает одноименный диалог, в котором можно задать
категориальную переменную-идентификатор и кодовое значение, определяющее
наблюдения, которые необходимо использовать в вычислениях при подгонке модели. В
нашем файле из-за малого объема кросс-проверочная выборка отсутствует.
Рис.9.4.12
В поле Опции построения модели можно задать способы построения моделей для
дискриминантного анализа:
– Все эффекты, все эффекты одновременно вводятся в текущий план;
– Пошаговый с включением, эффекты добавляются, или исключаются в модель
последовательно на основе текущих значений параметров p или F;
– Пошаговый с исключением, начальная модель состоит из всех эффектов, которые затем в
процессе реализации метода будут последовательно удаляться, или добавляться на основе
текущих значений параметров p или F;
– Только с включением, эффекты будут только включаться в модель;
– Только с исключением, эффекты будут только исключаться из модели;
– Лучшие подмножества. Среди всех допустимых подмножеств эффектов, заданных в
текущем плане анализа, выбирается лучшее подмножество при заданном числе эффектов.
Если в модели много эффектов, то общее число всевозможных подмножеств может быть
очень большим. Поэтому поиск наилучшего подмножества необходимо проводить очень
осторожно.
В поле Количество эффектов указывается количество эффектов, принудительно
включенных в каждую построенную программой модель. Если указано k эффектов, то
первые k эффектов в плане будут принудительно добавлены во все рассматриваемые
модели.
Дельта выметания, Дельта обращения – параметры математических моделей, которые
используются для построения матрицы выметания и проверки сингулярности при
обращении матрицы.
Опции Лямбда Уилкса, Ошибки анализа, Ошибки кросс-проверки определяют критерии
выбора наилучшего подмножества – по значению параметра лямбда Уилкса, по долям
ошибочной классификации всех наблюдений и по долям ошибочной классификации
кросспроверочной выборки. Статистика лямбда Уилкса для общей дискриминантной
модели вычисляется как отношение детерминанта матрицы межгрупповой дисперсии к
детерминанту матрицы общей дисперсии. Доля ошибок классификации вычисляется как
число ошибок при классификации наблюдений, деленное на общее число наблюдений.
Щелкнем по ОК, появится диалог Результаты 1 на вкладке Быстрый. Если нажать на
кнопку Итоги поиска лучшего подмножества, то программа отобразит таблицу
подмножеств с последовательным уменьшением числа эффектов и качества
дискриминации. На рис.9.4.13 приведена таблица из первых 10 выделенных подмножеств
(общее число выделенных подмножеств составило 110).
Рис.9.4.13
Наилучшим является первое подмножество, ему соответствует минимальное значение
лямбды Уилкса, равное 0,0146. Эффект Лейкоциты в модели отсутствует. В ячейках
таблицы отображены значения лямбды-Уилкса, если из анализа исключен эффект, имя
которого указано в названии столбца. Поэтому, чем ближе значение к 1, тем более значим
эффект в модели. Из 1-й строки видно, что наиболее значимыми эффектами в первой
модели являются 1*2 (Пол*Форма течения), Т, Возраст, ЧСС и т.д. Малое значение
лямбды Уилкса, равное 0,0146, говорит о том, что первое подмножество соответствует
модели дискриминантного анализа высокой адекватности.
Итог лучших подмнож.; переменная: Состояние (Об мод. дискрим.анализ.sta)
Лямбда Уилкса и допуски
для эффектов в каждой подмодели
N подгруп.
Уил
Лям
Число
Эфф.
Возр . Т ЧСС ЧД К Na Креат. Лейк Ht Пол Форма
течен.
Форма
течен
1*2 1*2
1
2
3
4
5
6
7
8
9
10
0,01 11 0,56 0,62 0,56 0,54 0,49 0,51 0,51 0,53 0,55 0,32 0,33 0,47 0,63
0,01 11 0,55 0,55 0,57 0,49 0,50 0,48 0,53 0,49 0,52 0,31 0,33 0,48 0,56
0,01 10 0,56 0,57 0,57 0,50 0,51 0,52 0,54 0,55 0,32 0,34 0,48 0,64
0,02 11 0,60 0,55 0,55 0,54 0,50 0,51 0,53 0,54 0,52 0,31 0,33 0,46 0,56
0,02 10 0,62 0,57 0,55 0,55 0,51 0,57 0,60 0,55 0,32 0,33 0,47 0,63
0,02 11 0,62 0,62 0,55 0,57 0,50 0,55 0,48 0,58 0,51 0,38 0,37 0,51 0,56
0,02 10 0,62 0,63 0,57 0,57 0,51 0,55 0,52 0,55 0,38 0,37 0,51 0,66
0,02 11 0,55 0,63 0,55 0,48 0,52 0,50 0,52 0,50 0,51 0,31 0,33 0,46 0,57
0,02 11 0,54 0,60 0,61 0,56 0,47 0,48 0,52 0,52 0,51 0,36 0,41 0,47 0,60
0,02 10 0,56 0,65 0,56 0,49 0,52 0,54 0,56 0,55 0,32 0,33 0,47 0,65
Рис.9.4.13
Для более полного понимания модели дискриминации, целесообразно перейти на
вкладку Эффекты (рис.9.4.14) и щелкнуть по кнопке Члены плана.
Рис.9.4.14
Появится таблица Метки столбцов (рис.9.4.15), при помощи которой легко определить,
как закодированы категориальные переменные в общей дискриминационной модели. Для
кодирования категориальных предикторов в модуле использована сигма-ограниченная
параметризация, при которой каждый эффект представляется в виде совокупности
одноименных двухуровневых переменных. Например, так как предиктор Пол имеет два
уровня, то она и представляется с двумя уровнями: муж, жен. Предиктор Форма течения
состоит из 3 уровней, поэтому представляется в виде 2 одноименных двухуровневых
переменных: Форма течения (ОП, ИНП); Форма течения (СТНП, ИНП). При этом уровню
1 присваивается числовое значение 1, а уровню 2 – числовое значение 0. Например, если
рассматривается предиктор Пол, то альтернативным значениям предиктора муж, жен
будут присвоены соответственно значения 1 и 0, которые будут представлять
количественные различия между группами наблюдений (больных) муж, жен. Предиктор
Форма течения в строке 12 таблицы имеет 2 значения ОП, ИНП, которые соответственно
будут закодированы как 1 и 0. Этот же предиктор в строке 13 имеет 2 значения СТНП,
ИНП, которые также будут закодированы как 1 и 0.
Метки столбцов (Об мод. дискрим.анализ)
Метки для столбцов матрицы плана X
Метка
Столбец Перемен. Уровень
Перемен.
от
Уров.
Перемен. Уровень
Перемен.
от
Уров.
Св.член
Возраст
Т
ЧСС
ЧД
К
Na
Креатинин
Лейкоциты
Ht
Пол
Форма течения
Форма течения
Пол*Форма течения
Пол*Форма течения
1
2 Возраст
3 Т
4 ЧСС
5 ЧД
6 К
7 Na
8 Креатинин
9 Лейкоциты
10 Ht
11 Пол муж жен
12 Форма течения ОП ИНП
13 Форма течения СТ ПН ИНП
14 Пол муж жен Форма течения ОП ИНП
15 Пол муж жен Форма течения СТ ПН ИНП
Рис.9.4.15
Значения сложных эффектов Пол*Форма течения в строке 14 и 15 также кодируются
числами 1 и 0, которые являются результатами умножения соответствующих числовых
значений предикторов Пол, Форма течения. Так, для Пол*Форма течения в строке 14
возможны следующие 4 комбинации муж*ОП, муж*ИНП, жен*ОП, жен*ИНП, которые
в регрессионных моделях принимают следующие значения: 1·1 =1, 1·0 = 0, 0·1 = 0, 0·0 =
0. Для Пол* Форма течения в строке 15 возможны другие 4 комбинации муж* СТНП,
муж*ИНП, жен* СТНП, жен*ИНП, которые в регрессионных моделях принимают
значения: 1·1 =1, 1·0 = 0, 0·1 = 0, 0·0 = 0. При этом, сумма всех значений каждого
простого и сложного эффекта равна 1.
Для оценки статистической значимости эффектов в модели, следует воспользоваться
кнопкой Все эффекты, предварительно выбрав в рамке Критерии многомерные
критерии: Пиллая, Хотеллинга, Роя. Выберем, например Пиллая и щелкнем по кнопке Все
эффекты. Появится таблица результатов многомерного дискриминантного анализа со
статистиками лямбда Уилкса и Пилая (рис.9.4.16). По критериям лямбда Уилкса и Пиллая
значимыми будут эффекты предикторов ЧСС, ЧД, К (уровни значимости р критерия
Фишера (F) меньше, чем 0,05). Это означает, что данные предикторы будут иметь
наибольшее влияние на определение принадлежности больных к определенной группе по
состоянию – легкое, среднее, тяжелое. Эффекты, для которых уровни значимости р
критериев значительно больше, чем 0,05, из модели можно исключить. Обратите
внимание, что эффекты, соответствующие категориальным предикторам и их
взаимодействию, по обоим критериям статистически значимы в модели. Если в
классическом дискриминантном анализе DA практически все предикторы были
статистически значимыми в модели, то с включением в таблицу исходных данных
категориальных предикторов, взаимосвязанных с откликом Состояние, большая часть
количественных предикторов в процедуре дискриминации – Возраст, Т, ЧСС, ЧД, Na,
Креатинин, Лейкоциты, Ht стала избыточной.
Многомерные критерии значимости (Об мод. дискрим.анализ)
Сигма-ограниченная параметризация
Декомпозиция гипотезы
Эффект
Крит. Знач. F Эффект
сс
Ошибка
сс
p
Св.член
Возраст
Т
ЧСС
ЧД
К
Na
Креатинин
Лейкоциты
Ht
Пол
Форма течения
Пол*Форма течения
Уилкса 0,897249 2,00406 2 35 0,149960
Пиллая 0,102751 2,00406 2 35 0,149960
Уилкса 0,928741 1,34272 2 35 0,274254
Пиллая 0,071259 1,34272 2 35 0,274254
Уилкса 0,979497 0,36631 2 35 0,695914
Пиллая 0,020503 0,36631 2 35 0,695914
Уилкса 0,701203 7,45711 2 35 0,002006
Пиллая 0,298797 7,45711 2 35 0,002006
Уилкса 0,919308 1,53605 2 35 0,229388
Пиллая 0,080692 1,53605 2 35 0,229388
Уилкса 0,760260 5,51843 2 35 0,008257
Пиллая 0,239740 5,51843 2 35 0,008257
Уилкса 0,915921 1,60645 2 35 0,215038
Пиллая 0,084079 1,60645 2 35 0,215038
Уилкса 0,883845 2,29985 2 35 0,115235
Пиллая 0,116155 2,29985 2 35 0,115235
Уилкса 1,000000 0
Пиллая 0,000000
Уилкса 0,926054 1,39738 2 35 0,260697
Пиллая 0,073946 1,39738 2 35 0,260697
Уилкса 0,636875 9,97793 2 35 0,000372
Пиллая 0,363125 9,97793 2 35 0,000372
Уилкса 0,26346016,59419 4 70 0,000000
Пиллая 0,83704912,95574 4 72 0,000000
Уилкса 0,569846 5,68245 4 70 0,000509
Пиллая 0,448482 5,20309 4 72 0,000973
Рис.9.4.16
Если нажать на кнопку Коэффициенты, программа построит таблицу, содержащую
оценки параметров регрессионных моделей, их стандартизованные оценки, стандартные
ошибки, уровни значимости (p) и соответствующие статистики t-критерия для всех
значений отклика. Как было отмечено ранее, в общей многомерной линейной модели
значения отклика представляются векторами с кодами. Так состоянию легкое
соответствует вектор (1, 0, 0), состоянию среднее – вектор (0, 1, 0), состоянию тяжелое –
вектор (0, 0, 1). В методе ODA строятся общие линейные модели, позволяющие для
каждого объекта вычислить предсказанные координаты вектора. В соответствии с
предсказанными координатами вектора можно решать задачу классификации объектов. В
нашем случае, правило достаточно простое. Предположим, для некоторого больного
вычислены прогнозные значения координат вектора (x, y, z). Если наиболее близкое к 1
значение принимает x, то больного следует отнести к группе легкое, если наиболее близкое
к 1 значение принимает y, то больного следует отнести к группе среднее, если наиболее
близкое к 1 значение принимает z, то больного следует отнести к группе тяжелое.
Координаты векторов x, y, z могут принимать отрицательные значения, но их сумма
должна быть равна 1, т.е.,
x + y + z = 1.
На рис.9.4.17 приведен фрагмент сокращенной таблицы с оценками параметров –
коэффициентов линейной модели.
Оценки параметров (Об мод. дискрим.анализ)
Сигма-ограниченная параметризация
Эффект
Уровень
Эффект
Столбец Коммент.
(B/Z/P)
легкое
Парам.
легк
ое
p
среднее
Парам.
сред
нее
p
тяжелое
Парам.
тяжел
ое
p
Св.член
Возраст
Т
ЧСС
ЧД
К
Na
Креатинин
Лейкоциты
Ht
Пол
Форма течения
Форма течения
Пол*Форма течения
Пол*Форма течения
1 -1,084490,63 3,62708 0,15 -1,54260 0,26
2 -0,003010,54 -0,00172 0,75 0,00473 0,11
3 -0,021680,54 0,03272 0,40 -0,01105 0,61
4 0,009310,19 -0,02386 0,00 0,01455 0,00
5 -0,003890,68 -0,00623 0,55 0,01012 0,09
6 -0,093000,33 0,26662 0,01 -0,17363 0,00
7 0,009980,32 -0,01789 0,10 0,00791 0,19
8 0,000130,83 -0,00090 0,18 0,00077 0,04
9 Объедин
10 . 1,544570,10 -1,38107 0,17 -0,16350 0,77
муж 11 -0,102630,04 -0,01804 0,73 0,12067 0,00
ОП 12 0,616330,00 -0,58085 0,00 -0,03548 0,44
СТ ПН 13 -0,375690,00 0,43176 0,00 -0,05608 0,10
1 14 -0,007910,89 0,17807 0,01 -0,17016 0,00
2 15 0,067170,21 -0,08662 0,14 0,01945 0,54
Рис.9.4.17
В столбцах легкое Парам., среднее Парам., тяжелое Парам. приведены коэффициенты
уравнений для вычисления координат х1, х2, х3. Уровни значимости р показывают
статистическую значимость эффектов в модели. Эффекты статистически значимы в модели,
если р меньше 0,05. Оценки параметров – коэффициенты, также характеризуют силу и
характер вклада эффектов в определение принадлежности больных к той или иной группе.
Например, эффекты ЧСС, К являются определяющими, т.е. наиболее информативными
признаками для групп больных среднее, тяжелое (р < 0,05). При этом эффект ЧСС, для
группы среднее имеет преимущественно меньшие значения (параметр имеет отрицательный
знак), а для группы тяжелое – большие значения (параметр имеет положительный знак).
Эффект К наоборот, для группы среднее имеет преимущественно большие значения, а для
группы тяжелое – меньшие значения. Эффект Пол является определяющим признаком для
групп легкое, тяжелое; эффект Форма течения – для групп легкое и среднее; эффект
Пол*Форма течения – для групп среднее, тяжелое.
Общие линейные уравнения имеют вид:
x = –1,0845 – 0,003Возраст – 0,0217Т + 0,0093ЧСС – 0,0039ЧД – 0,093К + 0,01Na +
0,00013Креатинин + 1,5446Ht – 0,1026Пол + 0,6163Форма
течения1 – 0,3757Форма течения2 – 0,0079Пол*Форма течения1 + 0,0671Пол*Форма
течения2;
y = 3,62 – 0,002Возраст + 0,03Т – 0,02ЧСС – 0,006ЧД + 0,266К – 0,02Na –
0,0009Креатинин – 1,38Ht – 0,01Пол – 0,58Форма течения1 + 0,43Форма течения2 +
0,17Пол*Форма течения1 – 0,09Пол*Форма течения2;
z = – 1,54 + 0,004Возраст – 0,01Т + 0,01ЧСС + 0,01ЧД – 0,17К + 0,008Na +
0,0008Креатинин – 0,16Ht + 0,12Пол – 0,04Форма течения1 – 0,06Форма течения2 –
0,17Пол*Форма течения1 + 0,02Пол*Форма течения2.
В качестве примера вычислим предсказанные по моделям координаты вектора (х1, х2,
х3) для больного №1, подставив в каждое линейное уравнение значение показателей
больного: возраст – 21; пол – муж; форма течения – ОП; Т – 36,2; ЧСС – 76; ЧД – 20; К –
3,79; Na – 140,03; Креатинин – 64,67; Ht – 0,34:
x = –1,0845 – 0,003·21 – 0,0217·36,2 + 0,0093·76 – 0,0039·20 – 0,093·3,79 + 0,01·140,03 +
0,00013·64,67 + 1,5446·0,34 – 0,1026·1 + 0,6163·1 – 0,3757·0 – 0,0079·1 + 0,0671·0 =
0,7829
y = 3,627 – 0,0017·21 + 0,0327·36,2 – 0,0239·76 – 0,0062·20 + 0,2666·3,79 – 0,0179·140,03 –
0,0009·64,67 – 1,381·0,34 – 0,018·1 – 0,5809·1 + 0,4318·0 + 0,1781·1 – 0,0866·0 = 0,3899
z = – 1,5426 + 0,0047·21 – 0,011·36,2 + 0,0145·76 + 0,0101·20 – 0,1736·3,79 + 0,0079·140,03
+ 0,0008·64,67 – 0,1635·0,34 + 0,1207·1 – 0,0354·1 – 0,056·0 – 0,1701·1 + 0,0195·0 = –
0,1804
При этом, x + y + z = 0,9924, учитывая погрешности при округлении x + y + z = 1. Так как
x = 0,7829 имеет значение, наиболее близкое к 1, то больного следует отнести к группе
легкое. Классификация наблюдений (больных) посредством значений координат вектора,
позволяет увидеть пограничное состояние наблюдения (больного). Например, если
некоторому больному соответствует вектор с прогнозными значениями координат (0,5,
0,45, 0,05), то больной автоматически будет отнесен к группе легкое. Но при этом,
очевидно, что он находится в пограничном состоянии, близком к группе среднее.
Если нажать на кнопку Одномерные результаты, то откроется таблица (рис.9.4.18), в
которой приведены одномерные результаты стандартного дисперсионного анализа, по
которым также можно судить о роли эффектов в определении принадлежности больных к
той или иной группе. Чем больше значение статистики SS (сумма квадратов отклонений,
обусловленная различием средних значений между группами), тем больше вклад эффекта
в процедуру дискриминации.
Если уровень значимости р меньше, чем 0,05, то вклад эффекта статистически значим.
Так, наибольший статистически значимый вклад в процедуру дискриминации для группы
легкое у эффекта Форма течения (SS = 4,25), далее у эффекта Пол (SS = 0,25). Наибольший
статистически значимый вклад в процедуру дискриминации для группы среднее у эффекта
Форма течения (SS = 4,47), далее у эффектов ЧСС (SS = 0,628); Пол*Форма течения (SS =
0,533), К (SS = 0,428). Наибольший статистически значимый вклад в процедуру
дискриминации для группы тяжелое у эффекта Пол*Форма течения (SS = 0,468), далее у
эффектов Пол (SS = 0,354), ЧСС (SS = 0,234), К (SS = 0,182), Креатинин (SS = 0,087).
Обратите внимание, что одномерные результаты не противоречат оценкам параметров
регрессии, приведенным в таблице на рис.9.4.17.
Одномерные результаты для каждой ЗП (Об мод. дискрим.анализ)
Метод лучших подмножеств
Декомпозиция гипотезы
Эффект
Степени
Свободы
легкое
SS
легкое
p
среднее
SS
среднее
p
тяжелое
SS
тяжелое
p
Св.член
Возраст
Т
ЧСС
ЧД
К
Na
Креатинин
Лейкоциты
Ht
Пол
Форма течения
Пол*Форма течения
Ошиб.
Всего
1 0,01261 0,632554 0,14110 0,147386 0,02552 0,261246
1 0,02076 0,540047 0,00674 0,748038 0,05117 0,114808
1 0,02035 0,544031 0,04639 0,401495 0,00529 0,606567
1 0,09556 0,192772 0,62793 0,003519 0,23358 0,001435
1 0,00907 0,684973 0,02330 0,551181 0,06145 0,085029
1 0,05217 0,333292 0,42882 0,014064 0,18185 0,004315
1 0,05616 0,315708 0,18054 0,102629 0,03531 0,187817
1 0,00263 0,826885 0,12006 0,180469 0,08713 0,041973
0
1 0,15578 0,098777 0,12454 0,172733 0,00175 0,767048
1 0,25592 0,036515 0,00790 0,728042 0,35377 0,000145
2 4,25382 0,000000 4,47619 0,000000 0,12151 0,057206
2 0,09312 0,432356 0,53306 0,024056 0,46774 0,000105
36 1,95275 2,31690 0,70529
49 10,88000 11,52000 10,88000
Рис.9.4.18
Наиболее информативной по результатам дискриминантного анализа является вкладка
Функции (рис.19). Рассмотрим ее функциональные возможности.
Рис.9.4.19
Если нажать на кнопки Средние в классах для предикторов, Стандартные отклонения
в классах для предикторов, модуль отобразит таблицы результатов со средними
(рис.9.4.20) и стандартными отклонениями (рис.9.4.21) для эффектов каждого класса
отклика Состояние. Для эффектов категориальных предикторов статистики будут
вычислены в соответствии с принципами сигма-ограниченной параметризации. Например,
из представленных таблиц следует, что средний возраст больных в группах легкое,
среднее, тяжелое составляет соответственно 32, 39 и 59 лет. При этом наибольший
разброс возраста соответствует группе тяжелое, так как стандартное отклонение, равное
11,81, принимает наибольшее значение. Наименьший разброс возраста соответствует
группе среднее, так как стандартное отклонение, равное 5,82, принимает наименьшее
значение. Наибольшее среднее значение температуры соответствует группе тяжелое
(400
), наименьшее – группе легкое (37,850
), и т.д.
Средние в классах для предикторов (Об мод. дискрим.анализ)
Сигма-ограниченная параметризация
Эффект
Уровень
Эффект
Столбец легкое
p=,3200
среднее
p=,3600
тяжелое
p=,3200
Общее
Средн
Возраст
Т
ЧСС
ЧД
К
Na
Креатинин
Лейкоциты
Ht
Пол
Форма течения
Форма течения
Пол*Форма течения
Пол*Форма течения
1 32,0407 38,6365 59,2879 43,1343
2 37,8535 38,4266 40,0291 38,7560
3 82,4756 85,5945 99,7704 89,1327
4 23,9575 27,2452 40,3108 30,3741
5 3,8510 4,0476 3,9212 3,9442
6 137,3853 138,8128 134,4970 136,9750
7 89,5921 126,1867 266,2487 159,2963
8 6,6905 8,1046 9,2981 8,0340
9 0,4140 0,4509 0,4928 0,4525
1 10 -0,3750 -0,4444 1,0000 0,0400
1 11 0,8125 -0,0556 -0,7500 0,0000
2 12 0,0000 0,7222 -0,5000 0,1000
1 13 -0,1875 0,1667 -0,7500 -0,2400
2 14 0,0000 -0,2778 -0,5000 -0,2600
Рис.9.4.20
Стандартные отклонения в классах для предикторов (Об мод. дискрим.анализ)
Сигма-ограниченная параметризация
Эффект
Уровень
Эффект
Столбец легкое
N=16,00
среднее
N=18,00
тяжелое
N=16,00
Всего
N=50,00
Возраст
Т
ЧСС
ЧД
К
Na
Креатинин
Лейкоциты
Ht
Пол
Форма течения
Форма течения
Пол*Форма течения
Пол*Форма течения
1 8,74296 5,82221 11,8113 14,5151
2 1,47279 1,26293 0,7828 1,4967
3 6,10189 5,41053 4,7419 9,1901
4 5,33744 5,24055 2,8264 8,3652
5 0,41856 0,40999 0,5138 0,4469
6 5,94120 4,39060 3,2527 4,9023
7 57,01878 56,67459 100,2542 104,4546
8 1,58146 2,27756 3,5128 2,7305
9 0,06069 0,03174 0,0522 0,0577
1 10 0,95743 0,92178 0,0000 1,0093
1 11 0,54391 0,41618 0,4472 0,7825
2 12 0,36515 0,66911 0,8944 0,8391
1 13 0,98107 0,38348 0,4472 0,7440
2 14 0,36515 0,95828 0,8944 0,8033
Рис.9.4.21
Если нажать на кнопку Хи-квадрат критерий для удаленных корней, программа
отобразит таблицу (рис.9.4.22) с пошаговым критерием для канонических корней
(дискриминантных функций). Первая строка содержит результаты оценки критерия
значимости для всех корней. Во второй строке приведены оценки значимости корней,
оставшихся после удаления первого корня, и т.д. Таблица позволяет определить
необходимое для дискриминантного анализа количество дискриминантных функций. В
столбцах таблицы указано число удаленных корней, собственные значения, канонические
корреляции, значения лямбды Уилкса, критерия χ2
и соответствующие им уровни
значимости р. Из данных таблицы следует, что оба канонических корня (обе
дискриминантные функции) статистически значимы, так как уровни значимости р
критерия Хи-квадрат в обеих строках таблицы меньше, чем 0,05.
Критерии хи-квадрат с последовательно удаленными корнями (Об мод. дискрим.анализ)
Сигма-ограниченная параметризация
Удал.
Собст-
знач.
Канон.
R
Уилкса
Лямбда
Хи-квад. сс p-ур.
0
1
14,839740,9679190,014629 173,216026,00000 0,000000
3,31570 0,8765200,231712 59,9526 12,00000 0,000000
Рис.9.4.22
Параметры дискриминантных функций доступны, если воспользоваться кнопками
Стандартизованные коэффициенты, или Исходные коэффициенты. Дискриминантные
функции представляют собою общие линейные модели, так как содержат уровни
категориальных эффектов. Стандартизованные коэффициенты (k) (рис.9.4.23)
вычисляются по стандартизованным (нормированным) исходным данным, поэтому
принадлежат к одной и то же абсолютной шкале измерений.
Стандартизованные коэф. канонической дискриминантной функции (Об мод
Сигма-ограниченная параметризация
Эффект
Уровень
Эффект
Столбец Функция
1
Функция
2
Св.член
Возраст
Т
ЧСС
ЧД
К
Na
Креатинин
Лейкоциты
Ht
Пол
Форма течения
Форма течения
Пол*Форма течения
Пол*Форма течения
Собс.знач.
Кум.Проп.
1 0,00000 0,00000
2 -0,36911 -0,01835
3 0,08214 -0,18727
4 -0,58831 0,52768
5 -0,39573 0,04574
6 0,58585 -0,47345
7 -0,25100 0,37202
8 -0,44557 0,23037
9 0,00000 0,00000
10 0,13819 0,39631
муж 11 -0,82915 -0,15112
ОП 12 0,41529 1,55723
СТ ПН 13 0,05876 -1,53325
1 14 0,88675 -0,37303
2 15 -0,07249 0,34415
14,83974 3,31570
0,81737 1,00000
Рис.9.4.23
Из таблицы на рис.9.4.23 следует, что наибольший вклад в дискриминантную функцию
1 вносят эффекты Пол*Форма течения (k = 0,89), далее, Пол (k = – 0,82), ЧСС (k = – 0,58),
К (k = 0,58), и т.д. При этом, если эффект Пол*Форма течения в строке 14 принимает
значение муж*ОП, то значение дискриминантной функции увеличивается, при всех
других комбинациях – уменьшается; если эффект Пол принимает значение муж, то
значение дискриминантной функции уменьшается; если эффект ЧСС возрастает, то
значение дискриминантной функции увеличивается; если эффект К возрастает, то
значение дискриминантной функции также возрастает и т.д. Сравнивая их между собою
(больше, меньше) можно определить величины и направления вкладов соответствующих
эффектов в дискриминантную функцию. В таблице приведены собственные значения для
каждой дискриминантной функции и кумулятивная доля объясненной дисперсии
(Кумулятивный процент), накопленной каждой функцией. Из таблицы следует, что
дискриминантная функция 1 ответственна за 81,7% объясненной дисперсии, т. е. 81,7%
всей дискриминирующей мощности приходится на эту функцию. На дискриминантную
функцию 2 приходится всего 100% – 81,7% = 8,3%. Поэтому Функция 1 значительно более
важна для классификации больных, чем Функция 2.
Исходные коэффициенты могут быть использованы для вычисления значений
дискриминантной функции для каждого больного. В соответствии со значениями
коэффициентов в таблице на рис.9.4.24 общие модели дискриминантных функций имеют
вид:
Функция 1 = 13,62 – 0,04Возраст + 0,07Т – 0,11ЧСС – 0,09ЧД + 1,31К – 0,05Na –
0,01Креатинин + 2,81Ht – 1,07Пол + 0,88Форма течения1 + 0,09Форма течения2 +
1,36Пол*Форма течения1 – 0,09Пол*Форма течения2
Функция 2 = – 13,62 – 0,002Возраст – 0,15Т + 0,1ЧСС + 0,01ЧД – 1,06К + 0,08Na +
0,003Креатинин + 8,07Ht – 0,19Пол + 3,31Форма течения1– 2,26Форма течени2–
0,57Пол*Форма течения1+ 0,43Пол*Форма течения2
Исходные коэффициенты канонической дискриминантной функции (Об мод
Сигма-ограниченная параметризация
Эффект
Уровень
Эффект
Столбец Функция
1
Функция
2
Св.член
Возраст
Т
ЧСС
ЧД
К
Na
Креатинин
Лейкоциты
Ht
Пол
Форма течения
Форма течения
Пол*Форма течения
Пол*Форма течения
Собс.знач.
Кум.Проп.
1 13,62439 -13,5897
2 -0,04097 -0,0020
3 0,06787 -0,1547
4 -0,10805 0,0969
5 -0,08520 0,0098
6 1,30684 -1,0561
7 -0,05399 0,0800
8 -0,00606 0,0031
9 0,00000 0,0000
10 2,81444 8,0716
муж 11 -1,07054 -0,1951
ОП 12 0,88361 3,3133
СТ ПН 13 0,08665 -2,2611
1 14 1,36149 -0,5727
2 15 -0,09133 0,4336
14,83974 3,3157
0,81737 1,0000
Рис.9.4.24
Подставляя в выписанные уравнения значения показателей произвольного
больного, легко посчитать значения дискриминантных функций. При этом следует
учитывать значения категориальных предикторов в соответствии с сигма-ограниченной
параметризацией. По-сути, вычисление двух дискриминантных функций означает перенос
больных из пространства размерности 11 (каждый больной характеризуется 11
параметрами, поэтому является точкой в пространстве размерности 11) в пространство
размерности 2, т.е. на плоскость, максимально сохраняя при этом сходство (различие)
между группами больных по отклику Состояние (легкое, среднее, тяжелое).
Если нажать на кнопку Коэффициенты факторной структуры, модуль отобразит
объединенные межклассовые коэффициенты корреляции для эффектов с обеими
дискриминантными функциями (рис.9.4.25). Коэффициенты корреляции (r) оценивают
степень и направление взаимосвязи эффектов и дискриминантных функций. Так
наибольшая взаимосвязь с дискриминантной функцией 1 у эффекта ЧД (r = – 0,39), далее
ЧСС (r = – 0,36), Форма течения ОП (r = 0,31) и т.д. Наибольшая взаимосвязь с
дискриминантной функцией 2 у эффекта Форма течения ОП (r = 0,37), Форма течения
СТПН (r = –0,28) и т.д. Положительный знак означает, что с увеличением эффекта
значение дискриминантной функции возрастает, отрицательный знак – наоборот, значение
дискриминантной функции убывает. Но это справедливо для статистически значимых
корреляций, к сожалению, в модуле не предусмотрена оценка статистической значимости
коэффициентов корреляции.
Коэффициенты факторной структуры (Об мод. дискрим.анализ)
Сигма-ограниченная параметризация
Эффект
Уровень
Эффект
Столбец Функция
1
Функция
2
Св.член
Возраст
Т
ЧСС
ЧД
К
Na
Креатинин
Лейкоциты
Ht
Пол
Форма течения
Форма течения
Пол*Форма течения
Пол*Форма течения
1 0,000000 0,000000
2 -0,335722 -0,100018
3 -0,197466 -0,068896
4 -0,363355 -0,056813
5 -0,398762 -0,080904
6 0,004550 -0,103715
7 0,094012 -0,091976
8 -0,271298 -0,058818
9 -0,134183 -0,143051
10 -0,158355 -0,142138
муж 11 -0,225522 0,069053
ОП 12 0,312017 0,366312
СТ ПН 13 0,149942 -0,281512
1 14 0,137095 -0,156624
2 15 0,059121 0,069409
Рис.9.4.25
Для определения групп больных, при идентификации которых дискриминантные
функции вносят наибольший вклад, следует воспользоваться кнопкой Средние канонических
переменных. Программа построит таблицу (рис.9.4.26) со средними значениями
дискриминантных функций для каждой группы. Из таблицы видно, что наибольший вклад
в классификацию больных группы тяжелое вносит дискриминантная функция 1, так как
среднее принимает наибольшее по модулю значение (5,41). Наибольший вклад в
классификацию больных групп легкое, среднее вносит дискриминантная функция 2, так
как средние принимают наибольшие по модулю значения (2,13). Но надо при этом
помнить, что на дискриминантную функция 2 приходится всего лишь 8,3%
дискриминирующей мощности.
Средние в классах для канон. переменных (Об мод. дискрим.анализ)
Сигма-ограниченная параметризация
Корень легкое среднее тяжелое
1
2
3,030526 2,12139 -5,41709
2,138007 -2,12964 0,25784
Рис.9.4.26
Классификация (дискриминация) больных по группам отклика Состояние будет тем
более успешной, чем больше сходство между больными внутри групп и выше различие
между группами. В методах классификационного анализа сходство оценивается
посредством оценки расстояний между объектами как точками многомерного
пространства. Одним из способов измерения расстояний в многомерном пространстве
является расстояние Махаланобиса, которое подобно евклидово расстоянию, но
дополнительно учитывается корреляция между переменными. Если нажать на кнопку
Квадраты расстояний Махаланобиса, то появится симметричная таблица, изображенная
на рис.9.4.27. Чем меньше квадрат расстояния между группами, тем больше сходство
между ними, и наоборот, чем больше квадрат расстояния между группами, тем меньше
сходство между ними. Из таблицы видно, что сходство между группами легкое и среднее
значительно выше, чем между группами легкое и тяжелое, среднее и тяжелое.
Квадраты рас. Махаланобиса (Об мод. дискрим.анализ)
Сигма-ограниченная параметризация
Класс легкое среднее тяжелое
легкое
среднее
тяжелое
0,00000 19,03939 74,89716
19,03939 0,00000 62,52866
74,89716 62,52866 0,00000
Рис.9.4.27
Статистическую значимость расстояний можно оценить при помощи кнопки Критерии
значимости расстояний. Из таблицы на рис.28 следует, что все расстояния статистически
значимы, так как уровни значимости р критерия Фишера (F-критерия) меньше, чем 0,05.
Критерии значимости квадратов расстояний Махаланобиса
F-крит. с 13 и 35, степенями свободы
Сигма-ограниченная параметризация
Класс
легкое
F
легкое
p
среднее
F
среднее
p
тяжелое
F
тяжелое
p
легкое
среднее
тяжелое
9,23833 0,000000 34,32276 0,000000
9,23833 0,000000 30,34028 0,000000
34,322760,000000 30,34028 0,000000
Рис.9.4.28
Об адекватности модели дискриминации можно судить по количеству верно
классифицированных наблюдений в соответствии с построенной моделью
классификации. Если нажать на кнопку Матрица классификации, то будет построена
таблица (рис.9.4.29), которая содержит информацию о количестве и проценте корректно
классифицированных больных в каждой группе. Строки матрицы – исходные
(наблюдаемые) группы больных, столбцы – предсказанные моделью группы больных.
Матрица классификации (Об мод. дискрим.анализ)
Строки: Наблюдаемые
Столбцы: Предсказанные
Класс
Доля
Правил.
легкое
p=,3200
среднее
p=,3600
тяжелое
p=,3200
легкое
среднее
тяжелое
Всего
87,5000 14,00000 2,00000 0,00000
94,4444 1,00000 17,00000 0,00000
100,0000 0,00000 0,00000 16,00000
94,0000 15,00000 19,00000 16,00000
Рис.9.4.29
Из таблицы следует, что 14 больных из группы легкое моделью дискриминации
отнесены к группе легкое, 2 больных ошибочно отнесены к группе среднее; 1 больной из
группы среднее ошибочно отнесен к группе легкое, 17 больных из группы среднее
правильно отнесены к группе среднее; все 16 больных из группы тяжелое
классифицированы правильно. Общий процент правильно классифицированных больных
достаточно высок и составляет 94%.
Конечная цель дискриминантного анализа – построить адекватную математическую
модель, которая позволит по значению независимых предикторов (признаков),
характеризующих объект, классифицировать его, т.е. определить принадлежность к
одному из классов зависимой переменной – отклика. Все ранее приведенные результаты
анализа говорят о том, что построена достаточно адекватная модель классификации
больных по тяжести состояния. Если щелкнуть по кнопке Коэффициенты функции
классификации, то появится таблица с коэффициентами функций классификаций для
каждой группы больных (рис.9.4.30). Функции классификации – это общие линейные
модели, которые могут быть использованы в качестве альтернативного метода
классификации наблюдений. Наблюдение (больных) следует отнести к той группе, для
которой классификационная функция имеет наибольшее значение.
Функции классификации для Состояние (Об мод. дискрим.анализ)
Сигма-ограниченная параметризация
Эффект
Уровень
Эффект
Столбец легкое
p=,3200
среднее
p=,3600
тяжелое
p=,3200
Св.член
Возраст
Т
ЧСС
ЧД
К
Na
Креатинин
Лейкоциты
Ht
Пол
Форма течения
Форма течения
Пол*Форма течения
Пол*Форма течения
1 -2344,21 -2296,12 -2441,58
2 -0,50 -0,46 -0,15
3 36,52 37,12 36,24
4 7,31 6,99 8,04
5 -0,38 -0,35 0,32
6 1,60 4,92 -7,45
7 17,33 17,04 17,64
8 0,05 0,04 0,10
9 0,00 0,00 0,00
10 598,30 561,30 559,35
муж 11 -5,45 -3,65 3,96
ОП 12 99,10 84,15 85,40
СТ ПН 13 -62,22 -52,65 -58,70
1 14 -21,79 -20,58 -32,21
2 15 26,31 24,54 26,27
Рис.9.4.30
Обозначим функции классификации для групп легкое, среднее, тяжелое как ФКл,
ФКс, ФКт, тогда общие линейные уравнения примут вид:
ФКл = –2344,21 – 0,5Возраст + 36,52Т + 7,31ЧСС – 0,38ЧД + 1,6К + 17,33Na +
0,05Креатинин + 598,3Ht – 5,45Пол + 99,1Форма течения1 – 62,22Форма течения2 –
21,79Пол*Форма течения1 + 26,31Пол*Форма течения2;
ФКс = –2296,12 – 0,46Возраст + 37,12Т + 6,99ЧСС – 0,35ЧД + 4,92К + 17,04Na +
0,04Креатинин + 561,3Ht – 3,65Пол + 84,15Форма течения1 – 52,65Форма течения2 –
20,58Пол*Форма течения1 + 24,54Пол*Форма течения2;
ФКт = –2441,58 – 0,15Возраст + 36,24Т + 8,04ЧСС + 0,32ЧД – 7,45К + 17,64Na +
0,1Креатинин + 559,35Ht + 3,96Пол + 85,4Форма течения1 – 58,7Форма течения2 –
32,21Пол*Форма течения1 + 26,27Пол*Форма течения2.
В качестве примера при помощи выписанных классификационных функций определим
прогнозируемую группу по состоянию здоровья для больного № 1 из таблицы на
рис.9.4.1. Подставим в каждое линейное уравнение значение показателей данного
больного: возраст – 21; пол – муж; форма течения – ОП; Т – 36,2; ЧСС – 76; ЧД – 20; К –
3,79; Na – 140,03; Креатинин – 64,67; Ht – 0,34 и вычислим значения ФКл, ФКс, ФКт:
ФКл = –2344,21 – 0,5·21 + 36,52·36,2 + 7,31·76 – 0,38·20 + 1,6·3,79 + 17,33·140,03 +
0,05·64,67 + 598,3·0,34 – 5,45·1 + 99,1·1 – 62,22·0 – 21,79·1 + 26,31·0 = 2226,77,
ФКс = –2396,12 – 0,46·21 + 37,12·36,2 + 6,99·76 – 0,35·20 + 4,92·3,79 + 17,04·140,03 +
0,04·64,67 + 561,3·0,34 – 3,65·1 + 84,15·1 – 52,65·0 – 20,58·1 + 24,54·0 = 2120,31,
ФКт = –2441,58 – 0,15·21 + 36,24·36,2 + 8,04·76 – 0,32·20 + 7,45·3,79 + 17,64·140,03 +
0,1·64,67 + 559,35·0,34 – 3,96·1 + 85,4·1 – 58,7·0 – 32,21·1 + 26,27·0 = 2216,03.
Наибольшее значение у классификационной функции ФКл, следовательно, больного
следует отнести к группе легкое. Таким образом, прогнозируемое значение отклика совпало
с исходным значением – легкое.
Дополнительным признаком адекватности модели дискриминации является
распределение остатков. Для адекватной модели остатки должны быть случайными
числами со средним значением, равным 0 и распределением близким к нормальному
закону. Если перейти на вкладку Остатки регрессии (рис.9.4.31), щелкнуть по кнопке
Остатки, программа построит гистограммы остатков для классов (групп больных),
указанных при помощи выпадающего меню Классы. Как видно из рис.9.4.32 – 9.4.34
условия адекватности модели выполняются, так как гистограммы напоминают
нормальное распределение.
Рис.9.4.31
Гистограмма исходных остатков
Зависимая переменная: легкое
(Анализ. выборка)
-1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8
X <= Граница категории
0
5
10
15
20
25
30
Кол-вонабл.
Рис.9.4.32
Гистограмма исходных остатков
Зависимая переменная: среднее
(Анализ. выборка)
-1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0
X <= Граница категории
0
2
4
6
8
10
12
14
16
18
20
22
Кол-вонабл.
Рис.9.4.33
Гистограмма исходных остатков
Зависимая переменная: тяжелое
(Анализ. выборка)
-0,5 -0,4 -0,3 -0,2 -0,1 0,0 0,1 0,2 0,3 0,4
X <= Граница категории
0
2
4
6
8
10
12
14
16
18
Кол-вонабл.
Рис.9.4.34
В модуле GDA классификация наблюдений осуществляется посредством общих
линейных моделей, параметры которых отображены в таблице Оценки параметров,
представленной на рис.9.4.17. Если перейти на вкладку Остатки регрессии (рис.9.4.31) и
щелкнуть по кнопке Предсказанные значения и остатки, то программа для каждого
больного построит таблицу с наблюдаемыми и предсказанными значениями координат
вектора (x, y, z) (рис.9.4.35). Остатки вычисляются как разность между 1 и предсказанным
значением координаты.
Как было отмечено, двое больных из группы легкое ошибочно отнесены к группе
среднее; один больной из группы среднее ошибочно отнесен к группе легкое (рис.9.4.29).
Найти такие наблюдения можно посредством таблицы на рис.9.4.35. Ячейки таблицы,
соответствующие выявленным больным выделены полужирным начертанием. Это
больной № 12 из группы легкое (1, 0, 0), который ошибочно отнесен к группе среднее
(0,44; 0,45; 0,11), так как вторая координата имеет значение наиболее близкое к 1, чем
первая. Больной № 25 из группы легкое (1; 0; 0) ошибочно отнесен к группе среднее (0,38;
0,55; 0,07) по этой же причине. Больной № 24 из группы среднее (0; 1; 0), ошибочно
отнесен к группе легкое (0,78; 0,21; 0,01) так как первая координата имеет значение
наиболее близкое к 1, чем вторая.
Если выбрана опция Таблица для каждой зависимой переменной, то модуль
построит таблицы идентичные таблице на рис.9.4.35, но отдельно для каждой группы
больных.
Если выбрана опция Дополнительные статистики, то вместе с предсказанными,
наблюдаемыми и остаточными значениями STATISTICA вычислит стандартные 95%
предсказанные интервалы, 95% доверительные интервалы, стандартизованные
предсказанные и т.д. В модуле GDA, как и в модуле DA предусмотрено автоматическое
выделение ошибочно классифицированных наблюдений посредством вычисления
апостериорных вероятностей. Если перейти на вкладку Наблюдения, в рамке Статистики
наблюдений выделить опцию Апостериорные вероятности и нажать на кнопку Показать
статистики (рис.9.4.36), появится таблица с апостериорными вероятностями, в которой
звездочками помечены номера неправильно классифицированных наблюдений (больных)
(рис.9.4.37).
Наблюдаемые, предсказанные и значения остатков (Об мод. дискрим.анализ)
Сигма-ограниченная параметризация
(Анализ. выборка)
Номер набл.
легкое
Наблюд.
легкое
Предск.
легкое
Остатки
среднее
Наблюд.
среднее
Предск.
среднее
Остатки
тяжелое
Наблюд.
тяжелое
Предск.
тяжелое
Остатки
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
1,00 0,78 0,22 0,00 0,40 -0,40 0,00 -0,18 0,18
0,00 0,07 -0,07 0,00 -0,21 0,21 1,00 1,14 -0,14
1,00 1,05 -0,05 0,00 0,02 -0,02 0,00 -0,06 0,06
1,00 0,95 0,05 0,00 -0,11 0,11 0,00 0,16 -0,16
0,00 0,13 -0,13 1,00 0,90 0,10 0,00 -0,03 0,03
1,00 1,05 -0,05 0,00 -0,16 0,16 0,00 0,10 -0,10
0,00 0,07 -0,07 0,00 -0,07 0,07 1,00 0,99 0,01
0,00 0,09 -0,09 0,00 0,05 -0,05 1,00 0,86 0,14
0,00 0,11 -0,11 1,00 0,85 0,15 0,00 0,03 -0,03
0,00 0,26 -0,26 1,00 0,79 0,21 0,00 -0,06 0,06
1,00 0,81 0,19 0,00 0,14 -0,14 0,00 0,05 -0,05
1,00 0,44 0,55 0,00 0,45 -0,45 0,00 0,11 -0,11
0,00 -0,16 0,16 0,00 0,05 -0,05 1,00 1,11 -0,11
0,00 0,09 -0,09 1,00 0,90 0,10 0,00 0,01 -0,01
1,00 0,98 0,02 0,00 0,00 -0,00 0,00 0,02 -0,02
0,00 0,06 -0,06 0,00 0,19 -0,19 1,00 0,76 0,24
0,00 0,09 -0,09 0,00 0,11 -0,11 1,00 0,80 0,20
0,00 0,06 -0,06 1,00 0,70 0,30 0,00 0,24 -0,24
0,00 0,13 -0,13 0,00 -0,05 0,05 1,00 0,92 0,08
0,00 -0,01 0,01 1,00 1,26 -0,26 0,00 -0,25 0,25
1,00 1,01 -0,01 0,00 0,10 -0,10 0,00 -0,12 0,12
0,00 0,10 -0,10 0,00 -0,21 0,21 1,00 1,12 -0,12
1,00 0,95 0,05 0,00 -0,05 0,05 0,00 0,11 -0,11
0,00 0,78 -0,78 1,00 0,21 0,79 0,00 0,01 -0,01
1,00 0,38 0,62 0,00 0,55 -0,55 0,00 0,07 -0,07
0,00 0,05 -0,05 1,00 0,94 0,06 0,00 0,00 -0,00
0,00 -0,01 0,01 1,00 1,05 -0,05 0,00 -0,04 0,04
0,00 0,07 -0,07 1,00 0,94 0,06 0,00 -0,00 0,00
0,00 0,02 -0,02 0,00 0,29 -0,29 1,00 0,69 0,31
1,00 0,89 0,11 0,00 0,13 -0,13 0,00 -0,02 0,02
0,00 -0,07 0,07 0,00 -0,07 0,07 1,00 1,13 -0,13
0,00 0,06 -0,06 0,00 -0,17 0,17 1,00 1,11 -0,11
0,00 -0,07 0,07 0,00 0,19 -0,19 1,00 0,88 0,12
0,00 0,04 -0,04 1,00 0,95 0,05 0,00 0,02 -0,02
0,00 -0,14 0,14 1,00 0,94 0,06 0,00 0,19 -0,19
1,00 1,11 -0,11 0,00 0,01 -0,01 0,00 -0,12 0,12
0,00 -0,11 0,11 1,00 0,86 0,14 0,00 0,25 -0,25
1,00 0,69 0,31 0,00 0,31 -0,31 0,00 -0,01 0,01
0,00 0,05 -0,05 1,00 0,87 0,13 0,00 0,08 -0,08
1,00 1,15 -0,15 0,00 -0,20 0,20 0,00 0,05 -0,05
0,00 0,00 -0,00 1,00 0,95 0,05 0,00 0,05 -0,05
0,00 -0,18 0,18 0,00 0,23 -0,23 1,00 0,96 0,04
0,00 -0,04 0,04 0,00 0,11 -0,11 1,00 0,93 0,07
0,00 0,10 -0,10 1,00 0,84 0,16 0,00 0,06 -0,06
0,00 0,01 -0,01 1,00 0,97 0,03 0,00 0,02 -0,02
1,00 0,79 0,21 0,00 0,23 -0,23 0,00 -0,01 0,01
0,00 0,01 -0,01 0,00 0,08 -0,08 1,00 0,91 0,09
1,00 1,02 -0,02 0,00 -0,04 0,04 0,00 0,02 -0,02
0,00 -0,01 0,01 0,00 0,02 -0,02 1,00 0,99 0,01
0,00 0,29 -0,29 1,00 0,76 0,24 0,00 -0,05 0,05
Рис.9.4.35
Рис.9.4.36
Апостериорные вероятности классификации
Неверные классификации отмечены символом *
Анализируемая выборка N = 50
Номер набл.
Наблюдае
Классиф.
легкое
вер.
среднее
вер.
тяжелое
вер.
1
2
3
4
5
6
7
8
9
10
11
*12
13
14
15
16
17
18
19
20
21
22
23
*24
*25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
легкое 0,997328 0,002672 0,000000
тяжелое 0,000000 0,000000 1,000000
легкое 0,999998 0,000002 0,000000
легкое 0,999994 0,000006 0,000000
среднее 0,000104 0,999896 0,000000
легкое 0,999999 0,000001 0,000000
тяжелое 0,000000 0,000000 1,000000
тяжелое 0,000000 0,000000 1,000000
среднее 0,000097 0,999903 0,000000
среднее 0,002259 0,997741 0,000000
легкое 0,999681 0,000319 0,000000
легкое 0,337120 0,662880 0,000000
тяжелое 0,000000 0,000000 1,000000
среднее 0,000046 0,999954 0,000000
легкое 0,999994 0,000006 0,000000
тяжелое 0,000000 0,000000 1,000000
тяжелое 0,000000 0,000000 1,000000
среднее 0,000092 0,999908 0,000000
тяжелое 0,000000 0,000000 1,000000
среднее 0,000001 0,999999 0,000000
легкое 0,999994 0,000006 0,000000
тяжелое 0,000000 0,000000 1,000000
легкое 0,999991 0,000009 0,000000
среднее 0,999055 0,000945 0,000000
легкое 0,080690 0,919310 0,000000
среднее 0,000018 0,999982 0,000000
среднее 0,000003 0,999997 0,000000
среднее 0,000024 0,999976 0,000000
тяжелое 0,000000 0,000002 0,999998
легкое 0,999926 0,000074 0,000000
тяжелое 0,000000 0,000000 1,000000
тяжелое 0,000000 0,000000 1,000000
тяжелое 0,000000 0,000000 1,000000
среднее 0,000013 0,999987 0,000000
среднее 0,000001 0,999999 0,000000
легкое 0,999999 0,000001 0,000000
среднее 0,000001 0,999998 0,000000
легкое 0,991727 0,008273 0,000000
среднее 0,000027 0,999973 0,000000
легкое 1,000000 0,000000 0,000000
среднее 0,000007 0,999993 0,000000
тяжелое 0,000000 0,000000 1,000000
тяжелое 0,000000 0,000000 1,000000
среднее 0,000082 0,999918 0,000000
среднее 0,000007 0,999993 0,000000
легкое 0,999094 0,000906 0,000000
тяжелое 0,000000 0,000000 1,000000
легкое 0,999997 0,000003 0,000000
тяжелое 0,000000 0,000000 1,000000
среднее 0,004537 0,995463 0,000000
Рис.9.4.37
Больного следует отнести к той группе, соответствующая апостериорная
вероятность для которой максимальна. Если дополнительно выделить опции Квадраты
расстояний Махаланобиса, Классификация, Канонические значения, то в таблице
дополнительно для каждого больного будут отображены:
– квадраты расстояний Махаланобиса от больного до центра каждой из групп
(больного следует отнести к той группе, расстояние до центра которой минимально);
– максимальная вероятность, 2-я максимальная вероятность, 3-я максимальная
вероятность принадлежности больного к группам;
– значения дискриминантных функций (канонические значения).
Как и в модуле DA, в модуле GDA можно провести классификацию наблюдений, для
которых класс не определен. Для этого надо закрыть все окна модуля GDA, добавить в
таблицу данных новые строки, оставив ячейку категориальной переменной пустой и
выключить опцию кросс-проверки. В качестве примера, добавим в таблицу данных новую
51 строку, и наберем данные нового пациента, состояние которого следует
идентифицировать (рис.9.4.38).
1
Возраст
2
Т
3
ЧСС
4
ЧД
5
К
6
Na
7
Креати
нин
8
Лейкоц
иты
9
Ht
10
Пол
11
Форма
течения
12
Состояние
40
41
42
43
44
45
46
47
48
49
50
51
26 36,6 82 18 3,44 140,13 50,96 5,92 0,39 жен ОП легкое
44 37,9 94 29 4,22 130,40 143,16 9,64 0,45 жен СТ ПН среднее
65 39,9 105 39 4,84 131,45 273,46 6,01 0,41 муж ИНП тяжелое
49 39,3 96 44 3,95 131,52 234,29 12,48 0,48 муж ИНП тяжелое
46 37,8 80 27 3,57 138,22 206,94 6,06 0,50 жен СТ ПН среднее
30 36,4 77 17 3,57 139,00 41,82 5,90 0,44 муж СТ ПН среднее
42 40,3 88 27 4,40 129,30 160,31 3,66 0,49 муж ОП легкое
54 39,9 95 40 3,70 138,28 144,38 3,85 0,48 муж ИНП тяжелое
27 38,3 77 29 3,73 141,05 44,72 6,10 0,40 жен ОП легкое
49 40,7 100 39 3,43 129,07 243,37 12,66 0,47 муж ИНП тяжелое
34 39,9 95 23 4,41 133,60 157,95 14,11 0,45 жен ИНП среднее
25 37,0 80 25 3,50 145,00 60,00 6,00 0,45 жен ИНП
Рис.9.4.38
Запустим модуль GDA, выделив опцию построения модели Лучшие подмножества,
далее на вкладке Наблюдения диалога Результаты (рис.9.4.36) надо в рамке Выборка для
построения остатков выделить опцию Предсказанные, в рамке Статистика
наблюдений – интересующие нас статистики, в том числе Апостериорные вероятности,
или квадраты расстояний Махаланобиса. Если нажать на кнопку Показать статистики,
появится таблица (рис.9.4.39) со значениями обозначенных статистик для нового больного №
51.
Статистики для каждого наблюдения (Об мод. дискрим.анализ)
Предск. выборка N = 1
Номер набл.
легкое
Рас.Махл
среднее
Рас.Махл
тяжелое
Рас.Махл
легкое
вер.
среднее
вер.
тяжелое
вер.
Макс.
Вероят.
2-ая
Макс.
3-я
Макс.
51 29,61408 25,56545 99,589660,105072 0,894928 0,000000 среднеелегкое тяжелое
Рис.9.4.39
Из таблицы видно, что минимальное значение квадрата расстояния Махаланобиса
(25,56), максимальное значение апостериорной вероятности (0,89), максимальная
вероятность соответствуют группе среднее, следовательно, состояние больного
соответствует группе среднее. Обратите внимание, что апостериорная вероятность для
группы легкое (0,11), больше, чем вероятность для группы тяжелое (0,00), а расстояние
Махаланобиса наоборот, к группе легкое (29,61) значительно меньше, чем к группе
тяжелое (99,58). Это означает, что больной, которого в соответствии с произведенной
классификацией следует отнести к группе среднее, по своему состоянию ближе к группе
легкое, чем тяжелое.
Если перейти на вкладку Профили, то откроется диалог (рис.9.4.40), в котором можно
просмотреть значения функций желательности и графики профилей для всех классов –
значений отклика.
Рис.9.4.40
Профили – это графики зависимостей апостериорных вероятностей принадлежности
наблюдений к классам зависимой переменной – отклика от равноотстоящих значений
предиктора при фиксированных на определенном уровне текущих значений других
предикторов. Для построения профилей интервалы изменения предикторов разбиваются
на диапазоны и, для вычисления апостериорных вероятностей рассматриваются границы
диапазонов, которые называются уровнями факторов. Число уровней фактора равно
количеству диапазонов плюс 1. При помощи кнопки Классы можно выбрать класс
зависимой переменной (группу больных) для построения профиля. Установить параметры
анализа можно, воспользовавшись кнопкой Опции. Если в поле Параметры профилей
отклика открывшегося окна установить флажок Показывать таблицы с графиками
(рис.9.4.41), то будут построены таблицы и графики, в противном случае – только
графики. В нижней рамке окна Метод подгонки можно выбрать метод подгонки
поверхности к значениям желательности.
Рис.9.4.41
В рамке Значения факторов окна на рис.9.4.40 можно задать фиксированные текущие
значения предикторов. Опция Среднее означает, что текущие значения предикторов будут
равны их средним значениям. Опция Пользователя предполагает, что текущие значения
предикторов могут быть заданы пользователем, опция Оптимальные означает, что
текущий уровень каждого предиктора равен значению, оптимизирующему желательность
отклика. При выборе опции Оптимальные активной станет рамка Параметры функции
желательности и появится галочка перед строкой Показать функцию желательности.
Выберем опцию Среднее и установим флажок на опцию Показать функцию
желательности.
Для того чтобы задать количество уровней факторов надо нажать на кнопку Сетка. В
появившемся окне (рис.9.4.42) в рамке Фактор при помощи кнопок Назад, Далее и
выпадающего меню можно просмотреть диапазоны изменения факторов от минимального
до максимального значений. Минимум и максимум количественных предикторов на сетке
не совпадают с минимальным и максимальным значением показателя, так как они
определяются как среднее ± 2сигма, в предположении, что предикторы имеют
нормальное распределение. По желанию пользователя границы диапазонов можно
изменить. В рамке Число шагов можно задать для каждого фактора задать количество
диапазонов. Для категориальных предикторов число шагов будет соответствовать числу
значений предикторов минус 1, причем настройки в этом диалоге можно задать, только так,
чтобы уровни совпадали с наблюдаемыми значениями категориальных предикторов. В этом
диалоге уровни категориальных предикторов всегда обозначаются соответствующими
целыми числами (например, для предиктора Форма течения – числами 1, 2, 3),
независимо от используемых в программе кодов. При использовании опции Сетка не
рекомендуется выбирать большое количество шагов, чтобы сократить длительные
вычисления. Оставим по умолчанию число шагов, равное 4 и щелкнем по ОК, программа
вернется в диалог на рис.9.4.40.
Общие модели дискриминантного анализа (главная)
Общие модели дискриминантного анализа (главная)
Общие модели дискриминантного анализа (главная)
Общие модели дискриминантного анализа (главная)
Общие модели дискриминантного анализа (главная)
Общие модели дискриминантного анализа (главная)
Общие модели дискриминантного анализа (главная)
Общие модели дискриминантного анализа (главная)
Общие модели дискриминантного анализа (главная)
Общие модели дискриминантного анализа (главная)

More Related Content

More from Alexan Khalafyan

Современный статистический анализ данных. Второе издание.
Современный статистический анализ данных. Второе издание.Современный статистический анализ данных. Второе издание.
Современный статистический анализ данных. Второе издание.
Alexan Khalafyan
 
математическая статистика с элементами теории вероятностей
математическая статистика с элементами теории вероятностейматематическая статистика с элементами теории вероятностей
математическая статистика с элементами теории вероятностей
Alexan Khalafyan
 

More from Alexan Khalafyan (11)

Общие линейные модели (главн)
Общие линейные модели (главн)Общие линейные модели (главн)
Общие линейные модели (главн)
 
Надежность и позиционный анализ (главная)
Надежность и позиционный анализ (главная)Надежность и позиционный анализ (главная)
Надежность и позиционный анализ (главная)
 
Ковариационный анализ (главная)
Ковариационный анализ (главная)Ковариационный анализ (главная)
Ковариационный анализ (главная)
 
Канонический анализ (главн)
Канонический анализ (главн)Канонический анализ (главн)
Канонический анализ (главн)
 
ответы к задачам по тв и мс
ответы к задачам по тв и мсответы к задачам по тв и мс
ответы к задачам по тв и мс
 
задачи для студентов по тв и мс
задачи для студентов по тв и мсзадачи для студентов по тв и мс
задачи для студентов по тв и мс
 
Mathematical statistic in sport of football
Mathematical statistic in sport of footballMathematical statistic in sport of football
Mathematical statistic in sport of football
 
Современный статистический анализ данных. Второе издание.
Современный статистический анализ данных. Второе издание.Современный статистический анализ данных. Второе издание.
Современный статистический анализ данных. Второе издание.
 
монография
монографиямонография
монография
 
математическая статистика с элементами теории вероятностей
математическая статистика с элементами теории вероятностейматематическая статистика с элементами теории вероятностей
математическая статистика с элементами теории вероятностей
 
Aist
AistAist
Aist
 

Общие модели дискриминантного анализа (главная)

  • 1. 9.4. ОБЩИЕ МОДЕЛИ ДИСКРИМИНАНТНОГО АНАЛИЗА Известно, что методы дискриминации можно условно разделить на параметрические и непараметрические. Классический дискриминантный анализ (DA) является параметрическим методом и, применяется в предположении, что наблюдаемые величины непрерывные, измерены как минимум в интервальной шкале, имеют нормальное распределение. Также предполагается, что дисперсии и ковариации наблюдаемых переменных в разных классах однородны. Если перечисленные условия не выполняются, необходимо воспользоваться методом общие модели дискриминантного анализа (GDA). Метод имеет такое название, потому что в нем для анализа дискриминантных функций используется общая линейная модель (GLA). В этом методе анализ дискриминантных функций рассматривается как общая многомерная линейная модель, в которой категориальная зависимая переменная (отклик) представляется векторами с кодами, обозначающими различные группы. Например, если категориальная переменная Состояние – принимает значения легкое, среднее, тяжелое и в методе DA эти значения можно кодировать целыми числами 1, 2, 3, то в методе GDA эти значения будут закодированы векторами (1, 0, 0), (0, 1, 0), (0, 0, 1): Состояние Коды легкое 1 0 0 среднее 0 1 0 тяжелое 0 0 1 Метод GDA обладает рядом существенных преимуществ перед классическим методом DA: – не устанавливается никаких ограничений на тип используемого предиктора и на тип определяемой модели. Предикторы могут быть категориальными, или непрерывными переменными. В методе GDA категориальные предикторы по аналогии с методом общие линейные модели также называются факторами; – предусмотрены опции для пошагового выбора предикторов и выбора наилучшего подмножества предикторов на основе статистик F-включить и p-включить; – в таблице данных можно выделить кросс-проверочную выборку. В этом случае выбор наилучшего подмножества предикторов можно провести на основе долей ошибочной классификации для кросс-проверочной выборки, такой способ выбора модели позволяет получать в итоге высокую точность прогноза, избегая при этом переобучения; – другой уникальной особенностью метода GDA является наличие опций для построения и анализа профилей предсказанных значений отклика и показателя желательности. Вычисляются предсказанные значения отклика, полученные значения объединяются в один показатель желательности. Чтобы наглядно показать «поведение» предсказанных откликов и показателя желательности, для различных диапазонов значений предикторов можно строить различные графики – профили. Также метод позволяет строить профили апостериорных вероятностей предсказания. Профили позволяют анализировать, насколько различные уровни предикторов влияют на классификацию наблюдений, что в конечном итоге дает возможность определить комбинации значений предикторов, которые максимизируют правдоподобие того, что соответствующее наблюдение принадлежит тому или иному классу; – в методе предусмотрена возможность включения категориальных «ANOVA- подобных» эффектов в сложные ANOVA-подобные модели для предикторов. Возможно проведение поиска наилучшего подмножества предикторов для ANOVA-подобных эффектов. Для ознакомления с возможностями метода GDA и технологии работы с соответствующим модулем программы STATISTICA воспользуемся файлом данных 50 больных, страдающих острым панкреатитом, который нами уже был использован в §7.2. Наша задача – показать возможности GDA для идентификации тяжести состояния
  • 2. больных. В качестве независимых количественных переменных – предикторов используем клинико-лабораторные показатели: возраст, температуру тела (Т), частоту сердечных сокращений (ЧСС), частоту дыхания (ЧД), уровень содержания в организме калия (К), натрия (Na), креатинина, лейкоцитов, гемотокрита (Ht). Категориальными предикторами являются Пол и Форма течения (рис.9.4.1). Относительно первого предиктора пояснения излишни, а по второму предиктору – Форма течения, заметим, что больные разделены на 3 группы – отечный (интерстициальный) панкреатит (ОП), стерильный панкреонекроз (СТПН) и инфицированный панкреонекроз (ИНП). Состояние больного оценивали в порядковой шкале, поэтому в качестве зависимой группирующей переменной – отклика в таблице данных использовали переменную Состояние с текстовыми значениями: легкое, среднее, тяжелое. Для более глубокого понимания структуры категориальных предикторов и их взаимосвязи с состоянием больных воспользуемся таблицами сопряженности. На рис.9.4.2 представлена таблица со значением критериев Пирсона Хи-квадрат, М-П Хи-квадрат, статистикой гамма и коэффициентом корреляции Спирмена для переменных Форма течения и Состояние. Так как уровни значимости обоих критериев Хи-квадрат значительно меньше, чем 0,05, а статистика гамма и корреляция Спирмена больше, чем 0,75, то ожидаемые частоты статистически значимо отличаются от наблюдаемых. Следовательно, между формой течения заболевания и состоянием больных существует сильная взаимосвязь.
  • 3. 1 № 2 Возраст 3 Пол 4 Форма течения 5 Т 6 ЧСС 7 ЧД 8 К 9 Na 10 Креа- тинин 11 Лейко- циты 12 Ht 13 Состояние 1 21 муж ОП 36,2 76 20 3,79 140,03 64,67 6,80 0,34 легкое 2 75 муж ИНП 39,0 99 43 4,29 132,21 411,20 8,45 0,58 тяжелое 3 18 жен ОП 37,7 79 20 3,83 141,48 61,51 6,87 0,36 легкое 4 30 муж ОП 38,1 90 26 4,01 141,75 171,49 5,31 0,41 легкое 5 37 жен СТ ПН 36,9 84 19 3,34 144,67 25,58 7,13 0,40 среднее 6 32 жен ОП 37,5 85 20 3,58 139,25 36,44 6,83 0,35 легкое 7 37 муж ИНП 41,4 99 42 3,68 134,86 328,67 7,52 0,49 тяжелое 8 48 муж СТ ПН 40,4 105 41 3,23 137,26 178,88 11,05 0,45 тяжелое 9 31 жен СТ ПН 39,6 93 32 4,22 138,19 127,71 6,06 0,48 среднее 10 36 жен ИНП 39,2 85 28 3,84 131,66 140,72 9,84 0,47 среднее 11 42 муж ОП 40,3 88 31 3,94 126,52 116,07 9,13 0,50 легкое 12 38 жен ИНП 37,6 86 30 3,52 139,37 130,60 10,10 0,50 легкое 13 74 муж ИНП 40,7 94 42 4,52 138,95 465,77 12,47 0,45 тяжелое 14 46 жен СТ ПН 39,2 90 26 4,49 144,85 124,36 8,39 0,47 среднее 15 18 жен ОП 36,1 77 25 3,55 140,33 52,39 6,29 0,31 легкое 16 63 муж СТ ПН 40,4 99 41 3,86 130,98 300,01 12,96 0,56 тяжелое 17 67 муж СТ ПН 39,1 103 36 4,18 132,10 360,23 11,76 0,54 тяжелое 18 31 муж СТ ПН 37,2 81 24 3,23 141,34 65,25 7,07 0,44 среднее 19 59 муж ИНП 39,7 95 43 3,70 134,58 152,89 2,11 0,59 тяжелое 20 32 жен СТ ПН 37,3 77 17 3,88 144,67 65,86 6,79 0,37 среднее 21 33 жен ОП 38,4 76 15 3,87 140,73 58,56 5,71 0,39 легкое 22 58 муж ИНП 39,7 98 41 3,00 133,33 218,19 8,46 0,51 тяжелое 23 40 жен ОП 37,5 91 29 4,60 127,61 136,15 7,37 0,41 легкое 24 39 муж ОП 36,8 83 29 4,41 136,86 131,22 6,58 0,41 среднее 25 28 жен СТ ПН 35,6 91 23 3,33 144,49 33,28 7,53 0,49 легкое 26 35 жен СТ ПН 39,4 82 33 4,01 142,72 168,99 8,87 0,47 среднее 27 44 жен СТ ПН 37,8 89 33 4,71 139,18 80,26 9,63 0,45 среднее 28 44 жен СТ ПН 38,3 87 32 4,28 139,88 93,29 5,59 0,49 среднее 29 43 муж ИНП 39,6 93 35 4,29 140,46 142,50 4,76 0,48 тяжелое 30 47 муж ОП 37,3 80 19 3,61 140,17 48,25 5,80 0,44 легкое 31 76 муж ИНП 41,3 106 44 4,66 136,92 298,82 10,91 0,49 тяжелое 32 63 муж ИНП 40,5 109 36 3,53 133,85 153,31 11,67 0,46 тяжелое 33 68 муж СТ ПН 38,9 99 40 3,89 136,13 354,02 11,65 0,43 тяжелое 34 36 жен СТ ПН 39,2 87 31 4,14 135,12 225,82 8,43 0,48 среднее 35 47 муж СТ ПН 41,0 82 30 4,37 139,92 158,24 11,99 0,47 среднее 36 30 жен ОП 37,5 73 19 3,63 138,56 51,62 5,28 0,46 легкое 37 38 муж СТ ПН 39,4 90 30 4,23 135,23 112,03 7,00 0,43 среднее 38 41 жен ОП 40,5 81 32 4,80 127,39 216,46 8,36 0,37 легкое 39 44 жен СТ ПН 38,4 83 29 3,93 143,10 202,17 6,82 0,45 среднее 40 26 жен ОП 36,6 82 18 3,44 140,13 50,96 5,92 0,39 легкое 41 44 жен СТ ПН 37,9 94 29 4,22 130,40 143,16 9,64 0,45 среднее 42 65 муж ИНП 39,9 105 39 4,84 131,45 273,46 6,01 0,41 тяжелое 43 49 муж ИНП 39,3 96 44 3,95 131,52 234,29 12,48 0,48 тяжелое 44 46 жен СТ ПН 37,8 80 27 3,57 138,22 206,94 6,06 0,50 среднее 45 30 муж СТ ПН 36,4 77 17 3,57 139,00 41,82 5,90 0,44 среднее 46 42 муж ОП 40,3 88 27 4,40 129,30 160,31 3,66 0,49 легкое 47 54 муж ИНП 39,9 95 40 3,70 138,28 144,38 3,85 0,48 тяжелое 48 27 жен ОП 38,3 77 29 3,73 141,05 44,72 6,10 0,40 легкое 49 49 муж ИНП 40,7 100 39 3,43 129,07 243,37 12,66 0,47 тяжелое 50 34 жен ИНП 39,9 95 23 4,41 133,60 157,95 14,11 0,45 среднее Рис.9.4.1
  • 4. Статистики: Форма течения(3) x Состояние(3) (Об мод. дискрим.ана Статист. Хи-квадрат ст.св. p Пирсона Хи-квадрат М-П Хи-квадрат Гамма Корр. Спирмена 55,87384 сс=4 p=,00000 56,02675 сс=4 p=,00000 ,9172611 ,8068715t=9,4632 p=,00000 Рис.9.4.2 Для понимания структуры взаимосвязи следует обратиться к таблице частот на рис.9.4.3, из которой видно, что наибольший процент больных – 93,33% с формой течения заболевания ОП находятся в легком состоянии. Наибольший процент больных – 75 % с формой течения заболевания СТПН находятся в среднем состоянии. Наибольший процент больных – 80 % с формой течения заболевания ИНП находятся в тяжелом состоянии. 2-входовая итоговая: наблюдаемые частоты (Об мод. дискрим.анализ) Частоты выделенных ячеек > 10 Форма течения Состояние легкое Состояние среднее Состояние тяжелое Всего по стр. ОП строк.% СТ ПН строк.% ИНП строк.% Всего 14 1 0 15 93,33% 6,67% 0,00% 1 15 4 20 5,00% 75,00% 20,00% 1 2 12 15 6,67% 13,33% 80,00% 16 18 16 50 Рис.9.4.3 На рис.9.4.4 представлена таблица со значением критериев Пирсона Хи-квадрат, М- П Хи-квадрат, статистикой гамма и коэффициентом корреляции Спирмена для переменных Пол и Состояние. Так как уровни значимости обоих критериев Пирсона Хи- квадрат и М-П Хи-квадрат значительно меньше, чем 0,05, а статистика гамма и корреляция Спирмена по абсолютной величине близки к 0,75 (рис.9.4.4), то ожидаемые частоты статистически значимо отличаются от наблюдаемых, следовательно, между полом и состоянием больных существует близкая к сильной взаимосвязь. Статистики: Пол(2) x Состояние(3) (Об мод. дискрим.анализ) Статист. Хи-квадрат ст.св. p Пирсона Хи-квадрат М-П Хи-квадрат Гамма Корр. Спирмена 21,76037 сс=2 p=,00002 28,08961 сс=2 p=,00000 -,742063 -,550441 t=-4,568 p=,00003 Рис.9.4.4 Для анализа структуры взаимосвязи воспользуемся таблицей частот на рис.9.4.5, из которой видно, что наибольший процент мужчин – 61,54% пребывают в тяжелом состоянии. Наибольший процент женщин – 54,17 % пребывают в среднем состоянии.
  • 5. 2-входовая итоговая: наблюдаемые частоты (Об мод. дискрим.анализ) Частоты выделенных ячеек > 10 Пол Состояние легкое Состояние среднее Состояние тяжелое Всего по стр. муж строк.% жен строк.% Всего 5 5 16 26 19,23% 19,23% 61,54% 11 13 0 24 45,83% 54,17% 0,00% 16 18 16 50 Рис.9.4.5 Таким образом, категориальные предикторы Форма течения и Пол взаимосвязаны с откликом Состояние, поэтому целесообразно для оценки состояния больных включить в модель дискриминации эти категориальные предикторы. Щелкнем по кнопке Анализ на панели инструментов и, выберем команду Многомерный разведочный анализ, в появившемся меню – Общие модели дискриминантного анализа (рис.9.4.6). Рис.9.4.6 Откроется стартовое окно, в рамке Вид анализа следует выбрать Общий дискриминантный анализ, в рамке Задание анализа – Диалог (рис.9.4.7) и щелкнуть по ОК. В появившемся диалоге (рис.9.4.8) надо нажать на кнопку Переменные и выделить переменные в соответствии с рис.9. Если щелкнуть по ОК и в диалоге на рис.9.4.8 указать коды зависимой переменой и коды факторов (предикторов), то диалог Общий дискриминантный анализ примет вид, представленный на рис.9.4.10. В соответствии с диалогом на рис.9.4.10, при построении модели дискриминации в качестве эффектов по умолчанию будут использованы все непрерывные предикторы, оба категориальных предиктора и их комбинация (взаимодействие).
  • 7. Рис.9.4.10 Если пользователя интересуют не все эффекты, или дополнительные эффекты, являющиеся комбинациями непрерывных и категориальных предикторов, то следует щелкнуть по кнопке Эффекты. В открывшемся окне Эффекты в плане (рис.9.4.11) надо выбрать опцию Использовать пользовательские эффекты в плане, тогда в рамке Предикторы активными станут поля Категориальные и Непрерывные, в которых указываются имена предикторов. Рис.9.4.11 Далее надо в рамке Метод нажать на кнопку Добавить, в поле Эффекты в плане появятся названия предикторов. Если нажать на кнопку Взаимодействие, появится
  • 8. взаимодействие предикторов. Если щелкнуть по кнопке Полный факторный, программа высветит факторный план, в соответствии с которым будет проведен дискриминантный анализ. Выберем опцию Использовать стандартные эффекты в плане, щелкнем по ОК чтобы вернуться в диалог на рис.9.4.10. Рассмотрим опции вкладки Дополнительно (рис.9.4.12). В рамке Априорные вероятности задаются способы вычисления априорных вероятностей, которые используются для классификации наблюдений на основе текущего множества предикторов. Опция Пропорциональные размерам означает, что априорные вероятности пропорциональны размерам классов, которые определяются зависимой переменной – откликом. Например, если имеется три класса наблюдений и в каждом классе соответственно 20, 30 и 50 наблюдений, то априорные вероятности будут равны соответственно 0,2, 0,3, 0,5. Опция Равные присваивает априорным вероятностям одинаковые значения. Например, если три группы наблюдений, то априорные вероятности будут равны 1/3 для каждой группы. Опция Пользователя предполагает задание априорных вероятностей пользователями, она не доступна, если на вкладке Быстрый указаны коды отклика. Кнопка Кросс-проверка вызывает одноименный диалог, в котором можно задать категориальную переменную-идентификатор и кодовое значение, определяющее наблюдения, которые необходимо использовать в вычислениях при подгонке модели. В нашем файле из-за малого объема кросс-проверочная выборка отсутствует. Рис.9.4.12 В поле Опции построения модели можно задать способы построения моделей для дискриминантного анализа: – Все эффекты, все эффекты одновременно вводятся в текущий план; – Пошаговый с включением, эффекты добавляются, или исключаются в модель последовательно на основе текущих значений параметров p или F; – Пошаговый с исключением, начальная модель состоит из всех эффектов, которые затем в процессе реализации метода будут последовательно удаляться, или добавляться на основе текущих значений параметров p или F; – Только с включением, эффекты будут только включаться в модель; – Только с исключением, эффекты будут только исключаться из модели; – Лучшие подмножества. Среди всех допустимых подмножеств эффектов, заданных в текущем плане анализа, выбирается лучшее подмножество при заданном числе эффектов. Если в модели много эффектов, то общее число всевозможных подмножеств может быть
  • 9. очень большим. Поэтому поиск наилучшего подмножества необходимо проводить очень осторожно. В поле Количество эффектов указывается количество эффектов, принудительно включенных в каждую построенную программой модель. Если указано k эффектов, то первые k эффектов в плане будут принудительно добавлены во все рассматриваемые модели. Дельта выметания, Дельта обращения – параметры математических моделей, которые используются для построения матрицы выметания и проверки сингулярности при обращении матрицы. Опции Лямбда Уилкса, Ошибки анализа, Ошибки кросс-проверки определяют критерии выбора наилучшего подмножества – по значению параметра лямбда Уилкса, по долям ошибочной классификации всех наблюдений и по долям ошибочной классификации кросспроверочной выборки. Статистика лямбда Уилкса для общей дискриминантной модели вычисляется как отношение детерминанта матрицы межгрупповой дисперсии к детерминанту матрицы общей дисперсии. Доля ошибок классификации вычисляется как число ошибок при классификации наблюдений, деленное на общее число наблюдений. Щелкнем по ОК, появится диалог Результаты 1 на вкладке Быстрый. Если нажать на кнопку Итоги поиска лучшего подмножества, то программа отобразит таблицу подмножеств с последовательным уменьшением числа эффектов и качества дискриминации. На рис.9.4.13 приведена таблица из первых 10 выделенных подмножеств (общее число выделенных подмножеств составило 110). Рис.9.4.13 Наилучшим является первое подмножество, ему соответствует минимальное значение лямбды Уилкса, равное 0,0146. Эффект Лейкоциты в модели отсутствует. В ячейках
  • 10. таблицы отображены значения лямбды-Уилкса, если из анализа исключен эффект, имя которого указано в названии столбца. Поэтому, чем ближе значение к 1, тем более значим эффект в модели. Из 1-й строки видно, что наиболее значимыми эффектами в первой модели являются 1*2 (Пол*Форма течения), Т, Возраст, ЧСС и т.д. Малое значение лямбды Уилкса, равное 0,0146, говорит о том, что первое подмножество соответствует модели дискриминантного анализа высокой адекватности. Итог лучших подмнож.; переменная: Состояние (Об мод. дискрим.анализ.sta) Лямбда Уилкса и допуски для эффектов в каждой подмодели N подгруп. Уил Лям Число Эфф. Возр . Т ЧСС ЧД К Na Креат. Лейк Ht Пол Форма течен. Форма течен 1*2 1*2 1 2 3 4 5 6 7 8 9 10 0,01 11 0,56 0,62 0,56 0,54 0,49 0,51 0,51 0,53 0,55 0,32 0,33 0,47 0,63 0,01 11 0,55 0,55 0,57 0,49 0,50 0,48 0,53 0,49 0,52 0,31 0,33 0,48 0,56 0,01 10 0,56 0,57 0,57 0,50 0,51 0,52 0,54 0,55 0,32 0,34 0,48 0,64 0,02 11 0,60 0,55 0,55 0,54 0,50 0,51 0,53 0,54 0,52 0,31 0,33 0,46 0,56 0,02 10 0,62 0,57 0,55 0,55 0,51 0,57 0,60 0,55 0,32 0,33 0,47 0,63 0,02 11 0,62 0,62 0,55 0,57 0,50 0,55 0,48 0,58 0,51 0,38 0,37 0,51 0,56 0,02 10 0,62 0,63 0,57 0,57 0,51 0,55 0,52 0,55 0,38 0,37 0,51 0,66 0,02 11 0,55 0,63 0,55 0,48 0,52 0,50 0,52 0,50 0,51 0,31 0,33 0,46 0,57 0,02 11 0,54 0,60 0,61 0,56 0,47 0,48 0,52 0,52 0,51 0,36 0,41 0,47 0,60 0,02 10 0,56 0,65 0,56 0,49 0,52 0,54 0,56 0,55 0,32 0,33 0,47 0,65 Рис.9.4.13 Для более полного понимания модели дискриминации, целесообразно перейти на вкладку Эффекты (рис.9.4.14) и щелкнуть по кнопке Члены плана.
  • 11. Рис.9.4.14 Появится таблица Метки столбцов (рис.9.4.15), при помощи которой легко определить, как закодированы категориальные переменные в общей дискриминационной модели. Для кодирования категориальных предикторов в модуле использована сигма-ограниченная параметризация, при которой каждый эффект представляется в виде совокупности одноименных двухуровневых переменных. Например, так как предиктор Пол имеет два уровня, то она и представляется с двумя уровнями: муж, жен. Предиктор Форма течения состоит из 3 уровней, поэтому представляется в виде 2 одноименных двухуровневых переменных: Форма течения (ОП, ИНП); Форма течения (СТНП, ИНП). При этом уровню 1 присваивается числовое значение 1, а уровню 2 – числовое значение 0. Например, если рассматривается предиктор Пол, то альтернативным значениям предиктора муж, жен будут присвоены соответственно значения 1 и 0, которые будут представлять количественные различия между группами наблюдений (больных) муж, жен. Предиктор Форма течения в строке 12 таблицы имеет 2 значения ОП, ИНП, которые соответственно будут закодированы как 1 и 0. Этот же предиктор в строке 13 имеет 2 значения СТНП, ИНП, которые также будут закодированы как 1 и 0.
  • 12. Метки столбцов (Об мод. дискрим.анализ) Метки для столбцов матрицы плана X Метка Столбец Перемен. Уровень Перемен. от Уров. Перемен. Уровень Перемен. от Уров. Св.член Возраст Т ЧСС ЧД К Na Креатинин Лейкоциты Ht Пол Форма течения Форма течения Пол*Форма течения Пол*Форма течения 1 2 Возраст 3 Т 4 ЧСС 5 ЧД 6 К 7 Na 8 Креатинин 9 Лейкоциты 10 Ht 11 Пол муж жен 12 Форма течения ОП ИНП 13 Форма течения СТ ПН ИНП 14 Пол муж жен Форма течения ОП ИНП 15 Пол муж жен Форма течения СТ ПН ИНП Рис.9.4.15 Значения сложных эффектов Пол*Форма течения в строке 14 и 15 также кодируются числами 1 и 0, которые являются результатами умножения соответствующих числовых значений предикторов Пол, Форма течения. Так, для Пол*Форма течения в строке 14 возможны следующие 4 комбинации муж*ОП, муж*ИНП, жен*ОП, жен*ИНП, которые в регрессионных моделях принимают следующие значения: 1·1 =1, 1·0 = 0, 0·1 = 0, 0·0 = 0. Для Пол* Форма течения в строке 15 возможны другие 4 комбинации муж* СТНП, муж*ИНП, жен* СТНП, жен*ИНП, которые в регрессионных моделях принимают значения: 1·1 =1, 1·0 = 0, 0·1 = 0, 0·0 = 0. При этом, сумма всех значений каждого простого и сложного эффекта равна 1. Для оценки статистической значимости эффектов в модели, следует воспользоваться кнопкой Все эффекты, предварительно выбрав в рамке Критерии многомерные критерии: Пиллая, Хотеллинга, Роя. Выберем, например Пиллая и щелкнем по кнопке Все эффекты. Появится таблица результатов многомерного дискриминантного анализа со статистиками лямбда Уилкса и Пилая (рис.9.4.16). По критериям лямбда Уилкса и Пиллая значимыми будут эффекты предикторов ЧСС, ЧД, К (уровни значимости р критерия Фишера (F) меньше, чем 0,05). Это означает, что данные предикторы будут иметь наибольшее влияние на определение принадлежности больных к определенной группе по состоянию – легкое, среднее, тяжелое. Эффекты, для которых уровни значимости р критериев значительно больше, чем 0,05, из модели можно исключить. Обратите внимание, что эффекты, соответствующие категориальным предикторам и их взаимодействию, по обоим критериям статистически значимы в модели. Если в классическом дискриминантном анализе DA практически все предикторы были статистически значимыми в модели, то с включением в таблицу исходных данных категориальных предикторов, взаимосвязанных с откликом Состояние, большая часть количественных предикторов в процедуре дискриминации – Возраст, Т, ЧСС, ЧД, Na, Креатинин, Лейкоциты, Ht стала избыточной.
  • 13. Многомерные критерии значимости (Об мод. дискрим.анализ) Сигма-ограниченная параметризация Декомпозиция гипотезы Эффект Крит. Знач. F Эффект сс Ошибка сс p Св.член Возраст Т ЧСС ЧД К Na Креатинин Лейкоциты Ht Пол Форма течения Пол*Форма течения Уилкса 0,897249 2,00406 2 35 0,149960 Пиллая 0,102751 2,00406 2 35 0,149960 Уилкса 0,928741 1,34272 2 35 0,274254 Пиллая 0,071259 1,34272 2 35 0,274254 Уилкса 0,979497 0,36631 2 35 0,695914 Пиллая 0,020503 0,36631 2 35 0,695914 Уилкса 0,701203 7,45711 2 35 0,002006 Пиллая 0,298797 7,45711 2 35 0,002006 Уилкса 0,919308 1,53605 2 35 0,229388 Пиллая 0,080692 1,53605 2 35 0,229388 Уилкса 0,760260 5,51843 2 35 0,008257 Пиллая 0,239740 5,51843 2 35 0,008257 Уилкса 0,915921 1,60645 2 35 0,215038 Пиллая 0,084079 1,60645 2 35 0,215038 Уилкса 0,883845 2,29985 2 35 0,115235 Пиллая 0,116155 2,29985 2 35 0,115235 Уилкса 1,000000 0 Пиллая 0,000000 Уилкса 0,926054 1,39738 2 35 0,260697 Пиллая 0,073946 1,39738 2 35 0,260697 Уилкса 0,636875 9,97793 2 35 0,000372 Пиллая 0,363125 9,97793 2 35 0,000372 Уилкса 0,26346016,59419 4 70 0,000000 Пиллая 0,83704912,95574 4 72 0,000000 Уилкса 0,569846 5,68245 4 70 0,000509 Пиллая 0,448482 5,20309 4 72 0,000973 Рис.9.4.16 Если нажать на кнопку Коэффициенты, программа построит таблицу, содержащую оценки параметров регрессионных моделей, их стандартизованные оценки, стандартные ошибки, уровни значимости (p) и соответствующие статистики t-критерия для всех значений отклика. Как было отмечено ранее, в общей многомерной линейной модели значения отклика представляются векторами с кодами. Так состоянию легкое соответствует вектор (1, 0, 0), состоянию среднее – вектор (0, 1, 0), состоянию тяжелое – вектор (0, 0, 1). В методе ODA строятся общие линейные модели, позволяющие для каждого объекта вычислить предсказанные координаты вектора. В соответствии с предсказанными координатами вектора можно решать задачу классификации объектов. В нашем случае, правило достаточно простое. Предположим, для некоторого больного вычислены прогнозные значения координат вектора (x, y, z). Если наиболее близкое к 1 значение принимает x, то больного следует отнести к группе легкое, если наиболее близкое к 1 значение принимает y, то больного следует отнести к группе среднее, если наиболее близкое к 1 значение принимает z, то больного следует отнести к группе тяжелое. Координаты векторов x, y, z могут принимать отрицательные значения, но их сумма должна быть равна 1, т.е., x + y + z = 1. На рис.9.4.17 приведен фрагмент сокращенной таблицы с оценками параметров – коэффициентов линейной модели.
  • 14. Оценки параметров (Об мод. дискрим.анализ) Сигма-ограниченная параметризация Эффект Уровень Эффект Столбец Коммент. (B/Z/P) легкое Парам. легк ое p среднее Парам. сред нее p тяжелое Парам. тяжел ое p Св.член Возраст Т ЧСС ЧД К Na Креатинин Лейкоциты Ht Пол Форма течения Форма течения Пол*Форма течения Пол*Форма течения 1 -1,084490,63 3,62708 0,15 -1,54260 0,26 2 -0,003010,54 -0,00172 0,75 0,00473 0,11 3 -0,021680,54 0,03272 0,40 -0,01105 0,61 4 0,009310,19 -0,02386 0,00 0,01455 0,00 5 -0,003890,68 -0,00623 0,55 0,01012 0,09 6 -0,093000,33 0,26662 0,01 -0,17363 0,00 7 0,009980,32 -0,01789 0,10 0,00791 0,19 8 0,000130,83 -0,00090 0,18 0,00077 0,04 9 Объедин 10 . 1,544570,10 -1,38107 0,17 -0,16350 0,77 муж 11 -0,102630,04 -0,01804 0,73 0,12067 0,00 ОП 12 0,616330,00 -0,58085 0,00 -0,03548 0,44 СТ ПН 13 -0,375690,00 0,43176 0,00 -0,05608 0,10 1 14 -0,007910,89 0,17807 0,01 -0,17016 0,00 2 15 0,067170,21 -0,08662 0,14 0,01945 0,54 Рис.9.4.17 В столбцах легкое Парам., среднее Парам., тяжелое Парам. приведены коэффициенты уравнений для вычисления координат х1, х2, х3. Уровни значимости р показывают статистическую значимость эффектов в модели. Эффекты статистически значимы в модели, если р меньше 0,05. Оценки параметров – коэффициенты, также характеризуют силу и характер вклада эффектов в определение принадлежности больных к той или иной группе. Например, эффекты ЧСС, К являются определяющими, т.е. наиболее информативными признаками для групп больных среднее, тяжелое (р < 0,05). При этом эффект ЧСС, для группы среднее имеет преимущественно меньшие значения (параметр имеет отрицательный знак), а для группы тяжелое – большие значения (параметр имеет положительный знак). Эффект К наоборот, для группы среднее имеет преимущественно большие значения, а для группы тяжелое – меньшие значения. Эффект Пол является определяющим признаком для групп легкое, тяжелое; эффект Форма течения – для групп легкое и среднее; эффект Пол*Форма течения – для групп среднее, тяжелое. Общие линейные уравнения имеют вид: x = –1,0845 – 0,003Возраст – 0,0217Т + 0,0093ЧСС – 0,0039ЧД – 0,093К + 0,01Na + 0,00013Креатинин + 1,5446Ht – 0,1026Пол + 0,6163Форма течения1 – 0,3757Форма течения2 – 0,0079Пол*Форма течения1 + 0,0671Пол*Форма течения2; y = 3,62 – 0,002Возраст + 0,03Т – 0,02ЧСС – 0,006ЧД + 0,266К – 0,02Na – 0,0009Креатинин – 1,38Ht – 0,01Пол – 0,58Форма течения1 + 0,43Форма течения2 + 0,17Пол*Форма течения1 – 0,09Пол*Форма течения2; z = – 1,54 + 0,004Возраст – 0,01Т + 0,01ЧСС + 0,01ЧД – 0,17К + 0,008Na + 0,0008Креатинин – 0,16Ht + 0,12Пол – 0,04Форма течения1 – 0,06Форма течения2 – 0,17Пол*Форма течения1 + 0,02Пол*Форма течения2. В качестве примера вычислим предсказанные по моделям координаты вектора (х1, х2, х3) для больного №1, подставив в каждое линейное уравнение значение показателей больного: возраст – 21; пол – муж; форма течения – ОП; Т – 36,2; ЧСС – 76; ЧД – 20; К – 3,79; Na – 140,03; Креатинин – 64,67; Ht – 0,34:
  • 15. x = –1,0845 – 0,003·21 – 0,0217·36,2 + 0,0093·76 – 0,0039·20 – 0,093·3,79 + 0,01·140,03 + 0,00013·64,67 + 1,5446·0,34 – 0,1026·1 + 0,6163·1 – 0,3757·0 – 0,0079·1 + 0,0671·0 = 0,7829 y = 3,627 – 0,0017·21 + 0,0327·36,2 – 0,0239·76 – 0,0062·20 + 0,2666·3,79 – 0,0179·140,03 – 0,0009·64,67 – 1,381·0,34 – 0,018·1 – 0,5809·1 + 0,4318·0 + 0,1781·1 – 0,0866·0 = 0,3899 z = – 1,5426 + 0,0047·21 – 0,011·36,2 + 0,0145·76 + 0,0101·20 – 0,1736·3,79 + 0,0079·140,03 + 0,0008·64,67 – 0,1635·0,34 + 0,1207·1 – 0,0354·1 – 0,056·0 – 0,1701·1 + 0,0195·0 = – 0,1804 При этом, x + y + z = 0,9924, учитывая погрешности при округлении x + y + z = 1. Так как x = 0,7829 имеет значение, наиболее близкое к 1, то больного следует отнести к группе легкое. Классификация наблюдений (больных) посредством значений координат вектора, позволяет увидеть пограничное состояние наблюдения (больного). Например, если некоторому больному соответствует вектор с прогнозными значениями координат (0,5, 0,45, 0,05), то больной автоматически будет отнесен к группе легкое. Но при этом, очевидно, что он находится в пограничном состоянии, близком к группе среднее. Если нажать на кнопку Одномерные результаты, то откроется таблица (рис.9.4.18), в которой приведены одномерные результаты стандартного дисперсионного анализа, по которым также можно судить о роли эффектов в определении принадлежности больных к той или иной группе. Чем больше значение статистики SS (сумма квадратов отклонений, обусловленная различием средних значений между группами), тем больше вклад эффекта в процедуру дискриминации. Если уровень значимости р меньше, чем 0,05, то вклад эффекта статистически значим. Так, наибольший статистически значимый вклад в процедуру дискриминации для группы легкое у эффекта Форма течения (SS = 4,25), далее у эффекта Пол (SS = 0,25). Наибольший статистически значимый вклад в процедуру дискриминации для группы среднее у эффекта Форма течения (SS = 4,47), далее у эффектов ЧСС (SS = 0,628); Пол*Форма течения (SS = 0,533), К (SS = 0,428). Наибольший статистически значимый вклад в процедуру дискриминации для группы тяжелое у эффекта Пол*Форма течения (SS = 0,468), далее у эффектов Пол (SS = 0,354), ЧСС (SS = 0,234), К (SS = 0,182), Креатинин (SS = 0,087). Обратите внимание, что одномерные результаты не противоречат оценкам параметров регрессии, приведенным в таблице на рис.9.4.17.
  • 16. Одномерные результаты для каждой ЗП (Об мод. дискрим.анализ) Метод лучших подмножеств Декомпозиция гипотезы Эффект Степени Свободы легкое SS легкое p среднее SS среднее p тяжелое SS тяжелое p Св.член Возраст Т ЧСС ЧД К Na Креатинин Лейкоциты Ht Пол Форма течения Пол*Форма течения Ошиб. Всего 1 0,01261 0,632554 0,14110 0,147386 0,02552 0,261246 1 0,02076 0,540047 0,00674 0,748038 0,05117 0,114808 1 0,02035 0,544031 0,04639 0,401495 0,00529 0,606567 1 0,09556 0,192772 0,62793 0,003519 0,23358 0,001435 1 0,00907 0,684973 0,02330 0,551181 0,06145 0,085029 1 0,05217 0,333292 0,42882 0,014064 0,18185 0,004315 1 0,05616 0,315708 0,18054 0,102629 0,03531 0,187817 1 0,00263 0,826885 0,12006 0,180469 0,08713 0,041973 0 1 0,15578 0,098777 0,12454 0,172733 0,00175 0,767048 1 0,25592 0,036515 0,00790 0,728042 0,35377 0,000145 2 4,25382 0,000000 4,47619 0,000000 0,12151 0,057206 2 0,09312 0,432356 0,53306 0,024056 0,46774 0,000105 36 1,95275 2,31690 0,70529 49 10,88000 11,52000 10,88000 Рис.9.4.18 Наиболее информативной по результатам дискриминантного анализа является вкладка Функции (рис.19). Рассмотрим ее функциональные возможности. Рис.9.4.19
  • 17. Если нажать на кнопки Средние в классах для предикторов, Стандартные отклонения в классах для предикторов, модуль отобразит таблицы результатов со средними (рис.9.4.20) и стандартными отклонениями (рис.9.4.21) для эффектов каждого класса отклика Состояние. Для эффектов категориальных предикторов статистики будут вычислены в соответствии с принципами сигма-ограниченной параметризации. Например, из представленных таблиц следует, что средний возраст больных в группах легкое, среднее, тяжелое составляет соответственно 32, 39 и 59 лет. При этом наибольший разброс возраста соответствует группе тяжелое, так как стандартное отклонение, равное 11,81, принимает наибольшее значение. Наименьший разброс возраста соответствует группе среднее, так как стандартное отклонение, равное 5,82, принимает наименьшее значение. Наибольшее среднее значение температуры соответствует группе тяжелое (400 ), наименьшее – группе легкое (37,850 ), и т.д. Средние в классах для предикторов (Об мод. дискрим.анализ) Сигма-ограниченная параметризация Эффект Уровень Эффект Столбец легкое p=,3200 среднее p=,3600 тяжелое p=,3200 Общее Средн Возраст Т ЧСС ЧД К Na Креатинин Лейкоциты Ht Пол Форма течения Форма течения Пол*Форма течения Пол*Форма течения 1 32,0407 38,6365 59,2879 43,1343 2 37,8535 38,4266 40,0291 38,7560 3 82,4756 85,5945 99,7704 89,1327 4 23,9575 27,2452 40,3108 30,3741 5 3,8510 4,0476 3,9212 3,9442 6 137,3853 138,8128 134,4970 136,9750 7 89,5921 126,1867 266,2487 159,2963 8 6,6905 8,1046 9,2981 8,0340 9 0,4140 0,4509 0,4928 0,4525 1 10 -0,3750 -0,4444 1,0000 0,0400 1 11 0,8125 -0,0556 -0,7500 0,0000 2 12 0,0000 0,7222 -0,5000 0,1000 1 13 -0,1875 0,1667 -0,7500 -0,2400 2 14 0,0000 -0,2778 -0,5000 -0,2600 Рис.9.4.20 Стандартные отклонения в классах для предикторов (Об мод. дискрим.анализ) Сигма-ограниченная параметризация Эффект Уровень Эффект Столбец легкое N=16,00 среднее N=18,00 тяжелое N=16,00 Всего N=50,00 Возраст Т ЧСС ЧД К Na Креатинин Лейкоциты Ht Пол Форма течения Форма течения Пол*Форма течения Пол*Форма течения 1 8,74296 5,82221 11,8113 14,5151 2 1,47279 1,26293 0,7828 1,4967 3 6,10189 5,41053 4,7419 9,1901 4 5,33744 5,24055 2,8264 8,3652 5 0,41856 0,40999 0,5138 0,4469 6 5,94120 4,39060 3,2527 4,9023 7 57,01878 56,67459 100,2542 104,4546 8 1,58146 2,27756 3,5128 2,7305 9 0,06069 0,03174 0,0522 0,0577 1 10 0,95743 0,92178 0,0000 1,0093 1 11 0,54391 0,41618 0,4472 0,7825 2 12 0,36515 0,66911 0,8944 0,8391 1 13 0,98107 0,38348 0,4472 0,7440 2 14 0,36515 0,95828 0,8944 0,8033 Рис.9.4.21 Если нажать на кнопку Хи-квадрат критерий для удаленных корней, программа отобразит таблицу (рис.9.4.22) с пошаговым критерием для канонических корней
  • 18. (дискриминантных функций). Первая строка содержит результаты оценки критерия значимости для всех корней. Во второй строке приведены оценки значимости корней, оставшихся после удаления первого корня, и т.д. Таблица позволяет определить необходимое для дискриминантного анализа количество дискриминантных функций. В столбцах таблицы указано число удаленных корней, собственные значения, канонические корреляции, значения лямбды Уилкса, критерия χ2 и соответствующие им уровни значимости р. Из данных таблицы следует, что оба канонических корня (обе дискриминантные функции) статистически значимы, так как уровни значимости р критерия Хи-квадрат в обеих строках таблицы меньше, чем 0,05. Критерии хи-квадрат с последовательно удаленными корнями (Об мод. дискрим.анализ) Сигма-ограниченная параметризация Удал. Собст- знач. Канон. R Уилкса Лямбда Хи-квад. сс p-ур. 0 1 14,839740,9679190,014629 173,216026,00000 0,000000 3,31570 0,8765200,231712 59,9526 12,00000 0,000000 Рис.9.4.22 Параметры дискриминантных функций доступны, если воспользоваться кнопками Стандартизованные коэффициенты, или Исходные коэффициенты. Дискриминантные функции представляют собою общие линейные модели, так как содержат уровни категориальных эффектов. Стандартизованные коэффициенты (k) (рис.9.4.23) вычисляются по стандартизованным (нормированным) исходным данным, поэтому принадлежат к одной и то же абсолютной шкале измерений. Стандартизованные коэф. канонической дискриминантной функции (Об мод Сигма-ограниченная параметризация Эффект Уровень Эффект Столбец Функция 1 Функция 2 Св.член Возраст Т ЧСС ЧД К Na Креатинин Лейкоциты Ht Пол Форма течения Форма течения Пол*Форма течения Пол*Форма течения Собс.знач. Кум.Проп. 1 0,00000 0,00000 2 -0,36911 -0,01835 3 0,08214 -0,18727 4 -0,58831 0,52768 5 -0,39573 0,04574 6 0,58585 -0,47345 7 -0,25100 0,37202 8 -0,44557 0,23037 9 0,00000 0,00000 10 0,13819 0,39631 муж 11 -0,82915 -0,15112 ОП 12 0,41529 1,55723 СТ ПН 13 0,05876 -1,53325 1 14 0,88675 -0,37303 2 15 -0,07249 0,34415 14,83974 3,31570 0,81737 1,00000 Рис.9.4.23 Из таблицы на рис.9.4.23 следует, что наибольший вклад в дискриминантную функцию 1 вносят эффекты Пол*Форма течения (k = 0,89), далее, Пол (k = – 0,82), ЧСС (k = – 0,58), К (k = 0,58), и т.д. При этом, если эффект Пол*Форма течения в строке 14 принимает значение муж*ОП, то значение дискриминантной функции увеличивается, при всех других комбинациях – уменьшается; если эффект Пол принимает значение муж, то значение дискриминантной функции уменьшается; если эффект ЧСС возрастает, то
  • 19. значение дискриминантной функции увеличивается; если эффект К возрастает, то значение дискриминантной функции также возрастает и т.д. Сравнивая их между собою (больше, меньше) можно определить величины и направления вкладов соответствующих эффектов в дискриминантную функцию. В таблице приведены собственные значения для каждой дискриминантной функции и кумулятивная доля объясненной дисперсии (Кумулятивный процент), накопленной каждой функцией. Из таблицы следует, что дискриминантная функция 1 ответственна за 81,7% объясненной дисперсии, т. е. 81,7% всей дискриминирующей мощности приходится на эту функцию. На дискриминантную функцию 2 приходится всего 100% – 81,7% = 8,3%. Поэтому Функция 1 значительно более важна для классификации больных, чем Функция 2. Исходные коэффициенты могут быть использованы для вычисления значений дискриминантной функции для каждого больного. В соответствии со значениями коэффициентов в таблице на рис.9.4.24 общие модели дискриминантных функций имеют вид: Функция 1 = 13,62 – 0,04Возраст + 0,07Т – 0,11ЧСС – 0,09ЧД + 1,31К – 0,05Na – 0,01Креатинин + 2,81Ht – 1,07Пол + 0,88Форма течения1 + 0,09Форма течения2 + 1,36Пол*Форма течения1 – 0,09Пол*Форма течения2 Функция 2 = – 13,62 – 0,002Возраст – 0,15Т + 0,1ЧСС + 0,01ЧД – 1,06К + 0,08Na + 0,003Креатинин + 8,07Ht – 0,19Пол + 3,31Форма течения1– 2,26Форма течени2– 0,57Пол*Форма течения1+ 0,43Пол*Форма течения2 Исходные коэффициенты канонической дискриминантной функции (Об мод Сигма-ограниченная параметризация Эффект Уровень Эффект Столбец Функция 1 Функция 2 Св.член Возраст Т ЧСС ЧД К Na Креатинин Лейкоциты Ht Пол Форма течения Форма течения Пол*Форма течения Пол*Форма течения Собс.знач. Кум.Проп. 1 13,62439 -13,5897 2 -0,04097 -0,0020 3 0,06787 -0,1547 4 -0,10805 0,0969 5 -0,08520 0,0098 6 1,30684 -1,0561 7 -0,05399 0,0800 8 -0,00606 0,0031 9 0,00000 0,0000 10 2,81444 8,0716 муж 11 -1,07054 -0,1951 ОП 12 0,88361 3,3133 СТ ПН 13 0,08665 -2,2611 1 14 1,36149 -0,5727 2 15 -0,09133 0,4336 14,83974 3,3157 0,81737 1,0000 Рис.9.4.24 Подставляя в выписанные уравнения значения показателей произвольного больного, легко посчитать значения дискриминантных функций. При этом следует учитывать значения категориальных предикторов в соответствии с сигма-ограниченной параметризацией. По-сути, вычисление двух дискриминантных функций означает перенос больных из пространства размерности 11 (каждый больной характеризуется 11 параметрами, поэтому является точкой в пространстве размерности 11) в пространство размерности 2, т.е. на плоскость, максимально сохраняя при этом сходство (различие) между группами больных по отклику Состояние (легкое, среднее, тяжелое).
  • 20. Если нажать на кнопку Коэффициенты факторной структуры, модуль отобразит объединенные межклассовые коэффициенты корреляции для эффектов с обеими дискриминантными функциями (рис.9.4.25). Коэффициенты корреляции (r) оценивают степень и направление взаимосвязи эффектов и дискриминантных функций. Так наибольшая взаимосвязь с дискриминантной функцией 1 у эффекта ЧД (r = – 0,39), далее ЧСС (r = – 0,36), Форма течения ОП (r = 0,31) и т.д. Наибольшая взаимосвязь с дискриминантной функцией 2 у эффекта Форма течения ОП (r = 0,37), Форма течения СТПН (r = –0,28) и т.д. Положительный знак означает, что с увеличением эффекта значение дискриминантной функции возрастает, отрицательный знак – наоборот, значение дискриминантной функции убывает. Но это справедливо для статистически значимых корреляций, к сожалению, в модуле не предусмотрена оценка статистической значимости коэффициентов корреляции. Коэффициенты факторной структуры (Об мод. дискрим.анализ) Сигма-ограниченная параметризация Эффект Уровень Эффект Столбец Функция 1 Функция 2 Св.член Возраст Т ЧСС ЧД К Na Креатинин Лейкоциты Ht Пол Форма течения Форма течения Пол*Форма течения Пол*Форма течения 1 0,000000 0,000000 2 -0,335722 -0,100018 3 -0,197466 -0,068896 4 -0,363355 -0,056813 5 -0,398762 -0,080904 6 0,004550 -0,103715 7 0,094012 -0,091976 8 -0,271298 -0,058818 9 -0,134183 -0,143051 10 -0,158355 -0,142138 муж 11 -0,225522 0,069053 ОП 12 0,312017 0,366312 СТ ПН 13 0,149942 -0,281512 1 14 0,137095 -0,156624 2 15 0,059121 0,069409 Рис.9.4.25 Для определения групп больных, при идентификации которых дискриминантные функции вносят наибольший вклад, следует воспользоваться кнопкой Средние канонических переменных. Программа построит таблицу (рис.9.4.26) со средними значениями дискриминантных функций для каждой группы. Из таблицы видно, что наибольший вклад в классификацию больных группы тяжелое вносит дискриминантная функция 1, так как среднее принимает наибольшее по модулю значение (5,41). Наибольший вклад в классификацию больных групп легкое, среднее вносит дискриминантная функция 2, так как средние принимают наибольшие по модулю значения (2,13). Но надо при этом помнить, что на дискриминантную функция 2 приходится всего лишь 8,3% дискриминирующей мощности. Средние в классах для канон. переменных (Об мод. дискрим.анализ) Сигма-ограниченная параметризация Корень легкое среднее тяжелое 1 2 3,030526 2,12139 -5,41709 2,138007 -2,12964 0,25784 Рис.9.4.26 Классификация (дискриминация) больных по группам отклика Состояние будет тем более успешной, чем больше сходство между больными внутри групп и выше различие
  • 21. между группами. В методах классификационного анализа сходство оценивается посредством оценки расстояний между объектами как точками многомерного пространства. Одним из способов измерения расстояний в многомерном пространстве является расстояние Махаланобиса, которое подобно евклидово расстоянию, но дополнительно учитывается корреляция между переменными. Если нажать на кнопку Квадраты расстояний Махаланобиса, то появится симметричная таблица, изображенная на рис.9.4.27. Чем меньше квадрат расстояния между группами, тем больше сходство между ними, и наоборот, чем больше квадрат расстояния между группами, тем меньше сходство между ними. Из таблицы видно, что сходство между группами легкое и среднее значительно выше, чем между группами легкое и тяжелое, среднее и тяжелое. Квадраты рас. Махаланобиса (Об мод. дискрим.анализ) Сигма-ограниченная параметризация Класс легкое среднее тяжелое легкое среднее тяжелое 0,00000 19,03939 74,89716 19,03939 0,00000 62,52866 74,89716 62,52866 0,00000 Рис.9.4.27 Статистическую значимость расстояний можно оценить при помощи кнопки Критерии значимости расстояний. Из таблицы на рис.28 следует, что все расстояния статистически значимы, так как уровни значимости р критерия Фишера (F-критерия) меньше, чем 0,05. Критерии значимости квадратов расстояний Махаланобиса F-крит. с 13 и 35, степенями свободы Сигма-ограниченная параметризация Класс легкое F легкое p среднее F среднее p тяжелое F тяжелое p легкое среднее тяжелое 9,23833 0,000000 34,32276 0,000000 9,23833 0,000000 30,34028 0,000000 34,322760,000000 30,34028 0,000000 Рис.9.4.28 Об адекватности модели дискриминации можно судить по количеству верно классифицированных наблюдений в соответствии с построенной моделью классификации. Если нажать на кнопку Матрица классификации, то будет построена таблица (рис.9.4.29), которая содержит информацию о количестве и проценте корректно классифицированных больных в каждой группе. Строки матрицы – исходные (наблюдаемые) группы больных, столбцы – предсказанные моделью группы больных. Матрица классификации (Об мод. дискрим.анализ) Строки: Наблюдаемые Столбцы: Предсказанные Класс Доля Правил. легкое p=,3200 среднее p=,3600 тяжелое p=,3200 легкое среднее тяжелое Всего 87,5000 14,00000 2,00000 0,00000 94,4444 1,00000 17,00000 0,00000 100,0000 0,00000 0,00000 16,00000 94,0000 15,00000 19,00000 16,00000 Рис.9.4.29 Из таблицы следует, что 14 больных из группы легкое моделью дискриминации отнесены к группе легкое, 2 больных ошибочно отнесены к группе среднее; 1 больной из группы среднее ошибочно отнесен к группе легкое, 17 больных из группы среднее
  • 22. правильно отнесены к группе среднее; все 16 больных из группы тяжелое классифицированы правильно. Общий процент правильно классифицированных больных достаточно высок и составляет 94%. Конечная цель дискриминантного анализа – построить адекватную математическую модель, которая позволит по значению независимых предикторов (признаков), характеризующих объект, классифицировать его, т.е. определить принадлежность к одному из классов зависимой переменной – отклика. Все ранее приведенные результаты анализа говорят о том, что построена достаточно адекватная модель классификации больных по тяжести состояния. Если щелкнуть по кнопке Коэффициенты функции классификации, то появится таблица с коэффициентами функций классификаций для каждой группы больных (рис.9.4.30). Функции классификации – это общие линейные модели, которые могут быть использованы в качестве альтернативного метода классификации наблюдений. Наблюдение (больных) следует отнести к той группе, для которой классификационная функция имеет наибольшее значение. Функции классификации для Состояние (Об мод. дискрим.анализ) Сигма-ограниченная параметризация Эффект Уровень Эффект Столбец легкое p=,3200 среднее p=,3600 тяжелое p=,3200 Св.член Возраст Т ЧСС ЧД К Na Креатинин Лейкоциты Ht Пол Форма течения Форма течения Пол*Форма течения Пол*Форма течения 1 -2344,21 -2296,12 -2441,58 2 -0,50 -0,46 -0,15 3 36,52 37,12 36,24 4 7,31 6,99 8,04 5 -0,38 -0,35 0,32 6 1,60 4,92 -7,45 7 17,33 17,04 17,64 8 0,05 0,04 0,10 9 0,00 0,00 0,00 10 598,30 561,30 559,35 муж 11 -5,45 -3,65 3,96 ОП 12 99,10 84,15 85,40 СТ ПН 13 -62,22 -52,65 -58,70 1 14 -21,79 -20,58 -32,21 2 15 26,31 24,54 26,27 Рис.9.4.30 Обозначим функции классификации для групп легкое, среднее, тяжелое как ФКл, ФКс, ФКт, тогда общие линейные уравнения примут вид: ФКл = –2344,21 – 0,5Возраст + 36,52Т + 7,31ЧСС – 0,38ЧД + 1,6К + 17,33Na + 0,05Креатинин + 598,3Ht – 5,45Пол + 99,1Форма течения1 – 62,22Форма течения2 – 21,79Пол*Форма течения1 + 26,31Пол*Форма течения2; ФКс = –2296,12 – 0,46Возраст + 37,12Т + 6,99ЧСС – 0,35ЧД + 4,92К + 17,04Na + 0,04Креатинин + 561,3Ht – 3,65Пол + 84,15Форма течения1 – 52,65Форма течения2 – 20,58Пол*Форма течения1 + 24,54Пол*Форма течения2; ФКт = –2441,58 – 0,15Возраст + 36,24Т + 8,04ЧСС + 0,32ЧД – 7,45К + 17,64Na + 0,1Креатинин + 559,35Ht + 3,96Пол + 85,4Форма течения1 – 58,7Форма течения2 – 32,21Пол*Форма течения1 + 26,27Пол*Форма течения2. В качестве примера при помощи выписанных классификационных функций определим прогнозируемую группу по состоянию здоровья для больного № 1 из таблицы на рис.9.4.1. Подставим в каждое линейное уравнение значение показателей данного
  • 23. больного: возраст – 21; пол – муж; форма течения – ОП; Т – 36,2; ЧСС – 76; ЧД – 20; К – 3,79; Na – 140,03; Креатинин – 64,67; Ht – 0,34 и вычислим значения ФКл, ФКс, ФКт: ФКл = –2344,21 – 0,5·21 + 36,52·36,2 + 7,31·76 – 0,38·20 + 1,6·3,79 + 17,33·140,03 + 0,05·64,67 + 598,3·0,34 – 5,45·1 + 99,1·1 – 62,22·0 – 21,79·1 + 26,31·0 = 2226,77, ФКс = –2396,12 – 0,46·21 + 37,12·36,2 + 6,99·76 – 0,35·20 + 4,92·3,79 + 17,04·140,03 + 0,04·64,67 + 561,3·0,34 – 3,65·1 + 84,15·1 – 52,65·0 – 20,58·1 + 24,54·0 = 2120,31, ФКт = –2441,58 – 0,15·21 + 36,24·36,2 + 8,04·76 – 0,32·20 + 7,45·3,79 + 17,64·140,03 + 0,1·64,67 + 559,35·0,34 – 3,96·1 + 85,4·1 – 58,7·0 – 32,21·1 + 26,27·0 = 2216,03. Наибольшее значение у классификационной функции ФКл, следовательно, больного следует отнести к группе легкое. Таким образом, прогнозируемое значение отклика совпало с исходным значением – легкое. Дополнительным признаком адекватности модели дискриминации является распределение остатков. Для адекватной модели остатки должны быть случайными числами со средним значением, равным 0 и распределением близким к нормальному закону. Если перейти на вкладку Остатки регрессии (рис.9.4.31), щелкнуть по кнопке Остатки, программа построит гистограммы остатков для классов (групп больных), указанных при помощи выпадающего меню Классы. Как видно из рис.9.4.32 – 9.4.34 условия адекватности модели выполняются, так как гистограммы напоминают нормальное распределение. Рис.9.4.31
  • 24. Гистограмма исходных остатков Зависимая переменная: легкое (Анализ. выборка) -1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 X <= Граница категории 0 5 10 15 20 25 30 Кол-вонабл. Рис.9.4.32 Гистограмма исходных остатков Зависимая переменная: среднее (Анализ. выборка) -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 X <= Граница категории 0 2 4 6 8 10 12 14 16 18 20 22 Кол-вонабл. Рис.9.4.33 Гистограмма исходных остатков Зависимая переменная: тяжелое (Анализ. выборка) -0,5 -0,4 -0,3 -0,2 -0,1 0,0 0,1 0,2 0,3 0,4 X <= Граница категории 0 2 4 6 8 10 12 14 16 18 Кол-вонабл. Рис.9.4.34
  • 25. В модуле GDA классификация наблюдений осуществляется посредством общих линейных моделей, параметры которых отображены в таблице Оценки параметров, представленной на рис.9.4.17. Если перейти на вкладку Остатки регрессии (рис.9.4.31) и щелкнуть по кнопке Предсказанные значения и остатки, то программа для каждого больного построит таблицу с наблюдаемыми и предсказанными значениями координат вектора (x, y, z) (рис.9.4.35). Остатки вычисляются как разность между 1 и предсказанным значением координаты. Как было отмечено, двое больных из группы легкое ошибочно отнесены к группе среднее; один больной из группы среднее ошибочно отнесен к группе легкое (рис.9.4.29). Найти такие наблюдения можно посредством таблицы на рис.9.4.35. Ячейки таблицы, соответствующие выявленным больным выделены полужирным начертанием. Это больной № 12 из группы легкое (1, 0, 0), который ошибочно отнесен к группе среднее (0,44; 0,45; 0,11), так как вторая координата имеет значение наиболее близкое к 1, чем первая. Больной № 25 из группы легкое (1; 0; 0) ошибочно отнесен к группе среднее (0,38; 0,55; 0,07) по этой же причине. Больной № 24 из группы среднее (0; 1; 0), ошибочно отнесен к группе легкое (0,78; 0,21; 0,01) так как первая координата имеет значение наиболее близкое к 1, чем вторая. Если выбрана опция Таблица для каждой зависимой переменной, то модуль построит таблицы идентичные таблице на рис.9.4.35, но отдельно для каждой группы больных. Если выбрана опция Дополнительные статистики, то вместе с предсказанными, наблюдаемыми и остаточными значениями STATISTICA вычислит стандартные 95% предсказанные интервалы, 95% доверительные интервалы, стандартизованные предсказанные и т.д. В модуле GDA, как и в модуле DA предусмотрено автоматическое выделение ошибочно классифицированных наблюдений посредством вычисления апостериорных вероятностей. Если перейти на вкладку Наблюдения, в рамке Статистики наблюдений выделить опцию Апостериорные вероятности и нажать на кнопку Показать статистики (рис.9.4.36), появится таблица с апостериорными вероятностями, в которой звездочками помечены номера неправильно классифицированных наблюдений (больных) (рис.9.4.37).
  • 26. Наблюдаемые, предсказанные и значения остатков (Об мод. дискрим.анализ) Сигма-ограниченная параметризация (Анализ. выборка) Номер набл. легкое Наблюд. легкое Предск. легкое Остатки среднее Наблюд. среднее Предск. среднее Остатки тяжелое Наблюд. тяжелое Предск. тяжелое Остатки 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 1,00 0,78 0,22 0,00 0,40 -0,40 0,00 -0,18 0,18 0,00 0,07 -0,07 0,00 -0,21 0,21 1,00 1,14 -0,14 1,00 1,05 -0,05 0,00 0,02 -0,02 0,00 -0,06 0,06 1,00 0,95 0,05 0,00 -0,11 0,11 0,00 0,16 -0,16 0,00 0,13 -0,13 1,00 0,90 0,10 0,00 -0,03 0,03 1,00 1,05 -0,05 0,00 -0,16 0,16 0,00 0,10 -0,10 0,00 0,07 -0,07 0,00 -0,07 0,07 1,00 0,99 0,01 0,00 0,09 -0,09 0,00 0,05 -0,05 1,00 0,86 0,14 0,00 0,11 -0,11 1,00 0,85 0,15 0,00 0,03 -0,03 0,00 0,26 -0,26 1,00 0,79 0,21 0,00 -0,06 0,06 1,00 0,81 0,19 0,00 0,14 -0,14 0,00 0,05 -0,05 1,00 0,44 0,55 0,00 0,45 -0,45 0,00 0,11 -0,11 0,00 -0,16 0,16 0,00 0,05 -0,05 1,00 1,11 -0,11 0,00 0,09 -0,09 1,00 0,90 0,10 0,00 0,01 -0,01 1,00 0,98 0,02 0,00 0,00 -0,00 0,00 0,02 -0,02 0,00 0,06 -0,06 0,00 0,19 -0,19 1,00 0,76 0,24 0,00 0,09 -0,09 0,00 0,11 -0,11 1,00 0,80 0,20 0,00 0,06 -0,06 1,00 0,70 0,30 0,00 0,24 -0,24 0,00 0,13 -0,13 0,00 -0,05 0,05 1,00 0,92 0,08 0,00 -0,01 0,01 1,00 1,26 -0,26 0,00 -0,25 0,25 1,00 1,01 -0,01 0,00 0,10 -0,10 0,00 -0,12 0,12 0,00 0,10 -0,10 0,00 -0,21 0,21 1,00 1,12 -0,12 1,00 0,95 0,05 0,00 -0,05 0,05 0,00 0,11 -0,11 0,00 0,78 -0,78 1,00 0,21 0,79 0,00 0,01 -0,01 1,00 0,38 0,62 0,00 0,55 -0,55 0,00 0,07 -0,07 0,00 0,05 -0,05 1,00 0,94 0,06 0,00 0,00 -0,00 0,00 -0,01 0,01 1,00 1,05 -0,05 0,00 -0,04 0,04 0,00 0,07 -0,07 1,00 0,94 0,06 0,00 -0,00 0,00 0,00 0,02 -0,02 0,00 0,29 -0,29 1,00 0,69 0,31 1,00 0,89 0,11 0,00 0,13 -0,13 0,00 -0,02 0,02 0,00 -0,07 0,07 0,00 -0,07 0,07 1,00 1,13 -0,13 0,00 0,06 -0,06 0,00 -0,17 0,17 1,00 1,11 -0,11 0,00 -0,07 0,07 0,00 0,19 -0,19 1,00 0,88 0,12 0,00 0,04 -0,04 1,00 0,95 0,05 0,00 0,02 -0,02 0,00 -0,14 0,14 1,00 0,94 0,06 0,00 0,19 -0,19 1,00 1,11 -0,11 0,00 0,01 -0,01 0,00 -0,12 0,12 0,00 -0,11 0,11 1,00 0,86 0,14 0,00 0,25 -0,25 1,00 0,69 0,31 0,00 0,31 -0,31 0,00 -0,01 0,01 0,00 0,05 -0,05 1,00 0,87 0,13 0,00 0,08 -0,08 1,00 1,15 -0,15 0,00 -0,20 0,20 0,00 0,05 -0,05 0,00 0,00 -0,00 1,00 0,95 0,05 0,00 0,05 -0,05 0,00 -0,18 0,18 0,00 0,23 -0,23 1,00 0,96 0,04 0,00 -0,04 0,04 0,00 0,11 -0,11 1,00 0,93 0,07 0,00 0,10 -0,10 1,00 0,84 0,16 0,00 0,06 -0,06 0,00 0,01 -0,01 1,00 0,97 0,03 0,00 0,02 -0,02 1,00 0,79 0,21 0,00 0,23 -0,23 0,00 -0,01 0,01 0,00 0,01 -0,01 0,00 0,08 -0,08 1,00 0,91 0,09 1,00 1,02 -0,02 0,00 -0,04 0,04 0,00 0,02 -0,02 0,00 -0,01 0,01 0,00 0,02 -0,02 1,00 0,99 0,01 0,00 0,29 -0,29 1,00 0,76 0,24 0,00 -0,05 0,05 Рис.9.4.35
  • 28. Апостериорные вероятности классификации Неверные классификации отмечены символом * Анализируемая выборка N = 50 Номер набл. Наблюдае Классиф. легкое вер. среднее вер. тяжелое вер. 1 2 3 4 5 6 7 8 9 10 11 *12 13 14 15 16 17 18 19 20 21 22 23 *24 *25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 легкое 0,997328 0,002672 0,000000 тяжелое 0,000000 0,000000 1,000000 легкое 0,999998 0,000002 0,000000 легкое 0,999994 0,000006 0,000000 среднее 0,000104 0,999896 0,000000 легкое 0,999999 0,000001 0,000000 тяжелое 0,000000 0,000000 1,000000 тяжелое 0,000000 0,000000 1,000000 среднее 0,000097 0,999903 0,000000 среднее 0,002259 0,997741 0,000000 легкое 0,999681 0,000319 0,000000 легкое 0,337120 0,662880 0,000000 тяжелое 0,000000 0,000000 1,000000 среднее 0,000046 0,999954 0,000000 легкое 0,999994 0,000006 0,000000 тяжелое 0,000000 0,000000 1,000000 тяжелое 0,000000 0,000000 1,000000 среднее 0,000092 0,999908 0,000000 тяжелое 0,000000 0,000000 1,000000 среднее 0,000001 0,999999 0,000000 легкое 0,999994 0,000006 0,000000 тяжелое 0,000000 0,000000 1,000000 легкое 0,999991 0,000009 0,000000 среднее 0,999055 0,000945 0,000000 легкое 0,080690 0,919310 0,000000 среднее 0,000018 0,999982 0,000000 среднее 0,000003 0,999997 0,000000 среднее 0,000024 0,999976 0,000000 тяжелое 0,000000 0,000002 0,999998 легкое 0,999926 0,000074 0,000000 тяжелое 0,000000 0,000000 1,000000 тяжелое 0,000000 0,000000 1,000000 тяжелое 0,000000 0,000000 1,000000 среднее 0,000013 0,999987 0,000000 среднее 0,000001 0,999999 0,000000 легкое 0,999999 0,000001 0,000000 среднее 0,000001 0,999998 0,000000 легкое 0,991727 0,008273 0,000000 среднее 0,000027 0,999973 0,000000 легкое 1,000000 0,000000 0,000000 среднее 0,000007 0,999993 0,000000 тяжелое 0,000000 0,000000 1,000000 тяжелое 0,000000 0,000000 1,000000 среднее 0,000082 0,999918 0,000000 среднее 0,000007 0,999993 0,000000 легкое 0,999094 0,000906 0,000000 тяжелое 0,000000 0,000000 1,000000 легкое 0,999997 0,000003 0,000000 тяжелое 0,000000 0,000000 1,000000 среднее 0,004537 0,995463 0,000000 Рис.9.4.37
  • 29. Больного следует отнести к той группе, соответствующая апостериорная вероятность для которой максимальна. Если дополнительно выделить опции Квадраты расстояний Махаланобиса, Классификация, Канонические значения, то в таблице дополнительно для каждого больного будут отображены: – квадраты расстояний Махаланобиса от больного до центра каждой из групп (больного следует отнести к той группе, расстояние до центра которой минимально); – максимальная вероятность, 2-я максимальная вероятность, 3-я максимальная вероятность принадлежности больного к группам; – значения дискриминантных функций (канонические значения). Как и в модуле DA, в модуле GDA можно провести классификацию наблюдений, для которых класс не определен. Для этого надо закрыть все окна модуля GDA, добавить в таблицу данных новые строки, оставив ячейку категориальной переменной пустой и выключить опцию кросс-проверки. В качестве примера, добавим в таблицу данных новую 51 строку, и наберем данные нового пациента, состояние которого следует идентифицировать (рис.9.4.38). 1 Возраст 2 Т 3 ЧСС 4 ЧД 5 К 6 Na 7 Креати нин 8 Лейкоц иты 9 Ht 10 Пол 11 Форма течения 12 Состояние 40 41 42 43 44 45 46 47 48 49 50 51 26 36,6 82 18 3,44 140,13 50,96 5,92 0,39 жен ОП легкое 44 37,9 94 29 4,22 130,40 143,16 9,64 0,45 жен СТ ПН среднее 65 39,9 105 39 4,84 131,45 273,46 6,01 0,41 муж ИНП тяжелое 49 39,3 96 44 3,95 131,52 234,29 12,48 0,48 муж ИНП тяжелое 46 37,8 80 27 3,57 138,22 206,94 6,06 0,50 жен СТ ПН среднее 30 36,4 77 17 3,57 139,00 41,82 5,90 0,44 муж СТ ПН среднее 42 40,3 88 27 4,40 129,30 160,31 3,66 0,49 муж ОП легкое 54 39,9 95 40 3,70 138,28 144,38 3,85 0,48 муж ИНП тяжелое 27 38,3 77 29 3,73 141,05 44,72 6,10 0,40 жен ОП легкое 49 40,7 100 39 3,43 129,07 243,37 12,66 0,47 муж ИНП тяжелое 34 39,9 95 23 4,41 133,60 157,95 14,11 0,45 жен ИНП среднее 25 37,0 80 25 3,50 145,00 60,00 6,00 0,45 жен ИНП Рис.9.4.38 Запустим модуль GDA, выделив опцию построения модели Лучшие подмножества, далее на вкладке Наблюдения диалога Результаты (рис.9.4.36) надо в рамке Выборка для построения остатков выделить опцию Предсказанные, в рамке Статистика наблюдений – интересующие нас статистики, в том числе Апостериорные вероятности, или квадраты расстояний Махаланобиса. Если нажать на кнопку Показать статистики, появится таблица (рис.9.4.39) со значениями обозначенных статистик для нового больного № 51. Статистики для каждого наблюдения (Об мод. дискрим.анализ) Предск. выборка N = 1 Номер набл. легкое Рас.Махл среднее Рас.Махл тяжелое Рас.Махл легкое вер. среднее вер. тяжелое вер. Макс. Вероят. 2-ая Макс. 3-я Макс. 51 29,61408 25,56545 99,589660,105072 0,894928 0,000000 среднеелегкое тяжелое Рис.9.4.39 Из таблицы видно, что минимальное значение квадрата расстояния Махаланобиса (25,56), максимальное значение апостериорной вероятности (0,89), максимальная вероятность соответствуют группе среднее, следовательно, состояние больного соответствует группе среднее. Обратите внимание, что апостериорная вероятность для группы легкое (0,11), больше, чем вероятность для группы тяжелое (0,00), а расстояние
  • 30. Махаланобиса наоборот, к группе легкое (29,61) значительно меньше, чем к группе тяжелое (99,58). Это означает, что больной, которого в соответствии с произведенной классификацией следует отнести к группе среднее, по своему состоянию ближе к группе легкое, чем тяжелое. Если перейти на вкладку Профили, то откроется диалог (рис.9.4.40), в котором можно просмотреть значения функций желательности и графики профилей для всех классов – значений отклика. Рис.9.4.40 Профили – это графики зависимостей апостериорных вероятностей принадлежности наблюдений к классам зависимой переменной – отклика от равноотстоящих значений предиктора при фиксированных на определенном уровне текущих значений других предикторов. Для построения профилей интервалы изменения предикторов разбиваются на диапазоны и, для вычисления апостериорных вероятностей рассматриваются границы диапазонов, которые называются уровнями факторов. Число уровней фактора равно количеству диапазонов плюс 1. При помощи кнопки Классы можно выбрать класс зависимой переменной (группу больных) для построения профиля. Установить параметры анализа можно, воспользовавшись кнопкой Опции. Если в поле Параметры профилей отклика открывшегося окна установить флажок Показывать таблицы с графиками (рис.9.4.41), то будут построены таблицы и графики, в противном случае – только графики. В нижней рамке окна Метод подгонки можно выбрать метод подгонки поверхности к значениям желательности.
  • 31. Рис.9.4.41 В рамке Значения факторов окна на рис.9.4.40 можно задать фиксированные текущие значения предикторов. Опция Среднее означает, что текущие значения предикторов будут равны их средним значениям. Опция Пользователя предполагает, что текущие значения предикторов могут быть заданы пользователем, опция Оптимальные означает, что текущий уровень каждого предиктора равен значению, оптимизирующему желательность отклика. При выборе опции Оптимальные активной станет рамка Параметры функции желательности и появится галочка перед строкой Показать функцию желательности. Выберем опцию Среднее и установим флажок на опцию Показать функцию желательности. Для того чтобы задать количество уровней факторов надо нажать на кнопку Сетка. В появившемся окне (рис.9.4.42) в рамке Фактор при помощи кнопок Назад, Далее и выпадающего меню можно просмотреть диапазоны изменения факторов от минимального до максимального значений. Минимум и максимум количественных предикторов на сетке не совпадают с минимальным и максимальным значением показателя, так как они определяются как среднее ± 2сигма, в предположении, что предикторы имеют нормальное распределение. По желанию пользователя границы диапазонов можно изменить. В рамке Число шагов можно задать для каждого фактора задать количество диапазонов. Для категориальных предикторов число шагов будет соответствовать числу значений предикторов минус 1, причем настройки в этом диалоге можно задать, только так, чтобы уровни совпадали с наблюдаемыми значениями категориальных предикторов. В этом диалоге уровни категориальных предикторов всегда обозначаются соответствующими целыми числами (например, для предиктора Форма течения – числами 1, 2, 3), независимо от используемых в программе кодов. При использовании опции Сетка не рекомендуется выбирать большое количество шагов, чтобы сократить длительные вычисления. Оставим по умолчанию число шагов, равное 4 и щелкнем по ОК, программа вернется в диалог на рис.9.4.40.