Stat 4 alpha

Модуль 4

Основы статистики

О чем пойдет речь
 Основные понятия статистического
анализа данных
 Встроенные статистические функции в
Excel
 Статистический анализ в Excel.
Надстройка «Анализ»

Урок 1
Начала статистики
 Основные понятия статистики
 Методы статистического анализа данных

www.statsoft.ru/home/textbook/default.htm

Математическая статистика
 наука о математических методах
систематизации и
использования статистических данных для
научных и практических выводов
 математическая статистика опирается
на теорию вероятностей

Переменные
 то, что можно измерять, контролировать
или что можно изменять в исследованиях
 отличаются многими аспектами, особенно
той ролью, которую они играют в
исследованиях, шкалой измерения и т.д.
 Количественные (прибыль) и качественные
(пол)

Зависимые и независимые
переменные
 Независимые переменные варьируются
исследователем
 зависимые – переменные, которые
измеряются или регистрируются

Шкалы измерений
 Способ измерения переменных
 Виды шкал:
 номинальные

 порядковые (ординальные)
 интервальные

 относительные

Связи между переменными
 две или более переменных связаны
(зависимы) между собой, если
наблюдаемые значения этих переменных
распределены согласованным образом
 конечная цель всякого исследования или
научного анализа состоит в нахождение
связей (зависимостей) между
переменными

Признаки зависимости между
переменными
 Величина
 Надежность ("истинность")
 наскольковероятно, что зависимость,
подобная найденной вами, подтвердится на
данных другой выборки, извлеченной из той
же самой популяции

Надежность = значимость
 Уровень значимости обозначают буквой α
(альфа)
 Популярные уровни значимости: 5%, 1%, и
0.1%
 если кто-то говорит, что «шансы того, что
случившееся является совпадением,
равным одному из тысячи», то имеется в
виду 0.1 % уровень значимости

Доверительный интервал
 допустимое отклонение наблюдаемых
значений от истинных
 Размер этого допущения определяется
исследователем с учетом требований к
точности информации

Дисперсия
 мера разброса данной случайной
величины, то есть еѐ отклонения от
математического ожидания
 Квадратный корень из дисперсии, σ,
называется среднеквадратичным
отклонением, стандартным отклонением
или стандартным разбросом

где символ M обозначает математическое
ожидание

Математическое ожидание
 мера среднего значения случайной
величины в теории вероятностей

ru.wikipedia.org/wiki/Математическое_ожидание

Генеральная совокупность
 population
 совокупностьвсех объектов (единиц),
относительно которых учѐный намерен
делать выводы при изучении конкретной
проблемы
 Выборка
 множествослучаев (испытуемых, объектов,
событий, образцов), с помощью
определѐнной процедуры выбранных из
генеральной совокупности для участия в
исследовании
ru.wikipedia.org/wiki/Выборка

Нормальное распределение
 распределение Гаусса
 распределение вероятностей, которое играет важнейшую
роль во многих областях знаний, особенно в физике

ru.wikipedia.org/wiki/Нормальное_распределение

Основные статистики
 Описательные статистики
 Сравнение средних двух выборок
 Одновыборочный T-Тест
 отличие среднего одной выборки от заданной константы
 F-Тест для дисперсии
 сравнения дисперсий двух генеральных совокупностей
 Линейная корреляция (Пирсона)
 мера линейной зависимости переменных
 "степень" зависимости или связанности двух переменных
 Корреляция Фехнера
 Ковариация
 ассоциированы ли наборы данных по величине
 Проверка нормальности
 проверка является ли данная выборка нормально распределѐнной

Урок 2
Статистика в Excel
 Встроенные статистические функции в
Excel
 Статистический анализ в Excel.
Надстройка «Анализ»

Дисперсия
 пример: анализ показателей
продаж
 позволяет измерить,
насколько данные
отличаются друг от друга
 данные с низкой дисперсией
состоят из идентичных или
близких значений: 6, 7, 6, 6, 7
 данные с высокой дисперсией
содержат сильно
отличающиеся значения: 598,
1, 134, 5, 92
 =VAR(диапазон)

Связанные функции
 В Microsoft Excel есть
много связанных друг с
другом функций с
похожими именам

Не сходится?
 Некоторые функции возвращают
результаты, отличающиеся от результатов
в предыдущих версиях Excel
в новой версии улучшен ряд функций
 используется «двухпроходная» процедура,
повышающая точность результатов
 Различие результатов будет заметно
только в крайних случаях
 редко встречаются.

Пакет «Анализ данных»
 предназначен для
решения сложных
статистических и
инженерных задач
 некоторые статистические
функции становятся
доступны только после его
установи

Дисперсионный анализ
 Однофакторный дисперсионный анализ
 для анализа дисперсии по данным двух или
нескольких выборок
 Двухфакторный дисперсионный анализ с
повторениями
 если данные можно систематизировать по двум
параметрам
 Двухфакторный дисперсионный анализ без
повторения
 предполагается только одно наблюдение для
каждой пары

Пример
 Двухфакторный дисперсионный анализ с
повторениями
в опыте по измерению роста растения
обрабатывали удобрениями различных
производителей (например, А, В, С) и
содержали при различной температуре
(например, низкой и высокой)
 для каждой из 6 возможных пар условий
{удобрение, температура} имеется набор
наблюдений за ростом растений

Пример
 Можно проверить следующие гипотезы:
 Извлечены ли данные о росте растений для различных
марок удобрений из одной генеральной совокупности
независимо от температуры
 Извлечены ли данные о росте растений для различных
уровней температуры из одной генеральной совокупности
независимо от марки удобрения.
 Извлечены ли 6 выборок, представляющих все пары
значений {удобрение, температура}, используемые для
оценки влияния различных марок удобрений и уровней
температуры, из одной генеральной совокупности.
 Альтернативная гипотеза предполагает, что влияние
конкретных пар {удобрение, температура} превышает
влияние отдельно удобрения и отдельно температуры.

Пример
 Двухфакторный дисперсионный анализ без
повторения
 предполагается только одно наблюдение для
каждой пары (например, для каждой пары
{удобрение, температура}) в примере выше

Корреляционный анализ
 Функции КОРРЕЛ и ПИРСОН вычисляют
коэффициент корреляции между двумя
переменными измерений
 Коэффициент корреляции, характеризует
область, в которой два измерения
«изменяются вместе»
 значение коэффициента корреляции должно
находится в диапазоне от -1 до +1
включительно
 дает возможность установить, ассоциированы
ли наборы данных по величине

Ковариационный анализ
 характеризует область, в которой две
переменные «изменяются вместе»
 значения ковариационного анализа не
масштабируются
 вычисляет значение функции КОВАР для каждой
пары переменных измерений
 Элемент по диагонали возвращаемой таблицы –
дисперсия генеральной совокупности для данной
переменной, вычисляемая функцией ДИСПР
 дает возможность установить, ассоциированы
ли наборы данных по величине

Описательная статистика
 служит для создания одномерного
статистического отчета, содержащего
информацию о центральной тенденции и
изменчивости входных данных

Экспоненциальное сглаживание
 для предсказания значения на основе
прогноза для предыдущего периода,
скорректированного с учетом погрешностей в
этом прогнозе
 используется константа сглаживания a, по
величине которой определяется степень
влияния на прогнозы погрешностей в
предыдущем прогнозе
 Для константы сглаживания наиболее
подходящими являются значения от 0,2 до 0,3
 ошибка текущего прогноза установлена на уровне
от 20 до 30 процентов ошибки предыдущего

Двухвыборочный F-тест для
дисперсии
 для сравнения дисперсий двух
генеральных совокупностей
 вычисляется значение f F-статистики (или
F-коэффициент)
 Значениеf, близкое к 1, показывает, что
дисперсии генеральной совокупности равны

Анализ Фурье
 для решения задач в линейных системах и
анализа периодических данных на основе
метода быстрого преобразования Фурье
(БПФ)
 поддерживается также обратное
преобразование

Гистограмма
 для вычисления выборочных и
интегральных частот попадания данных в
указанные интервалы значений
 Пример: выявить тип распределения
успеваемости в группе из 20 студентов
 Таблица гистограммы состоит из границ
шкалы оценок и количеств студентов, уровень
успеваемости которых находится между
самой нижней границей и текущей границей
 Наиболее часто повторяемый уровень
является модой интервала данных

Скользящее среднее
 для расчета значений в прогнозируемом
периоде на основе среднего значения
переменной для указанного числа
предшествующих периодов
 содержит сведения о тенденциях
изменения данных
 может использоваться для прогноза сбыта,
запасов и других процессов

Скользящее среднее

Генерация случайных чисел
 для заполнения диапазона случайными
числами, извлеченными из одного или
нескольких распределений
 можно моделировать объекты, имеющие
случайную природу, по известному
распределению вероятностей
 Пример: использовать распределение
Бернулли для двух вероятных исходов,
чтобы описать совокупность результатов
бросания монеты

Ранг и персентиль
 для вывода таблицы, содержащей
порядковый и процентный ранги для
каждого значения в наборе данных
 может быть применен для анализа
относительного взаиморасположения
данных в наборе
 использует функции РАНГ и
ПРОЦЕНТРАНГ

Регрессия
 заключается в подборе графика для
набора наблюдений с помощью метода
наименьших квадратов
 используется для анализа воздействия на
отдельную зависимую переменную
значений одной или более независимых
переменных
 Регрессия использует функцию ЛИНЕЙН

Выборка
 Создает выборку из генеральной
совокупности
 входной диапазон рассматривается, как
генеральную совокупность

T-тест
 Двухвыборочный t-тест проверяет
равенство средних значений генеральной
совокупности по каждой выборке
 Эти три средства допускают:
 равные дисперсии генерального
распределения
 дисперсии генеральной совокупности не
равны
 представление двух выборок до и после
наблюдения по одному и тому же субъекту

Двухвыборочный t-тест с
одинаковыми дисперсиями
 Двухвыборочный t-тест Стьюдента служит
для проверки гипотезы о равенстве
средних для двух выборок
 Эта форма t-теста предполагает
совпадение значений дисперсии
генеральных совокупностей и обычно
называется гомоскедастическим t-тестом

разными дисперсиями
 Двухвыборочный t-тест Стьюдента
используется для проверки гипотезы о
равенстве средних для двух выборок данных
из разных генеральных совокупностей
 Эта форма t-теста предполагает
несовпадение дисперсий генеральных
совокупностей и обычно называется
гетероскедастическим t-тестом
 Если тестируется одна и та же генеральная
совокупность, используйте парный тест

 Для определения тестовой
величины t используется следующая
формула.

 Следующая формула используется для
вычисления степени свободы df
 результат вычисления обычно не бывает
целым числом, значение df округляется до
целого для получения порогового значения
из t-таблицы

Парный двухвыборочный t-тест
для средних
 Парный двухвыборочный t-тест Стьюдента
используется для проверки гипотезы о
различии средних для двух выборок данных
 не предполагается равенство дисперсий
генеральных совокупностей, из которых
выбраны данные
 используется, когда имеется естественная
парность наблюдений в выборках, например,
когда генеральная совокупность тестируется
дважды — до и после эксперимента

Парный двухвыборочный t-тест
для средних
 Одним из результатов теста является
совокупная дисперсия (совокупная мера
распределения данных вокруг среднего
значения), вычисляемая по следующей
формуле:

Z-тест
 Двухвыборочный z-тест для средних с
известными дисперсиями
 Используется для проверки гипотезы о
различии между средними двух
генеральных совокупностей
 Пример: этот тест может использоваться
для определения различия между
характеристиками двух моделей
автомобилей

Практическое занятие (10 мин)
 Запустите Excel любым удобным
вам способом
 Откройте файл практического
задания по теме «Дисперсия», и
выполните расчеты
 Откройте файл практического
задания по теме «стандартное
отклонение» и выполните
расчеты
 Попробуйте возможности,
предоставляемые пакетом
«Анализ данных»

Проверьте себя
 Какие основные понятия статистики вы
можете вспомнить?
 Какие основные статистики вы знаете?
 Приведите примеры встроенных
статистических функций Excel
 Можно ли использовать пакет «Анализ
данных» сразу же после установки Excel?
 Какие возможности он предоставляет?

Итоги
 В Excel имеется довольно большой набор
статистических функций?
 Часть из них недоступна до установки
пакета «Анализ данных»
 Пакет «Анализ данных» позволяет
проводить все основные виды
статистических исследований

Office Online
 Средства статистического анализа данных
office.microsoft.com/ru-
ru/excel/HP052038731049.aspx
 Статистические функции Microsoft Excel
office.microsoft.com/training/training.aspx?As
setID=RC010919231049&pid=CH010004901
049

Бесплатные курсы
 Статистические методы анализа данных
www.intuit.ru/department/database/dataanaly
sis/
 Основы математической статистики
www.intuit.ru/department/economics/basicstat
/
 Прикладная статистика
www.intuit.ru/department/mathematics/appsta
t/

Функции Excel
 Соответствие английских и русских
формул в Excel
brusentsov.com/2009/12/27/3519

Stat 4 alpha

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (7)

Similar a Stat 4 alpha

Similar a Stat 4 alpha (20)

Más de Alexander Babich

Más de Alexander Babich (20)

Stat 4 alpha