2. О чем пойдет речь
Основные понятия статистического
анализа данных
Встроенные статистические функции в
Excel
Статистический анализ в Excel.
Надстройка «Анализ»
5. Математическая статистика
наука о математических методах
систематизации и
использования статистических данных для
научных и практических выводов
математическая статистика опирается
на теорию вероятностей
6. Переменные
то, что можно измерять, контролировать
или что можно изменять в исследованиях
отличаются многими аспектами, особенно
той ролью, которую они играют в
исследованиях, шкалой измерения и т.д.
Количественные (прибыль) и качественные
(пол)
7. Зависимые и независимые
переменные
Независимые переменные варьируются
исследователем
зависимые – переменные, которые
измеряются или регистрируются
8. Шкалы измерений
Способ измерения переменных
Виды шкал:
номинальные
порядковые (ординальные)
интервальные
относительные
9. Связи между переменными
две или более переменных связаны
(зависимы) между собой, если
наблюдаемые значения этих переменных
распределены согласованным образом
конечная цель всякого исследования или
научного анализа состоит в нахождение
связей (зависимостей) между
переменными
10. Признаки зависимости между
переменными
Величина
Надежность ("истинность")
наскольковероятно, что зависимость,
подобная найденной вами, подтвердится на
данных другой выборки, извлеченной из той
же самой популяции
11. Надежность = значимость
Уровень значимости обозначают буквой α
(альфа)
Популярные уровни значимости: 5%, 1%, и
0.1%
если кто-то говорит, что «шансы того, что
случившееся является совпадением,
равным одному из тысячи», то имеется в
виду 0.1 % уровень значимости
12. Доверительный интервал
допустимое отклонение наблюдаемых
значений от истинных
Размер этого допущения определяется
исследователем с учетом требований к
точности информации
13. Дисперсия
мера разброса данной случайной
величины, то есть еѐ отклонения от
математического ожидания
Квадратный корень из дисперсии, σ,
называется среднеквадратичным
отклонением, стандартным отклонением
или стандартным разбросом
где символ M обозначает математическое
ожидание
14. Математическое ожидание
мера среднего значения случайной
величины в теории вероятностей
ru.wikipedia.org/wiki/Математическое_ожидание
15. Генеральная совокупность
population
совокупностьвсех объектов (единиц),
относительно которых учѐный намерен
делать выводы при изучении конкретной
проблемы
Выборка
множествослучаев (испытуемых, объектов,
событий, образцов), с помощью
определѐнной процедуры выбранных из
генеральной совокупности для участия в
исследовании
ru.wikipedia.org/wiki/Выборка
16. Нормальное распределение
распределение Гаусса
распределение вероятностей, которое играет важнейшую
роль во многих областях знаний, особенно в физике
ru.wikipedia.org/wiki/Нормальное_распределение
17. Основные статистики
Описательные статистики
Сравнение средних двух выборок
Одновыборочный T-Тест
отличие среднего одной выборки от заданной константы
F-Тест для дисперсии
сравнения дисперсий двух генеральных совокупностей
Линейная корреляция (Пирсона)
мера линейной зависимости переменных
"степень" зависимости или связанности двух переменных
Корреляция Фехнера
Ковариация
ассоциированы ли наборы данных по величине
Проверка нормальности
проверка является ли данная выборка нормально распределѐнной
18. Урок 2
Статистика в Excel
Встроенные статистические функции в
Excel
Статистический анализ в Excel.
Надстройка «Анализ»
19. Дисперсия
пример: анализ показателей
продаж
позволяет измерить,
насколько данные
отличаются друг от друга
данные с низкой дисперсией
состоят из идентичных или
близких значений: 6, 7, 6, 6, 7
данные с высокой дисперсией
содержат сильно
отличающиеся значения: 598,
1, 134, 5, 92
=VAR(диапазон)
20. Связанные функции
В Microsoft Excel есть
много связанных друг с
другом функций с
похожими именам
22. Не сходится?
Некоторые функции возвращают
результаты, отличающиеся от результатов
в предыдущих версиях Excel
в новой версии улучшен ряд функций
используется «двухпроходная» процедура,
повышающая точность результатов
Различие результатов будет заметно
только в крайних случаях
редко встречаются.
23. Пакет «Анализ данных»
предназначен для
решения сложных
статистических и
инженерных задач
некоторые статистические
функции становятся
доступны только после его
установи
24.
25. Дисперсионный анализ
Однофакторный дисперсионный анализ
для анализа дисперсии по данным двух или
нескольких выборок
Двухфакторный дисперсионный анализ с
повторениями
если данные можно систематизировать по двум
параметрам
Двухфакторный дисперсионный анализ без
повторения
предполагается только одно наблюдение для
каждой пары
26. Пример
Двухфакторный дисперсионный анализ с
повторениями
в опыте по измерению роста растения
обрабатывали удобрениями различных
производителей (например, А, В, С) и
содержали при различной температуре
(например, низкой и высокой)
для каждой из 6 возможных пар условий
{удобрение, температура} имеется набор
наблюдений за ростом растений
27. Пример
Можно проверить следующие гипотезы:
Извлечены ли данные о росте растений для различных
марок удобрений из одной генеральной совокупности
независимо от температуры
Извлечены ли данные о росте растений для различных
уровней температуры из одной генеральной совокупности
независимо от марки удобрения.
Извлечены ли 6 выборок, представляющих все пары
значений {удобрение, температура}, используемые для
оценки влияния различных марок удобрений и уровней
температуры, из одной генеральной совокупности.
Альтернативная гипотеза предполагает, что влияние
конкретных пар {удобрение, температура} превышает
влияние отдельно удобрения и отдельно температуры.
28. Пример
Двухфакторный дисперсионный анализ без
повторения
предполагается только одно наблюдение для
каждой пары (например, для каждой пары
{удобрение, температура}) в примере выше
29. Корреляционный анализ
Функции КОРРЕЛ и ПИРСОН вычисляют
коэффициент корреляции между двумя
переменными измерений
Коэффициент корреляции, характеризует
область, в которой два измерения
«изменяются вместе»
значение коэффициента корреляции должно
находится в диапазоне от -1 до +1
включительно
дает возможность установить, ассоциированы
ли наборы данных по величине
30. Ковариационный анализ
характеризует область, в которой две
переменные «изменяются вместе»
значения ковариационного анализа не
масштабируются
вычисляет значение функции КОВАР для каждой
пары переменных измерений
Элемент по диагонали возвращаемой таблицы –
дисперсия генеральной совокупности для данной
переменной, вычисляемая функцией ДИСПР
дает возможность установить, ассоциированы
ли наборы данных по величине
31. Описательная статистика
служит для создания одномерного
статистического отчета, содержащего
информацию о центральной тенденции и
изменчивости входных данных
32. Экспоненциальное сглаживание
для предсказания значения на основе
прогноза для предыдущего периода,
скорректированного с учетом погрешностей в
этом прогнозе
используется константа сглаживания a, по
величине которой определяется степень
влияния на прогнозы погрешностей в
предыдущем прогнозе
Для константы сглаживания наиболее
подходящими являются значения от 0,2 до 0,3
ошибка текущего прогноза установлена на уровне
от 20 до 30 процентов ошибки предыдущего
33. Двухвыборочный F-тест для
дисперсии
для сравнения дисперсий двух
генеральных совокупностей
вычисляется значение f F-статистики (или
F-коэффициент)
Значениеf, близкое к 1, показывает, что
дисперсии генеральной совокупности равны
34. Анализ Фурье
для решения задач в линейных системах и
анализа периодических данных на основе
метода быстрого преобразования Фурье
(БПФ)
поддерживается также обратное
преобразование
35. Гистограмма
для вычисления выборочных и
интегральных частот попадания данных в
указанные интервалы значений
Пример: выявить тип распределения
успеваемости в группе из 20 студентов
Таблица гистограммы состоит из границ
шкалы оценок и количеств студентов, уровень
успеваемости которых находится между
самой нижней границей и текущей границей
Наиболее часто повторяемый уровень
является модой интервала данных
36. Скользящее среднее
для расчета значений в прогнозируемом
периоде на основе среднего значения
переменной для указанного числа
предшествующих периодов
содержит сведения о тенденциях
изменения данных
может использоваться для прогноза сбыта,
запасов и других процессов
38. Генерация случайных чисел
для заполнения диапазона случайными
числами, извлеченными из одного или
нескольких распределений
можно моделировать объекты, имеющие
случайную природу, по известному
распределению вероятностей
Пример: использовать распределение
Бернулли для двух вероятных исходов,
чтобы описать совокупность результатов
бросания монеты
39. Ранг и персентиль
для вывода таблицы, содержащей
порядковый и процентный ранги для
каждого значения в наборе данных
может быть применен для анализа
относительного взаиморасположения
данных в наборе
использует функции РАНГ и
ПРОЦЕНТРАНГ
40. Регрессия
заключается в подборе графика для
набора наблюдений с помощью метода
наименьших квадратов
используется для анализа воздействия на
отдельную зависимую переменную
значений одной или более независимых
переменных
Регрессия использует функцию ЛИНЕЙН
41. Выборка
Создает выборку из генеральной
совокупности
входной диапазон рассматривается, как
генеральную совокупность
42. T-тест
Двухвыборочный t-тест проверяет
равенство средних значений генеральной
совокупности по каждой выборке
Эти три средства допускают:
равные дисперсии генерального
распределения
дисперсии генеральной совокупности не
равны
представление двух выборок до и после
наблюдения по одному и тому же субъекту
43. Двухвыборочный t-тест с
одинаковыми дисперсиями
Двухвыборочный t-тест Стьюдента служит
для проверки гипотезы о равенстве
средних для двух выборок
Эта форма t-теста предполагает
совпадение значений дисперсии
генеральных совокупностей и обычно
называется гомоскедастическим t-тестом
44. Двухвыборочный t-тест с
разными дисперсиями
Двухвыборочный t-тест Стьюдента
используется для проверки гипотезы о
равенстве средних для двух выборок данных
из разных генеральных совокупностей
Эта форма t-теста предполагает
несовпадение дисперсий генеральных
совокупностей и обычно называется
гетероскедастическим t-тестом
Если тестируется одна и та же генеральная
совокупность, используйте парный тест
46. Двухвыборочный t-тест с
разными дисперсиями
Следующая формула используется для
вычисления степени свободы df
результат вычисления обычно не бывает
целым числом, значение df округляется до
целого для получения порогового значения
из t-таблицы
47. Парный двухвыборочный t-тест
для средних
Парный двухвыборочный t-тест Стьюдента
используется для проверки гипотезы о
различии средних для двух выборок данных
не предполагается равенство дисперсий
генеральных совокупностей, из которых
выбраны данные
используется, когда имеется естественная
парность наблюдений в выборках, например,
когда генеральная совокупность тестируется
дважды — до и после эксперимента
48. Парный двухвыборочный t-тест
для средних
Одним из результатов теста является
совокупная дисперсия (совокупная мера
распределения данных вокруг среднего
значения), вычисляемая по следующей
формуле:
49. Z-тест
Двухвыборочный z-тест для средних с
известными дисперсиями
Используется для проверки гипотезы о
различии между средними двух
генеральных совокупностей
Пример: этот тест может использоваться
для определения различия между
характеристиками двух моделей
автомобилей
50. Практическое занятие (10 мин)
Запустите Excel любым удобным
вам способом
Откройте файл практического
задания по теме «Дисперсия», и
выполните расчеты
Откройте файл практического
задания по теме «стандартное
отклонение» и выполните
расчеты
Попробуйте возможности,
предоставляемые пакетом
«Анализ данных»
51. Проверьте себя
Какие основные понятия статистики вы
можете вспомнить?
Какие основные статистики вы знаете?
Приведите примеры встроенных
статистических функций Excel
Можно ли использовать пакет «Анализ
данных» сразу же после установки Excel?
Какие возможности он предоставляет?
52. Итоги
В Excel имеется довольно большой набор
статистических функций?
Часть из них недоступна до установки
пакета «Анализ данных»
Пакет «Анализ данных» позволяет
проводить все основные виды
статистических исследований
54. Office Online
Средства статистического анализа данных
office.microsoft.com/ru-
ru/excel/HP052038731049.aspx
Статистические функции Microsoft Excel
office.microsoft.com/training/training.aspx?As
setID=RC010919231049&pid=CH010004901
049
55. Бесплатные курсы
Статистические методы анализа данных
www.intuit.ru/department/database/dataanaly
sis/
Основы математической статистики
www.intuit.ru/department/economics/basicstat
/
Прикладная статистика
www.intuit.ru/department/mathematics/appsta
t/
56. Функции Excel
Соответствие английских и русских
формул в Excel
brusentsov.com/2009/12/27/3519