SlideShare una empresa de Scribd logo
1 de 56
Модуль 4


      Основы статистики
О чем пойдет речь
   Основные понятия статистического
    анализа данных
   Встроенные статистические функции в
    Excel
   Статистический анализ в Excel.
    Надстройка «Анализ»
Урок 1
Начала статистики
   Основные понятия статистики
   Методы статистического анализа данных
www.statsoft.ru/home/textbook/default.htm
Математическая статистика
   наука о математических методах
    систематизации и
    использования статистических данных для
    научных и практических выводов
   математическая статистика опирается
    на теорию вероятностей
Переменные
   то, что можно измерять, контролировать
    или что можно изменять в исследованиях
   отличаются многими аспектами, особенно
    той ролью, которую они играют в
    исследованиях, шкалой измерения и т.д.
   Количественные (прибыль) и качественные
    (пол)
Зависимые и независимые
переменные
   Независимые переменные варьируются
    исследователем
   зависимые – переменные, которые
    измеряются или регистрируются
Шкалы измерений
   Способ измерения переменных
   Виды шкал:
     номинальные

     порядковые (ординальные)
     интервальные

     относительные
Связи между переменными
   две или более переменных связаны
    (зависимы) между собой, если
    наблюдаемые значения этих переменных
    распределены согласованным образом
   конечная цель всякого исследования или
    научного анализа состоит в нахождение
    связей (зависимостей) между
    переменными
Признаки зависимости между
переменными
   Величина
   Надежность ("истинность")
     наскольковероятно, что зависимость,
     подобная найденной вами, подтвердится на
     данных другой выборки, извлеченной из той
     же самой популяции
Надежность = значимость
   Уровень значимости обозначают буквой α
    (альфа)
   Популярные уровни значимости: 5%, 1%, и
    0.1%
   если кто-то говорит, что «шансы того, что
    случившееся является совпадением,
    равным одному из тысячи», то имеется в
    виду 0.1 % уровень значимости
Доверительный интервал
   допустимое отклонение наблюдаемых
    значений от истинных
   Размер этого допущения определяется
    исследователем с учетом требований к
    точности информации
Дисперсия
   мера разброса данной случайной
    величины, то есть еѐ отклонения от
    математического ожидания
   Квадратный корень из дисперсии, σ,
    называется среднеквадратичным
    отклонением, стандартным отклонением
    или стандартным разбросом

    где символ M обозначает математическое
    ожидание
Математическое ожидание
   мера среднего значения случайной
    величины в теории вероятностей




ru.wikipedia.org/wiki/Математическое_ожидание
Генеральная совокупность
   population
     совокупностьвсех объектов (единиц),
     относительно которых учѐный намерен
     делать выводы при изучении конкретной
     проблемы
   Выборка
     множествослучаев (испытуемых, объектов,
     событий, образцов), с помощью
     определѐнной процедуры выбранных из
     генеральной совокупности для участия в
     исследовании
      ru.wikipedia.org/wiki/Выборка
Нормальное распределение
     распределение Гаусса
         распределение вероятностей, которое играет важнейшую
          роль во многих областях знаний, особенно в физике




ru.wikipedia.org/wiki/Нормальное_распределение
Основные статистики
   Описательные статистики
   Сравнение средних двух выборок
   Одновыборочный T-Тест
       отличие среднего одной выборки от заданной константы
   F-Тест для дисперсии
       сравнения дисперсий двух генеральных совокупностей
   Линейная корреляция (Пирсона)
       мера линейной зависимости переменных
       "степень" зависимости или связанности двух переменных
   Корреляция Фехнера
   Ковариация
       ассоциированы ли наборы данных по величине
   Проверка нормальности
       проверка является ли данная выборка нормально распределѐнной
Урок 2
Статистика в Excel
   Встроенные статистические функции в
    Excel
   Статистический анализ в Excel.
    Надстройка «Анализ»
Дисперсия
   пример: анализ показателей
    продаж
   позволяет измерить,
    насколько данные
    отличаются друг от друга
     данные с низкой дисперсией
      состоят из идентичных или
      близких значений: 6, 7, 6, 6, 7
     данные с высокой дисперсией
      содержат сильно
      отличающиеся значения: 598,
      1, 134, 5, 92
   =VAR(диапазон)
Связанные функции
   В Microsoft Excel есть
    много связанных друг с
    другом функций с
    похожими именам
Какая функция?
Не сходится?
   Некоторые функции возвращают
    результаты, отличающиеся от результатов
    в предыдущих версиях Excel
    в  новой версии улучшен ряд функций
     используется «двухпроходная» процедура,
      повышающая точность результатов
   Различие результатов будет заметно
    только в крайних случаях
     редко   встречаются.
Пакет «Анализ данных»
   предназначен для
    решения сложных
    статистических и
    инженерных задач
   некоторые статистические
    функции становятся
    доступны только после его
    установи
Дисперсионный анализ
   Однофакторный дисперсионный анализ
       для анализа дисперсии по данным двух или
        нескольких выборок
   Двухфакторный дисперсионный анализ с
    повторениями
       если данные можно систематизировать по двум
        параметрам
   Двухфакторный дисперсионный анализ без
    повторения
       предполагается только одно наблюдение для
        каждой пары
Пример
   Двухфакторный дисперсионный анализ с
    повторениями
    в  опыте по измерению роста растения
      обрабатывали удобрениями различных
      производителей (например, А, В, С) и
      содержали при различной температуре
      (например, низкой и высокой)
     для каждой из 6 возможных пар условий
      {удобрение, температура} имеется набор
      наблюдений за ростом растений
Пример
   Можно проверить следующие гипотезы:
       Извлечены ли данные о росте растений для различных
        марок удобрений из одной генеральной совокупности
        независимо от температуры
       Извлечены ли данные о росте растений для различных
        уровней температуры из одной генеральной совокупности
        независимо от марки удобрения.
       Извлечены ли 6 выборок, представляющих все пары
        значений {удобрение, температура}, используемые для
        оценки влияния различных марок удобрений и уровней
        температуры, из одной генеральной совокупности.
   Альтернативная гипотеза предполагает, что влияние
    конкретных пар {удобрение, температура} превышает
    влияние отдельно удобрения и отдельно температуры.
Пример
   Двухфакторный дисперсионный анализ без
    повторения
        предполагается только одно наблюдение для
        каждой пары (например, для каждой пары
        {удобрение, температура}) в примере выше
Корреляционный анализ
   Функции КОРРЕЛ и ПИРСОН вычисляют
    коэффициент корреляции между двумя
    переменными измерений
   Коэффициент корреляции, характеризует
    область, в которой два измерения
    «изменяются вместе»
   значение коэффициента корреляции должно
    находится в диапазоне от -1 до +1
    включительно
   дает возможность установить, ассоциированы
    ли наборы данных по величине
Ковариационный анализ
   характеризует область, в которой две
    переменные «изменяются вместе»
   значения ковариационного анализа не
    масштабируются
   вычисляет значение функции КОВАР для каждой
    пары переменных измерений
   Элемент по диагонали возвращаемой таблицы –
    дисперсия генеральной совокупности для данной
    переменной, вычисляемая функцией ДИСПР
   дает возможность установить, ассоциированы
    ли наборы данных по величине
Описательная статистика
   служит для создания одномерного
    статистического отчета, содержащего
    информацию о центральной тенденции и
    изменчивости входных данных
Экспоненциальное сглаживание
   для предсказания значения на основе
    прогноза для предыдущего периода,
    скорректированного с учетом погрешностей в
    этом прогнозе
    используется константа сглаживания a, по
    величине которой определяется степень
    влияния на прогнозы погрешностей в
    предыдущем прогнозе
    Для константы сглаживания наиболее
    подходящими являются значения от 0,2 до 0,3
       ошибка текущего прогноза установлена на уровне
        от 20 до 30 процентов ошибки предыдущего
Двухвыборочный F-тест для
дисперсии
   для сравнения дисперсий двух
    генеральных совокупностей
    вычисляется значение f F-статистики (или
    F-коэффициент)
     Значениеf, близкое к 1, показывает, что
     дисперсии генеральной совокупности равны
Анализ Фурье
   для решения задач в линейных системах и
    анализа периодических данных на основе
    метода быстрого преобразования Фурье
    (БПФ)
   поддерживается также обратное
    преобразование
Гистограмма
    для вычисления выборочных и
    интегральных частот попадания данных в
    указанные интервалы значений
   Пример: выявить тип распределения
    успеваемости в группе из 20 студентов
     Таблица гистограммы состоит из границ
      шкалы оценок и количеств студентов, уровень
      успеваемости которых находится между
      самой нижней границей и текущей границей
     Наиболее часто повторяемый уровень
      является модой интервала данных
Скользящее среднее
   для расчета значений в прогнозируемом
    периоде на основе среднего значения
    переменной для указанного числа
    предшествующих периодов
   содержит сведения о тенденциях
    изменения данных
   может использоваться для прогноза сбыта,
    запасов и других процессов
Скользящее среднее
Генерация случайных чисел
   для заполнения диапазона случайными
    числами, извлеченными из одного или
    нескольких распределений
   можно моделировать объекты, имеющие
    случайную природу, по известному
    распределению вероятностей
   Пример: использовать распределение
    Бернулли для двух вероятных исходов,
    чтобы описать совокупность результатов
    бросания монеты
Ранг и персентиль
   для вывода таблицы, содержащей
    порядковый и процентный ранги для
    каждого значения в наборе данных
   может быть применен для анализа
    относительного взаиморасположения
    данных в наборе
   использует функции РАНГ и
    ПРОЦЕНТРАНГ
Регрессия
   заключается в подборе графика для
    набора наблюдений с помощью метода
    наименьших квадратов
    используется для анализа воздействия на
    отдельную зависимую переменную
    значений одной или более независимых
    переменных
   Регрессия использует функцию ЛИНЕЙН
Выборка
   Создает выборку из генеральной
    совокупности
   входной диапазон рассматривается, как
    генеральную совокупность
T-тест
   Двухвыборочный t-тест проверяет
    равенство средних значений генеральной
    совокупности по каждой выборке
   Эти три средства допускают:
     равные дисперсии генерального
      распределения
     дисперсии генеральной совокупности не
      равны
     представление двух выборок до и после
      наблюдения по одному и тому же субъекту
Двухвыборочный t-тест с
одинаковыми дисперсиями
   Двухвыборочный t-тест Стьюдента служит
    для проверки гипотезы о равенстве
    средних для двух выборок
   Эта форма t-теста предполагает
    совпадение значений дисперсии
    генеральных совокупностей и обычно
    называется гомоскедастическим t-тестом
Двухвыборочный t-тест с
разными дисперсиями
   Двухвыборочный t-тест Стьюдента
    используется для проверки гипотезы о
    равенстве средних для двух выборок данных
    из разных генеральных совокупностей
   Эта форма t-теста предполагает
    несовпадение дисперсий генеральных
    совокупностей и обычно называется
    гетероскедастическим t-тестом
   Если тестируется одна и та же генеральная
    совокупность, используйте парный тест
Двухвыборочный t-тест с
разными дисперсиями
   Для определения тестовой
    величины t используется следующая
    формула.
Двухвыборочный t-тест с
разными дисперсиями
   Следующая формула используется для
    вычисления степени свободы df
   результат вычисления обычно не бывает
    целым числом, значение df округляется до
    целого для получения порогового значения
    из t-таблицы
Парный двухвыборочный t-тест
для средних
   Парный двухвыборочный t-тест Стьюдента
    используется для проверки гипотезы о
    различии средних для двух выборок данных
   не предполагается равенство дисперсий
    генеральных совокупностей, из которых
    выбраны данные
   используется, когда имеется естественная
    парность наблюдений в выборках, например,
    когда генеральная совокупность тестируется
    дважды — до и после эксперимента
Парный двухвыборочный t-тест
для средних
   Одним из результатов теста является
    совокупная дисперсия (совокупная мера
    распределения данных вокруг среднего
    значения), вычисляемая по следующей
    формуле:
Z-тест
   Двухвыборочный z-тест для средних с
    известными дисперсиями
   Используется для проверки гипотезы о
    различии между средними двух
    генеральных совокупностей
   Пример: этот тест может использоваться
    для определения различия между
    характеристиками двух моделей
    автомобилей
Практическое занятие (10 мин)
                Запустите Excel любым удобным
                 вам способом
                Откройте файл практического
                 задания по теме «Дисперсия», и
                 выполните расчеты
                Откройте файл практического
                 задания по теме «стандартное
                 отклонение» и выполните
                 расчеты
                Попробуйте возможности,
                 предоставляемые пакетом
                 «Анализ данных»
Проверьте себя
   Какие основные понятия статистики вы
    можете вспомнить?
   Какие основные статистики вы знаете?
   Приведите примеры встроенных
    статистических функций Excel
   Можно ли использовать пакет «Анализ
    данных» сразу же после установки Excel?
   Какие возможности он предоставляет?
Итоги
   В Excel имеется довольно большой набор
    статистических функций?
   Часть из них недоступна до установки
    пакета «Анализ данных»
   Пакет «Анализ данных» позволяет
    проводить все основные виды
    статистических исследований
Вопросы?
Office Online
   Средства статистического анализа данных
    office.microsoft.com/ru-
    ru/excel/HP052038731049.aspx
   Статистические функции Microsoft Excel
    office.microsoft.com/training/training.aspx?As
    setID=RC010919231049&pid=CH010004901
    049
Бесплатные курсы
   Статистические методы анализа данных
    www.intuit.ru/department/database/dataanaly
    sis/
   Основы математической статистики
    www.intuit.ru/department/economics/basicstat
    /
   Прикладная статистика
    www.intuit.ru/department/mathematics/appsta
    t/
Функции Excel
   Соответствие английских и русских
    формул в Excel
    brusentsov.com/2009/12/27/3519

Más contenido relacionado

Destacado

презентация кафе "Листья"
презентация кафе "Листья"презентация кафе "Листья"
презентация кафе "Листья"
SergeAir
 
шуиншина назерке фс 206 маркетинговый план детского кафе
шуиншина назерке фс 206 маркетинговый план детского кафешуиншина назерке фс 206 маркетинговый план детского кафе
шуиншина назерке фс 206 маркетинговый план детского кафе
Nazerke Shuinshina
 
бизнес план пиццерии (1)
бизнес план пиццерии (1)бизнес план пиццерии (1)
бизнес план пиццерии (1)
lussarkisyan
 

Destacado (7)

презентация кафе "Листья"
презентация кафе "Листья"презентация кафе "Листья"
презентация кафе "Листья"
 
шуиншина назерке фс 206 маркетинговый план детского кафе
шуиншина назерке фс 206 маркетинговый план детского кафешуиншина назерке фс 206 маркетинговый план детского кафе
шуиншина назерке фс 206 маркетинговый план детского кафе
 
Разработка бренда студенческого кафе для института B&D
Разработка бренда студенческого кафе для института B&DРазработка бренда студенческого кафе для института B&D
Разработка бренда студенческого кафе для института B&D
 
План раскрутки кафе "Королек"
План раскрутки кафе "Королек"План раскрутки кафе "Королек"
План раскрутки кафе "Королек"
 
бизнес план пиццерии (1)
бизнес план пиццерии (1)бизнес план пиццерии (1)
бизнес план пиццерии (1)
 
Бизнес план кофейни
Бизнес план кофейниБизнес план кофейни
Бизнес план кофейни
 
Презентация бизнес-плана кафе
Презентация бизнес-плана кафеПрезентация бизнес-плана кафе
Презентация бизнес-плана кафе
 

Similar a Stat 4 alpha

Разведочный анализ данных
Разведочный анализ данныхРазведочный анализ данных
Разведочный анализ данных
DEVTYPE
 
Представление результатов психологических исследований: рекомендации APA и в...
Представление результатов психологических исследований: рекомендации APA и в...Представление результатов психологических исследований: рекомендации APA и в...
Представление результатов психологических исследований: рекомендации APA и в...
Андрей Четвериков
 
ми5 шкалирование
ми5 шкалированиеми5 шкалирование
ми5 шкалирование
Maria Yurkovskaya
 
теория вероятностей и математическая статистика. часть 2. регрессионный анали...
теория вероятностей и математическая статистика. часть 2. регрессионный анали...теория вероятностей и математическая статистика. часть 2. регрессионный анали...
теория вероятностей и математическая статистика. часть 2. регрессионный анали...
Иван Иванов
 
Прикладная эконометрика. Лекция 4
Прикладная эконометрика. Лекция 4Прикладная эконометрика. Лекция 4
Прикладная эконометрика. Лекция 4
Vladimir Tcherniak
 
ми5 шкалирование
ми5 шкалированиеми5 шкалирование
ми5 шкалирование
Lesya Selifanova
 

Similar a Stat 4 alpha (20)

Позиционный анализ для магистров
Позиционный анализ для магистровПозиционный анализ для магистров
Позиционный анализ для магистров
 
ковариационный анализ для магистров
ковариационный анализ для магистровковариационный анализ для магистров
ковариационный анализ для магистров
 
Разведочный анализ данных
Разведочный анализ данныхРазведочный анализ данных
Разведочный анализ данных
 
Надежность и позиционный анализ (главная)
Надежность и позиционный анализ (главная)Надежность и позиционный анализ (главная)
Надежность и позиционный анализ (главная)
 
Представление результатов психологических исследований: рекомендации APA и в...
Представление результатов психологических исследований: рекомендации APA и в...Представление результатов психологических исследований: рекомендации APA и в...
Представление результатов психологических исследований: рекомендации APA и в...
 
Лекция 3 Особенности подбора репрезентативной выборки
Лекция 3 Особенности подбора репрезентативной выборкиЛекция 3 Особенности подбора репрезентативной выборки
Лекция 3 Особенности подбора репрезентативной выборки
 
ми5 шкалирование
ми5 шкалированиеми5 шкалирование
ми5 шкалирование
 
Практика_3_MDIB_Tanlanma_to’plam_va_statistik_xatolarni_aniqlash.ppt
Практика_3_MDIB_Tanlanma_to’plam_va_statistik_xatolarni_aniqlash.pptПрактика_3_MDIB_Tanlanma_to’plam_va_statistik_xatolarni_aniqlash.ppt
Практика_3_MDIB_Tanlanma_to’plam_va_statistik_xatolarni_aniqlash.ppt
 
теория вероятностей и математическая статистика. часть 2. регрессионный анали...
теория вероятностей и математическая статистика. часть 2. регрессионный анали...теория вероятностей и математическая статистика. часть 2. регрессионный анали...
теория вероятностей и математическая статистика. часть 2. регрессионный анали...
 
Прикладная эконометрика. Лекция 4
Прикладная эконометрика. Лекция 4Прикладная эконометрика. Лекция 4
Прикладная эконометрика. Лекция 4
 
Stat 3 alpha
Stat 3 alphaStat 3 alpha
Stat 3 alpha
 
Представление результатов психологических исследований
Представление результатов психологических исследованийПредставление результатов психологических исследований
Представление результатов психологических исследований
 
ми5 шкалирование
ми5 шкалированиеми5 шкалирование
ми5 шкалирование
 
Lecture 0
Lecture 0Lecture 0
Lecture 0
 
Lecture 0
Lecture 0Lecture 0
Lecture 0
 
Lecture 0
Lecture 0Lecture 0
Lecture 0
 
Классические методы математической статистики в задачах web-аналитики
Классические методы математической статистики в задачах web-аналитикиКлассические методы математической статистики в задачах web-аналитики
Классические методы математической статистики в задачах web-аналитики
 
1 spss общие сведения
1 spss общие сведения1 spss общие сведения
1 spss общие сведения
 
Mathematical processing and analysis of medical and biological data.pdf
Mathematical processing and analysis of medical and biological data.pdfMathematical processing and analysis of medical and biological data.pdf
Mathematical processing and analysis of medical and biological data.pdf
 
Data Mining - lecture 5 - 2014
Data Mining - lecture 5 - 2014Data Mining - lecture 5 - 2014
Data Mining - lecture 5 - 2014
 

Más de Alexander Babich

Más de Alexander Babich (20)

Актуальні курси з мого арсеналу (Бабич О.В.)
Актуальні курси з мого арсеналу (Бабич О.В.)Актуальні курси з мого арсеналу (Бабич О.В.)
Актуальні курси з мого арсеналу (Бабич О.В.)
 
M365: Word, Excel, PowerPoint...
M365: Word, Excel, PowerPoint...M365: Word, Excel, PowerPoint...
M365: Word, Excel, PowerPoint...
 
M365: Інші сервіси та застосунки
M365: Інші сервіси та застосункиM365: Інші сервіси та застосунки
M365: Інші сервіси та застосунки
 
M365: OneDrive
M365: OneDriveM365: OneDrive
M365: OneDrive
 
M365: Завершення
M365: ЗавершенняM365: Завершення
M365: Завершення
 
M365: SharePoint
M365: SharePointM365: SharePoint
M365: SharePoint
 
M365: рекомендації
M365: рекомендаціїM365: рекомендації
M365: рекомендації
 
M365: Огляд платформи Microsoft365
M365: Огляд платформи Microsoft365M365: Огляд платформи Microsoft365
M365: Огляд платформи Microsoft365
 
M365: Вступ
M365: ВступM365: Вступ
M365: Вступ
 
M365: Роздаткові матеріали
M365: Роздаткові матеріалиM365: Роздаткові матеріали
M365: Роздаткові матеріали
 
Meet&Code - VR, метавсесвіт та криптовалюти (1).pptx
Meet&Code - VR, метавсесвіт та криптовалюти (1).pptxMeet&Code - VR, метавсесвіт та криптовалюти (1).pptx
Meet&Code - VR, метавсесвіт та криптовалюти (1).pptx
 
Ви обрали професію програміста
Ви обрали професію програмістаВи обрали професію програміста
Ви обрали професію програміста
 
Змішане навчання в ППФК
Змішане навчання в ППФКЗмішане навчання в ППФК
Змішане навчання в ППФК
 
Формування професійних інтересів студентів
Формування професійних інтересів студентівФормування професійних інтересів студентів
Формування професійних інтересів студентів
 
День відкритих дверей' 2021
День відкритих дверей' 2021День відкритих дверей' 2021
День відкритих дверей' 2021
 
Спробуйте Python
Спробуйте PythonСпробуйте Python
Спробуйте Python
 
06. Обучение и сертификация по Azure
06. Обучение и сертификация по Azure06. Обучение и сертификация по Azure
06. Обучение и сертификация по Azure
 
05.Внедрение Azure
05.Внедрение Azure05.Внедрение Azure
05.Внедрение Azure
 
04.Службы Azure - подробнее
04.Службы Azure - подробнее04.Службы Azure - подробнее
04.Службы Azure - подробнее
 
03.Сколько стоит облако
03.Сколько стоит облако03.Сколько стоит облако
03.Сколько стоит облако
 

Stat 4 alpha

  • 1. Модуль 4 Основы статистики
  • 2. О чем пойдет речь  Основные понятия статистического анализа данных  Встроенные статистические функции в Excel  Статистический анализ в Excel. Надстройка «Анализ»
  • 3. Урок 1 Начала статистики  Основные понятия статистики  Методы статистического анализа данных
  • 5. Математическая статистика  наука о математических методах систематизации и использования статистических данных для научных и практических выводов  математическая статистика опирается на теорию вероятностей
  • 6. Переменные  то, что можно измерять, контролировать или что можно изменять в исследованиях  отличаются многими аспектами, особенно той ролью, которую они играют в исследованиях, шкалой измерения и т.д.  Количественные (прибыль) и качественные (пол)
  • 7. Зависимые и независимые переменные  Независимые переменные варьируются исследователем  зависимые – переменные, которые измеряются или регистрируются
  • 8. Шкалы измерений  Способ измерения переменных  Виды шкал:  номинальные  порядковые (ординальные)  интервальные  относительные
  • 9. Связи между переменными  две или более переменных связаны (зависимы) между собой, если наблюдаемые значения этих переменных распределены согласованным образом  конечная цель всякого исследования или научного анализа состоит в нахождение связей (зависимостей) между переменными
  • 10. Признаки зависимости между переменными  Величина  Надежность ("истинность")  наскольковероятно, что зависимость, подобная найденной вами, подтвердится на данных другой выборки, извлеченной из той же самой популяции
  • 11. Надежность = значимость  Уровень значимости обозначают буквой α (альфа)  Популярные уровни значимости: 5%, 1%, и 0.1%  если кто-то говорит, что «шансы того, что случившееся является совпадением, равным одному из тысячи», то имеется в виду 0.1 % уровень значимости
  • 12. Доверительный интервал  допустимое отклонение наблюдаемых значений от истинных  Размер этого допущения определяется исследователем с учетом требований к точности информации
  • 13. Дисперсия  мера разброса данной случайной величины, то есть еѐ отклонения от математического ожидания  Квадратный корень из дисперсии, σ, называется среднеквадратичным отклонением, стандартным отклонением или стандартным разбросом где символ M обозначает математическое ожидание
  • 14. Математическое ожидание  мера среднего значения случайной величины в теории вероятностей ru.wikipedia.org/wiki/Математическое_ожидание
  • 15. Генеральная совокупность  population  совокупностьвсех объектов (единиц), относительно которых учѐный намерен делать выводы при изучении конкретной проблемы  Выборка  множествослучаев (испытуемых, объектов, событий, образцов), с помощью определѐнной процедуры выбранных из генеральной совокупности для участия в исследовании ru.wikipedia.org/wiki/Выборка
  • 16. Нормальное распределение  распределение Гаусса  распределение вероятностей, которое играет важнейшую роль во многих областях знаний, особенно в физике ru.wikipedia.org/wiki/Нормальное_распределение
  • 17. Основные статистики  Описательные статистики  Сравнение средних двух выборок  Одновыборочный T-Тест  отличие среднего одной выборки от заданной константы  F-Тест для дисперсии  сравнения дисперсий двух генеральных совокупностей  Линейная корреляция (Пирсона)  мера линейной зависимости переменных  "степень" зависимости или связанности двух переменных  Корреляция Фехнера  Ковариация  ассоциированы ли наборы данных по величине  Проверка нормальности  проверка является ли данная выборка нормально распределѐнной
  • 18. Урок 2 Статистика в Excel  Встроенные статистические функции в Excel  Статистический анализ в Excel. Надстройка «Анализ»
  • 19. Дисперсия  пример: анализ показателей продаж  позволяет измерить, насколько данные отличаются друг от друга  данные с низкой дисперсией состоят из идентичных или близких значений: 6, 7, 6, 6, 7  данные с высокой дисперсией содержат сильно отличающиеся значения: 598, 1, 134, 5, 92  =VAR(диапазон)
  • 20. Связанные функции  В Microsoft Excel есть много связанных друг с другом функций с похожими именам
  • 22. Не сходится?  Некоторые функции возвращают результаты, отличающиеся от результатов в предыдущих версиях Excel в новой версии улучшен ряд функций  используется «двухпроходная» процедура, повышающая точность результатов  Различие результатов будет заметно только в крайних случаях  редко встречаются.
  • 23. Пакет «Анализ данных»  предназначен для решения сложных статистических и инженерных задач  некоторые статистические функции становятся доступны только после его установи
  • 24.
  • 25. Дисперсионный анализ  Однофакторный дисперсионный анализ  для анализа дисперсии по данным двух или нескольких выборок  Двухфакторный дисперсионный анализ с повторениями  если данные можно систематизировать по двум параметрам  Двухфакторный дисперсионный анализ без повторения  предполагается только одно наблюдение для каждой пары
  • 26. Пример  Двухфакторный дисперсионный анализ с повторениями в опыте по измерению роста растения обрабатывали удобрениями различных производителей (например, А, В, С) и содержали при различной температуре (например, низкой и высокой)  для каждой из 6 возможных пар условий {удобрение, температура} имеется набор наблюдений за ростом растений
  • 27. Пример  Можно проверить следующие гипотезы:  Извлечены ли данные о росте растений для различных марок удобрений из одной генеральной совокупности независимо от температуры  Извлечены ли данные о росте растений для различных уровней температуры из одной генеральной совокупности независимо от марки удобрения.  Извлечены ли 6 выборок, представляющих все пары значений {удобрение, температура}, используемые для оценки влияния различных марок удобрений и уровней температуры, из одной генеральной совокупности.  Альтернативная гипотеза предполагает, что влияние конкретных пар {удобрение, температура} превышает влияние отдельно удобрения и отдельно температуры.
  • 28. Пример  Двухфакторный дисперсионный анализ без повторения  предполагается только одно наблюдение для каждой пары (например, для каждой пары {удобрение, температура}) в примере выше
  • 29. Корреляционный анализ  Функции КОРРЕЛ и ПИРСОН вычисляют коэффициент корреляции между двумя переменными измерений  Коэффициент корреляции, характеризует область, в которой два измерения «изменяются вместе»  значение коэффициента корреляции должно находится в диапазоне от -1 до +1 включительно  дает возможность установить, ассоциированы ли наборы данных по величине
  • 30. Ковариационный анализ  характеризует область, в которой две переменные «изменяются вместе»  значения ковариационного анализа не масштабируются  вычисляет значение функции КОВАР для каждой пары переменных измерений  Элемент по диагонали возвращаемой таблицы – дисперсия генеральной совокупности для данной переменной, вычисляемая функцией ДИСПР  дает возможность установить, ассоциированы ли наборы данных по величине
  • 31. Описательная статистика  служит для создания одномерного статистического отчета, содержащего информацию о центральной тенденции и изменчивости входных данных
  • 32. Экспоненциальное сглаживание  для предсказания значения на основе прогноза для предыдущего периода, скорректированного с учетом погрешностей в этом прогнозе  используется константа сглаживания a, по величине которой определяется степень влияния на прогнозы погрешностей в предыдущем прогнозе  Для константы сглаживания наиболее подходящими являются значения от 0,2 до 0,3  ошибка текущего прогноза установлена на уровне от 20 до 30 процентов ошибки предыдущего
  • 33. Двухвыборочный F-тест для дисперсии  для сравнения дисперсий двух генеральных совокупностей  вычисляется значение f F-статистики (или F-коэффициент)  Значениеf, близкое к 1, показывает, что дисперсии генеральной совокупности равны
  • 34. Анализ Фурье  для решения задач в линейных системах и анализа периодических данных на основе метода быстрого преобразования Фурье (БПФ)  поддерживается также обратное преобразование
  • 35. Гистограмма  для вычисления выборочных и интегральных частот попадания данных в указанные интервалы значений  Пример: выявить тип распределения успеваемости в группе из 20 студентов  Таблица гистограммы состоит из границ шкалы оценок и количеств студентов, уровень успеваемости которых находится между самой нижней границей и текущей границей  Наиболее часто повторяемый уровень является модой интервала данных
  • 36. Скользящее среднее  для расчета значений в прогнозируемом периоде на основе среднего значения переменной для указанного числа предшествующих периодов  содержит сведения о тенденциях изменения данных  может использоваться для прогноза сбыта, запасов и других процессов
  • 38. Генерация случайных чисел  для заполнения диапазона случайными числами, извлеченными из одного или нескольких распределений  можно моделировать объекты, имеющие случайную природу, по известному распределению вероятностей  Пример: использовать распределение Бернулли для двух вероятных исходов, чтобы описать совокупность результатов бросания монеты
  • 39. Ранг и персентиль  для вывода таблицы, содержащей порядковый и процентный ранги для каждого значения в наборе данных  может быть применен для анализа относительного взаиморасположения данных в наборе  использует функции РАНГ и ПРОЦЕНТРАНГ
  • 40. Регрессия  заключается в подборе графика для набора наблюдений с помощью метода наименьших квадратов  используется для анализа воздействия на отдельную зависимую переменную значений одной или более независимых переменных  Регрессия использует функцию ЛИНЕЙН
  • 41. Выборка  Создает выборку из генеральной совокупности  входной диапазон рассматривается, как генеральную совокупность
  • 42. T-тест  Двухвыборочный t-тест проверяет равенство средних значений генеральной совокупности по каждой выборке  Эти три средства допускают:  равные дисперсии генерального распределения  дисперсии генеральной совокупности не равны  представление двух выборок до и после наблюдения по одному и тому же субъекту
  • 43. Двухвыборочный t-тест с одинаковыми дисперсиями  Двухвыборочный t-тест Стьюдента служит для проверки гипотезы о равенстве средних для двух выборок  Эта форма t-теста предполагает совпадение значений дисперсии генеральных совокупностей и обычно называется гомоскедастическим t-тестом
  • 44. Двухвыборочный t-тест с разными дисперсиями  Двухвыборочный t-тест Стьюдента используется для проверки гипотезы о равенстве средних для двух выборок данных из разных генеральных совокупностей  Эта форма t-теста предполагает несовпадение дисперсий генеральных совокупностей и обычно называется гетероскедастическим t-тестом  Если тестируется одна и та же генеральная совокупность, используйте парный тест
  • 45. Двухвыборочный t-тест с разными дисперсиями  Для определения тестовой величины t используется следующая формула.
  • 46. Двухвыборочный t-тест с разными дисперсиями  Следующая формула используется для вычисления степени свободы df  результат вычисления обычно не бывает целым числом, значение df округляется до целого для получения порогового значения из t-таблицы
  • 47. Парный двухвыборочный t-тест для средних  Парный двухвыборочный t-тест Стьюдента используется для проверки гипотезы о различии средних для двух выборок данных  не предполагается равенство дисперсий генеральных совокупностей, из которых выбраны данные  используется, когда имеется естественная парность наблюдений в выборках, например, когда генеральная совокупность тестируется дважды — до и после эксперимента
  • 48. Парный двухвыборочный t-тест для средних  Одним из результатов теста является совокупная дисперсия (совокупная мера распределения данных вокруг среднего значения), вычисляемая по следующей формуле:
  • 49. Z-тест  Двухвыборочный z-тест для средних с известными дисперсиями  Используется для проверки гипотезы о различии между средними двух генеральных совокупностей  Пример: этот тест может использоваться для определения различия между характеристиками двух моделей автомобилей
  • 50. Практическое занятие (10 мин)  Запустите Excel любым удобным вам способом  Откройте файл практического задания по теме «Дисперсия», и выполните расчеты  Откройте файл практического задания по теме «стандартное отклонение» и выполните расчеты  Попробуйте возможности, предоставляемые пакетом «Анализ данных»
  • 51. Проверьте себя  Какие основные понятия статистики вы можете вспомнить?  Какие основные статистики вы знаете?  Приведите примеры встроенных статистических функций Excel  Можно ли использовать пакет «Анализ данных» сразу же после установки Excel?  Какие возможности он предоставляет?
  • 52. Итоги  В Excel имеется довольно большой набор статистических функций?  Часть из них недоступна до установки пакета «Анализ данных»  Пакет «Анализ данных» позволяет проводить все основные виды статистических исследований
  • 54. Office Online  Средства статистического анализа данных office.microsoft.com/ru- ru/excel/HP052038731049.aspx  Статистические функции Microsoft Excel office.microsoft.com/training/training.aspx?As setID=RC010919231049&pid=CH010004901 049
  • 55. Бесплатные курсы  Статистические методы анализа данных www.intuit.ru/department/database/dataanaly sis/  Основы математической статистики www.intuit.ru/department/economics/basicstat /  Прикладная статистика www.intuit.ru/department/mathematics/appsta t/
  • 56. Функции Excel  Соответствие английских и русских формул в Excel brusentsov.com/2009/12/27/3519