SlideShare a Scribd company logo
1 of 76
Лекция 2. Типы данных и выборочные
характеристики
Курбацкий А. Н.
МШЭ МГУ
8 февраля 2016
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 1 / 38
Содержание
1 Генеральная совокупность и выборка
2 Типы данных и шкал
3 Выборочные характеристики
4 Характеристики среднего
5 Разброс и симметрия данных
6 Более подробно
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 2 / 38
Два ключевых понятия
Исследуя некоторое множество объектов зачастую мы не имеем
возможности получить о нём всю информацию. Нам приходится
работать только с некоторым его подмножеством, которое, как
правило, невелико.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 3 / 38
Два ключевых понятия
Исследуя некоторое множество объектов зачастую мы не имеем
возможности получить о нём всю информацию. Нам приходится
работать только с некоторым его подмножеством, которое, как
правило, невелико.
Определение
Генеральная совокупность (population) – вся интересующая
исследователя совокупность изучаемых объектов.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 3 / 38
Два ключевых понятия
Исследуя некоторое множество объектов зачастую мы не имеем
возможности получить о нём всю информацию. Нам приходится
работать только с некоторым его подмножеством, которое, как
правило, невелико.
Определение
Генеральная совокупность (population) – вся интересующая
исследователя совокупность изучаемых объектов.
Определение
Выборка, выборочная совокупность (sample) – некоторая часть
генеральной совокупности, отбираемая специальным образом и
исследуемая с целью получения выводов о генеральной совокупности.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 3 / 38
Два ключевых понятия
Исследуя некоторое множество объектов зачастую мы не имеем
возможности получить о нём всю информацию. Нам приходится
работать только с некоторым его подмножеством, которое, как
правило, невелико.
Определение
Генеральная совокупность (population) – вся интересующая
исследователя совокупность изучаемых объектов.
Определение
Выборка, выборочная совокупность (sample) – некоторая часть
генеральной совокупности, отбираемая специальным образом и
исследуемая с целью получения выводов о генеральной совокупности.
В математичской статистике под выборкой (x1, . . . , xn) объёма n из
распределения D называется набор из n независимых и одинаково
распределённых случайных величин, имеющих распределение D.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 3 / 38
Типы выборок
Отбор объектов для исследования должен быть осуществлён так,
чтобы мы имели представление о всей генеральной совокупности в
миниатюре.
Важно!
Говорят, что выборка должна быть представительной или
репрезентативной.
Добиться этого можно грамотным отбором данных. Выделим
некоторые типы.
простой случайный отбор;
механический отбор;
стратифицированный отбор;
серийный.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 4 / 38
Типы выборок
Отбор объектов для исследования должен быть осуществлён так,
чтобы мы имели представление о всей генеральной совокупности в
миниатюре.
Важно!
Говорят, что выборка должна быть представительной или
репрезентативной.
Добиться этого можно грамотным отбором данных. Выделим
некоторые типы.
простой случайный отбор;
механический отбор;
стратифицированный отбор;
серийный.
Важно!
Неправильный отбор является причиной многих ошибок и неверных
выводов!
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 4 / 38
Типы данных
Данные измерений бывают двух типов: дискретные и непрерывные.
Определение
Дискретные данные представляют собой отдельные значения
признака, общее число которых конечно либо если бесконечно, то
является счётным.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 5 / 38
Типы данных
Данные измерений бывают двух типов: дискретные и непрерывные.
Определение
Дискретные данные представляют собой отдельные значения
признака, общее число которых конечно либо если бесконечно, то
является счётным.
Определение
Непрерывные данные могут принимать любое значение в некотором
интервале числовой прямой.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 5 / 38
Шкалы
Этим типам данных в свою очередь соответсвуют несколько шкал,
которые зависят уже от природы исходных данных. Перечислим
основные их виды.
Номинальная шкала1,
порядковая шкала,
интервальная шкала,
относительная шкала.
1
в частности, бинарная (дихотомическая) шкала
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 6 / 38
Шкалы
Этим типам данных в свою очередь соответсвуют несколько шкал,
которые зависят уже от природы исходных данных. Перечислим
основные их виды.
Номинальная шкала1,
порядковая шкала,
интервальная шкала,
относительная шкала.
Замечание
В эконометрике данные дополнительно разбиваются в зависимости от
их структуры.
1
в частности, бинарная (дихотомическая) шкала
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 6 / 38
Шкалы для дискретных данных
Определение
Номинальная шкала состоит из названий или категорий для
сортировки или классификации объектов по некоторому признаку.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 7 / 38
Шкалы для дискретных данных
Определение
Номинальная шкала состоит из названий или категорий для
сортировки или классификации объектов по некоторому признаку.
Пример
Примерами номинальной шкалы служат семейное положение,
профессия, страна проживания, оператор связи.
Номинальная шкала, которая состоит из двух категорий, называется
дихотомической или бинарной.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 7 / 38
Шкалы для дискретных данных
Определение
Номинальная шкала состоит из названий или категорий для
сортировки или классификации объектов по некоторому признаку.
Пример
Примерами номинальной шкалы служат семейное положение,
профессия, страна проживания, оператор связи.
Номинальная шкала, которая состоит из двух категорий, называется
дихотомической или бинарной.
Определение
Порядковая шкала означает, что числа присваиваются объектам,
чтобы обозначить относительные позиции объектов.
Пример
Воинское звание, учёная степень, итоговые места спортсменов.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 7 / 38
Шкалы для непрерывных данных
Определение
Интервальная шкала позволяет указать количественное значение
измеряемого признака и находить разницу между двумя величинами.
Недостатком служит отсутствие абсолютного нуля в качестве точки
отсчета.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 8 / 38
Шкалы для непрерывных данных
Определение
Интервальная шкала позволяет указать количественное значение
измеряемого признака и находить разницу между двумя величинами.
Недостатком служит отсутствие абсолютного нуля в качестве точки
отсчета.
Шкала времени, например, может быть разделена на годы, каждый
год разделен на дни, дни на часы и далее.
Определение
Относительная шкала обладает абсолютным нулем в качестве точки
отсчета.
Для данных этой шкалы осмысленными являются все операции,
включая вычитание и деление.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 8 / 38
Содержание
1 Генеральная совокупность и выборка
2 Типы данных и шкал
3 Выборочные характеристики
4 Характеристики среднего
5 Разброс и симметрия данных
6 Более подробно
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 9 / 38
Вариационный ряд
Описательная статистика занимается начальным анализом данных.
Первым шагом в анализе данных для нас будет их упорядочивание и
разбиение на группы.
Определение
Упорядоченные по возрастанию значения выборки называются
вариационным рядом (set of order statistic).
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 10 / 38
Вариационный ряд
Описательная статистика занимается начальным анализом данных.
Первым шагом в анализе данных для нас будет их упорядочивание и
разбиение на группы.
Определение
Упорядоченные по возрастанию значения выборки называются
вариационным рядом (set of order statistic).
Группы, на которые разбивается множество значений будем называть
интервалами группировки .
Важно!
Пусть мы упорядочили наши n наблюдений x1, . . . , xn. Они лежат в
некотором интервале, который мы разбиваем еще на m интервалов.
Последние и называются интервалами группировки. Их длины
обозначим через ∆1, . . . , ∆m, а середины интервалов группировки -
через c1, . . . , cm.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 10 / 38
Ранжирование
Что делать, когда признаки объектов наблюдения не являются
количественными или их численные значения указывают только на
порядок?
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 11 / 38
Ранжирование
Что делать, когда признаки объектов наблюдения не являются
количественными или их численные значения указывают только на
порядок?
Определение
Рангом наблюдения называется порядковый номер наблюдения в
вариационном ряду. Если значения наблюдаемых величин
повторяются, то каждому из этих значений (наблюдений),
присваивается одинаковый ранг, равный среднему арифметическому
номеров занимаемых мест.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 11 / 38
Ранжирование
Что делать, когда признаки объектов наблюдения не являются
количественными или их численные значения указывают только на
порядок?
Определение
Рангом наблюдения называется порядковый номер наблюдения в
вариационном ряду. Если значения наблюдаемых величин
повторяются, то каждому из этих значений (наблюдений),
присваивается одинаковый ранг, равный среднему арифметическому
номеров занимаемых мест.
Переход от самих наблюдений к последовательности их рангов
называется ранжированием .
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 11 / 38
Графическое представление данных
Графические изображения дают возможность сразу получить
представление о поведении и распределении данных.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 12 / 38
Графическое представление данных
Графические изображения дают возможность сразу получить
представление о поведении и распределении данных.
Базовыми графическими инструментами представления данных
являются гистограммы, полигоны и кумуляты (накопительные
гистограммы). Рассмотрим их по порядку.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 12 / 38
Гистограмма
Графическое изображение числа наблюдений ni выборки,
соответствующих каждому интервалу, называется гистограммой
выборки.
Важно!
По горизонатльной оси откладываются значения наблюдаемой
величины, по вертикальной – частота их появления.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 13 / 38
Гистограмма
Графическое изображение числа наблюдений ni выборки,
соответствующих каждому интервалу, называется гистограммой
выборки.
Важно!
По горизонатльной оси откладываются значения наблюдаемой
величины, по вертикальной – частота их появления.
Изобразим это на графике:
•
1
•
3
•
5
•
7
•
9
•
11
•
13
•
15 x
−1
−2
−3
−4
−5
ni
//
OO
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 13 / 38
Гистограмма частот
Это графическое изображение зависимости частоты hi = ni
n попадания
элементов выборки от соответствующего интервала.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 14 / 38
Гистограмма частот
Это графическое изображение зависимости частоты hi = ni
n попадания
элементов выборки от соответствующего интервала.
•
1
•
3
•
5
•
7
•
9
•
11
•
13
•
15 x
−0.05
−0.1
−0.15
−0.2
−0.25
hi = ni
n
//
OO
Важно!
Такую гистограмму ещё называют гистограммой относительных
частот . Отличие гистограммы относительных частот от гистограммы
состоит в том, что на оси y вместо количества наблюдений на данном
интервале отмечены их доли (или процент) от общего числа.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 14 / 38
Гистограмма частот
Чтобы каждый раз не думать о том, какой длины выбирать интервал
группировки, можно пользоваться формулой Стерджеса
m ≈ 1 + log2 n. Длина каждого интервала будет равна ∆ = xmax−xmin
m .
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 15 / 38
Гистограмма частот
Чтобы каждый раз не думать о том, какой длины выбирать интервал
группировки, можно пользоваться формулой Стерджеса
m ≈ 1 + log2 n. Длина каждого интервала будет равна ∆ = xmax−xmin
m .
Можно избавиться от влияния размера интервала группировки,
поделив частоты hj на соответствующие длины ∆j. В таком случае
площадь фигуры под гистограммой становится равной единице и
поэтому её можно назвать эмпирической функцией плотности.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 15 / 38
Гистограмма частот(график)
Изобразим это на графике вместе со сглаженной гистограммой,
которую также часто рисуют, чтобы лучше представлять, какому
непрерывному распределению приблизительно соответствует
распределение относительных частот2:
•
1
•
3
•
5
•
7
•
9
•
11
•
13
•
15 x
−0.025
−0.05
−0.075
−0.1
−0.125
hi
∆
//
OO
2
Если плотность распределения элементов выборки является непрерывной
функцией и количество k интервалов группировки стремится к бесконечности
таким образом, что k
n
→ 0, то имеет место сходимость по вероятности
гистограммы к плотности в каждой точке.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 16 / 38
Полигон
Несколько иное графическое представление данных дает полигон .
Полигон строится в виде области, ограниченной линией, которая
проходит через точки (ci ; hi ), где ci - середина интервала, а hi -
частота.
•
2
•
4
•
6
•
8
•
10
•
12
•
14 x
−0.05
−0.1
−0.15
−0.2
−0.25
hi = ni
n
//
OO
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 17 / 38
Накопительная гистограмма
И ещё одно ключевое графическое изображение данных - это кумулята
или накопительная гистограмма .
Определение
Графическое изображение зависимости накопленных частот ωi =
i
j=1
hj
называется кумулятой выборки.
•
1
•
3
•
5
•
7
•
9
•
11
•
13
•
15 x
−0.05
−0.15
−0.35
−0.6
−0.8
−0.95
−1
hi = ni
n
//
OO
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 18 / 38
Эмпирическая функция распределения
Определение
Эмпирической функцией распределения случайной величины,
построенной по выборке x1, . . . , xn, называется функция Fn(x), которая
равна доле таких значений xi , для которых xi ≤ x.
То есть Fn(x) = nx /n, где nx - число наблюдений меньших или равных
x, а n - объем выборки.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 19 / 38
Эмпирическая функция распределения
Определение
Эмпирической функцией распределения случайной величины,
построенной по выборке x1, . . . , xn, называется функция Fn(x), которая
равна доле таких значений xi , для которых xi ≤ x.
То есть Fn(x) = nx /n, где nx - число наблюдений меньших или равных
x, а n - объем выборки.
Теорема
С ростом объема выборки эмпирическая функция распределения
приближается к теоретической функции распределения, более точно
lim
n→+∞
P(sup |Fn(x) − F(x)| = 0) = 1.
Этот замечательный факт доставляет нам теорема Гливенко-Кантелли.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 19 / 38
Пример
•
1
•
2
•
3
•
4
•
5
•
13 x
−1
10
−2
10
−4
10
−5
10
−6
10
−9
10
−1
Fn(x)
////
OO
//
//
//
//
//
//
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 20 / 38
Свойства ЭФР
Свойства эмпирической функции распределения аналогичны
свойствам произвольной функции распределения:
1 0 ≤ Fn(x) ≤ 1.
2 Fn(x) - неубывающая функция.
3 Fn(x) непрерывна справа.
4 Fn(x) = 0 при x < xmin и Fn(x) = 1 при x ≥ xmax.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 21 / 38
Содержание
1 Генеральная совокупность и выборка
2 Типы данных и шкал
3 Выборочные характеристики
4 Характеристики среднего
5 Разброс и симметрия данных
6 Более подробно
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 22 / 38
Мода
Наша текущая задача состоит в выборе одного числа, которое можно
было бы назвать центральным значением для набора данных.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 23 / 38
Мода
Наша текущая задача состоит в выборе одного числа, которое можно
было бы назвать центральным значением для набора данных.
Определение
Мода Mo – наиболее часто встречающееся значение в выборке.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 23 / 38
Мода
Наша текущая задача состоит в выборе одного числа, которое можно
было бы назвать центральным значением для набора данных.
Определение
Мода Mo – наиболее часто встречающееся значение в выборке.
Мода может быть не одна!
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 23 / 38
Мода
Наша текущая задача состоит в выборе одного числа, которое можно
было бы назвать центральным значением для набора данных.
Определение
Мода Mo – наиболее часто встречающееся значение в выборке.
Мода может быть не одна!
В выборке 1, 3, 4, −1, 2, 3, 5, 4 есть две моды 3 и 4. В таком случае
распределение будет называться бимодальным.
Пример
В результате независимых наблюдений случайной величины были
получены следующие ее значения: мегафон, билайн, теле2, теле2, мтс,
мтс, теле2. Укажите количество мод данной выборки.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 23 / 38
Медиана
Еще одна характеристика среднего - это медиана (оценка медианы),
которая определяется как значение, которое делит упорядоченную
выборку пополам по количеству наблюдений.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 24 / 38
Медиана
Еще одна характеристика среднего - это медиана (оценка медианы),
которая определяется как значение, которое делит упорядоченную
выборку пополам по количеству наблюдений.
Важно!
Для нечетного числа наблюдений медиана есть просто центральное
наблюдение x(n+1)/2. Для четного числа наблюдений медиана - это
среднее арифметическое двух соседних центральных наблюдений xn
2
и
xn
2
+1.
Пример
Рассмотрим выборку 1, 0, 3, 6, −1, 2, 7, 5, 4.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 24 / 38
Медиана
Еще одна характеристика среднего - это медиана (оценка медианы),
которая определяется как значение, которое делит упорядоченную
выборку пополам по количеству наблюдений.
Важно!
Для нечетного числа наблюдений медиана есть просто центральное
наблюдение x(n+1)/2. Для четного числа наблюдений медиана - это
среднее арифметическое двух соседних центральных наблюдений xn
2
и
xn
2
+1.
Пример
Рассмотрим выборку 1, 0, 3, 6, −1, 2, 7, 5, 4.
Выпишем её вариационный ряд −1, 0, 1, 2, 3, 4, 5, 6, 7.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 24 / 38
Медиана
Еще одна характеристика среднего - это медиана (оценка медианы),
которая определяется как значение, которое делит упорядоченную
выборку пополам по количеству наблюдений.
Важно!
Для нечетного числа наблюдений медиана есть просто центральное
наблюдение x(n+1)/2. Для четного числа наблюдений медиана - это
среднее арифметическое двух соседних центральных наблюдений xn
2
и
xn
2
+1.
Пример
Рассмотрим выборку 1, 0, 3, 6, −1, 2, 7, 5, 4.
Выпишем её вариационный ряд −1, 0, 1, 2, 3, 4, 5, 6, 7.
Объем выборки равен 9, поэтому медиана - это просто центральный
(пятый) элемент в выборке Me = x(9+1)/2 = x5 = 3.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 24 / 38
Среднее
Наиболее распространённой характеристикой безусловного
математического ожидания при работе с числовыми данными
является среднее арифметическое.
Определение
Среднее значение выборки объема n вычисляется по формуле:
¯x =
1
n
(x1 + x2 + . . . + xn) =
1
n
n
i=1
xi .
3
как и мода с медианой
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 25 / 38
Среднее
Наиболее распространённой характеристикой безусловного
математического ожидания при работе с числовыми данными
является среднее арифметическое.
Определение
Среднее значение выборки объема n вычисляется по формуле:
¯x =
1
n
(x1 + x2 + . . . + xn) =
1
n
n
i=1
xi .
3
как и мода с медианой
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 25 / 38
Среднее
Наиболее распространённой характеристикой безусловного
математического ожидания при работе с числовыми данными
является среднее арифметическое.
Определение
Среднее значение выборки объема n вычисляется по формуле:
¯x =
1
n
(x1 + x2 + . . . + xn) =
1
n
n
i=1
xi .
Cреднее значение3, сами по себе малоценны в качестве информации о
выборке. Примером может служить средняя температура по больнице.
Необходимы и характеристики разброса данных.
3
как и мода с медианой
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 25 / 38
Содержание
1 Генеральная совокупность и выборка
2 Типы данных и шкал
3 Выборочные характеристики
4 Характеристики среднего
5 Разброс и симметрия данных
6 Более подробно
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 26 / 38
Размах
Простейшей мерой разброса является размах (range).
Размах - это разность между минимальным и максимальным
значениями выборки, то есть xmax − xmin.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 27 / 38
Размах
Простейшей мерой разброса является размах (range).
Размах - это разность между минимальным и максимальным
значениями выборки, то есть xmax − xmin.
Пример
В результате независимых наблюдений случайной величины были
получены следующие ее значения: -1, 2, 4, 6, 5, 7, 1, 4, 0, 2. Чему
равен размах?
Решение
Минимальный элемент равен -1, а максимальный равен 7. Значит,
размах равен 7 − (−1) = 8.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 27 / 38
Размах
Простейшей мерой разброса является размах (range).
Размах - это разность между минимальным и максимальным
значениями выборки, то есть xmax − xmin.
Пример
В результате независимых наблюдений случайной величины были
получены следующие ее значения: -1, 2, 4, 6, 5, 7, 1, 4, 0, 2. Чему
равен размах?
Решение
Минимальный элемент равен -1, а максимальный равен 7. Значит,
размах равен 7 − (−1) = 8.
Чтобы ввести ещё одну меру разброса нам потребуется определить
понятие выборочной квантили.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 27 / 38
Выборочная квантиль
Определение
Выборочной квантилью xp называется решение уравнения Fn(x) = p,
где Fn(x) - это эмпирическая функция распределения.
Смысл квантили состоит в том, что левее точки xp лежит
приблизительно 100p% наблюдений.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 28 / 38
Выборочная квантиль
Определение
Выборочной квантилью xp называется решение уравнения Fn(x) = p,
где Fn(x) - это эмпирическая функция распределения.
Смысл квантили состоит в том, что левее точки xp лежит
приблизительно 100p% наблюдений.
Наиболее используемыми в описательной статистике являются
квантиль x0.5, называемая медианой;
квантиль x0.25, называемая нижней квартилью;
квантиль x0.75, называемая верхней квартилью;
квантили x0.1, x0.2, x0.3, x0.4, x0.5, x0.6, x0.7, x0.8, x0.9, называемые
децилями.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 28 / 38
Выборочная квантиль
Определение
Выборочной квантилью xp называется решение уравнения Fn(x) = p,
где Fn(x) - это эмпирическая функция распределения.
Смысл квантили состоит в том, что левее точки xp лежит
приблизительно 100p% наблюдений.
Наиболее используемыми в описательной статистике являются
квантиль x0.5, называемая медианой;
квантиль x0.25, называемая нижней квартилью;
квантиль x0.75, называемая верхней квартилью;
квантили x0.1, x0.2, x0.3, x0.4, x0.5, x0.6, x0.7, x0.8, x0.9, называемые
децилями.
А ещё есть перцентили - это квантили x0.01, x0.02,. . .,x0.99.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 28 / 38
Выборочная квантиль
Уравнение Fn(x) = p не всегда однозначно разрешимо! Поэтому ...
Важно!
Выборочная квантиль порядка p (0 < p < 1) равна X([pn]+1).
При ручном счёте часто используют другие формулы4! Например,
медиану мы уже ввели и не так, как здесь.
4
А в MS Excel функция КВАРТИЛЬ часто может давать совсем не то, что
получается по нашему правилу! Как так?
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 29 / 38
Выборочная квантиль
Уравнение Fn(x) = p не всегда однозначно разрешимо! Поэтому ...
Важно!
Выборочная квантиль порядка p (0 < p < 1) равна X([pn]+1).
При ручном счёте часто используют другие формулы4! Например,
медиану мы уже ввели и не так, как здесь.
С квартилями при ручном счёте будем поступать следующим образом:
сначала находится медиана, которая разбивает выборку на две
равные подвыборки;
для каждой из подвыборок ищем медианы и называем их верхней
и нижней квартилью.
4
А в MS Excel функция КВАРТИЛЬ часто может давать совсем не то, что
получается по нашему правилу! Как так?
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 29 / 38
Выборочная квантиль
Уравнение Fn(x) = p не всегда однозначно разрешимо! Поэтому ...
Важно!
Выборочная квантиль порядка p (0 < p < 1) равна X([pn]+1).
При ручном счёте часто используют другие формулы4! Например,
медиану мы уже ввели и не так, как здесь.
С квартилями при ручном счёте будем поступать следующим образом:
сначала находится медиана, которая разбивает выборку на две
равные подвыборки;
для каждой из подвыборок ищем медианы и называем их верхней
и нижней квартилью.
Замечание
Если выборка нечётная, то медиана включается в нижнюю и верхнюю
подвыборки. Данными не разбрасываемся!
4
А в MS Excel функция КВАРТИЛЬ часто может давать совсем не то, что
получается по нашему правилу! Как так?
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 29 / 38
Межквартильный размах
Ещё одна мера вариации данных называется межквартильным
размахом.
Определение
Межквартильный размах d - это разность между верхней и нижней
квартилями, то есть d = Q0.75 − Q0.25. Иногда используется
обозначение IR (interquartile range).
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 30 / 38
Межквартильный размах
Ещё одна мера вариации данных называется межквартильным
размахом.
Определение
Межквартильный размах d - это разность между верхней и нижней
квартилями, то есть d = Q0.75 − Q0.25. Иногда используется
обозначение IR (interquartile range).
В отличие от размаха, который полностью игнорирует распределение
данных между минимальным и максимальным элементами,
межквартильный размах показывает, где расположены 50%
центральных данных. Крайние же значения выпадают из обозрения.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 30 / 38
Коробчатая диаграмма (boxplot)
Коробчатая диаграмма представляет собой необычный рисунок, так
называемый, "ящик с усами"5:
отрезок прямой от минимального до максимального значения;
ящик, в котором заключены 50% наблюдений между нижней и
верхней квартилью, с отмеченной медианой;
иногда особо выделяют выбросы, то есть такие значения
x /∈ [Q0.25 − 1.5d; Q0.75 + 1.5d].
Q0,25 Q0,75Me
|
min
|
max
Коробчатая диаграмма
0 1 2 3 3,5 4 5 6 x
//
5
В описательной статистике можно встретить и другие диаграммы, например,
точечные диаграммы (dot plot) и стебель с листьями (stem and leaf plot).
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 31 / 38
Дисперсия и стандартное отклонение
Когда речь идет о так называемых параметрических методах
статистики, то на первый план среди различных мер разброса данных
выходят выборочные дисперсия и стандартное отклонение.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 32 / 38
Дисперсия и стандартное отклонение
Когда речь идет о так называемых параметрических методах
статистики, то на первый план среди различных мер разброса данных
выходят выборочные дисперсия и стандартное отклонение.
Определение
Выборочная дисперсия вычисляется по формуле
s2
=
1
n − 1
n
i=1
(xi − ¯x)2
,
а выборочное стандартное отклонение - это корень из дисперсии.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 32 / 38
Дисперсия и стандартное отклонение
Когда речь идет о так называемых параметрических методах
статистики, то на первый план среди различных мер разброса данных
выходят выборочные дисперсия и стандартное отклонение.
Определение
Выборочная дисперсия вычисляется по формуле
s2
=
1
n − 1
n
i=1
(xi − ¯x)2
,
а выборочное стандартное отклонение - это корень из дисперсии.
Зачем извлекать корень, может, лучше прологарифмировать? Почему
бы нам не взять просто отклонения от среднего (xi − ¯x) или модули
отклонений |xi − ¯x|? А почему в знаменателе n − 1, а не n?
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 32 / 38
Сгруппированные данные
Если среди значений xi выборки имеется только k различных(то есть
каждое из k значений aj повторяется nj раз), то обозначим частоту
значения aj через fj =
nj
n . Тогда формулы для среднего и дисперсии
могут быть записаны в виде:
Определение
Формулы среднего и дисперсии для сгруппированных данных
¯x =
k
j=1
fj aj .
s2
=
n
n − 1
k
j=1
fj (aj − ¯x)2
.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 33 / 38
Асимметрия и эксцесс
Это две характеристики, которыми часто руководствуются, чтобы
делать вывод о соответствии данных некоторому распределению.
Определение
Коэффициент асимметрии характеризует симметричность в
распределении наблюдений и равен As =
1
n
n
i=1
(xi −¯x)3
1
n
n
i=1
(xi −¯x)2
3 .
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 34 / 38
Асимметрия и эксцесс
Это две характеристики, которыми часто руководствуются, чтобы
делать вывод о соответствии данных некоторому распределению.
Определение
Коэффициент асимметрии характеризует симметричность в
распределении наблюдений и равен As =
1
n
n
i=1
(xi −¯x)3
1
n
n
i=1
(xi −¯x)2
3 .
Определение
Коэффициент эксцесса характеризует вероятность появления
больших (по модулю) значений и равен Kurt =
1
n
n
i=1
(xi −¯x)4
1
n
n
i=1
(xi −¯x)2
4 .
То есть это оценки для третьего и четвёртого центральных
нормированных моментов. Есть и другие формулы для их оценивания!
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 34 / 38
Интерпретация
Наличие симметрии характеризуется близостью коэффициента
асимметрии к нулю.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 35 / 38
Интерпретация
Наличие симметрии характеризуется близостью коэффициента
асимметрии к нулю.
Эксцесс характеризует островершинность распределения, а также
частоту появления значений, которые удалены от среднего, то
есть насколько много наблюдений находится в "хвостах"
распределения.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 35 / 38
Интерпретация
Наличие симметрии характеризуется близостью коэффициента
асимметрии к нулю.
Эксцесс характеризует островершинность распределения, а также
частоту появления значений, которые удалены от среднего, то
есть насколько много наблюдений находится в "хвостах"
распределения.
Важно!
Часто хочется проверить данные на нормальность. Как это сделать?
Для нормального распределения коэффициент асимметрии равен
нулю, а эксцесс - трем.
Если эксцесс сильно отличается от трёх, то говорят о наличии
"тяжёлых хвостов".
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 35 / 38
Интерпретация
Наличие симметрии характеризуется близостью коэффициента
асимметрии к нулю.
Эксцесс характеризует островершинность распределения, а также
частоту появления значений, которые удалены от среднего, то
есть насколько много наблюдений находится в "хвостах"
распределения.
Важно!
Часто хочется проверить данные на нормальность. Как это сделать?
Для нормального распределения коэффициент асимметрии равен
нулю, а эксцесс - трем.
Если эксцесс сильно отличается от трёх, то говорят о наличии
"тяжёлых хвостов".
Далее мы узнаем и о других способах проверки на соответствие
распределения данных некоторому известному распределению.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 35 / 38
ХВОСТЫ
//
OO
У кого больше хвосты, у того больше вероятность оказаться далеко от
МГУ.
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 36 / 38
Содержание
1 Генеральная совокупность и выборка
2 Типы данных и шкал
3 Выборочные характеристики
4 Характеристики среднего
5 Разброс и симметрия данных
6 Более подробно
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 37 / 38
Где и что почитать?
Тема: Генеральная и выборочная совокупности. Случайные выборки.
Виды выборок. Эмпирическая функция распределения. Выборочные
характеристики.([И-М], §9-10; [Ф,Л], глава 10).
Ивашев-Мусатов О. С., Теория вероятностей и математическая
статистика: учеб. пособие. - 2-е изд., перераб. и доп. - М.: ФИМА,
2003. - 224 с.
Фадеева Л. Н., Лебедев А. В., Теория вероятностей и
математическая статистика: учебное пособие. - 2-е изд., перераб. и
доп. - М.: Эксмо, 2010. - 496 с. – (Новое экономическое
образование).
Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 38 / 38

More Related Content

What's hot

Лекция 6. Совместный закон распределения
Лекция 6. Совместный закон распределенияЛекция 6. Совместный закон распределения
Лекция 6. Совместный закон распределенияKurbatskiy Alexey
 
Сглаживание временных рядов
Сглаживание временных рядовСглаживание временных рядов
Сглаживание временных рядовDEVTYPE
 
Разведочный анализ данных
Разведочный анализ данныхРазведочный анализ данных
Разведочный анализ данныхDEVTYPE
 
Доверительные интервалы. Распределения F,t,chi^2
Доверительные интервалы. Распределения F,t,chi^2Доверительные интервалы. Распределения F,t,chi^2
Доверительные интервалы. Распределения F,t,chi^2Kurbatskiy Alexey
 
Сравнение выборок
Сравнение выборокСравнение выборок
Сравнение выборокKurbatskiy Alexey
 
Проверка гипотез
Проверка гипотезПроверка гипотез
Проверка гипотезKurbatskiy Alexey
 
Прикладная эконометрика. Лекция 5
Прикладная эконометрика. Лекция 5Прикладная эконометрика. Лекция 5
Прикладная эконометрика. Лекция 5Vladimir Tcherniak
 
Прикладная эконометрика. Лекция 4
Прикладная эконометрика. Лекция 4Прикладная эконометрика. Лекция 4
Прикладная эконометрика. Лекция 4Vladimir Tcherniak
 
Прикладная эконометрика. Лекция 12
Прикладная эконометрика. Лекция 12Прикладная эконометрика. Лекция 12
Прикладная эконометрика. Лекция 12Vladimir Tcherniak
 
Моделирование ТПиПП
Моделирование ТПиППМоделирование ТПиПП
Моделирование ТПиППAndrey Urusov
 
Data Mining - lecture 2 - 2014
Data Mining - lecture 2 - 2014Data Mining - lecture 2 - 2014
Data Mining - lecture 2 - 2014Andrii Gakhov
 
Lecture 5 discrete_distribution
Lecture 5 discrete_distributionLecture 5 discrete_distribution
Lecture 5 discrete_distributionKurbatskiy Alexey
 
дидактическое пособие
дидактическое пособиедидактическое пособие
дидактическое пособиеLZolotko
 
лабораторные занятия по численным методам интерполирование и приближение функ...
лабораторные занятия по численным методам интерполирование и приближение функ...лабораторные занятия по численным методам интерполирование и приближение функ...
лабораторные занятия по численным методам интерполирование и приближение функ...Иван Иванов
 
лабораторные занятия по численным методам интерполирование и приближение функ...
лабораторные занятия по численным методам интерполирование и приближение функ...лабораторные занятия по численным методам интерполирование и приближение функ...
лабораторные занятия по численным методам интерполирование и приближение функ...Иван Иванов
 

What's hot (18)

Лекция 6. Совместный закон распределения
Лекция 6. Совместный закон распределенияЛекция 6. Совместный закон распределения
Лекция 6. Совместный закон распределения
 
Сглаживание временных рядов
Сглаживание временных рядовСглаживание временных рядов
Сглаживание временных рядов
 
Разведочный анализ данных
Разведочный анализ данныхРазведочный анализ данных
Разведочный анализ данных
 
Доверительные интервалы. Распределения F,t,chi^2
Доверительные интервалы. Распределения F,t,chi^2Доверительные интервалы. Распределения F,t,chi^2
Доверительные интервалы. Распределения F,t,chi^2
 
Сравнение выборок
Сравнение выборокСравнение выборок
Сравнение выборок
 
Lecture 8 clt
Lecture 8 cltLecture 8 clt
Lecture 8 clt
 
Проверка гипотез
Проверка гипотезПроверка гипотез
Проверка гипотез
 
Прикладная эконометрика. Лекция 5
Прикладная эконометрика. Лекция 5Прикладная эконометрика. Лекция 5
Прикладная эконометрика. Лекция 5
 
Regression
RegressionRegression
Regression
 
Прикладная эконометрика. Лекция 4
Прикладная эконометрика. Лекция 4Прикладная эконометрика. Лекция 4
Прикладная эконометрика. Лекция 4
 
Прикладная эконометрика. Лекция 12
Прикладная эконометрика. Лекция 12Прикладная эконометрика. Лекция 12
Прикладная эконометрика. Лекция 12
 
Моделирование ТПиПП
Моделирование ТПиППМоделирование ТПиПП
Моделирование ТПиПП
 
Ivm1257
Ivm1257Ivm1257
Ivm1257
 
Data Mining - lecture 2 - 2014
Data Mining - lecture 2 - 2014Data Mining - lecture 2 - 2014
Data Mining - lecture 2 - 2014
 
Lecture 5 discrete_distribution
Lecture 5 discrete_distributionLecture 5 discrete_distribution
Lecture 5 discrete_distribution
 
дидактическое пособие
дидактическое пособиедидактическое пособие
дидактическое пособие
 
лабораторные занятия по численным методам интерполирование и приближение функ...
лабораторные занятия по численным методам интерполирование и приближение функ...лабораторные занятия по численным методам интерполирование и приближение функ...
лабораторные занятия по численным методам интерполирование и приближение функ...
 
лабораторные занятия по численным методам интерполирование и приближение функ...
лабораторные занятия по численным методам интерполирование и приближение функ...лабораторные занятия по численным методам интерполирование и приближение функ...
лабораторные занятия по численным методам интерполирование и приближение функ...
 

Viewers also liked

Viewers also liked (7)

Лекция 1. Введение
Лекция 1. ВведениеЛекция 1. Введение
Лекция 1. Введение
 
Lecture 10 cont_joint_distr
Lecture 10 cont_joint_distrLecture 10 cont_joint_distr
Lecture 10 cont_joint_distr
 
Lecture 9 chi_t_f
Lecture 9 chi_t_fLecture 9 chi_t_f
Lecture 9 chi_t_f
 
Lecture 4 bernoulli_poisson
Lecture 4 bernoulli_poissonLecture 4 bernoulli_poisson
Lecture 4 bernoulli_poisson
 
Lecture 2 algebra
Lecture 2 algebraLecture 2 algebra
Lecture 2 algebra
 
Lecture 3 bayes
Lecture 3 bayesLecture 3 bayes
Lecture 3 bayes
 
Lecture 1 intro
Lecture 1 introLecture 1 intro
Lecture 1 intro
 

Similar to Лекция 2. Описательная статистика

Практика_3_MDIB_Tanlanma_to’plam_va_statistik_xatolarni_aniqlash.ppt
Практика_3_MDIB_Tanlanma_to’plam_va_statistik_xatolarni_aniqlash.pptПрактика_3_MDIB_Tanlanma_to’plam_va_statistik_xatolarni_aniqlash.ppt
Практика_3_MDIB_Tanlanma_to’plam_va_statistik_xatolarni_aniqlash.pptJamshidJumaboyev1
 
методические указания к практическим занятиям «основные понятия статистики и ...
методические указания к практическим занятиям «основные понятия статистики и ...методические указания к практическим занятиям «основные понятия статистики и ...
методические указания к практическим занятиям «основные понятия статистики и ...Иван Иванов
 
Лекция 3 Особенности подбора репрезентативной выборки
Лекция 3 Особенности подбора репрезентативной выборкиЛекция 3 Особенности подбора репрезентативной выборки
Лекция 3 Особенности подбора репрезентативной выборкиКонстантин Князев
 
550.применение математических методов при анализе геологической информации у...
550.применение математических методов при анализе геологической информации  у...550.применение математических методов при анализе геологической информации  у...
550.применение математических методов при анализе геологической информации у...ivanov1566353422
 
550.применение математических методов при анализе геологической информации у...
550.применение математических методов при анализе геологической информации  у...550.применение математических методов при анализе геологической информации  у...
550.применение математических методов при анализе геологической информации у...efwd2ws2qws2qsdw
 
Алгоритмы и структуры данных весна 2014 лекция 1
Алгоритмы и структуры данных весна 2014 лекция 1Алгоритмы и структуры данных весна 2014 лекция 1
Алгоритмы и структуры данных весна 2014 лекция 1Technopark
 
МЕТОДИКА ВЫЧИСЛЕНИЯ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА
МЕТОДИКА ВЫЧИСЛЕНИЯ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛАМЕТОДИКА ВЫЧИСЛЕНИЯ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА
МЕТОДИКА ВЫЧИСЛЕНИЯ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛАCranberry_Katia
 
02 - Квантовые вычисления. Информация и вычисления
02 - Квантовые вычисления. Информация и вычисления02 - Квантовые вычисления. Информация и вычисления
02 - Квантовые вычисления. Информация и вычисленияRoman Brovko
 
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)Mark Shaphir
 

Similar to Лекция 2. Описательная статистика (14)

Практика_3_MDIB_Tanlanma_to’plam_va_statistik_xatolarni_aniqlash.ppt
Практика_3_MDIB_Tanlanma_to’plam_va_statistik_xatolarni_aniqlash.pptПрактика_3_MDIB_Tanlanma_to’plam_va_statistik_xatolarni_aniqlash.ppt
Практика_3_MDIB_Tanlanma_to’plam_va_statistik_xatolarni_aniqlash.ppt
 
Lecture 0
Lecture 0Lecture 0
Lecture 0
 
Lecture 0
Lecture 0Lecture 0
Lecture 0
 
Lecture 0
Lecture 0Lecture 0
Lecture 0
 
методические указания к практическим занятиям «основные понятия статистики и ...
методические указания к практическим занятиям «основные понятия статистики и ...методические указания к практическим занятиям «основные понятия статистики и ...
методические указания к практическим занятиям «основные понятия статистики и ...
 
Лекция 3 Особенности подбора репрезентативной выборки
Лекция 3 Особенности подбора репрезентативной выборкиЛекция 3 Особенности подбора репрезентативной выборки
Лекция 3 Особенности подбора репрезентативной выборки
 
Stat 5 alpha
Stat 5 alphaStat 5 alpha
Stat 5 alpha
 
550.применение математических методов при анализе геологической информации у...
550.применение математических методов при анализе геологической информации  у...550.применение математических методов при анализе геологической информации  у...
550.применение математических методов при анализе геологической информации у...
 
550.применение математических методов при анализе геологической информации у...
550.применение математических методов при анализе геологической информации  у...550.применение математических методов при анализе геологической информации  у...
550.применение математических методов при анализе геологической информации у...
 
Алгоритмы и структуры данных весна 2014 лекция 1
Алгоритмы и структуры данных весна 2014 лекция 1Алгоритмы и структуры данных весна 2014 лекция 1
Алгоритмы и структуры данных весна 2014 лекция 1
 
МЕТОДИКА ВЫЧИСЛЕНИЯ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА
МЕТОДИКА ВЫЧИСЛЕНИЯ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛАМЕТОДИКА ВЫЧИСЛЕНИЯ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА
МЕТОДИКА ВЫЧИСЛЕНИЯ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА
 
02 - Квантовые вычисления. Информация и вычисления
02 - Квантовые вычисления. Информация и вычисления02 - Квантовые вычисления. Информация и вычисления
02 - Квантовые вычисления. Информация и вычисления
 
Stat 4 alpha
Stat 4 alphaStat 4 alpha
Stat 4 alpha
 
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
 

More from Kurbatskiy Alexey

Тренировочный вариант экзамена с решением
Тренировочный вариант экзамена с решениемТренировочный вариант экзамена с решением
Тренировочный вариант экзамена с решениемKurbatskiy Alexey
 
Непараметрические методы (семинары)
Непараметрические методы (семинары)Непараметрические методы (семинары)
Непараметрические методы (семинары)Kurbatskiy Alexey
 
Корреляция и МНК (семинар)
Корреляция и МНК (семинар)Корреляция и МНК (семинар)
Корреляция и МНК (семинар)Kurbatskiy Alexey
 
Распределения, связанные с нормальным
Распределения, связанные с нормальнымРаспределения, связанные с нормальным
Распределения, связанные с нормальнымKurbatskiy Alexey
 
Методы оценивания
Методы оцениванияМетоды оценивания
Методы оцениванияKurbatskiy Alexey
 

More from Kurbatskiy Alexey (11)

Project test2 mse_2016
Project test2 mse_2016Project test2 mse_2016
Project test2 mse_2016
 
проект кр1
проект кр1проект кр1
проект кр1
 
КР 2 с решением
КР 2 с решениемКР 2 с решением
КР 2 с решением
 
КР 1 с решением
КР 1 с решениемКР 1 с решением
КР 1 с решением
 
Тренировочный вариант экзамена с решением
Тренировочный вариант экзамена с решениемТренировочный вариант экзамена с решением
Тренировочный вариант экзамена с решением
 
Problem book probability
Problem book probabilityProblem book probability
Problem book probability
 
КР 3 с решением
КР 3 с решениемКР 3 с решением
КР 3 с решением
 
Непараметрические методы (семинары)
Непараметрические методы (семинары)Непараметрические методы (семинары)
Непараметрические методы (семинары)
 
Корреляция и МНК (семинар)
Корреляция и МНК (семинар)Корреляция и МНК (семинар)
Корреляция и МНК (семинар)
 
Распределения, связанные с нормальным
Распределения, связанные с нормальнымРаспределения, связанные с нормальным
Распределения, связанные с нормальным
 
Методы оценивания
Методы оцениванияМетоды оценивания
Методы оценивания
 

Лекция 2. Описательная статистика

  • 1. Лекция 2. Типы данных и выборочные характеристики Курбацкий А. Н. МШЭ МГУ 8 февраля 2016 Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 1 / 38
  • 2. Содержание 1 Генеральная совокупность и выборка 2 Типы данных и шкал 3 Выборочные характеристики 4 Характеристики среднего 5 Разброс и симметрия данных 6 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 2 / 38
  • 3. Два ключевых понятия Исследуя некоторое множество объектов зачастую мы не имеем возможности получить о нём всю информацию. Нам приходится работать только с некоторым его подмножеством, которое, как правило, невелико. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 3 / 38
  • 4. Два ключевых понятия Исследуя некоторое множество объектов зачастую мы не имеем возможности получить о нём всю информацию. Нам приходится работать только с некоторым его подмножеством, которое, как правило, невелико. Определение Генеральная совокупность (population) – вся интересующая исследователя совокупность изучаемых объектов. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 3 / 38
  • 5. Два ключевых понятия Исследуя некоторое множество объектов зачастую мы не имеем возможности получить о нём всю информацию. Нам приходится работать только с некоторым его подмножеством, которое, как правило, невелико. Определение Генеральная совокупность (population) – вся интересующая исследователя совокупность изучаемых объектов. Определение Выборка, выборочная совокупность (sample) – некоторая часть генеральной совокупности, отбираемая специальным образом и исследуемая с целью получения выводов о генеральной совокупности. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 3 / 38
  • 6. Два ключевых понятия Исследуя некоторое множество объектов зачастую мы не имеем возможности получить о нём всю информацию. Нам приходится работать только с некоторым его подмножеством, которое, как правило, невелико. Определение Генеральная совокупность (population) – вся интересующая исследователя совокупность изучаемых объектов. Определение Выборка, выборочная совокупность (sample) – некоторая часть генеральной совокупности, отбираемая специальным образом и исследуемая с целью получения выводов о генеральной совокупности. В математичской статистике под выборкой (x1, . . . , xn) объёма n из распределения D называется набор из n независимых и одинаково распределённых случайных величин, имеющих распределение D. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 3 / 38
  • 7. Типы выборок Отбор объектов для исследования должен быть осуществлён так, чтобы мы имели представление о всей генеральной совокупности в миниатюре. Важно! Говорят, что выборка должна быть представительной или репрезентативной. Добиться этого можно грамотным отбором данных. Выделим некоторые типы. простой случайный отбор; механический отбор; стратифицированный отбор; серийный. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 4 / 38
  • 8. Типы выборок Отбор объектов для исследования должен быть осуществлён так, чтобы мы имели представление о всей генеральной совокупности в миниатюре. Важно! Говорят, что выборка должна быть представительной или репрезентативной. Добиться этого можно грамотным отбором данных. Выделим некоторые типы. простой случайный отбор; механический отбор; стратифицированный отбор; серийный. Важно! Неправильный отбор является причиной многих ошибок и неверных выводов! Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 4 / 38
  • 9. Типы данных Данные измерений бывают двух типов: дискретные и непрерывные. Определение Дискретные данные представляют собой отдельные значения признака, общее число которых конечно либо если бесконечно, то является счётным. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 5 / 38
  • 10. Типы данных Данные измерений бывают двух типов: дискретные и непрерывные. Определение Дискретные данные представляют собой отдельные значения признака, общее число которых конечно либо если бесконечно, то является счётным. Определение Непрерывные данные могут принимать любое значение в некотором интервале числовой прямой. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 5 / 38
  • 11. Шкалы Этим типам данных в свою очередь соответсвуют несколько шкал, которые зависят уже от природы исходных данных. Перечислим основные их виды. Номинальная шкала1, порядковая шкала, интервальная шкала, относительная шкала. 1 в частности, бинарная (дихотомическая) шкала Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 6 / 38
  • 12. Шкалы Этим типам данных в свою очередь соответсвуют несколько шкал, которые зависят уже от природы исходных данных. Перечислим основные их виды. Номинальная шкала1, порядковая шкала, интервальная шкала, относительная шкала. Замечание В эконометрике данные дополнительно разбиваются в зависимости от их структуры. 1 в частности, бинарная (дихотомическая) шкала Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 6 / 38
  • 13. Шкалы для дискретных данных Определение Номинальная шкала состоит из названий или категорий для сортировки или классификации объектов по некоторому признаку. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 7 / 38
  • 14. Шкалы для дискретных данных Определение Номинальная шкала состоит из названий или категорий для сортировки или классификации объектов по некоторому признаку. Пример Примерами номинальной шкалы служат семейное положение, профессия, страна проживания, оператор связи. Номинальная шкала, которая состоит из двух категорий, называется дихотомической или бинарной. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 7 / 38
  • 15. Шкалы для дискретных данных Определение Номинальная шкала состоит из названий или категорий для сортировки или классификации объектов по некоторому признаку. Пример Примерами номинальной шкалы служат семейное положение, профессия, страна проживания, оператор связи. Номинальная шкала, которая состоит из двух категорий, называется дихотомической или бинарной. Определение Порядковая шкала означает, что числа присваиваются объектам, чтобы обозначить относительные позиции объектов. Пример Воинское звание, учёная степень, итоговые места спортсменов. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 7 / 38
  • 16. Шкалы для непрерывных данных Определение Интервальная шкала позволяет указать количественное значение измеряемого признака и находить разницу между двумя величинами. Недостатком служит отсутствие абсолютного нуля в качестве точки отсчета. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 8 / 38
  • 17. Шкалы для непрерывных данных Определение Интервальная шкала позволяет указать количественное значение измеряемого признака и находить разницу между двумя величинами. Недостатком служит отсутствие абсолютного нуля в качестве точки отсчета. Шкала времени, например, может быть разделена на годы, каждый год разделен на дни, дни на часы и далее. Определение Относительная шкала обладает абсолютным нулем в качестве точки отсчета. Для данных этой шкалы осмысленными являются все операции, включая вычитание и деление. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 8 / 38
  • 18. Содержание 1 Генеральная совокупность и выборка 2 Типы данных и шкал 3 Выборочные характеристики 4 Характеристики среднего 5 Разброс и симметрия данных 6 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 9 / 38
  • 19. Вариационный ряд Описательная статистика занимается начальным анализом данных. Первым шагом в анализе данных для нас будет их упорядочивание и разбиение на группы. Определение Упорядоченные по возрастанию значения выборки называются вариационным рядом (set of order statistic). Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 10 / 38
  • 20. Вариационный ряд Описательная статистика занимается начальным анализом данных. Первым шагом в анализе данных для нас будет их упорядочивание и разбиение на группы. Определение Упорядоченные по возрастанию значения выборки называются вариационным рядом (set of order statistic). Группы, на которые разбивается множество значений будем называть интервалами группировки . Важно! Пусть мы упорядочили наши n наблюдений x1, . . . , xn. Они лежат в некотором интервале, который мы разбиваем еще на m интервалов. Последние и называются интервалами группировки. Их длины обозначим через ∆1, . . . , ∆m, а середины интервалов группировки - через c1, . . . , cm. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 10 / 38
  • 21. Ранжирование Что делать, когда признаки объектов наблюдения не являются количественными или их численные значения указывают только на порядок? Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 11 / 38
  • 22. Ранжирование Что делать, когда признаки объектов наблюдения не являются количественными или их численные значения указывают только на порядок? Определение Рангом наблюдения называется порядковый номер наблюдения в вариационном ряду. Если значения наблюдаемых величин повторяются, то каждому из этих значений (наблюдений), присваивается одинаковый ранг, равный среднему арифметическому номеров занимаемых мест. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 11 / 38
  • 23. Ранжирование Что делать, когда признаки объектов наблюдения не являются количественными или их численные значения указывают только на порядок? Определение Рангом наблюдения называется порядковый номер наблюдения в вариационном ряду. Если значения наблюдаемых величин повторяются, то каждому из этих значений (наблюдений), присваивается одинаковый ранг, равный среднему арифметическому номеров занимаемых мест. Переход от самих наблюдений к последовательности их рангов называется ранжированием . Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 11 / 38
  • 24. Графическое представление данных Графические изображения дают возможность сразу получить представление о поведении и распределении данных. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 12 / 38
  • 25. Графическое представление данных Графические изображения дают возможность сразу получить представление о поведении и распределении данных. Базовыми графическими инструментами представления данных являются гистограммы, полигоны и кумуляты (накопительные гистограммы). Рассмотрим их по порядку. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 12 / 38
  • 26. Гистограмма Графическое изображение числа наблюдений ni выборки, соответствующих каждому интервалу, называется гистограммой выборки. Важно! По горизонатльной оси откладываются значения наблюдаемой величины, по вертикальной – частота их появления. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 13 / 38
  • 27. Гистограмма Графическое изображение числа наблюдений ni выборки, соответствующих каждому интервалу, называется гистограммой выборки. Важно! По горизонатльной оси откладываются значения наблюдаемой величины, по вертикальной – частота их появления. Изобразим это на графике: • 1 • 3 • 5 • 7 • 9 • 11 • 13 • 15 x −1 −2 −3 −4 −5 ni // OO Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 13 / 38
  • 28. Гистограмма частот Это графическое изображение зависимости частоты hi = ni n попадания элементов выборки от соответствующего интервала. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 14 / 38
  • 29. Гистограмма частот Это графическое изображение зависимости частоты hi = ni n попадания элементов выборки от соответствующего интервала. • 1 • 3 • 5 • 7 • 9 • 11 • 13 • 15 x −0.05 −0.1 −0.15 −0.2 −0.25 hi = ni n // OO Важно! Такую гистограмму ещё называют гистограммой относительных частот . Отличие гистограммы относительных частот от гистограммы состоит в том, что на оси y вместо количества наблюдений на данном интервале отмечены их доли (или процент) от общего числа. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 14 / 38
  • 30. Гистограмма частот Чтобы каждый раз не думать о том, какой длины выбирать интервал группировки, можно пользоваться формулой Стерджеса m ≈ 1 + log2 n. Длина каждого интервала будет равна ∆ = xmax−xmin m . Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 15 / 38
  • 31. Гистограмма частот Чтобы каждый раз не думать о том, какой длины выбирать интервал группировки, можно пользоваться формулой Стерджеса m ≈ 1 + log2 n. Длина каждого интервала будет равна ∆ = xmax−xmin m . Можно избавиться от влияния размера интервала группировки, поделив частоты hj на соответствующие длины ∆j. В таком случае площадь фигуры под гистограммой становится равной единице и поэтому её можно назвать эмпирической функцией плотности. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 15 / 38
  • 32. Гистограмма частот(график) Изобразим это на графике вместе со сглаженной гистограммой, которую также часто рисуют, чтобы лучше представлять, какому непрерывному распределению приблизительно соответствует распределение относительных частот2: • 1 • 3 • 5 • 7 • 9 • 11 • 13 • 15 x −0.025 −0.05 −0.075 −0.1 −0.125 hi ∆ // OO 2 Если плотность распределения элементов выборки является непрерывной функцией и количество k интервалов группировки стремится к бесконечности таким образом, что k n → 0, то имеет место сходимость по вероятности гистограммы к плотности в каждой точке. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 16 / 38
  • 33. Полигон Несколько иное графическое представление данных дает полигон . Полигон строится в виде области, ограниченной линией, которая проходит через точки (ci ; hi ), где ci - середина интервала, а hi - частота. • 2 • 4 • 6 • 8 • 10 • 12 • 14 x −0.05 −0.1 −0.15 −0.2 −0.25 hi = ni n // OO Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 17 / 38
  • 34. Накопительная гистограмма И ещё одно ключевое графическое изображение данных - это кумулята или накопительная гистограмма . Определение Графическое изображение зависимости накопленных частот ωi = i j=1 hj называется кумулятой выборки. • 1 • 3 • 5 • 7 • 9 • 11 • 13 • 15 x −0.05 −0.15 −0.35 −0.6 −0.8 −0.95 −1 hi = ni n // OO Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 18 / 38
  • 35. Эмпирическая функция распределения Определение Эмпирической функцией распределения случайной величины, построенной по выборке x1, . . . , xn, называется функция Fn(x), которая равна доле таких значений xi , для которых xi ≤ x. То есть Fn(x) = nx /n, где nx - число наблюдений меньших или равных x, а n - объем выборки. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 19 / 38
  • 36. Эмпирическая функция распределения Определение Эмпирической функцией распределения случайной величины, построенной по выборке x1, . . . , xn, называется функция Fn(x), которая равна доле таких значений xi , для которых xi ≤ x. То есть Fn(x) = nx /n, где nx - число наблюдений меньших или равных x, а n - объем выборки. Теорема С ростом объема выборки эмпирическая функция распределения приближается к теоретической функции распределения, более точно lim n→+∞ P(sup |Fn(x) − F(x)| = 0) = 1. Этот замечательный факт доставляет нам теорема Гливенко-Кантелли. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 19 / 38
  • 37. Пример • 1 • 2 • 3 • 4 • 5 • 13 x −1 10 −2 10 −4 10 −5 10 −6 10 −9 10 −1 Fn(x) //// OO // // // // // // Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 20 / 38
  • 38. Свойства ЭФР Свойства эмпирической функции распределения аналогичны свойствам произвольной функции распределения: 1 0 ≤ Fn(x) ≤ 1. 2 Fn(x) - неубывающая функция. 3 Fn(x) непрерывна справа. 4 Fn(x) = 0 при x < xmin и Fn(x) = 1 при x ≥ xmax. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 21 / 38
  • 39. Содержание 1 Генеральная совокупность и выборка 2 Типы данных и шкал 3 Выборочные характеристики 4 Характеристики среднего 5 Разброс и симметрия данных 6 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 22 / 38
  • 40. Мода Наша текущая задача состоит в выборе одного числа, которое можно было бы назвать центральным значением для набора данных. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 23 / 38
  • 41. Мода Наша текущая задача состоит в выборе одного числа, которое можно было бы назвать центральным значением для набора данных. Определение Мода Mo – наиболее часто встречающееся значение в выборке. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 23 / 38
  • 42. Мода Наша текущая задача состоит в выборе одного числа, которое можно было бы назвать центральным значением для набора данных. Определение Мода Mo – наиболее часто встречающееся значение в выборке. Мода может быть не одна! Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 23 / 38
  • 43. Мода Наша текущая задача состоит в выборе одного числа, которое можно было бы назвать центральным значением для набора данных. Определение Мода Mo – наиболее часто встречающееся значение в выборке. Мода может быть не одна! В выборке 1, 3, 4, −1, 2, 3, 5, 4 есть две моды 3 и 4. В таком случае распределение будет называться бимодальным. Пример В результате независимых наблюдений случайной величины были получены следующие ее значения: мегафон, билайн, теле2, теле2, мтс, мтс, теле2. Укажите количество мод данной выборки. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 23 / 38
  • 44. Медиана Еще одна характеристика среднего - это медиана (оценка медианы), которая определяется как значение, которое делит упорядоченную выборку пополам по количеству наблюдений. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 24 / 38
  • 45. Медиана Еще одна характеристика среднего - это медиана (оценка медианы), которая определяется как значение, которое делит упорядоченную выборку пополам по количеству наблюдений. Важно! Для нечетного числа наблюдений медиана есть просто центральное наблюдение x(n+1)/2. Для четного числа наблюдений медиана - это среднее арифметическое двух соседних центральных наблюдений xn 2 и xn 2 +1. Пример Рассмотрим выборку 1, 0, 3, 6, −1, 2, 7, 5, 4. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 24 / 38
  • 46. Медиана Еще одна характеристика среднего - это медиана (оценка медианы), которая определяется как значение, которое делит упорядоченную выборку пополам по количеству наблюдений. Важно! Для нечетного числа наблюдений медиана есть просто центральное наблюдение x(n+1)/2. Для четного числа наблюдений медиана - это среднее арифметическое двух соседних центральных наблюдений xn 2 и xn 2 +1. Пример Рассмотрим выборку 1, 0, 3, 6, −1, 2, 7, 5, 4. Выпишем её вариационный ряд −1, 0, 1, 2, 3, 4, 5, 6, 7. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 24 / 38
  • 47. Медиана Еще одна характеристика среднего - это медиана (оценка медианы), которая определяется как значение, которое делит упорядоченную выборку пополам по количеству наблюдений. Важно! Для нечетного числа наблюдений медиана есть просто центральное наблюдение x(n+1)/2. Для четного числа наблюдений медиана - это среднее арифметическое двух соседних центральных наблюдений xn 2 и xn 2 +1. Пример Рассмотрим выборку 1, 0, 3, 6, −1, 2, 7, 5, 4. Выпишем её вариационный ряд −1, 0, 1, 2, 3, 4, 5, 6, 7. Объем выборки равен 9, поэтому медиана - это просто центральный (пятый) элемент в выборке Me = x(9+1)/2 = x5 = 3. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 24 / 38
  • 48. Среднее Наиболее распространённой характеристикой безусловного математического ожидания при работе с числовыми данными является среднее арифметическое. Определение Среднее значение выборки объема n вычисляется по формуле: ¯x = 1 n (x1 + x2 + . . . + xn) = 1 n n i=1 xi . 3 как и мода с медианой Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 25 / 38
  • 49. Среднее Наиболее распространённой характеристикой безусловного математического ожидания при работе с числовыми данными является среднее арифметическое. Определение Среднее значение выборки объема n вычисляется по формуле: ¯x = 1 n (x1 + x2 + . . . + xn) = 1 n n i=1 xi . 3 как и мода с медианой Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 25 / 38
  • 50. Среднее Наиболее распространённой характеристикой безусловного математического ожидания при работе с числовыми данными является среднее арифметическое. Определение Среднее значение выборки объема n вычисляется по формуле: ¯x = 1 n (x1 + x2 + . . . + xn) = 1 n n i=1 xi . Cреднее значение3, сами по себе малоценны в качестве информации о выборке. Примером может служить средняя температура по больнице. Необходимы и характеристики разброса данных. 3 как и мода с медианой Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 25 / 38
  • 51. Содержание 1 Генеральная совокупность и выборка 2 Типы данных и шкал 3 Выборочные характеристики 4 Характеристики среднего 5 Разброс и симметрия данных 6 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 26 / 38
  • 52. Размах Простейшей мерой разброса является размах (range). Размах - это разность между минимальным и максимальным значениями выборки, то есть xmax − xmin. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 27 / 38
  • 53. Размах Простейшей мерой разброса является размах (range). Размах - это разность между минимальным и максимальным значениями выборки, то есть xmax − xmin. Пример В результате независимых наблюдений случайной величины были получены следующие ее значения: -1, 2, 4, 6, 5, 7, 1, 4, 0, 2. Чему равен размах? Решение Минимальный элемент равен -1, а максимальный равен 7. Значит, размах равен 7 − (−1) = 8. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 27 / 38
  • 54. Размах Простейшей мерой разброса является размах (range). Размах - это разность между минимальным и максимальным значениями выборки, то есть xmax − xmin. Пример В результате независимых наблюдений случайной величины были получены следующие ее значения: -1, 2, 4, 6, 5, 7, 1, 4, 0, 2. Чему равен размах? Решение Минимальный элемент равен -1, а максимальный равен 7. Значит, размах равен 7 − (−1) = 8. Чтобы ввести ещё одну меру разброса нам потребуется определить понятие выборочной квантили. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 27 / 38
  • 55. Выборочная квантиль Определение Выборочной квантилью xp называется решение уравнения Fn(x) = p, где Fn(x) - это эмпирическая функция распределения. Смысл квантили состоит в том, что левее точки xp лежит приблизительно 100p% наблюдений. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 28 / 38
  • 56. Выборочная квантиль Определение Выборочной квантилью xp называется решение уравнения Fn(x) = p, где Fn(x) - это эмпирическая функция распределения. Смысл квантили состоит в том, что левее точки xp лежит приблизительно 100p% наблюдений. Наиболее используемыми в описательной статистике являются квантиль x0.5, называемая медианой; квантиль x0.25, называемая нижней квартилью; квантиль x0.75, называемая верхней квартилью; квантили x0.1, x0.2, x0.3, x0.4, x0.5, x0.6, x0.7, x0.8, x0.9, называемые децилями. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 28 / 38
  • 57. Выборочная квантиль Определение Выборочной квантилью xp называется решение уравнения Fn(x) = p, где Fn(x) - это эмпирическая функция распределения. Смысл квантили состоит в том, что левее точки xp лежит приблизительно 100p% наблюдений. Наиболее используемыми в описательной статистике являются квантиль x0.5, называемая медианой; квантиль x0.25, называемая нижней квартилью; квантиль x0.75, называемая верхней квартилью; квантили x0.1, x0.2, x0.3, x0.4, x0.5, x0.6, x0.7, x0.8, x0.9, называемые децилями. А ещё есть перцентили - это квантили x0.01, x0.02,. . .,x0.99. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 28 / 38
  • 58. Выборочная квантиль Уравнение Fn(x) = p не всегда однозначно разрешимо! Поэтому ... Важно! Выборочная квантиль порядка p (0 < p < 1) равна X([pn]+1). При ручном счёте часто используют другие формулы4! Например, медиану мы уже ввели и не так, как здесь. 4 А в MS Excel функция КВАРТИЛЬ часто может давать совсем не то, что получается по нашему правилу! Как так? Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 29 / 38
  • 59. Выборочная квантиль Уравнение Fn(x) = p не всегда однозначно разрешимо! Поэтому ... Важно! Выборочная квантиль порядка p (0 < p < 1) равна X([pn]+1). При ручном счёте часто используют другие формулы4! Например, медиану мы уже ввели и не так, как здесь. С квартилями при ручном счёте будем поступать следующим образом: сначала находится медиана, которая разбивает выборку на две равные подвыборки; для каждой из подвыборок ищем медианы и называем их верхней и нижней квартилью. 4 А в MS Excel функция КВАРТИЛЬ часто может давать совсем не то, что получается по нашему правилу! Как так? Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 29 / 38
  • 60. Выборочная квантиль Уравнение Fn(x) = p не всегда однозначно разрешимо! Поэтому ... Важно! Выборочная квантиль порядка p (0 < p < 1) равна X([pn]+1). При ручном счёте часто используют другие формулы4! Например, медиану мы уже ввели и не так, как здесь. С квартилями при ручном счёте будем поступать следующим образом: сначала находится медиана, которая разбивает выборку на две равные подвыборки; для каждой из подвыборок ищем медианы и называем их верхней и нижней квартилью. Замечание Если выборка нечётная, то медиана включается в нижнюю и верхнюю подвыборки. Данными не разбрасываемся! 4 А в MS Excel функция КВАРТИЛЬ часто может давать совсем не то, что получается по нашему правилу! Как так? Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 29 / 38
  • 61. Межквартильный размах Ещё одна мера вариации данных называется межквартильным размахом. Определение Межквартильный размах d - это разность между верхней и нижней квартилями, то есть d = Q0.75 − Q0.25. Иногда используется обозначение IR (interquartile range). Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 30 / 38
  • 62. Межквартильный размах Ещё одна мера вариации данных называется межквартильным размахом. Определение Межквартильный размах d - это разность между верхней и нижней квартилями, то есть d = Q0.75 − Q0.25. Иногда используется обозначение IR (interquartile range). В отличие от размаха, который полностью игнорирует распределение данных между минимальным и максимальным элементами, межквартильный размах показывает, где расположены 50% центральных данных. Крайние же значения выпадают из обозрения. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 30 / 38
  • 63. Коробчатая диаграмма (boxplot) Коробчатая диаграмма представляет собой необычный рисунок, так называемый, "ящик с усами"5: отрезок прямой от минимального до максимального значения; ящик, в котором заключены 50% наблюдений между нижней и верхней квартилью, с отмеченной медианой; иногда особо выделяют выбросы, то есть такие значения x /∈ [Q0.25 − 1.5d; Q0.75 + 1.5d]. Q0,25 Q0,75Me | min | max Коробчатая диаграмма 0 1 2 3 3,5 4 5 6 x // 5 В описательной статистике можно встретить и другие диаграммы, например, точечные диаграммы (dot plot) и стебель с листьями (stem and leaf plot). Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 31 / 38
  • 64. Дисперсия и стандартное отклонение Когда речь идет о так называемых параметрических методах статистики, то на первый план среди различных мер разброса данных выходят выборочные дисперсия и стандартное отклонение. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 32 / 38
  • 65. Дисперсия и стандартное отклонение Когда речь идет о так называемых параметрических методах статистики, то на первый план среди различных мер разброса данных выходят выборочные дисперсия и стандартное отклонение. Определение Выборочная дисперсия вычисляется по формуле s2 = 1 n − 1 n i=1 (xi − ¯x)2 , а выборочное стандартное отклонение - это корень из дисперсии. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 32 / 38
  • 66. Дисперсия и стандартное отклонение Когда речь идет о так называемых параметрических методах статистики, то на первый план среди различных мер разброса данных выходят выборочные дисперсия и стандартное отклонение. Определение Выборочная дисперсия вычисляется по формуле s2 = 1 n − 1 n i=1 (xi − ¯x)2 , а выборочное стандартное отклонение - это корень из дисперсии. Зачем извлекать корень, может, лучше прологарифмировать? Почему бы нам не взять просто отклонения от среднего (xi − ¯x) или модули отклонений |xi − ¯x|? А почему в знаменателе n − 1, а не n? Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 32 / 38
  • 67. Сгруппированные данные Если среди значений xi выборки имеется только k различных(то есть каждое из k значений aj повторяется nj раз), то обозначим частоту значения aj через fj = nj n . Тогда формулы для среднего и дисперсии могут быть записаны в виде: Определение Формулы среднего и дисперсии для сгруппированных данных ¯x = k j=1 fj aj . s2 = n n − 1 k j=1 fj (aj − ¯x)2 . Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 33 / 38
  • 68. Асимметрия и эксцесс Это две характеристики, которыми часто руководствуются, чтобы делать вывод о соответствии данных некоторому распределению. Определение Коэффициент асимметрии характеризует симметричность в распределении наблюдений и равен As = 1 n n i=1 (xi −¯x)3 1 n n i=1 (xi −¯x)2 3 . Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 34 / 38
  • 69. Асимметрия и эксцесс Это две характеристики, которыми часто руководствуются, чтобы делать вывод о соответствии данных некоторому распределению. Определение Коэффициент асимметрии характеризует симметричность в распределении наблюдений и равен As = 1 n n i=1 (xi −¯x)3 1 n n i=1 (xi −¯x)2 3 . Определение Коэффициент эксцесса характеризует вероятность появления больших (по модулю) значений и равен Kurt = 1 n n i=1 (xi −¯x)4 1 n n i=1 (xi −¯x)2 4 . То есть это оценки для третьего и четвёртого центральных нормированных моментов. Есть и другие формулы для их оценивания! Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 34 / 38
  • 70. Интерпретация Наличие симметрии характеризуется близостью коэффициента асимметрии к нулю. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 35 / 38
  • 71. Интерпретация Наличие симметрии характеризуется близостью коэффициента асимметрии к нулю. Эксцесс характеризует островершинность распределения, а также частоту появления значений, которые удалены от среднего, то есть насколько много наблюдений находится в "хвостах" распределения. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 35 / 38
  • 72. Интерпретация Наличие симметрии характеризуется близостью коэффициента асимметрии к нулю. Эксцесс характеризует островершинность распределения, а также частоту появления значений, которые удалены от среднего, то есть насколько много наблюдений находится в "хвостах" распределения. Важно! Часто хочется проверить данные на нормальность. Как это сделать? Для нормального распределения коэффициент асимметрии равен нулю, а эксцесс - трем. Если эксцесс сильно отличается от трёх, то говорят о наличии "тяжёлых хвостов". Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 35 / 38
  • 73. Интерпретация Наличие симметрии характеризуется близостью коэффициента асимметрии к нулю. Эксцесс характеризует островершинность распределения, а также частоту появления значений, которые удалены от среднего, то есть насколько много наблюдений находится в "хвостах" распределения. Важно! Часто хочется проверить данные на нормальность. Как это сделать? Для нормального распределения коэффициент асимметрии равен нулю, а эксцесс - трем. Если эксцесс сильно отличается от трёх, то говорят о наличии "тяжёлых хвостов". Далее мы узнаем и о других способах проверки на соответствие распределения данных некоторому известному распределению. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 35 / 38
  • 74. ХВОСТЫ // OO У кого больше хвосты, у того больше вероятность оказаться далеко от МГУ. Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 36 / 38
  • 75. Содержание 1 Генеральная совокупность и выборка 2 Типы данных и шкал 3 Выборочные характеристики 4 Характеристики среднего 5 Разброс и симметрия данных 6 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 37 / 38
  • 76. Где и что почитать? Тема: Генеральная и выборочная совокупности. Случайные выборки. Виды выборок. Эмпирическая функция распределения. Выборочные характеристики.([И-М], §9-10; [Ф,Л], глава 10). Ивашев-Мусатов О. С., Теория вероятностей и математическая статистика: учеб. пособие. - 2-е изд., перераб. и доп. - М.: ФИМА, 2003. - 224 с. Фадеева Л. Н., Лебедев А. В., Теория вероятностей и математическая статистика: учебное пособие. - 2-е изд., перераб. и доп. - М.: Эксмо, 2010. - 496 с. – (Новое экономическое образование). Курбацкий А. Н. (МШЭ МГУ) Лекция 2. Описательная статистика 8 февраля 2016 38 / 38