Формирование статистического ряда и представление данных
Для наглядного представления статистических данных используется группировка. Числовая ось разбивается на интервалы, и для каждого интервала подсчитывается число элементов выборки, которые в него попали. Группировка данных производится в следующей последовательности:
-наименьшее значение округляется в меньшую сторону, а наибольшее -
в большую сторону до "хороших" чисел хmin и хmax;
- выбирается количество групп k, удовлетворяющее неравенству 6 < k < 20; иногда оно определяется по формуле
(14)
Например, если объем выборки n = 100, то k = 10;
-находится шаг по формуле
(15)
где R = хmах - хmin - длина промежутка, в котором содержатся
статистические данные;
-определяются границы частичных интервалов:
Изм. |
Лист |
№ докум. |
Подпись |
Дата |
Лист |
18 |
ТООН.220301.001.000.ПЗ |
-в каждом интервале вычисляются средние значения
(17)
-для каждого интервала , i = 1, 2,...,k находятся:
а) частоты пi, т. е. число выборочных значений, попавших в интервал;
б) относительные частоты
(18)
в) накопленные частоты
(19)
г) накопленные относительные частоты
(20)
Для выборочной совокупности (таблица 3) результаты группировки в Excel представлены в таблице 4.
|
|
Сначала следует указать объем выборки, максимальное и минимальное значения, размах выборки, количество групп и шаг: А23 = 100, В23 = 100, С23 = 0, D23 = В23 - С23, Е23 = 10, F23 = D23 / Е23.
В ячейках А25: Н25 указываются заголовки таблицы. В этой таблице колонки В и С можно заполнить в соответствии с формулами (1) или заполнить две строки и скопировать их в последующие так, чтобы всего получилось k = 10 строк. Колонку D можно заполнить, используя формулу: D26 = (В26 + С26)/2 с последующим копированием в ячейки D27: D35.
Таблица 4 - Группировка статистических данных
n | Xmax | Xmin | R | k | h |
|
| ||
100 | 524 | 25 | 499 | 10 | 49,9 |
|
| ||
|
|
|
|
|
|
|
| ||
Группа | Левая граница | Правая граница | Середина | Частота | Относ. Частота | Накоп. Частота | Накоп. относ. Частота | ||
1 | 25 | 74,9 | 49,95 | 11 | 0,11 | 11 | 0,11 | ||
2 | 74,9 | 124,8 | 99,85 | 15 | 0,15 | 26 | 0,26 | ||
3 | 124,8 | 174,7 | 149,75 | 19 | 0,19 | 45 | 0,45 | ||
4 | 174,7 | 224,6 | 199,65 | 16 | 0,16 | 61 | 0,61 | ||
5 | 224,6 | 274,5 | 249,55 | 11 | 0,11 | 72 | 0,72 | ||
6 | 224,75 | 324,4 | 274,575 | 10 | 0,1 | 82 | 0,82 | ||
7 | 274,65 | 374,3 | 324,475 | 7 | 0,07 | 89 | 0,89 | ||
8 | 324,55 | 424,2 | 374,375 | 5 | 0,05 | 94 | 0,94 | ||
9 | 374,45 | 474,1 | 424,275 | 2 | 0,02 | 96 | 0,96 | ||
10
| 424,35 | 524 | 474,175 | 4 | 0,04 | 100 | 1 |
Изм. |
Лист |
№ докум. |
Подпись |
Дата |
Лист |
19 |
ТООН.220301.001.000.ПЗ |
Для заполнения колонки Е следует выделить ячейки Е26: Е35 и обратиться к функции ЧАСТОТА, указав массив статистических данных и массив правых границ интервалов:
{= ЧАСТОТА (А1:J10; С26:С35)}.
Одновременное нажатие клавиш <Ctrl>+<Shift>+<Enter> приведет к заполнению выделенных ячеек.
Заполнение колонки F производится по формуле:
Е26 / $А$23
с последующим копированием в ячейки F27: F35.
Далее заполняются две ячейки колонки G по формулам:
G26 = Е26, G27 = G26 + Е27
С последующим копированием G27 в ячейки G28: G35.
Колонка Н заполняется по формуле:
Н26 = G26 / $А$23 с последующим копированием в ячейки Н27: Н35.
Изм. |
Лист |
№ докум. |
Подпись |
Дата |
Лист |
20 |
ТООН.220301.001.000.ПЗ |
Рисунок 2 - Полигон частот
Рисунок 3 - Кумулята частот
Данные, собранные в таблице 4 нуждаются в наглядном представлении. Формами такого наглядного представления являются:
-полигоны частот - графическая зависимость частот (относительных частот) от середин интервалов (рисунок 2);
-кумуляты частот - графическая зависимость накопленных частот (накопленных относительных частот) от середин интервалов (рис.3).
|
|
Изм. |
Лист |
№ докум. |
Подпись |
Дата |
Лист |
21 |
ТООН.220301.001.000.ПЗ |
При достаточно большом объеме выборки статистические данные позволяют подобрать подходящее распределение вероятностей. С этой целью можно рассмотреть некоторые известные распределения, например равномерное, нормальное и гамма-распределение.
Предположим, что случайная величина X имеет функцию распределения F(x). Будем называть это предположение гипотезой о виде распределения случайной величины X. Чтобы иметь полную информацию о распределении случайной величины, надо знать параметры этого распределения или их некоторые оценки. Как правило, параметры распределений берутся такими, чтобы математическое ожидание случайной величины X было равно выборочной средней, а среднее квадратическое отклонение случайной величины X - выборочному среднему квадратическому отклонению. Указанные выборочные характеристики находятся в ячейках G12 и G14 соответственно.
Откроем новый лист Excel и поместим эти значения в ячейки А2 и В2 соответственно (таблица 5). Определим параметры равномерного, нормального и гамма-распределений в соответствии с формулами:
|
|
(21)
(22)
(23)
(24)
и запишем их в ячейки:
B5= А2 - В2·КОРЕНЬ(3),
B6= А2 + В2·КОРЕНЬ(3),
B8= А2,
B9= В2,
Изм. |
Лист |
№ докум. |
Подпись |
Дата |
Лист |
22 |
ТООН.220301.001.000.ПЗ |
B12= В2^2/А2.
Далее построим таблицу, шапка которой располагается в ячейках А14:
В ячейках А15: А24 содержатся середины частичных интервалов,
взятые из ячеек D26: D35 предыдущего листа. В ячейках В15: В24 вычислены плотности относительных частот как частное от деления относительных частот предыдущего листа (ячейки F26: F35) на шаг (ячейка $F$23).
Таблица 5 - Значения плотностей распределения
|
|
|
|
|
Изм. |
Лист |
№ докум. |
Подпись |
Дата |
Лист |
23 |
ТООН.220301.001.000.ПЗ |
рассчитываются в соответствии с формулами:
,
,
,
затем они копируются в блок ячеек С16:Е24.
Построим гистограмму частот, совмещенную с плотностью каждого из указанных ранее распределений. Гистограмма частот - это графическое изображение зависимости плотности относительных частот ni / nh от соответствующего интервала группировки. В этом случае площадь гистограммы равна единице, и гистограмма может служить аналогом
плотности распределения вероятностей случайной величины X. Графическое изображение гистограммы и кривых различных распределений приведено на рисунках 4,5. При этом используется нестандартная диаграмма типа "График | гистограмма".
Рисунок 4 - Сглаживание гистограммы плотностью равномерного распределения
Изм. |
Лист |
№ докум. |
Подпись |
Дата |
Лист |
24 |
ТООН.220301.001.000.ПЗ |
Рисунок 5 - Сглаживание гистограммы плотностью нормального распределения
По внешнему виду этих графиков вполне можно судить о соответствии кривой распределения данной гистограмме, т. е. о том, какая кривая ближе к полученной гистограмме.
Используя критерий , надо установить, верна ли принятая нами гипотеза о распределении случайной величины X, т. е. о соответствии функции распределения F(x) экспериментальным данным, чтобы ошибка не превышала заданного уровня значимости (вероятность того, что будет отвергнута правильная гипотеза).
Изм. |
Лист |
№ докум. |
Подпись |
Дата |
Лист |
25 |
ТООН.220301.001.000.ПЗ |
Для применения критерия необходимо, чтобы частоты ni, соответствующие каждому интервалу, были не меньше 5. Если это не так, рядом стоящие интервалы объединяются, а их частоты суммируются. В результате общее количество интервалов может уменьшиться до значения . Далее вычисляется следующая сумма:
(25)
где рi - теоретическая вероятность того, что случайная величина X примет значение из интервала [ai-1, аi]. Мы предположили, что случайная величина X имеет функцию распределения F(x), поэтому pt =F(ai)-F(ai-1). Образец расчетов по формуле (2) в Excel для трех распределений показан в таблице 6.
В колонке А содержатся левые, а в колонке В - правые границы интервалов. В колонке С находятся соответствующие частоты. Заметим, что интервалы с 5-го по 10-й объединены в один, чтобы все частоты были не менее пяти. Количество интервалов вместо k = 10 стало равным k' = 5. В колонке D рассчитываются теоретические вероятности в зависимости от вида распределения. Как обычно, вычисляется одно значение, которое копируется в другие ячейки:
для равномерного распределения:
D45= ЕСЛИ(В45 < $В$5; 0; ЕСЛИ(В45 <= $В$6; (В45 - $В$5)/($В$6 - $В$5); 1)) - ЕСЛИ(А45 < $В$5; 0, ЕСЛИ(А45 <= $В$6; (А45 - $В$5)/($В$6 - $В$5); 1)).
для нормального распределения:
Изм. |
Лист |
№ докум. |
Подпись |
Дата |
Лист |
26 |
ТООН.220301.001.000.ПЗ |
для гамма-распределения:
D59=ГАММАРАСП(В61; $В$11; $В$12; ИСТИНА) - ГАММАРАСП(А61; $В$11; $В$12; ИСТИНА).
Таблица 6. Подбор распределения на основе критерия
Левая границ | Правая граница | Частота | Вероятности | x^2 |
|
|
| Равномерное распределение |
|
25 | 74,9 | 11 | 0,118199867 | 0,05688485 |
74,9 | 124,8 | 15 | 0,118199867 | 0,85554113 |
124,8 | 174,7 | 19 | 0,118199867 | 4,36147627 |
174,7 | 224,6 | 16 | 0,118199867 | 1,47821752 |
224,6 | 274,5 | 39 | 0,118199867 | 62,5003348 |
Сумма | 69,2524546 | |||
| Нормальное распределение |
| ||
25 | 74,9 | 11 | 0,069265615 | 2,39554664 |
74,9 | 124,8 | 15 | 0,10839132 | 1,59725176 |
124,8 | 174,7 | 19 | 0,143768727 | 1,48664503 |
174,7 | 224,6 | 16 | 0,161633817 | 0,00165149 |
224,6 | 274,5 | 39 | 0,15402808 | 36,151036 |
Сумма | 41,632131 | |||
| Гамма - распределение |
| ||
25 | 74,9 | 11 | 0,088926023 | 0,49941794 |
74,9 | 124,8 | 15 | 0,171340925 | 0,26580637 |
124,8 | 174,7 | 19 | 0,189584693 | 9,10E-05 |
174,7 | 224,6 | 16 | 0,16594906 | 0,02132661 |
224,6 | 274,5 | 39 | 0,127691944 | 53,8839914 |
Сумма | 54,6706333 | |||
| ||||
Критическое значение критерия | 5,99146455 |
Изм. |
Лист |
№ докум. |
Подпись |
Дата |
Лист |
27 |
ТООН.220301.001.000.ПЗ |
Е45 = (С45 - 100·D45)^2/(100·D45), которая копируется в другие ячейки колонки Е.
Согласно (2) для каждого рассмотренного распределения определяются итоговые суммы:
Е50 = СУММ(Е45:Е49),
Е57 = СУММ(Е52:Е56),
Е64 = СУММ(Е61:Е66),
которые равны соответственно 69,2524546, 41,632131 и 54,6706333.
Гипотеза о виде закона распределения должна быть принята, если вычисленное значение достаточно мало, а именно не превосходит
критического значения которое определяется по распределению в зависимости от заданного уровня значимости и числа степеней свободы . Здесь s - число неизвестных параметров распределения, которые были определены по выборке (для равномерного, нормального и гамма-распределения s = 2). В данном примере r = k'-s-1 = 5-3 = 2. Полагая = 0,05, критическое значение критерия в Excel рассчитывается по формуле:
Е66 = ХИ2ОБР(0,05;2)
Поскольку 41,632131 > 5,991, то принимается гипотеза о том, что статистические данные имеют нормальное распределение с параметрам m=210,05 и σ =121,86 соответственно.
Дата добавления: 2021-07-19; просмотров: 58; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!