Формирование статистического ряда и представление данных



Для наглядного представления статистических данных используется группировка. Числовая ось разбивается на интервалы, и для каждого интервала подсчитывается число элементов выборки, которые в него попали. Группировка данных производится в следующей последовательности:

-наименьшее значение округляется в меньшую сторону, а наибольшее -

в большую сторону до "хороших" чисел хmin и хmax;

- выбирается количество групп k, удовлетворяющее неравенству 6 < k < 20; иногда оно определяется по формуле

 

                                 (14)

Например, если объем выборки n = 100, то k = 10;

-находится шаг по формуле

 

                                     (15)

где R = хmах - хmin - длина промежутка, в котором содержатся

статистические данные;

-определяются границы частичных интервалов:

Изм.
Лист
№ докум.
Подпись
Дата
Лист
18
ТООН.220301.001.000.ПЗ  
, , ,... ; (16)

-в каждом интервале вычисляются средние значения

                          (17)

-для каждого интервала , i = 1, 2,...,k находятся:

а) частоты пi, т. е. число выборочных значений, попавших в интервал;

б) относительные частоты

                                                       (18)

в) накопленные частоты

                   (19)

г) накопленные относительные частоты

                                                   (20)

Для выборочной совокупности (таблица 3) результаты группировки в Excel представлены в таблице 4.

Сначала следует указать объем выборки, максимальное и минимальное значения, размах выборки, количество групп и шаг: А23 = 100, В23 = 100, С23 = 0, D23 = В23 - С23, Е23 = 10, F23 = D23 / Е23.

В ячейках А25: Н25 указываются заголовки таблицы. В этой таблице колонки В и С можно заполнить в соответствии с формулами (1) или заполнить две строки и скопировать их в последующие так, чтобы всего получилось k = 10 строк. Колонку D можно заполнить, используя формулу: D26 = (В26 + С26)/2 с последующим копированием в ячейки D27: D35.

 

 

Таблица 4 - Группировка статистических данных

n

Xmax

Xmin

R

k

h

 

 

100

524

25

499

10

49,9

 

 

 

 

 

 

 

 

 

 

Группа

Левая граница Правая граница

Середина

Частота

Относ. Частота Накоп. Частота Накоп. относ. Частота

1

25

74,9

49,95

11

0,11

11

0,11

2

74,9

124,8

99,85

15

0,15

26

0,26

3

124,8

174,7

149,75

19

0,19

45

0,45

4

174,7

224,6

199,65

16

0,16

61

0,61

5

224,6

274,5

249,55

11

0,11

72

0,72

6

224,75

324,4

274,575

10

0,1

82

0,82

7

274,65

374,3

324,475

7

0,07

89

0,89

8

324,55

424,2

374,375

5

0,05

94

0,94

9

374,45

474,1

424,275

2

0,02

96

0,96

10

424,35

524

474,175

4

0,04

100

1

Изм.
Лист
№ докум.
Подпись
Дата
Лист
19
ТООН.220301.001.000.ПЗ  

Для заполнения колонки Е следует выделить ячейки Е26: Е35 и обратиться к функции ЧАСТОТА, указав массив статистических данных и массив правых границ интервалов:

{= ЧАСТОТА (А1:J10; С26:С35)}.

Одновременное нажатие клавиш <Ctrl>+<Shift>+<Enter> приведет к заполнению выделенных ячеек.

Заполнение колонки F производится по формуле:

 Е26 / $А$23

с последующим копированием в ячейки F27: F35.

Далее заполняются две ячейки колонки G по формулам: 

G26 = Е26, G27 = G26 + Е27

С последующим копированием G27 в ячейки G28: G35.

Колонка Н заполняется по формуле:

Н26 = G26 / $А$23 с последующим копированием в ячейки Н27: Н35.

 

Изм.
Лист
№ докум.
Подпись
Дата
Лист
20
ТООН.220301.001.000.ПЗ  

Рисунок 2 - Полигон частот

 

Рисунок 3 - Кумулята частот

 

Данные, собранные в таблице 4 нуждаются в наглядном представлении. Формами такого наглядного представления являются:

-полигоны частот - графическая зависимость частот (относительных частот) от середин интервалов (рисунок 2);

-кумуляты частот - графическая зависимость накопленных частот (накопленных относительных частот) от середин интервалов (рис.3).

 

 

Изм.
Лист
№ докум.
Подпись
Дата
Лист
21
ТООН.220301.001.000.ПЗ  
Подбор подходящего закона распределения вероятностей

При достаточно большом объеме выборки статистические данные позволяют подобрать подходящее распределение вероятностей. С этой целью можно рассмотреть некоторые известные распределения, например равномерное, нормальное и гамма-распределение.

Предположим, что случайная величина X имеет функцию распределения F(x). Будем называть это предположение гипотезой о виде распределения случайной величины X. Чтобы иметь полную информацию о распределении случайной величины, надо знать параметры этого распределения или их некоторые оценки. Как правило, параметры распределений берутся такими, чтобы математическое ожидание случайной величины X было равно выборочной средней, а среднее квадратическое отклонение случайной величины X - выборочному среднему квадратическому отклонению. Указанные выборочные характеристики находятся в ячейках G12 и G14 соответственно.

Откроем новый лист Excel и поместим эти значения в ячейки А2 и В2 соответственно (таблица 5). Определим параметры равномерного, нормального и гамма-распределений в соответствии с формулами:

                               (21)

                               (22)

                                       (23)

                                       (24)

и запишем их в ячейки:

B5= А2 - В2·КОРЕНЬ(3),

B6= А2 + В2·КОРЕНЬ(3),

B8= А2,

B9= В2,

Изм.
Лист
№ докум.
Подпись
Дата
Лист
22
ТООН.220301.001.000.ПЗ  
B11= (А2/В2)^2,

B12= В2^2/А2.

Далее построим таблицу, шапка которой располагается в ячейках А14:

В ячейках А15: А24 содержатся середины частичных интервалов,

взятые из ячеек D26: D35 предыдущего листа. В ячейках В15: В24 вычислены плотности относительных частот как частное от деления относительных частот предыдущего листа (ячейки F26: F35) на шаг (ячейка $F$23).

 

Таблица 5 - Значения плотностей распределения

Матем. ожидание

Сред. кв. отклон.

210,0523226

121,8689125

 

Параметры равномерного распределения

a

-1,030825687

b

421,1354709

Параметры нормального распределения

m

210,0523226

σ

121,8689125

Парметры гамма-распределения

α

2,970770514

β

70,70634425

 

Середина

Плотность относит, частот Плотность равномер. распред. Плотность нормал. распред. Плотность гамма-распред.

49,95

0,002204409

0,002368735

0,001381173

0,00180681

99,85

0,003006012

0,002368735

0,002174979

0,0034934

149,75

0,003807615

0,002368735

0,002896349

0,00383393

199,65

0,003206413

0,002368735

0,003261633

0,00333658

249,55

0,002204409

0,002368735

0,003106046

0,00255711

274,575

0,002004008

0,002368735

0,002845434

0,00216687

324,475

0,001402806

0,002368735

0,002106662

0,00148681

374,375

0,001002004

0,002368735

0,001318954

0,00097318

424,275

0,000400802

0

0,000698318

0,00061488

474,175

0,000801603

0

0,000312655

0,00037798

 

 

 

 

 

Изм.
Лист
№ докум.
Подпись
Дата
Лист
23
ТООН.220301.001.000.ПЗ  
Плотности равномерного, нормального и гамма-распределения

рассчитываются в соответствии с формулами:

,

,

,

затем они копируются в блок ячеек С16:Е24.

 

Построим гистограмму частот, совмещенную с плотностью каждого из указанных ранее распределений. Гистограмма частот - это графическое изображение зависимости плотности относительных частот ni / nh от соответствующего интервала группировки. В этом случае площадь гистограммы равна единице, и гистограмма может служить аналогом

плотности распределения вероятностей случайной величины X. Графическое изображение гистограммы и кривых различных распределений приведено на рисунках 4,5. При этом используется нестандартная диаграмма типа "График | гистограмма".

 

Рисунок 4 - Сглаживание гистограммы плотностью равномерного распределения

 

Изм.
Лист
№ докум.
Подпись
Дата
Лист
24
ТООН.220301.001.000.ПЗ  

Рисунок 5 - Сглаживание гистограммы плотностью нормального распределения

 

По внешнему виду этих графиков вполне можно судить о соответствии кривой распределения данной гистограмме, т. е. о том, какая кривая ближе к полученной гистограмме.

Используя критерий , надо установить, верна ли принятая нами гипотеза о распределении случайной величины X, т. е. о соответствии функции распределения F(x) экспериментальным данным, чтобы ошибка не превышала заданного уровня значимости (вероятность того, что будет отвергнута правильная гипотеза).

 

Изм.
Лист
№ докум.
Подпись
Дата
Лист
25
ТООН.220301.001.000.ПЗ  
Рисунок 6 - Сглаживание гистограммы плотностью гамма-распределения

Для применения критерия  необходимо, чтобы частоты ni, соответствующие каждому интервалу, были не меньше 5. Если это не так, рядом стоящие интервалы объединяются, а их частоты суммируются. В результате общее количество интервалов может уменьшиться до значения . Далее вычисляется следующая сумма:

 

      (25)

 

где рi - теоретическая вероятность того, что случайная величина X примет значение из интервала [ai-1, аi]. Мы предположили, что случайная величина X имеет функцию распределения F(x), поэтому pt =F(ai)-F(ai-1). Образец расчетов по формуле (2) в Excel для трех распределений показан в таблице 6.

В колонке А содержатся левые, а в колонке В - правые границы интервалов. В колонке С находятся соответствующие частоты. Заметим, что интервалы с 5-го по 10-й объединены в один, чтобы все частоты были не менее пяти. Количество интервалов вместо k = 10 стало равным k' = 5. В колонке D рассчитываются теоретические вероятности в зависимости от вида распределения. Как обычно, вычисляется одно значение, которое копируется в другие ячейки:

для равномерного распределения:

D45= ЕСЛИ(В45 < $В$5; 0; ЕСЛИ(В45 <= $В$6; (В45 - $В$5)/($В$6 - $В$5); 1)) - ЕСЛИ(А45 < $В$5; 0, ЕСЛИ(А45 <= $В$6; (А45 - $В$5)/($В$6 - $В$5); 1)).

 

для нормального распределения:

Изм.
Лист
№ докум.
Подпись
Дата
Лист
26
ТООН.220301.001.000.ПЗ  
     D52 = НОРМРАСП(В53; $В$8; $В$9; ИСТИНА) - НОРМРАСП(А53; $В$8; $В$9; ИСТИНА).

для гамма-распределения:

D59=ГАММАРАСП(В61; $В$11; $В$12; ИСТИНА) - ГАММАРАСП(А61; $В$11; $В$12; ИСТИНА).

 

Таблица 6. Подбор распределения на основе критерия

Левая границ

Правая граница

Частота

Вероятности

 x^2

 

 

 

Равномерное распределение

 

25

74,9

11

0,118199867

0,05688485

74,9

124,8

15

0,118199867

0,85554113

124,8

174,7

19

0,118199867

4,36147627

174,7

224,6

16

0,118199867

1,47821752

224,6

274,5

39

0,118199867

62,5003348

Сумма

69,2524546

 

Нормальное распределение

 

25

74,9

11

0,069265615

2,39554664

74,9

124,8

15

0,10839132

1,59725176

124,8

174,7

19

0,143768727

1,48664503

174,7

224,6

16

0,161633817

0,00165149

224,6

274,5

39

0,15402808

36,151036

Сумма

41,632131

 

Гамма - распределение

 

25

74,9

11

0,088926023

0,49941794

74,9

124,8

15

0,171340925

0,26580637

124,8

174,7

19

0,189584693

9,10E-05

174,7

224,6

16

0,16594906

0,02132661

224,6

274,5

39

0,127691944

53,8839914

Сумма

54,6706333

 

Критическое значение критерия

5,99146455

 

Изм.
Лист
№ докум.
Подпись
Дата
Лист
27
ТООН.220301.001.000.ПЗ  
В колонке Е рассчитываются слагаемые соотношения (2) по формуле:

Е45 = (С45 - 100·D45)^2/(100·D45), которая копируется в другие ячейки колонки Е.

Согласно (2) для каждого рассмотренного распределения определяются итоговые суммы:

Е50 = СУММ(Е45:Е49),

Е57 = СУММ(Е52:Е56),

Е64 = СУММ(Е61:Е66),

которые равны соответственно 69,2524546, 41,632131 и 54,6706333.

Гипотеза о виде закона распределения должна быть принята, если вычисленное значение  достаточно мало, а именно не превосходит

критического значения  которое определяется по распределению  в зависимости от заданного уровня значимости  и числа степеней свободы . Здесь s - число неизвестных параметров распределения, которые были определены по выборке (для равномерного, нормального и гамма-распределения s = 2). В данном примере r = k'-s-1 = 5-3 = 2. Полагая  = 0,05, критическое значение критерия  в Excel рассчитывается по формуле:

Е66 = ХИ2ОБР(0,05;2)

Поскольку 41,632131 > 5,991, то принимается гипотеза о том, что статистические данные имеют нормальное распределение с параметрам m=210,05 и σ =121,86 соответственно.


Дата добавления: 2021-07-19; просмотров: 58; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!