Формирование статистического ряда и представление данных

⇐ ПредыдущаяСтр 3 из 4Следующая ⇒

Для наглядного представления статистических данных используется группировка. Числовая ось разбивается на интервалы, и для каждого интервала подсчитывается число элементов выборки, которые в него попали. Группировка данных производится в следующей последовательности:

-наименьшее значение округляется в меньшую сторону, а наибольшее -

в большую сторону до "хороших" чисел х_min и х_max;

- выбирается количество групп k, удовлетворяющее неравенству 6 < k < 20; иногда оно определяется по формуле

(14)

Например, если объем выборки n = 100, то k = 10;

-находится шаг по формуле

(15)

где R = х_m_ах - х_min - длина промежутка, в котором содержатся

статистические данные;

-определяются границы частичных интервалов:

Изм.

Лист

№ докум.

Подпись

Дата

Лист

ТООН.220301.001.000.ПЗ

,...

; (16)

-в каждом интервале вычисляются средние значения

(17)

-для каждого интервала , i = 1, 2,...,k находятся:

а) частоты п_i, т. е. число выборочных значений, попавших в интервал;

б) относительные частоты

(18)

в) накопленные частоты

(19)

г) накопленные относительные частоты

(20)

Для выборочной совокупности (таблица 3) результаты группировки в Excel представлены в таблице 4.

Сначала следует указать объем выборки, максимальное и минимальное значения, размах выборки, количество групп и шаг: А23 = 100, В23 = 100, С23 = 0, D23 = В23 - С23, Е23 = 10, F23 = D23 / Е23.

В ячейках А25: Н25 указываются заголовки таблицы. В этой таблице колонки В и С можно заполнить в соответствии с формулами (1) или заполнить две строки и скопировать их в последующие так, чтобы всего получилось k = 10 строк. Колонку D можно заполнить, используя формулу: D26 = (В26 + С26)/2 с последующим копированием в ячейки D27: D35.

Таблица 4 - Группировка статистических данных

Xmax

Xmin

100

524

499

49,9

Группа

Левая граница

Правая граница

Середина

Частота

Относ. Частота

Накоп. Частота

Накоп. относ. Частота

74,9

49,95

0,11

74,9

124,8

99,85

0,15

0,26

124,8

174,7

149,75

0,19

0,45

174,7

224,6

199,65

0,16

0,61

224,6

274,5

249,55

0,11

0,72

224,75

324,4

274,575

0,1

0,82

274,65

374,3

324,475

0,07

0,89

324,55

424,2

374,375

0,05

0,94

374,45

474,1

424,275

0,02

0,96

424,35

524

474,175

0,04

100

Изм.

Лист

№ докум.

Подпись

Дата

Лист

ТООН.220301.001.000.ПЗ

Для заполнения колонки Е следует выделить ячейки Е26: Е35 и обратиться к функции ЧАСТОТА, указав массив статистических данных и массив правых границ интервалов:

{= ЧАСТОТА (А1:J10; С26:С35)}.

Одновременное нажатие клавиш <Ctrl>+<Shift>+<Enter> приведет к заполнению выделенных ячеек.

Заполнение колонки F производится по формуле:

Е26 / $А$23

с последующим копированием в ячейки F27: F35.

Далее заполняются две ячейки колонки G по формулам:

G26 = Е26, G27 = G26 + Е27

С последующим копированием G27 в ячейки G28: G35.

Колонка Н заполняется по формуле:

Н26 = G26 / $А$23 с последующим копированием в ячейки Н27: Н35.

Изм.

Лист

№ докум.

Подпись

Дата

Лист

ТООН.220301.001.000.ПЗ

Рисунок 2 - Полигон частот

Рисунок 3 - Кумулята частот

Данные, собранные в таблице 4 нуждаются в наглядном представлении. Формами такого наглядного представления являются:

-полигоны частот - графическая зависимость частот (относительных частот) от середин интервалов (рисунок 2);

-кумуляты частот - графическая зависимость накопленных частот (накопленных относительных частот) от середин интервалов (рис.3).

Изм.

Лист

№ докум.

Подпись

Дата

Лист

ТООН.220301.001.000.ПЗ

Подбор подходящего закона распределения вероятностей

При достаточно большом объеме выборки статистические данные позволяют подобрать подходящее распределение вероятностей. С этой целью можно рассмотреть некоторые известные распределения, например равномерное, нормальное и гамма-распределение.

Предположим, что случайная величина X имеет функцию распределения F(x). Будем называть это предположение гипотезой о виде распределения случайной величины X. Чтобы иметь полную информацию о распределении случайной величины, надо знать параметры этого распределения или их некоторые оценки. Как правило, параметры распределений берутся такими, чтобы математическое ожидание случайной величины X было равно выборочной средней, а среднее квадратическое отклонение случайной величины X - выборочному среднему квадратическому отклонению. Указанные выборочные характеристики находятся в ячейках G12 и G14 соответственно.

Откроем новый лист Excel и поместим эти значения в ячейки А2 и В2 соответственно (таблица 5). Определим параметры равномерного, нормального и гамма-распределений в соответствии с формулами:

(21)

(22)

(23)

(24)

и запишем их в ячейки:

B5= А2 - В2·КОРЕНЬ(3),

B6= А2 + В2·КОРЕНЬ(3),

B8= А2,

B9= В2,

Изм.

Лист

№ докум.

Подпись

Дата

Лист

ТООН.220301.001.000.ПЗ

B11= (А2/В2)^{^}2,

B12= В2^{^}2/А2.

Далее построим таблицу, шапка которой располагается в ячейках А14:

В ячейках А15: А24 содержатся середины частичных интервалов,

взятые из ячеек D26: D35 предыдущего листа. В ячейках В15: В24 вычислены плотности относительных частот как частное от деления относительных частот предыдущего листа (ячейки F26: F35) на шаг (ячейка $F$23).

Таблица 5 - Значения плотностей распределения

Матем. ожидание	Сред. кв. отклон.
210,0523226	121,8689125

Параметры равномерного распределения
a	-1,030825687
b	421,1354709
Параметры нормального распределения
m	210,0523226
σ	121,8689125
Парметры гамма-распределения
α	2,970770514
β	70,70634425

Середина	Плотность относит, частот	Плотность равномер. распред.	Плотность нормал. распред.	Плотность гамма-распред.
49,95	0,002204409	0,002368735	0,001381173	0,00180681
99,85	0,003006012	0,002368735	0,002174979	0,0034934
149,75	0,003807615	0,002368735	0,002896349	0,00383393
199,65	0,003206413	0,002368735	0,003261633	0,00333658
249,55	0,002204409	0,002368735	0,003106046	0,00255711
274,575	0,002004008	0,002368735	0,002845434	0,00216687
324,475	0,001402806	0,002368735	0,002106662	0,00148681
374,375	0,001002004	0,002368735	0,001318954	0,00097318
424,275	0,000400802	0	0,000698318	0,00061488
474,175	0,000801603	0	0,000312655	0,00037798

Изм.

Лист

№ докум.

Подпись

Дата

Лист

ТООН.220301.001.000.ПЗ

Плотности равномерного, нормального и гамма-распределения

рассчитываются в соответствии с формулами:

затем они копируются в блок ячеек С16:Е24.

Построим гистограмму частот, совмещенную с плотностью каждого из указанных ранее распределений. Гистограмма частот - это графическое изображение зависимости плотности относительных частот n_i / nh от соответствующего интервала группировки. В этом случае площадь гистограммы равна единице, и гистограмма может служить аналогом

плотности распределения вероятностей случайной величины X. Графическое изображение гистограммы и кривых различных распределений приведено на рисунках 4,5. При этом используется нестандартная диаграмма типа "График | гистограмма".

Рисунок 4 - Сглаживание гистограммы плотностью равномерного распределения

Изм.

Лист

№ докум.

Подпись

Дата

Лист

ТООН.220301.001.000.ПЗ

Рисунок 5 - Сглаживание гистограммы плотностью нормального распределения

По внешнему виду этих графиков вполне можно судить о соответствии кривой распределения данной гистограмме, т. е. о том, какая кривая ближе к полученной гистограмме.

Используя критерий , надо установить, верна ли принятая нами гипотеза о распределении случайной величины X, т. е. о соответствии функции распределения F(x) экспериментальным данным, чтобы ошибка не превышала заданного уровня значимости (вероятность того, что будет отвергнута правильная гипотеза).

Изм.

Лист

№ докум.

Подпись

Дата

Лист

ТООН.220301.001.000.ПЗ

Рисунок 6 - Сглаживание гистограммы плотностью гамма-распределения

Для применения критерия необходимо, чтобы частоты n_i, соответствующие каждому интервалу, были не меньше 5. Если это не так, рядом стоящие интервалы объединяются, а их частоты суммируются. В результате общее количество интервалов может уменьшиться до значения . Далее вычисляется следующая сумма:

(25)

где р_i - теоретическая вероятность того, что случайная величина X примет значение из интервала [a_i-1, а_i]. Мы предположили, что случайная величина X имеет функцию распределения F(x), поэтому p_t =F(a_i)-F(a_i-1). Образец расчетов по формуле (2) в Excel для трех распределений показан в таблице 6.

В колонке А содержатся левые, а в колонке В - правые границы интервалов. В колонке С находятся соответствующие частоты. Заметим, что интервалы с 5-го по 10-й объединены в один, чтобы все частоты были не менее пяти. Количество интервалов вместо k = 10 стало равным k' = 5. В колонке D рассчитываются теоретические вероятности в зависимости от вида распределения. Как обычно, вычисляется одно значение, которое копируется в другие ячейки:

для равномерного распределения:

D45= ЕСЛИ(В45 < $В$5; 0; ЕСЛИ(В45 <= $В$6; (В45 - $В$5)/($В$6 - $В$5); 1)) - ЕСЛИ(А45 < $В$5; 0, ЕСЛИ(А45 <= $В$6; (А45 - $В$5)/($В$6 - $В$5); 1)).

для нормального распределения:

Изм.

Лист

№ докум.

Подпись

Дата

Лист

ТООН.220301.001.000.ПЗ

D52 = НОРМРАСП(В53; $В$8; $В$9; ИСТИНА) - НОРМРАСП(А53; $В$8; $В$9; ИСТИНА).

для гамма-распределения:

D59=ГАММАРАСП(В61; $В$11; $В$12; ИСТИНА) - ГАММАРАСП(А61; $В$11; $В$12; ИСТИНА).

Таблица 6. Подбор распределения на основе критерия

Левая границ	Правая граница	Частота	Вероятности	x^2
			Равномерное распределение
25	74,9	11	0,118199867	0,05688485
74,9	124,8	15	0,118199867	0,85554113
124,8	174,7	19	0,118199867	4,36147627
174,7	224,6	16	0,118199867	1,47821752
224,6	274,5	39	0,118199867	62,5003348
Сумма				69,2524546
			Нормальное распределение
25	74,9	11	0,069265615	2,39554664
74,9	124,8	15	0,10839132	1,59725176
124,8	174,7	19	0,143768727	1,48664503
174,7	224,6	16	0,161633817	0,00165149
224,6	274,5	39	0,15402808	36,151036
Сумма				41,632131
			Гамма - распределение
25	74,9	11	0,088926023	0,49941794
74,9	124,8	15	0,171340925	0,26580637
124,8	174,7	19	0,189584693	9,10E-05
174,7	224,6	16	0,16594906	0,02132661
224,6	274,5	39	0,127691944	53,8839914
Сумма				54,6706333

Критическое значение критерия				5,99146455

Изм.

Лист

№ докум.

Подпись

Дата

Лист

ТООН.220301.001.000.ПЗ

В колонке Е рассчитываются слагаемые соотношения (2) по формуле:

Е45 = (С45 - 100·D45)^{^}2/(100·D45), которая копируется в другие ячейки колонки Е.

Согласно (2) для каждого рассмотренного распределения определяются итоговые суммы:

Е50 = СУММ(Е45:Е49),

Е57 = СУММ(Е52:Е56),

Е64 = СУММ(Е61:Е66),

которые равны соответственно 69,2524546, 41,632131 и 54,6706333.

Гипотеза о виде закона распределения должна быть принята, если вычисленное значение достаточно мало, а именно не превосходит

критического значения которое определяется по распределению в зависимости от заданного уровня значимости и числа степеней свободы . Здесь s - число неизвестных параметров распределения, которые были определены по выборке (для равномерного, нормального и гамма-распределения s = 2). В данном примере r = k'-s-1 = 5-3 = 2. Полагая = 0,05, критическое значение критерия в Excel рассчитывается по формуле:

Е66 = ХИ2ОБР(0,05;2)

Поскольку 41,632131 > 5,991, то принимается гипотеза о том, что статистические данные имеют нормальное распределение с параметрам m=210,05 и σ =121,86 соответственно.

Дата добавления: 2021-07-19; просмотров: 58; Мы поможем в написании вашей работы!

Поделиться с друзьями:

⇐ Предыдущая 1 234 Следующая ⇒

Мы поможем в написании ваших работ!