Проверка исходных данных на нормальность распределения



 

Корреляционный анализ включает совокупность методов, которые можно разделить на две большие группы. Первая груша – параметрические или собственно корреляционные методы намерения тесноты связи, которые основаны на вычислении различных коэффициентов корреляций. Их применение требует соблюдения двух условий (об одном мы уже говорили):

1) отдельные наблюдения должны быть независимы и

2) эти наблюдения должны быть распределены по нормальному или близкому к нему закону распределения.

Вторая группа методов – непараметрические, применение которых не требует соблюдения каких-либо условий и оправдывается в тех частных случаях, когда использование параметрических методов является либо недостаточным (например, при оценке тесноты связи между качественными признаками, обобщении экспертных оценок и т.п.), либо невозможным в силу отсутствия указанных выше условий использования собственно корреляционных методов [18, с. 101 - 107] .

Поэтому необходимым и, по сути дела, заключительным этапом предварительной обработки исходных данных является проверка их на нормальность распределения.

Простейшим каноническим уравнением кривой нормального распределения Лапласа – Гаусса, график которой представлен на рисунке 5, является следующее:

или  ,                        (15)

где  – ордината кривой нормального распределения;

 – значение признака в пределах каждого интервала его ряда распределения;

 – средняя арифметическая признака;

 – среднее квадратическое отклонение признака;

 – нормированное отклонение, ;

 – основание натурального логарифма.

 

-2
-1
3
2
1
t
-3
0
x
+  
+  
+  
+  
+  
+  
> +  
y
+  

 

Рисунок 5 – Кривая нормального распределения

 

Кривая симметрична относительно некоторой оси – наибольшей ее ординаты, восстановленной из той точки на оси абсцисс, которая соответствует средней арифметической. Ветви ее асимптотически приближаются к оси абсцисс. Кривая имеет точки перегиба при , т.е. при таких отклонениях значений признака от средней арифметической, которые равны среднеквадратическому отклонению.

Центр группировки частот и форма нормальной кривой определяются  и . Чем больше , тем правее по оси абсцисс находится центр нормального распределения. При малых  кривая нормального распределения вытянута вверх и сжата с боков. Для того чтобы определить, насколько близка анализируемая кривая к нормальному распределению, необходимо прежде всего найти асимметрию.

На симметричном графике  = Мо = Ме. При правосторонней асимметрии Мо < . При левосторонней асимметрии Мо > .

В ряду распределения процентов выполнения норм выработки станочников механического цеха – функции рассматриваемой экономико-математической модели – = 173,72 %; Мо1 = 169 %; Ме1 = 169 %. Имеет место правосторонняя асимметрия. Оценив ее умеренность, т.е. проверим исходные данные этого ряда распределения на нормальность.

Существует ряд критериев согласия, по которым можно оценить близость распределения в выборках по каждому из факторов исследуемой модели к нормальному распределению. Одним из них является критерий согласия Пирсона или критерий  (хи-квадрат):

,                                    (16)

где  – эмпирическая (фактическая) частота анализируемого ряда распределения в к-й группе;

– его теоретическая частота в к-й группе.

Распределение анализируемой выборки является нормальным, если удовлетворяет критерию Романовского:

                                                    (17)

где  – число степеней свободы анализируемого ряда распределения, ;

К - количество интервалов в анализируемом ряду распределения.

Теоретические частоты рада (ординаты кривой нормального распределения) определяются по трансформированной формуле (15):

или

                                      (18)

Величина приведена в приложении 6. Она определяется в зависимости от величины t.

Расчет  для ряда распределения процентов выполнения норм выработки станочников механического цеха (  = 173,72;  = 23,83;  = 14; =50) приведен в таблице 5.

 

Таблица 5 – Расчет

Интервалы по Частота интервала Середина интерва­ла
138-152 10 145 -1,21 0,1919 5,64 ≈ 6
152-166 8 159 -0,62 0,3292 9,67 ≈ 10
166-180 19 173 -0,03 0,3989 11,7 ≈ 12
180-194 4 187 0,56 0,3410 10,02 ≈ 10
194-208 3 201 1,15 0,2050 6,03 ≈ 7
208-222 3 215 1,73 0,0893 2,62 ≈ 3
222-236 2 229 2,32 0,0277 0,81 ≈ 1
236-250 1 243 2,91 0,0058 0,17 ≈ I

 

Следует заметить, что сумма теоретических частот должна с принятой точностью совпадать с суммой фактических частот. В данном примере = =50. В расчете использована величина

.

Определим :

Левая часть критерия Романовского: .

 

Поскольку данное отношение меньше 3, распределение процентов выполнения норм выработки станочников механического цеха можно считать нормальным и применять к нему параметрические методы корреляционного анализа.

Выборки данных во множественной корреляции являются многомерными. Поэтому проверяется гипотеза о нормальности частных распределений каждого фактора. Если исходные распределения факторов не подчиняются закону нормального распределения, необходимо попытаться их нормализовать. Одним из способов нормализации является замена исходных величин их логарифмами.

 


Дата добавления: 2018-05-02; просмотров: 885; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!