Проверка исходных данных на нормальность распределения
Корреляционный анализ включает совокупность методов, которые можно разделить на две большие группы. Первая груша – параметрические или собственно корреляционные методы намерения тесноты связи, которые основаны на вычислении различных коэффициентов корреляций. Их применение требует соблюдения двух условий (об одном мы уже говорили):
1) отдельные наблюдения должны быть независимы и
2) эти наблюдения должны быть распределены по нормальному или близкому к нему закону распределения.
Вторая группа методов – непараметрические, применение которых не требует соблюдения каких-либо условий и оправдывается в тех частных случаях, когда использование параметрических методов является либо недостаточным (например, при оценке тесноты связи между качественными признаками, обобщении экспертных оценок и т.п.), либо невозможным в силу отсутствия указанных выше условий использования собственно корреляционных методов [18, с. 101 - 107] .
Поэтому необходимым и, по сути дела, заключительным этапом предварительной обработки исходных данных является проверка их на нормальность распределения.
Простейшим каноническим уравнением кривой нормального распределения Лапласа – Гаусса, график которой представлен на рисунке 5, является следующее:
или , (15)
где – ордината кривой нормального распределения;
– значение признака в пределах каждого интервала его ряда распределения;
|
|
– средняя арифметическая признака;
– среднее квадратическое отклонение признака;
– нормированное отклонение, ;
– основание натурального логарифма.
-2 |
-1 |
3 |
2 |
1 |
t |
-3 |
0 |
x |
+ |
+ |
+ |
+ |
+ |
+ |
> + |
y |
+ |
Рисунок 5 – Кривая нормального распределения
Кривая симметрична относительно некоторой оси – наибольшей ее ординаты, восстановленной из той точки на оси абсцисс, которая соответствует средней арифметической. Ветви ее асимптотически приближаются к оси абсцисс. Кривая имеет точки перегиба при , т.е. при таких отклонениях значений признака от средней арифметической, которые равны среднеквадратическому отклонению.
Центр группировки частот и форма нормальной кривой определяются и . Чем больше , тем правее по оси абсцисс находится центр нормального распределения. При малых кривая нормального распределения вытянута вверх и сжата с боков. Для того чтобы определить, насколько близка анализируемая кривая к нормальному распределению, необходимо прежде всего найти асимметрию.
На симметричном графике = Мо = Ме. При правосторонней асимметрии Мо < . При левосторонней асимметрии Мо > .
|
|
В ряду распределения процентов выполнения норм выработки станочников механического цеха – функции рассматриваемой экономико-математической модели – = 173,72 %; Мо1 = 169 %; Ме1 = 169 %. Имеет место правосторонняя асимметрия. Оценив ее умеренность, т.е. проверим исходные данные этого ряда распределения на нормальность.
Существует ряд критериев согласия, по которым можно оценить близость распределения в выборках по каждому из факторов исследуемой модели к нормальному распределению. Одним из них является критерий согласия Пирсона или критерий (хи-квадрат):
, (16)
где – эмпирическая (фактическая) частота анализируемого ряда распределения в к-й группе;
– его теоретическая частота в к-й группе.
Распределение анализируемой выборки является нормальным, если удовлетворяет критерию Романовского:
(17)
где – число степеней свободы анализируемого ряда распределения, ;
К - количество интервалов в анализируемом ряду распределения.
Теоретические частоты рада (ординаты кривой нормального распределения) определяются по трансформированной формуле (15):
|
|
или
(18)
Величина приведена в приложении 6. Она определяется в зависимости от величины t.
Расчет для ряда распределения процентов выполнения норм выработки станочников механического цеха ( = 173,72; = 23,83; = 14; =50) приведен в таблице 5.
Таблица 5 – Расчет
Интервалы по | Частота интервала | Середина интервала | |||
138-152 | 10 | 145 | -1,21 | 0,1919 | 5,64 ≈ 6 |
152-166 | 8 | 159 | -0,62 | 0,3292 | 9,67 ≈ 10 |
166-180 | 19 | 173 | -0,03 | 0,3989 | 11,7 ≈ 12 |
180-194 | 4 | 187 | 0,56 | 0,3410 | 10,02 ≈ 10 |
194-208 | 3 | 201 | 1,15 | 0,2050 | 6,03 ≈ 7 |
208-222 | 3 | 215 | 1,73 | 0,0893 | 2,62 ≈ 3 |
222-236 | 2 | 229 | 2,32 | 0,0277 | 0,81 ≈ 1 |
236-250 | 1 | 243 | 2,91 | 0,0058 | 0,17 ≈ I |
Следует заметить, что сумма теоретических частот должна с принятой точностью совпадать с суммой фактических частот. В данном примере = =50. В расчете использована величина
.
Определим :
Левая часть критерия Романовского: .
Поскольку данное отношение меньше 3, распределение процентов выполнения норм выработки станочников механического цеха можно считать нормальным и применять к нему параметрические методы корреляционного анализа.
|
|
Выборки данных во множественной корреляции являются многомерными. Поэтому проверяется гипотеза о нормальности частных распределений каждого фактора. Если исходные распределения факторов не подчиняются закону нормального распределения, необходимо попытаться их нормализовать. Одним из способов нормализации является замена исходных величин их логарифмами.
Дата добавления: 2018-05-02; просмотров: 885; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!