Сравнение двух независимых выборок

Занятие № 4

ПРИМЕНЕНИЕ НЕПАРАМЕТРИЧЕСКИХ КРИТЕРИЕВ ДЛЯ АНАЛИЗА ДАННЫХ

Непараметрическими называются критерии, не включающие в формулу расчета параметры распределения, и не предполагающие знания функции распределения. Эти критерии оперируют частотами или рангами.

 

Проверка гипотез о законах распределения

Одной из задач математической статистики является нахождение закона распределения случайной величины по выборочным данным.

Критерием согласия называют критерий проверки гипотезы о предполагаемом законе распределения.

 

Критерий согласия хи-квадрат К.Пирсона для проверки гипотезы о виде закона распределения

Критерий хи-квадрат основан на сравнении наблюдаемых и теоретических (вычисленных в предположении известного закона распределения) частот.

Критерий предполагает, что результаты наблюдений сгруппированы в статистический ряд (дискретный или интервальный, содержащий k разрядов).

Схема проверки гипотезы

1. Выдвигается гипотеза H0 о законе распределения случайной величины Х с функцией распределения F(x) - модель закона распределения.

2. По результатам наблюдений находят оценки неизвестных параметров этой модели. Определяются наблюдаемые частоты  (i=1,…,k) попадания элементов выборки в полученные интервалы.

3. Определяются теоретические (ожидаемые) частоты попадания выборочных значений в промежутки, для чего:

· используя теоретическую функцию распределения F(x), определяют вероятности  того, что случайная величина Х примет значения xi;

· находят значения теоретических частот  путём умножения полученных вероятностей на объём выборки n: .

4. Находится выборочное значение критерия согласия К.Пирсона по формуле:

,

где:  (i=1,…,k) - наблюдаемые частоты; - теоретические частоты (найдены по модели); n - объём выборки.

5. Для выбранного уровня значимости a при числе степеней свободы , где r – число параметров теоретического распределения вероятностей, оцениваемых по данным выборки, находят критическое значение . Если экспериментальное значение   больше критического, т.е.  > , то гипотеза H0 отвергается; если  < , гипотеза H0 не противоречит экспериментальным данным.

Ограничения критерия хи-квадрат К.Пирсона

1) Объём выборки должен быть достаточно большим: n ³ 30.

2) Теоретическая частота для каждой ячейки не должна быть меньше 5.

 

Пример 1. В цехе с 10 станками ежедневно регистрировалось число вышедших из строя станков. Всего было проведено 200 наблюдений, результаты приведены в таблице:

Число выбывших станков 0 1 2 3 4 5 6 7 8 9 10
Число случаев 41 62 45 22 16 8 4 2 0 0 0

Проверить гипотезу о том, что число выбывших из строя станков имеет распределение Пуассона. Принять α = 0,05.

Последовательность выполнения

Закон распределения Пуассона имеет вид:

,

где: n - число испытаний; k  - число появления события А в n испытаниях; l= np, p - вероятность появления события А в одном испытании.

Ввести в диапазон А2:А12 число станков, а в диапазон В2:В12 - число случаев.

В ячейке В13 рассчитать число случаев. Для этого в ячейку ввести формулу: =СУММ(В2:В12). Получим результат: 200.

В ячейке В14 рассчитать общее число отказов по формуле: =СУММПРОИЗВ(А2:А12; В2:В12). Получим результат: 360.

В ячейке В15 рассчитать значение параметра  по формуле: = B14/ B13.

Для расчёта теоретических частот введём следующие формулы:

В ячейку С2: =ПУАССОН( A2;$ B$15;ИСТИНА)*$ B$13

В ячейку С3:

=(ПУАССОН( A3;$ B$15;ИСТИНА)-ПУАССОН( A2;$ B$15;ИСТИНА))*$ B$13

Протянуть формулу из ячейки С3 до ячейки С12. В диапазоне С2:С12 получим значения теоретических частот.

 

 

Так как частоты в ячейках C8: C12 меньше 5, то их следует объединить с ячейкой С7.

В диапазонах D2: D7 и E2: E7 получить окончательное распределение частот.

В диапазоне F2: F7 вычислить квадраты наблюдаемых частот по формуле: = D2: D7^2.

В диапазоне G2: G7 вычислить квадраты наблюдаемых частот по формуле: = F2: F7/ E2.

В ячейке G9 найти сумму по формуле =СУММ( G2: G7).

Наблюдаемое значение критерия вычислить в ячейке G10 по формуле: = G9-В13. Получим результат: 12,94.

Для расчёта критического значения критерия хи-квадрат воспользуемся функцией ХИ2ОБР(вероятность; степени_свободы). В качестве вероятности зададим уровень значимости 0,05, а число степеней свободы будет равно 4 (6-1-1).

В ячейку G11 ввести формулу:

 = ХИ2ОБР(0,05;4). Получим результат: 9,488.

Так как >  (12,94>9,488), то гипотезу о том, что число выбывших из строя станков имеет распределение Пуассона, следует отклонить.

 

Пример 2. Был измерен вес (в кг) у 55 обезьян-павианов. По выборке был построен интервальный статистический ряд. Проверить гипотезу о нормальном распределении генеральной совокупности, приняв уровень значимости α = 0,1.

Номер интервала, k Границы интервала Наблюдаемая частота, mi
1 10 - 12 2
2 12 - 14 4
3 14 - 16 8
4 16 - 18 12
5 18 - 20 16
6 20 - 22 10
7 22 - 24 3

 

 Последовательность выполнения

Ввести исходные данные в диапазон A2: C8. В диапазоне D2: D8 рассчитать середины интервалов по формуле =( B2+ C2)/2, которую затем протянуть до D8.

В ячейки E2: E8 ввести наблюдаемые частоты.  

В ячейку E9 ввести объём выборки n = 55.

В ячейке В10 рассчитать среднее выборки по формуле

=СУММПРОИЗВ(D2:D8;E2:E8)/$E$9.

В ячейке В11 рассчитать выборочную дисперсию по формуле:

=СУММПРОИЗВ(D2:D8;D2:D8;E2:E8)/$E$9-B10^2.

В ячейке В12 рассчитать выборочное стандартное отклонение: =КОРЕНЬ(В11).

Для расчёта теоретических частот в ячейку F2 формулу:

=(НОРМРАСП(C2;$B$10;$B$12;ИСТИНА)-НОРМРАСП(B2;$B$10;$B$12;ИСТИНА))*$E$9,

которую затем протянем до ячейки F8.

Так как для первого интервала левая граница принимается равной - ∞, то исправим формулу в ячейке F2:

=(НОРМРАСП(C2;$B$10;$B$12;ИСТИНА)-0)*$E$9.

Так как для последнего интервала правая граница принимается равной + ∞, то исправим формулу в ячейке F8:

=(1-НОРМРАСП(B8;$B$10;$B$12;ИСТИНА))*$E$9.

 

Объединим частоты для первого и второго интервалов, а также для шестого и седьмого интервалов.

В ячейке I11рассчитаем значение критерия хи-квадрат: 1,11.

Найдём критическое значение критерия для α = 0,1 и числа степеней свободы 5-2-1=2 с использованием функции:

= ХИ2ОБР(0,1;2). Получим результат: 4,61.

Так как <  (1,11<4,61), то гипотезу о том, что вес обезьян подчиняется нормальному закону, следует принять.

 

Ранговые критерии

Рангом наблюдения называют номер, который получит это наблюдение в упорядоченной совокупности всех данных после упорядочения их согласно определённому правилу (например, от меньшего значения к большему).

Ранжирование - процесс присвоения элементам выборки 

 

Сравнение двух независимых выборок

U - критерий Манна-Уитни

Критерий предназначен для проверки гипотезы о статистической однородности двух независимых выборок, т.е. для оценки различий между двумя выборками по уровню какого-либо признака, количественно измеренного. Он позволяет выявлять различия между малыми выборками, когда n1, n2³ 3 или n1 = 2, n2 ³ 5 (n1 и n2 – объёмы выборок). В каждой выборке должно быть не более 60 наблюдений: n1, n2 £ 60.

Критерий Манна-Уитни основан на попарном сравнении результатов из первой и второй выборок.

Проверяются следующие гипотезы:

H0: уровень признака в группе 2 не ниже уровня признака в группе 1.

H1: уровень признака в группе 2 ниже уровня признака в группе 1.

Схема применения критерия Манна-Уитни

1. Объединить вместе значения для обеих групп по степени нарастания признака.

2. Проранжировать значения, приписывая меньшему значению меньший ранг. Всего рангов (n1 + n2).

3. Подсчитать сумму рангов значений первой выборки и сумму рангов значений второй выборки. Определить большую из двух ранговых сумм.

4. Определить значение Uнабл. по формуле:

где: n1, n2 - объёмы выборок 1 и 2;  - большая из двух ранговых сумм; nx - объём выборки с большей суммой рангов.

5. Определить критические значения Uкр. для заданных n1, n2 и уровня значимости a по таблице. Если Uнабл.> Uкр., то H0  принимается. Если Uнабл.£ Uкр., то H0 отвергается. Чем меньше значения U, тем достоверность различий выше.

Пример 3. Две группы выпускников двух высших учебных заведений (1 и 2) (в первой группе 9 человек, во второй -10), получили оценки своих административных способностей в баллах.

1 вуз: 26; 23;       19; 21;        14; 18;        29; 17; 12.

2 вуз: 16; 10; 8; 3; 24; 20; 7; 15; 9; 22.

С помощью критерия Манна-Уитни при уровне значимости a £ 0,025 проверить нулевую гипотезу о том, группа выпускников первого вуза не превосходит группу выпускников второго вуза по уровню административных способностей.

Последовательность выполнения

Сформулируем гипотезы:

H0: Группа выпускников первого вуза не превосходит группу выпускников второго вуза по уровню административных способностей (т.е. различия незначимы).

H1: группа выпускников первого вуза превосходит группу выпускников второго вуза по уровню административных способностей. (В данном случае H1 является направленной).

Введём исходные данные в ячейки A2: A10 (показатели выпускников 1 вуза) и в ячейки B2: B11 (показатели выпускников 2 вуза).

В ячейках C2: C20 составим объединенную выборку и выпоним ранжирование. Для этого в ячейку D2 введём формулу =РАНГ( C2,$ C$2: $ C$20;1) и протянем её до ячейки D20.   

В ячейки F7 и F8 введём объемы выборок, а в ячейку F9 - объём объединённой выборки.   

В ячейках F10 и F11 рассчитаем суммы рангов элементов каждой из выборок по формулам:

=СУММ( D2: D10) и =СУММ( D11: D20).

Получим результаты: 112 и 78.                                                                                      

Выполним проверку правильности ранжирования, вычислив общую сумму рангов, и сравним её с суммой рангов, найденной по формуле:

.

В ячейку F13  введём формулу = F10+ F11. Получим результат: 190. В ячейку F14  введём формулу = F9*( F9+1)/2. Получим результат: 190. Следовательно, ранги приписаны правильно.

Находим большую из двух ранговых сумм  = 112 (соответствует первой выборке n1 = 9), т. е. nx = 9. Запишем эти значения в ячейки F15 и F16.

 

Находим наблюдаемое значение критерия. В ячейку F17 введём формулу =F7*F8+F15*(F15+1)/2-F16. Получим результат: 23.

Находим критическое значение критерия. По таблице определяем критическое значение в случае направленной альтернативы, причем меньшее n принимаем за n1 (n1 =9), а большее за n2 (n2 =10). =23 для a £ 0,025.

Вывод: так как  £ , то H0 отвергается и принимается гипотеза H1.

Сравнение двух зависимых выборок

Т-критерий Вилкоксона

Критерий применяется для сопоставления показателей, измеренных в двух разных условиях на одной и той же выборке. Он позволяет установить не только направленность изменений, но и их выраженность. Критерий применим в тех случаях, когда признаки измерены, по крайней мере, в порядковой шкале, и сдвиги между вторым и первым замерами тоже могут быть упорядочены. Минимальный объем выборки равен 5.

Схема применения Т-критерия Вилкоксона

1. Составить список пар в любом порядке.

2. Вычислить разность между индивидуальными значениями во втором и первом замерах (после и до). Определить, что будет считаться «типичным» сдвигом и сформулировать соответствующие гипотезы.

3. Перевести разности в абсолютные величины.

4. Проранжировать абсолютные величины разностей, начисляя меньшему значению меньший ранг.

5. Отметить ранги, соответствующие сдвигам в «нетипичном» направлении.

6. Подсчитать сумму этих рангов по формуле: ,

где  - ранговые значения сдвигов с более редким знаком. Это будет наблюдаемым значением критерия Tнабл..

7. Определить по таблице критические значения Tкр. для данного  объём выборки n и уровня значимости a. Если Tнабл. £ Tкр., нулевая гипотеза отвергается, сдвиг в «типичную» сторону по интенсивности достоверно преобладает.

Пример 4. В группе студентов был проведен тренинг по развитию творческого мышления. Перед тренингом и после него были проведены тесты (стимулирующее воздействие должно повышать творческий потенциал, т.е. увеличивать количество баллов). Получены следующие результаты в баллах:

До тренинга: 19; 20; 18; 15; 29; 21; 21; 18; 21; 23; 14;

После тренинга: 17; 26; 20; 18; 30; 25; 28; 19; 20; 27; 19;

Требуется проверить гипотезу о том что тренинг способствует развитию творческого мышления при уровне значимости a £ 0,05?

Последовательность выполнения

Введём исходные данные в ячейки A2: A13 (показатели до тренинга) и в ячейки B2: B13 (показатели после тренинга), как в предыдущем примере.

В диапазоне С2:С13 получим разность показателей до-после. Для этого в ячейку С2 введём формулу: = B2- A2  и размножим её до ячейки С13. Две из полученных разностей отрицательные, и 10 – положительные. Типичное направление – положительное.

Сформулируем гипотезы:

H0: интенсивность сдвигов в типичном направлении не превосходит интенсивности сдвигов в нетипичном направлении.

H1: интенсивность сдвигов в типичном направлении превышает интенсивность сдвигов в нетипичном направлении.

В диапазоне D2: D12 вычислим абсолютные значения полученных разностей и проранжируем их, используя функцию РАНГ.СР.  Результаты запишем в диапазон E2:Е12.

Отметим те сдвиги, которые являются нетипичными, в данном случае – отрицательными. Сумма рангов этих редких сдвигов и составляет наблюдаемое значение Т-критерия:

Tнабл. = 2 + 4,5 = 6,5.

По таблице для n = 12 и a £ 0,05 в случае односторонней альтернативы находим Tкр. = 17.

Вывод: так как Tкр.³ Tнабл., то нулевая гипотеза отвергается.

Задачи к работе № 4

Задача 1. Имеются данные о числе деталей, поступающих на конвейер в течение 600 двухминутных перерывов.

Число деталей 0 1 2 3 4 5 6
Число интервалов 400 167 29 3 0 0 1

Проверить гипотезу о том, что число деталей имеет распределение Пуассона. Принять α = 0,05.

Задача 2. Размер частицы никелевого катализатора замерен с точностью до 1 мкм. На выборке объёма n = 200 проверить, подчиняется ли распределение размеров частиц нормальному закону. В таблице приведены отклонения размеров частиц от номинального. Результаты сгруппированы в 10 интервалов длиной h = 5 мкм. Принять уровень значимости α = 0,05.

Номер интервала, k Границы интервала Наблюдаемая частота, mi
1 -20 ¸ -15 7
2 -15 ¸ -10 11
3 -10 ¸ -5 15
4 -5 ¸ 0 24
5 0 ¸ 5 49
6 5 ¸ 10 41
7 10 ¸ 15 26
8 15 ¸ 20 17
9 20 ¸ 25 7
10 25 ¸ 30 3

Задача 3. В исследовании, проведённом методом меченых атомов, по результатам изучения 8 препаратов контрольной серии получены следующие показания счётчика импульсов

Опыт 340 343 322 349 332 320 313 304
Контроль 318 321 318 301 312 - - -

Можно ли считать, что полученные значения опытной и контрольной серий различны? Принять a=0,1.

Задача 4. Сравнивалось действие двух экстрактов вируса табачной мозаики. Для этого каждая из двух половин листа натиралась соответствующим препаратом. Число поражённых мест

Экстракт А 20 39 43 13 28 26 17 49 36
Экстракт Б 31 22 45 6 21 13 17 46 31

Можно ли считать, что действие этих экстрактов различно? Принять a=0,1.


Дата добавления: 2019-02-22; просмотров: 431; Мы поможем в написании вашей работы!

Поделиться с друзьями:




Мы поможем в написании ваших работ!