Сравнение двух независимых выборок
Занятие № 4
ПРИМЕНЕНИЕ НЕПАРАМЕТРИЧЕСКИХ КРИТЕРИЕВ ДЛЯ АНАЛИЗА ДАННЫХ
Непараметрическими называются критерии, не включающие в формулу расчета параметры распределения, и не предполагающие знания функции распределения. Эти критерии оперируют частотами или рангами.
Проверка гипотез о законах распределения
Одной из задач математической статистики является нахождение закона распределения случайной величины по выборочным данным.
Критерием согласия называют критерий проверки гипотезы о предполагаемом законе распределения.
Критерий согласия хи-квадрат К.Пирсона для проверки гипотезы о виде закона распределения
Критерий хи-квадрат основан на сравнении наблюдаемых и теоретических (вычисленных в предположении известного закона распределения) частот.
Критерий предполагает, что результаты наблюдений сгруппированы в статистический ряд (дискретный или интервальный, содержащий k разрядов).
Схема проверки гипотезы
1. Выдвигается гипотеза H0 о законе распределения случайной величины Х с функцией распределения F(x) - модель закона распределения.
2. По результатам наблюдений находят оценки неизвестных параметров этой модели. Определяются наблюдаемые частоты (i=1,…,k) попадания элементов выборки в полученные интервалы.
3. Определяются теоретические (ожидаемые) частоты попадания выборочных значений в промежутки, для чего:
|
|
· используя теоретическую функцию распределения F(x), определяют вероятности того, что случайная величина Х примет значения xi;
· находят значения теоретических частот путём умножения полученных вероятностей на объём выборки n: .
4. Находится выборочное значение критерия согласия К.Пирсона по формуле:
,
где: (i=1,…,k) - наблюдаемые частоты; - теоретические частоты (найдены по модели); n - объём выборки.
5. Для выбранного уровня значимости a при числе степеней свободы , где r – число параметров теоретического распределения вероятностей, оцениваемых по данным выборки, находят критическое значение . Если экспериментальное значение больше критического, т.е. > , то гипотеза H0 отвергается; если < , гипотеза H0 не противоречит экспериментальным данным.
Ограничения критерия хи-квадрат К.Пирсона
1) Объём выборки должен быть достаточно большим: n ³ 30.
2) Теоретическая частота для каждой ячейки не должна быть меньше 5.
Пример 1. В цехе с 10 станками ежедневно регистрировалось число вышедших из строя станков. Всего было проведено 200 наблюдений, результаты приведены в таблице:
Число выбывших станков | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
Число случаев | 41 | 62 | 45 | 22 | 16 | 8 | 4 | 2 | 0 | 0 | 0 |
Проверить гипотезу о том, что число выбывших из строя станков имеет распределение Пуассона. Принять α = 0,05.
|
|
Последовательность выполнения
Закон распределения Пуассона имеет вид:
,
где: n - число испытаний; k - число появления события А в n испытаниях; l= np, p - вероятность появления события А в одном испытании.
Ввести в диапазон А2:А12 число станков, а в диапазон В2:В12 - число случаев.
В ячейке В13 рассчитать число случаев. Для этого в ячейку ввести формулу: =СУММ(В2:В12). Получим результат: 200.
В ячейке В14 рассчитать общее число отказов по формуле: =СУММПРОИЗВ(А2:А12; В2:В12). Получим результат: 360.
В ячейке В15 рассчитать значение параметра по формуле: = B14/ B13.
Для расчёта теоретических частот введём следующие формулы:
В ячейку С2: =ПУАССОН( A2;$ B$15;ИСТИНА)*$ B$13
В ячейку С3:
=(ПУАССОН( A3;$ B$15;ИСТИНА)-ПУАССОН( A2;$ B$15;ИСТИНА))*$ B$13
Протянуть формулу из ячейки С3 до ячейки С12. В диапазоне С2:С12 получим значения теоретических частот.
Так как частоты в ячейках C8: C12 меньше 5, то их следует объединить с ячейкой С7.
В диапазонах D2: D7 и E2: E7 получить окончательное распределение частот.
|
|
В диапазоне F2: F7 вычислить квадраты наблюдаемых частот по формуле: = D2: D7^2.
В диапазоне G2: G7 вычислить квадраты наблюдаемых частот по формуле: = F2: F7/ E2.
В ячейке G9 найти сумму по формуле =СУММ( G2: G7).
Наблюдаемое значение критерия вычислить в ячейке G10 по формуле: = G9-В13. Получим результат: 12,94.
Для расчёта критического значения критерия хи-квадрат воспользуемся функцией ХИ2ОБР(вероятность; степени_свободы). В качестве вероятности зададим уровень значимости 0,05, а число степеней свободы будет равно 4 (6-1-1).
В ячейку G11 ввести формулу:
= ХИ2ОБР(0,05;4). Получим результат: 9,488.
Так как > (12,94>9,488), то гипотезу о том, что число выбывших из строя станков имеет распределение Пуассона, следует отклонить.
Пример 2. Был измерен вес (в кг) у 55 обезьян-павианов. По выборке был построен интервальный статистический ряд. Проверить гипотезу о нормальном распределении генеральной совокупности, приняв уровень значимости α = 0,1.
Номер интервала, k | Границы интервала | Наблюдаемая частота, mi |
1 | 10 - 12 | 2 |
2 | 12 - 14 | 4 |
3 | 14 - 16 | 8 |
4 | 16 - 18 | 12 |
5 | 18 - 20 | 16 |
6 | 20 - 22 | 10 |
7 | 22 - 24 | 3 |
|
|
Последовательность выполнения
Ввести исходные данные в диапазон A2: C8. В диапазоне D2: D8 рассчитать середины интервалов по формуле =( B2+ C2)/2, которую затем протянуть до D8.
В ячейки E2: E8 ввести наблюдаемые частоты.
В ячейку E9 ввести объём выборки n = 55.
В ячейке В10 рассчитать среднее выборки по формуле
=СУММПРОИЗВ(D2:D8;E2:E8)/$E$9.
В ячейке В11 рассчитать выборочную дисперсию по формуле:
=СУММПРОИЗВ(D2:D8;D2:D8;E2:E8)/$E$9-B10^2.
В ячейке В12 рассчитать выборочное стандартное отклонение: =КОРЕНЬ(В11).
Для расчёта теоретических частот в ячейку F2 формулу:
=(НОРМРАСП(C2;$B$10;$B$12;ИСТИНА)-НОРМРАСП(B2;$B$10;$B$12;ИСТИНА))*$E$9,
которую затем протянем до ячейки F8.
Так как для первого интервала левая граница принимается равной - ∞, то исправим формулу в ячейке F2:
=(НОРМРАСП(C2;$B$10;$B$12;ИСТИНА)-0)*$E$9.
Так как для последнего интервала правая граница принимается равной + ∞, то исправим формулу в ячейке F8:
=(1-НОРМРАСП(B8;$B$10;$B$12;ИСТИНА))*$E$9.
Объединим частоты для первого и второго интервалов, а также для шестого и седьмого интервалов.
В ячейке I11рассчитаем значение критерия хи-квадрат: 1,11.
Найдём критическое значение критерия для α = 0,1 и числа степеней свободы 5-2-1=2 с использованием функции:
= ХИ2ОБР(0,1;2). Получим результат: 4,61.
Так как < (1,11<4,61), то гипотезу о том, что вес обезьян подчиняется нормальному закону, следует принять.
Ранговые критерии
Рангом наблюдения называют номер, который получит это наблюдение в упорядоченной совокупности всех данных после упорядочения их согласно определённому правилу (например, от меньшего значения к большему).
Ранжирование - процесс присвоения элементам выборки
Сравнение двух независимых выборок
U - критерий Манна-Уитни
Критерий предназначен для проверки гипотезы о статистической однородности двух независимых выборок, т.е. для оценки различий между двумя выборками по уровню какого-либо признака, количественно измеренного. Он позволяет выявлять различия между малыми выборками, когда n1, n2³ 3 или n1 = 2, n2 ³ 5 (n1 и n2 – объёмы выборок). В каждой выборке должно быть не более 60 наблюдений: n1, n2 £ 60.
Критерий Манна-Уитни основан на попарном сравнении результатов из первой и второй выборок.
Проверяются следующие гипотезы:
H0: уровень признака в группе 2 не ниже уровня признака в группе 1.
H1: уровень признака в группе 2 ниже уровня признака в группе 1.
Схема применения критерия Манна-Уитни
1. Объединить вместе значения для обеих групп по степени нарастания признака.
2. Проранжировать значения, приписывая меньшему значению меньший ранг. Всего рангов (n1 + n2).
3. Подсчитать сумму рангов значений первой выборки и сумму рангов значений второй выборки. Определить большую из двух ранговых сумм.
4. Определить значение Uнабл. по формуле:
где: n1, n2 - объёмы выборок 1 и 2; - большая из двух ранговых сумм; nx - объём выборки с большей суммой рангов.
5. Определить критические значения Uкр. для заданных n1, n2 и уровня значимости a по таблице. Если Uнабл.> Uкр., то H0 принимается. Если Uнабл.£ Uкр., то H0 отвергается. Чем меньше значения U, тем достоверность различий выше.
Пример 3. Две группы выпускников двух высших учебных заведений (1 и 2) (в первой группе 9 человек, во второй -10), получили оценки своих административных способностей в баллах.
1 вуз: 26; 23; 19; 21; 14; 18; 29; 17; 12.
2 вуз: 16; 10; 8; 3; 24; 20; 7; 15; 9; 22.
С помощью критерия Манна-Уитни при уровне значимости a £ 0,025 проверить нулевую гипотезу о том, группа выпускников первого вуза не превосходит группу выпускников второго вуза по уровню административных способностей.
Последовательность выполнения
Сформулируем гипотезы:
H0: Группа выпускников первого вуза не превосходит группу выпускников второго вуза по уровню административных способностей (т.е. различия незначимы).
H1: группа выпускников первого вуза превосходит группу выпускников второго вуза по уровню административных способностей. (В данном случае H1 является направленной).
Введём исходные данные в ячейки A2: A10 (показатели выпускников 1 вуза) и в ячейки B2: B11 (показатели выпускников 2 вуза).
В ячейках C2: C20 составим объединенную выборку и выпоним ранжирование. Для этого в ячейку D2 введём формулу =РАНГ( C2,$ C$2: $ C$20;1) и протянем её до ячейки D20.
В ячейки F7 и F8 введём объемы выборок, а в ячейку F9 - объём объединённой выборки.
В ячейках F10 и F11 рассчитаем суммы рангов элементов каждой из выборок по формулам:
=СУММ( D2: D10) и =СУММ( D11: D20).
Получим результаты: 112 и 78.
Выполним проверку правильности ранжирования, вычислив общую сумму рангов, и сравним её с суммой рангов, найденной по формуле:
.
В ячейку F13 введём формулу = F10+ F11. Получим результат: 190. В ячейку F14 введём формулу = F9*( F9+1)/2. Получим результат: 190. Следовательно, ранги приписаны правильно.
Находим большую из двух ранговых сумм = 112 (соответствует первой выборке n1 = 9), т. е. nx = 9. Запишем эти значения в ячейки F15 и F16.
Находим наблюдаемое значение критерия. В ячейку F17 введём формулу =F7*F8+F15*(F15+1)/2-F16. Получим результат: 23.
Находим критическое значение критерия. По таблице определяем критическое значение в случае направленной альтернативы, причем меньшее n принимаем за n1 (n1 =9), а большее за n2 (n2 =10). =23 для a £ 0,025.
Вывод: так как £ , то H0 отвергается и принимается гипотеза H1.
Сравнение двух зависимых выборок
Т-критерий Вилкоксона
Критерий применяется для сопоставления показателей, измеренных в двух разных условиях на одной и той же выборке. Он позволяет установить не только направленность изменений, но и их выраженность. Критерий применим в тех случаях, когда признаки измерены, по крайней мере, в порядковой шкале, и сдвиги между вторым и первым замерами тоже могут быть упорядочены. Минимальный объем выборки равен 5.
Схема применения Т-критерия Вилкоксона
1. Составить список пар в любом порядке.
2. Вычислить разность между индивидуальными значениями во втором и первом замерах (после и до). Определить, что будет считаться «типичным» сдвигом и сформулировать соответствующие гипотезы.
3. Перевести разности в абсолютные величины.
4. Проранжировать абсолютные величины разностей, начисляя меньшему значению меньший ранг.
5. Отметить ранги, соответствующие сдвигам в «нетипичном» направлении.
6. Подсчитать сумму этих рангов по формуле: ,
где - ранговые значения сдвигов с более редким знаком. Это будет наблюдаемым значением критерия Tнабл..
7. Определить по таблице критические значения Tкр. для данного объём выборки n и уровня значимости a. Если Tнабл. £ Tкр., нулевая гипотеза отвергается, сдвиг в «типичную» сторону по интенсивности достоверно преобладает.
Пример 4. В группе студентов был проведен тренинг по развитию творческого мышления. Перед тренингом и после него были проведены тесты (стимулирующее воздействие должно повышать творческий потенциал, т.е. увеличивать количество баллов). Получены следующие результаты в баллах:
До тренинга: 19; 20; 18; 15; 29; 21; 21; 18; 21; 23; 14;
После тренинга: 17; 26; 20; 18; 30; 25; 28; 19; 20; 27; 19;
Требуется проверить гипотезу о том что тренинг способствует развитию творческого мышления при уровне значимости a £ 0,05?
Последовательность выполнения
Введём исходные данные в ячейки A2: A13 (показатели до тренинга) и в ячейки B2: B13 (показатели после тренинга), как в предыдущем примере.
В диапазоне С2:С13 получим разность показателей до-после. Для этого в ячейку С2 введём формулу: = B2- A2 и размножим её до ячейки С13. Две из полученных разностей отрицательные, и 10 – положительные. Типичное направление – положительное.
Сформулируем гипотезы:
H0: интенсивность сдвигов в типичном направлении не превосходит интенсивности сдвигов в нетипичном направлении.
H1: интенсивность сдвигов в типичном направлении превышает интенсивность сдвигов в нетипичном направлении.
В диапазоне D2: D12 вычислим абсолютные значения полученных разностей и проранжируем их, используя функцию РАНГ.СР. Результаты запишем в диапазон E2:Е12.
Отметим те сдвиги, которые являются нетипичными, в данном случае – отрицательными. Сумма рангов этих редких сдвигов и составляет наблюдаемое значение Т-критерия:
Tнабл. = 2 + 4,5 = 6,5.
По таблице для n = 12 и a £ 0,05 в случае односторонней альтернативы находим Tкр. = 17.
Вывод: так как Tкр.³ Tнабл., то нулевая гипотеза отвергается.
Задачи к работе № 4
Задача 1. Имеются данные о числе деталей, поступающих на конвейер в течение 600 двухминутных перерывов.
Число деталей | 0 | 1 | 2 | 3 | 4 | 5 | 6 |
Число интервалов | 400 | 167 | 29 | 3 | 0 | 0 | 1 |
Проверить гипотезу о том, что число деталей имеет распределение Пуассона. Принять α = 0,05.
Задача 2. Размер частицы никелевого катализатора замерен с точностью до 1 мкм. На выборке объёма n = 200 проверить, подчиняется ли распределение размеров частиц нормальному закону. В таблице приведены отклонения размеров частиц от номинального. Результаты сгруппированы в 10 интервалов длиной h = 5 мкм. Принять уровень значимости α = 0,05.
Номер интервала, k | Границы интервала | Наблюдаемая частота, mi |
1 | -20 ¸ -15 | 7 |
2 | -15 ¸ -10 | 11 |
3 | -10 ¸ -5 | 15 |
4 | -5 ¸ 0 | 24 |
5 | 0 ¸ 5 | 49 |
6 | 5 ¸ 10 | 41 |
7 | 10 ¸ 15 | 26 |
8 | 15 ¸ 20 | 17 |
9 | 20 ¸ 25 | 7 |
10 | 25 ¸ 30 | 3 |
Задача 3. В исследовании, проведённом методом меченых атомов, по результатам изучения 8 препаратов контрольной серии получены следующие показания счётчика импульсов
Опыт | 340 | 343 | 322 | 349 | 332 | 320 | 313 | 304 |
Контроль | 318 | 321 | 318 | 301 | 312 | - | - | - |
Можно ли считать, что полученные значения опытной и контрольной серий различны? Принять a=0,1.
Задача 4. Сравнивалось действие двух экстрактов вируса табачной мозаики. Для этого каждая из двух половин листа натиралась соответствующим препаратом. Число поражённых мест
Экстракт А | 20 | 39 | 43 | 13 | 28 | 26 | 17 | 49 | 36 |
Экстракт Б | 31 | 22 | 45 | 6 | 21 | 13 | 17 | 46 | 31 |
Можно ли считать, что действие этих экстрактов различно? Принять a=0,1.
Дата добавления: 2019-02-22; просмотров: 431; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!