Проверка статистических гипотез
Под статической гипотезой понимают всякое предположение о генеральной совокупности, проверяемое по выборке. Статические гипотезы классифицируют на гипотезы о законах распределения и гипотезы о параметрах распределения. Так, например, гипотеза о том, что производительность труда рабочих, выполняющих одинаковую работу в одинаковых организационно-технических условиях , имеет нормальный закон распределения, является гипотезой о законе распределения. Гипотеза о том, что средние размеры деталей, производимых на однотипных , параллельно работающих станках, не различаются между собой, является гипотезой о параметрах распределения.
Одну и гипотез выделяют в качестве основной и обозначают Н0. Вместе с основной всегда рассматривается альтернативная ( конкурирующая) гипотеза, которая обозначается Н1. Выбор альтернативной гипотезы определяется конкретной формулировкой задачи. На основе статических данных очень трудно, а иногда и невозможно сделать безошибочные выводы. Ошибки при проверке гипотез бывают 2-х родов (видов) :
- ошибка 1-го рода состоит в том, что отклоняется гипотеза Н0 в то время как она верна;
- ошибка 2-го рода состоит в том, что отклоняется альтернативная гипотеза в то время как она верна;
При проверке статических гипотез на основе статистических данных важно найти такой способ, чтобы вероятность ошибок была минимальна. Правило, по которому принимается решение принять или отклонить гипотезу Н0 , называется критерием К. Проверка статических гипотез основывается на принципе, в соответствии с которым маловероятное событие считается невозможным, а событие, имеющее большую вероятность – достоверным. Этот принцип реализуется следующим образом: фиксируется некоторая вероятность a с наиболее распространенным уровнем значимости 0,05; 0,01; 0,25; 0,001, затем подбирается некоторая статистика z, которая формально отражает смысл гипотезы и распределение которой известно. Пусть V – множество значений статистики z. Все множество значений статистики z можно разбить на два подмножества, таких, что:
|
|
- проверяемая гипотеза должна быть отвергнута, если значение z попадает в одно из подмножеств, которое называется критической областью V . При условии истинности гипотезы Н0 вероятность попадания статистики в V равна a, т.е. .
- проверяемая гипотеза Н0 должна быть принята, если значение z попадает в подмножество V \ V .Это подмножество называется областью допустимых значений.
Обозначим выборочное значение статистики z , вычисленное по выборке наблюдений. Критерий формулируется следующим образом : отклонить гипотезу Н0 , если ;принять гипотезу Н0 , если . Критерий, основанный на использовании заранее заданного уровня значимости, называют критерием значимости. Уровень значимости a определяет «размер» критической области V .
|
|
Основные задачи при проверке статистических гипотез сводятся к отысканию критической области и области допустимых значений с некоторой заданной вероятностью.
Положение критической области Vk на множестве значений статистики zв зависит от альтернативной гипотезы Н1.
Пусть f(z/ Н0) плотность распределения статистики z критерия при условии, что верна гипотеза Н0. Проверяется гипотеза , альтернативная
. Положение критической области показано на Рис. 7.
|
Граница критической области - квантиль распределения статистики f(z/ Н0).
Теперь пусть альтернативная . Расположение критической области в этом случае показано на Рис. 8. В рассмотренных случаях критерий называется односторонним. При альтернативной критическая область показана на Рис.9. Критерий в этом случае называется двусторонним. -
квантили распределения статистики f(z/ Н0).
Рис. 8.
|
|
Рис. 9.
Таким образом, проверка статистической гипотезы при помощи критерия значимости может быть разбита на следующие этапы:
1) сформулировать проверяемую Н0 и альтернативную Н1 гипотезы;
2) выбрать уровень значимости ;
3) выбрать статистику z критерия для проверки гипотезы Н0;
4) определить выборочное распределение статистики z при условии, что верна гипотеза Н0;
5) в зависимости от формулировки альтернативной гипотезы определить критическую область V одним из неравенств или совокупностью неравенств ;
6) получить выборку наблюдений и вычислить статистики критерия;
7) принять статистическое решение:
если , то отклонить гипотезу Н0 как не согласующуюся с результатами наблюдений;
если , то принять гипотезу Н0 , т.е. считать, что гипотеза Н0 не противоречит результатам наблюдений.
Замечание. Обычно на этапах 4) – 7) используют статистику , квантили которой табулированы , т.е. имеются таблицы квантилей.
Рассмотрим несколько примеров.
Пусть наблюдаются случайные величины, каждая из которых подчиняется нормальному распределению
Пусть имеется две независимые выборки объемами n и n :
|
|
и
Проверим гипотезу, заключающуюся в том , что математические ожидания обеих случайных величин одинаковы в предположении, что -неизвестны и равны.
Итак,
Альтернативной может быть одна из гипотез:
Рассмотрим статистику
, (18)
где -оценки математического ожидания, вычисленные по формуле (8),
- оценки дисперсии, вычисленные по формуле (10). Эта статистика имеет распределение Стьюдента с степенями свободы.
Зададим уровень значимости и по выборочным данным вычислим значение статистику по формуле (17). Определим область принятия гипотезы Н0:
при альтернативной ;
при альтернативной ;
при альтернативной . По свойству квантилей распределения Стьюдента , тогда неравенство примет вид
, т. е.
Пример 4.
При измерении производительности двух агрегатов получены следующие результаты (в кг. вещества за час работы):
Таблица 4
Агрегат А (x ) | 14,1 10,1 14,7 13,7 14,0 |
Агрегат В (y ) | 14,0 14,5 13,7 12,7 14,1 |
Можно ли считать что производительность обоих агрегатов одинакова в предположении, что обе выборки получены из нормальных совокупностей с одинаковой дисперсией?
В данном случае . Сформулируем основную и альтернативную гипотезы, исходя из условия задачи:
Вычислим необходимые величины по формулам:
, , , .
Вспомогательные расчеты представим в таблице (5) .
Таблица 5
x | |||||||
14,1 | 0,78 | 0,61 | 14,0 | 0,2 | 0,04 | ||
10,1 | -3,22 | 10,37 | 14,5 | 0,7 | 0,49 | ||
14,7 | 1,38 | 1,90 | 13,7 | -0,1 | 0,01 | ||
13,7 | 0,38 | 0,14 | 12,7 | -1,1 | 1,21 | ||
14,0 | 0,68 | 0,46 | 14,1 | 0,3 | 0,09 | ||
| - | 13,48 | 69,0 | - | 1,84 |
Подставляя найденные значения в формулу (18), получим
Зададим и по таблице квантилей распределения Стьюдента находим:
,
0,55< 1,94
Отсюда следует, что гипотеза принимается, т.е. средняя производительность обоих агрегатов одинакова.
Проверим гипотезу, заключающуюся в том , что дисперсии обеих случайных величин одинаковы в предположении, что -неизвестны.
, альтернативной может быть одна из гипотез:
Рассмотрим статистику
z = (19)
- точечные оценки , полученные по формуле (10).
Заметим, что всегда можно так ввести обозначения, что окажется , таким образом , z должно быть не меньше единицы. Статистика (19) имеет распределение Фишера с степенями свободы. Зададим уровень значимости и по выборочным данным вычислим значение статистику по формуле (18). Определим область принятия гипотезы Н0:
при альтернативной ;
при альтернативной ;
при альтернативной . По свойству квантилей распределения Фишера , тогда неравенство примет вид , что эквивалентно неравенству .
Гипотеза о равенстве дисперсий обычно применяется тогда, когда нужно сравнить точность или риски.
Пример 5. Биржевой маклер исследует две инвестиции – А и В от имени клиента. Инвестиция А предполагается на срок 10 лет со ожидаемой средней ежегодной прибылью 17,8% и среднеквадратическим отклонением 3,21%. Инвестиция В рассчитана на срок 8 лет также с ожидаемой прибылью 17,8% и среднеквадратическим отклонением 7,14%. Можно ли считать, что риск инвестиции В больше, чем инвестиции А? Предполагается, что распределение ежегодных прибылей на инвестиции подчиняется нормальному распределению.
Дисперсия ежегодных прибылей может быть использована для определения риска. Поэтому задача сводится к проверке гипотезы о равенстве дисперсий при альтернативной , т.е.
Вычислим оценки дисперсий по формуле (10)
Примем уровень значимости = 0,05.
Выборочная статистика z = . По таблице Приложения 5 найдем квантиль распределения Фишера
= = 3,29
5,09= z > =3,29.
Статистика z попадает в критическую область, следовательно, гипотеза Н0 отклоняется, т.е. есть основания считать, что риск инвестиции В больше, чем риск инвестиции А.
Лекция 18.
Дата добавления: 2018-09-23; просмотров: 470; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!