Оценка значимости уравнения регрессии



 

Доверительный интервал для параметра . Можно показать, что при выполнении предпосылки (5) регрессионного анализа статистика  имеет стандартный нормальный закон распределения. Согласно предпосылки (5) регрессионного анализа, случайная величина  имеет нормальный закон распределения. Учитывая предпосылки (2) и (3), случайная величина  имеет стандартный нормальный закон распределения. Тогда случайная величина  имеет распределение  с  степенями свободы. Тогда случайная величина

 

имеет распределение Стьюдента с  степенями свободы. Очевидно

 

.

Для нахождения дисперсии  представим коэффициент  в виде

,

подставив правые части равенств (К10) и (К11) в первое равенство (К9). Поскольку  не случайная величина, а  – случайная величина, то

 

 

,

то есть

и .                                 (К19)

В таком случае, получаем случайную величину

 

имеющую распределение Стьюдента с  степенями свободы.

Для уровня значимости  по таблице критических точек распределения Стьюдента находим критическое значение . Доверительный интервал определяем из неравенства . Получаем

,

умножаем на ; получим

,

прибавляя , приходим к искомому доверительному интервалу

.                       (К20)

 

Доверительный интервал для параметра . Подобным образом показываем, что статистика  имеет стандартный нормальный закон распределения, а случайная величина  имеет распределение Стьюдента с  степенями свободы.

Для нахождения дисперсии  воспользуемся выражением для  из второго равенства (К9). Будем иметь

.              (К21)

Поскольку , то по свойству дисперсии

.      (К22)

Подставляя правые части равенств (К19) и (К22) в равенство (К21), получим

.    (К23)

Поскольку

 

 

.

Учитывая последнее в равенстве (К23), находим

и .            (К24)

Значит, случайная величина

.

имеет распределение Стьюдента с  степенями свободы.

Для уровня значимости  по таблице критических точек распределения Стьюдента находим критическое значение . Доверительный интервал определяем из неравенства . Получаем

,

умножаем на ; получим

;

прибавляя , приходим к искомому доверительному интервалу

.               (К25)

 

Доверительный интервал для условного математического ожидания . Построим доверительный интервал для функции регрессии, то есть для условного математического ожидания , который с заданной надежностью (доверительной вероятностью)  накрывает неизвестное значение . Случайная величина  имеет стандартный нормальный закон распределения, а случайная величина  имеет распределение Стьюдента с  степенями свободы.

Для нахождения дисперсии  получим выражением для . Для этого правую часть второго равенства (К9) подставим в равенство (К4). Обнаруживаем

.

Теперь, применяя свойства дисперсии, учитывая при этом, что  не случайная величина, а  – случайная величина, находим

.

Подставляя сюда правые части равенств (К19) и (К22), будем иметь

,

то есть

и .           (К26)

Таким образом, случайная величина

имеет распределение Стьюдента с  степенями свободы.

Для уровня значимости  по таблице критических точек распределения Стьюдента находим критическое значение . Доверительный интервал определяем из неравенства . Получаем

,

умножаем на ; получим

;

прибавляя , приходим к искомому доверительному интервалу

. (К27)

 

Доверительный интервал для индивидуальных значений зависимой переменной. Построенная доверительная область для  определяет местоположение модельной линии регрессии (то есть условного математического ожидания), но не отдельных возможных значений зависимой переменной, которые отклоняются от средней.

Случайная величина  имеет стандартный нормальный закон распределения, а случайная величина  имеет распределение Стьюдента с  степенями свободы.

Для нахождения дисперсии  воспользуемся выражением . Имеем, учитывая равенство (К26) и предпосылку (3) регрессионного анализа

 

,

то есть

и .

Таким образом, случайная величина

 

имеет распределение Стьюдента с  степенями свободы.

Для уровня значимости  по таблице критических точек распределения Стьюдента находим критическое значение . Доверительный интервал определяем из неравенства . Получаем

,

умножаем на ; получим

прибавляя , приходим к искомому доверительному интервалу

. (К28)

 

Доверительный интервал для дисперсии  ошибок. Статистика  имеет  распределение с  степенями свободы. Доверительный интервал  выбирается таким образом, чтобы

.

Однако в таблице критических точек распределения  приведены лишь правые границы

, где .

Левую границу будем искать как правую из условия

,

то есть . Отсюда уже находим

 

,

то есть

.

Тогда

, , .

Умножим на  последнее неравенство. Получим

.                                    (К29)

 

 

7. Оценка адекватности уравнения регрессии (Коэффициент детерминации)

 

Согласно основной идее дисперсионного анализа, общая сумма квадратов отклонений зависимой переменной от средней имеет вид

 

,

где

 – сумма квадратов, обусловленная регрессией, то есть, факторная сумма квадратов отклонений групповых средних от общей средней;

 – остаточная сумма квадратов, характеризующая влияние неучтенных факторов, то есть, остаточная сумма квадратов отклонений наблюдаемых значений группы от своей групповой средней.

Кроме того, понятно, что сумма

 

 

,

ибо

 

и

,

где

.

Таким образом, имеем

.                                        (К30)

Несмещенные оценки факторной дисперсии

                                             (К31)

и остаточной дисперсии

,                                                    (К32)

где  – число оцениваемых параметров уравнения регрессии;  – число наблюдений.

Однофакторный дисперсионный анализ используется для проверки гипотезы о равенстве групповых средних. Гипотеза о равенстве групповых средних

 

равносильна гипотезе о равенстве факторной и остаточной дисперсий

.

Равенство групповых средних , где  и , влечет

, , , .

Поскольку , то , то есть линейная связь отсутствует. Таким образом, гипотеза о наличии линейной связи равносильно гипотезе о не равенстве групповых средних, которая в свою очередь эквивалентна гипотезе о не равенстве факторной и остаточной дисперсий. Для проверки последней применим критерий Фишера – Снедекора. Случайная величина  имеет распределение Фишера – Снедекора. По таблице критических точек распределения Фишера – Снедекора, определяем критическое значение . Гипотезу о не равенстве факторной и остаточной дисперсий принимаем, если

.                                                 (К33)

Таким образом, неравенство (К33) является критерием соответствием математической модели, выражающей зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.

 

Одной из наиболее эффективных оценок адекватности регрессионной модели, мерой качества уравнения регрессии, (или, как говорят, мерой качества подгонки регрессионной модели к наблюденным значениям ), характеристикой прогностической силы анализируемой регрессионной модели является коэффициент детерминации, определяемый по формуле

.                                          (К34)

Величина  показывает, какая часть (доля) вариации зависимой переменной обусловлена вариацией объясняющей переменной.

 

Так как , то .

 

Чем ближе  к единице, тем лучше регрессия аппроксимирует эмпирические данные, тем теснее наблюдения примыкают к линейной регрессии.

Если , то эмпирические точки  лежат на линии регрессии и между переменными  и  существует линейная функциональная зависимость.

Если , то вариация зависимой переменной полностью обусловлена воздействием неучтенных в модели переменных, и линия регрессии параллельна оси абсцисс.

 

Тогда наблюдаемое значение -статистики

 

,

таким образом,

.                                          (К35)

 

В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату коэффициента корреляции, то есть

,

ибо учитывая равенства (К10) и (К13), получим

 

.

 

Нелинейные модели регрессии

 

До сих пор мы рассматривали линейные регрессионные модели, в которых переменные имели первую степень (модели, линейные по переменным), а параметры выступали в виде коэффициентов при этих переменных (модели, линейные по параметрам). Однако соотношение между социально-экономическими явлениями и процессами далеко не всегда можно выразить линейными функциями, так при этом могут возникнуть неоправданно большие ошибки.

Так, например, не линейными оказываются производственные функции (зависимости между объемом произведенной продукции и основными факторами производства – трудом, капиталом и т. п.), функции спроса (зависимости между спросом на товары или услуги и их ценами или доходом) и другие.

Для оценки параметров нелинейных моделей используют два подхода.

Первый подход основан на линеаризации модели и заключается в том, что с помощью подходящих преобразований исходных переменных исследуемую зависимость представляют в виде линейного соотношения между преобразованными переменными.

Второй подход обычно применяется в случае, когда подобрать соответствующее линеаризующее преобразование не удается. В этом случае применяются методы нелинейной оптимизации на основе исходных переменных.

Для линеаризации модели в рамках первого подхода могут использоваться как модели, не линейные по переменным, так и не линейные по параметрам.

Если модель нелинейная по переменным, то введением новых переменных ее можно свести к линейной модели, для оценки параметров которой использовать обычный метод наименьших квадратов.

Например, для оценки параметров регрессионной модели

,

введением новых переменных

, ,  и ,

приведем данную регрессионную модель к линейной модели

,

параметры которой совпадают с параметрами исходной модели.

Обратим внимание на недостаток такой замены переменных, связанный с тем, что вектор оценок  получается не из условия минимизации суммы квадратов отклонений для исходных переменных, а из условия минимизации суммы квадратов отклонений для преобразованных переменных, что не одно и то же. В связи с этим необходимо некоторое уточнение полученных оценок.

Более сложной проблемой является нелинейность модели по параметрам, так как непосредственное применение метода наименьших квадратов для их оценивания невозможно. К числу таких моделей относят, например, мультипликативную (степенную) модель

,                                    (НЛР_1)

экспоненциальную модель

,                                           (НЛР_2)

а так же другие модели.

В ряде случаев, путем подходящих преобразований эти модели удается привести к линейной форме. Логарифмированием, модели (НЛР_1) и (НЛР_2) приводятся к линейным. Именно,

. (НЛР_3)

К модели (НЛР_3) уже можно применять обычные методы исследования линейной регрессии. Однако следует подчеркнуть, что критерии значимости и интервальные оценки параметров, применяемые для нормальной линейной регрессии, требуют, чтобы нормальный закон распределения в моделях (НЛР_1) и (НЛР_2) имел логарифм вектора возмущений , то есть , а вовсе не . Другими словами, вектор возмущений  должен иметь логарифмически нормальное распределение.

Попутно отметим, что к модели

,                                (НЛР_4)

рассматриваемой в качестве альтернативной по отношению к модели (НЛР_1), изложенные выше методы исследования линейной регрессии уже непригодны, так как модель (НЛР_4) нельзя привести к линейному виду. В этом случае используют специальные (итеративные) процедуры оценивания параметров.

 

Для наиболее часто встречающихся зависимостей парной регрессионной модели, эмпирическую формулу можно выбирать с помощью таблицы 4.1.

Для проверки пригодности выбранной эмпирической формулы, используя исходные данные, находят  и  по формулам, приведенным в таблице 4.1. Если  находится среди исходных данных , , то в качестве  возьмем . Если  не находится среди исходных данных , , то найдем такой индекс , что  и определим  с помощью линейной интерполяции

.                            (НЛР_5)

Далее среди величин  находим самую маленькую. Ей соответствует выбираемая эмпирическая формула.

Таблица 4.1.

Номер формулы Вид эмпирической формулы
1      
2      
3    
4      
5      
6      
7      

 

Пример. Имеются данные о цене на нефть и соответствующим индексом нефтяных компаний

Цена на нефть, X Индекс нефтяных компаний, Y

0,07

29,033

0,14

15,074

0,21

10,028

0,28

8,780

0,35

10,316

0,42

6,544

0,49

4,984

0,56

7,085

0,63

8,046

0,7

4,152

0,77

5,982

0,84

4,190

0,91

4,689

0,98

4,061

1,05

3,482

Определить вид эмпирической формулы и построить соответствующую нелинейную модель.

Решение. Определяем вид эмпирической формулы. Для этого строим таблицу 4.2.

Таким образом, эмпирическая формула регрессии

.

Таблица 4.2.

номер формулы

 

 

 

 

 

1

0,560

16,257

8

7,085

9,172

2

0,271

10,054

3

8,939

1,116

3

0,560

10,054

8

7,085

2,969

4

0,131

16,257

1

16,819

0,561

5

0,560

6,218

8

7,085

0,867

6

0,131

6,218

1

16,819

10,601

7

0,271

16,257

3

8,939

7,319

Введением переменной  приводим нелинейную модель к линейной

.

Находим параметры данной линейной модели. Для этого строим таблицу 4.3.

Таблица 4.3.

 

 

 

 

 

 

 

1

0,07

29,033

14,28571

204,0816

414,756

28,647

2

0,14

15,074

7,142857

51,02041

107,6706

15,667

3

0,21

10,028

4,761905

22,67574

47,75467

11,340

4

0,28

8,780

3,571429

12,7551

31,35695

9,177

5

0,35

10,316

2,857143

8,163265

29,47307

7,879

6

0,42

6,544

2,380952

5,668934

15,5816

7,014

7

0,49

4,984

2,040816

4,164931

10,17057

6,396

8

0,56

7,085

1,785714

3,188776

12,65196

5,932

9

0,63

8,046

1,587302

2,519526

12,77135

5,571

10

0,7

4,152

1,428571

2,040816

5,931865

5,283

11

0,77

5,982

1,298701

1,686625

7,768647

5,047

12

0,84

4,190

1,190476

1,417234

4,987778

4,850

13

0,91

4,689

1,098901

1,207584

5,152706

4,684

14

0,98

4,061

1,020408

1,041233

4,143729

4,541

15

1,05

3,482

0,952381

0,907029

3,31617

4,418

 

8,4

126,445

47,40327

322,5388

713,4876

126,445

среднее

0,56

8,430

3,160218

21,50259

47,56584

8,430

Определяем

,

.

Тогда

,

.

Получаем регрессионную модель

 

 


 

 

Раздел 2.


Дата добавления: 2018-08-06; просмотров: 443; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!