Лабораторная работа № 4. Парная линейная регрессия

⇐ ПредыдущаяСтр 11 из 25Следующая ⇒

Цель работы. Освоение построения по выборочным данным модели парной линейной регрессии, оценки точности и надежности параметров и всей модели, построения прогнозов значений зависимой переменной в MSExcel 2010. Интерпретация модели.

Краткие сведения. Модель парной линейной регрессии описывает зависимость условного среднего зависимой случайной величины в виде линейной функции значений объясняющей переменной (фактора) : . Наблюдаемые в выборке значения зависимой переменной описываются в виде суммы детерминированной и случайной составляющих:

. (4.1)

Случайная величина , называемая ошибкой регрессии, отражает влияние пропущенных объясняющих переменных, неправильной структуры и функциональной спецификации модели, агрегирования переменных, ошибки измерений.

Основные предпосылки парной линейной регрессии.

1. Связь значений зависимой величины от значений фактора задается соотношением (4) (эта зависимость называется спецификацией модели).

2. – детерминированные величины, линейно не связанные между собой, т.е. векторы и (1, 1, …, 1) не коллинеарные.

3. Ошибки регрессии – случайные величины с для всех .

4. Ошибки регрессии и (или переменные и ) не коррелированы в разных наблюдениях, т.е. .

5. Ошибки регрессии распределены по нормальному закону с нулевой средней и дисперсией , т.е. , соответственно .

Модель парной линейной регрессии содержит три неизвестных параметра: коэффициенты и уравнения регрессии и дисперсию ошибок регрессии . Оценки коэффициентов и находятся из условия минимизации по и суммы квадратов

отклонений наблюдаемых значений от вычисленных по уравнению регрессии . Эти оценки называются оценками метода наименьших квадратов и определяются соотношениями

, ,

где – выборочная ковариация величин и , – выборочная дисперсия , и – выборочные среднеквадратические отклонения величин X и Y, и – выборочные средние и .

Согласно теоремы Гаусса-Маркова, при выполнении предпосылок 1–4, эти оценки обладают наименьшей дисперсией в классе всех линейных несмещенных оценок.

Величины называются остатками регрессии.

Несмещенной оценкой дисперсии ошибок регрессии является величина

Оценки дисперсий оценок и определяются как

, .

Стандартные отклонения коэффициентов уравнения регрессии определяются соотношениями и .

Интервальные оценки параметров уравнения регрессии надежности :

(4.2)

где заданный уровень значимости, – квантиль уровня распределения Стьюдента ( -распределения) с числом степеней свободы , и –квантили соответственно уровней и распределения с числом степеней свободы .

Оцененное уравнение регрессии на имеет вид . Статистическая значимость параметров уравнения регрессии (их значимое отличие от нуля) определяется путем проверки принадлежности нулевых значений доверительным интервалам. Если доверительный интервал надежности содержит ноль, то нулевая гипотеза о равенстве параметра нулю принимается с уровнем значимости . Проверка значимого отличия от нуля параметров и уравнения регрессии осуществляетсятакжепутем проверки нулевых гипотез и против альтернативных гипотез и . Для проверки этих гипотез используются - статистики и , распределенные по закону Стьюдента с степенями свободы. Если вычисленные значения статистик или превышают по модулю критическое значение , то нулевая гипотеза отвергается и принимается альтернативная гипотеза (параметр значимо отличается от нуля). Если вычисленное значения - статистики по модулю меньше критического значения , то нулевая гипотеза принимается (параметр незначимо отличается от нуля) при заданном уровне .Критическое значение определяется как квантиль уровня распределения Стьюдента с числом степеней свободы .Принятие нулевой гипотезы говорит об отсутствии значимой линейной корреляционной зависимости величин Y и X.

Верификация и оценка качества модели. Верификация модели парной линейной регрессии означает проверку соответствия модели эмпирическим данным и заключается в установлении значимости уравнения регрессии, т.е. в значимости влияния фактора на условную среднюю зависимой величины . Проверка значимости уравнения регрессии заключается в проверке нулевой гипотезы , об отсутствии влияния фактора на зависимую величину , против альтернативной гипотезы , о значимом влиянии фактора на . Значимость уравнения регрессии может быть проверена двумя равноценными способами: с использованием дисперсионного анализа; с использование теории корреляции.

Дисперсионный анализ в линейной регрессии основывается на том, что общая сумма квадратов отклонений от их общего среднего , , разлагается на сумму квадратов отклонений, объясняемых регрессией, , и остаточную сумму квадратов отклонений . При справедливости нулевой гипотезы средние квадраты и являются независимыми несмещенными оценками одной и той же генеральной дисперсии зависимой переменной и их различие незначимо. Проверка нулевой гипотезы , при уровне значимости , сводится к проверке существенности различия несмещенных выборочных оценок и дисперсии с помощью F-критерия , который имеет F-распределение Фишера-Снедекора с и степенями свободы, где число коэффициентов в уравнении регрессии, а n объем выборки. Гипотеза об отсутствии влияния фактора на исследуемый признак принимается, если вычисленное значение статистики меньше критического . Если , то гипотеза отвергается и принимается гипотеза , т.е. фактор оказывает влияние на исследуемый признак . – квантиль уровня -распределения Фишера-Снедекора с и степенями свободы.

Использование элементов теории корреляции при проверке значимости уравнения регрессии основано на соотношении и заключается в проверке значимого отличия от нуля коэффициента корреляции , следовательно, и значимости коэффициента регрессии . Проверка нулевой гипотезы , т.е. предположения об отсутствии линейной корреляционной зависимости между величинами Y и X, производится с помощью статистики , которая при справедливости нулевой гипотезы имеет распределение Стьюдента (t-распределение) с числом степеней свободы . Гипотеза отвергается при уровне значимости (т.е. оцененное уравнение линейной регрессии значимо), если вычисленное по выборке объема значениеt-статистики удовлетворяет неравенству

, (4.3)

где – квантиль уровня распределения Стьюдента с числом степеней свободы . Если нулевая гипотеза принимается, то оцененное уравнение линейной регрессии незначимо – зависимая величина Y и фактор не связаны линейной корреляционной зависимостью.

Для парной линейной регрессии оба способа проверки значимости уравнения регрессии равнозначны, а F-критерий и t-критерий связаны равенством .

Мерой качества уравнения регрессии и характеристикой прогностической силы регрессионной модели является коэффициент детерминации

который показывает, какая доля вариации зависимой переменной объясняется вариацией фактора. . Значимое отличие от нуля коэффициента детерминации устанавливается также с помощью приведенного выше F-критерия. F-критерий и коэффициент детерминации связаны равенством .Для парной линейной регрессии коэффициент детерминации .

Качество подгонки построенной линейной регрессии к выборочным данным характеризуется средней ошибкой аппроксимации

Прогнозирование по уравнению регрессии. Точечный прогноз среднего зависимой величины для заданного значения вычисляется по уравнению регрессии и является наилучшей несмещенной линейной оценкой теоретического условного среднего . Доверительный интервал надежности прогноза условного среднего для заданного значения задается неравенством

(4.4)

Здесь – квантиль уровня распределения Стьюдента с числом степеней свободы , – оценка дисперсии прогноза условного среднего величины Y, – выборочная дисперсия независимой переменной X. Графики нижней и верхней границ доверительного интервала называются доверительными кривыми надежности . Уравнение линейной регрессии может быть записано в виде . Отсюда следует, что линия регрессии проходит через точку и при доверительные кривые наиболее близко подходят к линии регрессии.

Дата добавления: 2018-04-15; просмотров: 701; Мы поможем в написании вашей работы!

Поделиться с друзьями:

⇐ Предыдущая 6 7 8 9 101112 13 14 15 Следующая ⇒

Мы поможем в написании ваших работ!