Лабораторная работа № 4. Парная линейная регрессия
Цель работы. Освоение построения по выборочным данным модели парной линейной регрессии, оценки точности и надежности параметров и всей модели, построения прогнозов значений зависимой переменной в MSExcel 2010. Интерпретация модели.
Краткие сведения. Модель парной линейной регрессии описывает зависимость условного среднего зависимой случайной величины в виде линейной функции значений объясняющей переменной (фактора) : . Наблюдаемые в выборке значения зависимой переменной описываются в виде суммы детерминированной и случайной составляющих:
. (4.1)
Случайная величина , называемая ошибкой регрессии, отражает влияние пропущенных объясняющих переменных, неправильной структуры и функциональной спецификации модели, агрегирования переменных, ошибки измерений.
Основные предпосылки парной линейной регрессии.
1. Связь значений зависимой величины от значений фактора задается соотношением (4) (эта зависимость называется спецификацией модели).
2. – детерминированные величины, линейно не связанные между собой, т.е. векторы и (1, 1, …, 1) не коллинеарные.
3. Ошибки регрессии – случайные величины с для всех .
4. Ошибки регрессии и (или переменные и ) не коррелированы в разных наблюдениях, т.е. .
5. Ошибки регрессии распределены по нормальному закону с нулевой средней и дисперсией , т.е. , соответственно .
|
|
Модель парной линейной регрессии содержит три неизвестных параметра: коэффициенты и уравнения регрессии и дисперсию ошибок регрессии . Оценки коэффициентов и находятся из условия минимизации по и суммы квадратов
отклонений наблюдаемых значений от вычисленных по уравнению регрессии . Эти оценки называются оценками метода наименьших квадратов и определяются соотношениями
, ,
где – выборочная ковариация величин и , – выборочная дисперсия , и – выборочные среднеквадратические отклонения величин X и Y, и – выборочные средние и .
Согласно теоремы Гаусса-Маркова, при выполнении предпосылок 1–4, эти оценки обладают наименьшей дисперсией в классе всех линейных несмещенных оценок.
Величины называются остатками регрессии.
Несмещенной оценкой дисперсии ошибок регрессии является величина
.
Оценки дисперсий оценок и определяются как
, .
Стандартные отклонения коэффициентов уравнения регрессии определяются соотношениями и .
Интервальные оценки параметров уравнения регрессии надежности :
,
,
(4.2)
где заданный уровень значимости, – квантиль уровня распределения Стьюдента ( -распределения) с числом степеней свободы , и –квантили соответственно уровней и распределения с числом степеней свободы .
|
|
Оцененное уравнение регрессии на имеет вид . Статистическая значимость параметров уравнения регрессии (их значимое отличие от нуля) определяется путем проверки принадлежности нулевых значений доверительным интервалам. Если доверительный интервал надежности содержит ноль, то нулевая гипотеза о равенстве параметра нулю принимается с уровнем значимости . Проверка значимого отличия от нуля параметров и уравнения регрессии осуществляетсятакжепутем проверки нулевых гипотез и против альтернативных гипотез и . Для проверки этих гипотез используются - статистики и , распределенные по закону Стьюдента с степенями свободы. Если вычисленные значения статистик или превышают по модулю критическое значение , то нулевая гипотеза отвергается и принимается альтернативная гипотеза (параметр значимо отличается от нуля). Если вычисленное значения - статистики по модулю меньше критического значения , то нулевая гипотеза принимается (параметр незначимо отличается от нуля) при заданном уровне .Критическое значение определяется как квантиль уровня распределения Стьюдента с числом степеней свободы .Принятие нулевой гипотезы говорит об отсутствии значимой линейной корреляционной зависимости величин Y и X.
|
|
Верификация и оценка качества модели. Верификация модели парной линейной регрессии означает проверку соответствия модели эмпирическим данным и заключается в установлении значимости уравнения регрессии, т.е. в значимости влияния фактора на условную среднюю зависимой величины . Проверка значимости уравнения регрессии заключается в проверке нулевой гипотезы , об отсутствии влияния фактора на зависимую величину , против альтернативной гипотезы , о значимом влиянии фактора на . Значимость уравнения регрессии может быть проверена двумя равноценными способами: с использованием дисперсионного анализа; с использование теории корреляции.
Дисперсионный анализ в линейной регрессии основывается на том, что общая сумма квадратов отклонений от их общего среднего , , разлагается на сумму квадратов отклонений, объясняемых регрессией, , и остаточную сумму квадратов отклонений . При справедливости нулевой гипотезы средние квадраты и являются независимыми несмещенными оценками одной и той же генеральной дисперсии зависимой переменной и их различие незначимо. Проверка нулевой гипотезы , при уровне значимости , сводится к проверке существенности различия несмещенных выборочных оценок и дисперсии с помощью F-критерия , который имеет F-распределение Фишера-Снедекора с и степенями свободы, где число коэффициентов в уравнении регрессии, а n объем выборки. Гипотеза об отсутствии влияния фактора на исследуемый признак принимается, если вычисленное значение статистики меньше критического . Если , то гипотеза отвергается и принимается гипотеза , т.е. фактор оказывает влияние на исследуемый признак . – квантиль уровня -распределения Фишера-Снедекора с и степенями свободы.
|
|
Использование элементов теории корреляции при проверке значимости уравнения регрессии основано на соотношении и заключается в проверке значимого отличия от нуля коэффициента корреляции , следовательно, и значимости коэффициента регрессии . Проверка нулевой гипотезы , т.е. предположения об отсутствии линейной корреляционной зависимости между величинами Y и X, производится с помощью статистики , которая при справедливости нулевой гипотезы имеет распределение Стьюдента (t-распределение) с числом степеней свободы . Гипотеза отвергается при уровне значимости (т.е. оцененное уравнение линейной регрессии значимо), если вычисленное по выборке объема значениеt-статистики удовлетворяет неравенству
, (4.3)
где – квантиль уровня распределения Стьюдента с числом степеней свободы . Если нулевая гипотеза принимается, то оцененное уравнение линейной регрессии незначимо – зависимая величина Y и фактор не связаны линейной корреляционной зависимостью.
Для парной линейной регрессии оба способа проверки значимости уравнения регрессии равнозначны, а F-критерий и t-критерий связаны равенством .
Мерой качества уравнения регрессии и характеристикой прогностической силы регрессионной модели является коэффициент детерминации
,
который показывает, какая доля вариации зависимой переменной объясняется вариацией фактора. . Значимое отличие от нуля коэффициента детерминации устанавливается также с помощью приведенного выше F-критерия. F-критерий и коэффициент детерминации связаны равенством .Для парной линейной регрессии коэффициент детерминации .
Качество подгонки построенной линейной регрессии к выборочным данным характеризуется средней ошибкой аппроксимации
.
Прогнозирование по уравнению регрессии. Точечный прогноз среднего зависимой величины для заданного значения вычисляется по уравнению регрессии и является наилучшей несмещенной линейной оценкой теоретического условного среднего . Доверительный интервал надежности прогноза условного среднего для заданного значения задается неравенством
(4.4)
Здесь – квантиль уровня распределения Стьюдента с числом степеней свободы , – оценка дисперсии прогноза условного среднего величины Y, – выборочная дисперсия независимой переменной X. Графики нижней и верхней границ доверительного интервала называются доверительными кривыми надежности . Уравнение линейной регрессии может быть записано в виде . Отсюда следует, что линия регрессии проходит через точку и при доверительные кривые наиболее близко подходят к линии регрессии.
Дата добавления: 2018-04-15; просмотров: 701; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!