Оценка качества модели (или мониторинг модели)

Раздел (тема) дисциплины:Модели множественного выбора, ROC-анализ

Задание выполняется на лабораторной работе № 2: Построение регрессионных моделей с бинарной зависимой переменной

Базовый уровень:

1. Провести предварительный анализ исходных данных. Исключить аномальные наблюдения (если такие есть), заполнить пропуски (если они имеются). Провести корреляционный анализ независимых переменных, исключив переменные, значительно коррелирующие с другими переменными (>0,9).

2. Построить статистически значимую модель бинарной регрессии, оценив параметры методом максимального правдоподобия, применяя метод пошагового исключения, в которой все переменные будут статистически значимы. Подобрать функцию распределения, описывающую вероятность положительной альтернативы между нормальным распределением (пробит), логистическим (логит) и экстремальным (гомпит) на основе минимума информационных критериев.

3. Проверить качество отобранной модели, подтвердив его значениями коэффициентов R² МакФаддена, тестом отношения правдоподобия (LR-тестом), результатами теста Хосмера-Лемешоу и любым тестом на нормальность распределения остатков (например, Колмогорова-Смирнова или Бера-Жарка).

4. Рассчитать маржинальные эффекты и провести интерпретацию коэффициентов модели.

5. Оформить отчет о выполнении задания с приведением условия задачи, результатов решения и выводов.

В качестве информационных средств выполнения задания рекомендуется использовать Eviews, R.

Повышенный уровень:Проверка статистической значимости и условий ограничения на коэффициенты бинарной модели с помощью теста Вальда

Результатом выполнения кейс-задания является отчет по лабораторной работе № 2. К отчету предъявляются следующие требования:

1.Четкое формулирование поставленной цели исследования

2.Формулирование задач, решение которых необходимо для достижения поставленной цели.

3.Описание в виде пунктов, тех действий, которые требуются для решения поставленных задач. Все рисунки и таблицы последовательно нумеруются и описываются. Каждый пункт решения поставленных задач сопровождается анализом принятого решения. При проведении статистических тестов, обязательно выписывается нулевая и альтернативная гипотеза, формулируется принятие решения на обосновано выбранном уровне значимости, указывается критическая область отказа от нулевой гипотезы в пользу альтернативной.

4.В заключении выписывается отобранная адекватная модель с оцененными коэффициентами с указанием под оценками коэффициентов значений t-статистик в скобках или стандартных ошибок коэффициентов. Также приводятся значения маржинальных эффектов и дается их интерпретация.

Построение регрессионных моделей с бинарной зависимой переменной

Осваивается умение строить адекватные модели бинарной регрессии и проводить интерпретацию результатов моделирования на основе маржинальных эффектов влияния факторов на результат.

Теоретические предпосылки:

Цель бинарного регрессионного анализа— описание зависимости между объектом наблюдения (зависимой или результирующей переменной, имеющей только две неупорядоченные альтернативы) и факторами, воздействующими на него (независимыми переменными, предикторами, регрессорами), с тем чтобы построить модель, позволяющую по значениям регрессоров получить оценки значений зависимой переменной.

Применительно к анализу риска в медицине чаще всего используется метод бинарной логистической регрессии, когда исследуется зависимость дихотомической результирующей переменной (т.е. принимающей только два значения, например — это статус выживаемости, подразумевающий два класса: выживет или умрет) от переменных с любым типом шкалы (пол, возраст, наличие осложнений, инфаркт миокарда в анамнезе и др.).

Для оценки и построения модели риска применяются модели бинарного выбора – пробит, логит, гомпит.

Логит-модель.

Если бинарная модель имеет в качестве функции распределения функцию вида (1), то эта модель называется Логит-моделью.

Функция стандартного логистического распределения:

(1)

Для оценки параметров используется метод максимального правдоподобия.

Пробит-модель.

Если бинарная модель имеет в качестве функции распределения функцию вида (2), то эта модель называется Пробит-моделью.

Функция стандартного нормального распределения:

(2)

Стандартное нормальное распределение подразумевает, что математическое ожидание равно М=0, а среднее квадратичное отклонение s=1.

Гомпит-модель.

Если бинарная модель имеет в качестве функции распределения функцию вида (3), то эта модель называется экстрим-моделью или гомпит-моделью.

Функция экстремального (или Гомперца) распределения:

(3)

Селекция моделей, проводится исходя из критериев Акайке, Шварца и Ханнана-Куинна, т.е. выбиралась модель, где наименьшие значения критериев.

Оценка качества модели (или мониторинг модели).

Если необходимо сравнить нескольких альтернативных моделей бинарного выбора с разным количеством объясняющих переменных, то, как и в случае обычных линейных моделей, сравнивать качество альтернативных моделей можно, опираясь на значения информационных критериев Акайке (4) и Шварца (5):

(4)

(5)

а также информационного критерия Ханнана-Куинна (6):

(6)

Здесь – максимальное значение функции правдоподобия для k –й из альтернативных моделей, а p – количество объясняющих переменных в этой модели, n – общее число наблюдений ряда данных. При этом среди нескольких альтернативных моделей выбирается та, которая минимизирует значение статистики критерия.

Метод максимального правдоподобия или метод наибольшего правдоподобия в математической статистике — это метод оценивания неизвестного параметра путём максимизации функции правдоподобия.

Для оценки параметров бинарных моделей применяют метод максимального правдоподобия с функцией правдоподобия:

рассмотрим как n случайных величин с одним возможным значением . Эти случайные величины независимы. Их совместная вероятность = произведению их вероятности:

Прологарифмируем выражение. Логарифмическая функция правдоподобия имеет вид:

Функция правдоподобия в математической статистике — это совместное распределение выборки из параметрического распределения, рассматриваемое как функция параметра. Для нахождения максимума функции правдоподобия необходимо найти частные производные по параметрам и приравнять их к «0». Решаем дифференциальное уравнение правдоподобия:

или .

Гипотеза относительно значимости построенной модели бинарного выбора: тест отношения правдоподобия Likelihood ratio test (LR), высчитывается в статистике, которые сравниваются с табличным значением χ2(n), где n – число степеней свобод, равное числу ограничений в гипотезе. Для LR-теста LR- статистика в случае значимости построенной модели близка к 1.

1) Показатели качества подгонки:

1.1) Псевдо коэффициент детерминации ,

где n– количество наблюдений,

l – логарифмическая функция правдоподобия,

l со штрихом – ограниченная логарифмическая функция правдоподобия, в которой все параметры кроме свободного члена равно нулю.

1.2) Коэффициент Макфаддена .

Чем ближе показатели качества к единице, тем сильнее «объясняющая сила» модели.

Для проверки адекватности подобранной модели имеющимся данным имеется ряд статистических критериев согласия; одним из них является критерий Хосмера–Лемешоу.

Критерий согласия Хосмера–Лемешоу исследует расстояние между наблюдаемыми и ожидаемыми распределениями частот «плохих» и «хороших» заемщиков. Если уровень значимости является большим, то модель хорошо откалибрована и достаточно точно описывает реальные данные. Значение статистики Хосмера–Лемешова не должно быть меньше уровня значимости 0,05. Оптимальными считаются значения не меньше 0,5–0,6.

Дата добавления: 2018-04-05; просмотров: 1957; Мы поможем в написании вашей работы!

Поделиться с друзьями:

12 3 Следующая ⇒

Мы поможем в написании ваших работ!