Глава 4. Обработка многоуровневых дихотомических данных



Книга Р. Хекка, С. Томаса и Л. Табата

«Использование СПСС для многоуровнего моделирования категориальных данных»

 

MLM  - многуровневое моделирование: подход к статистической обработке данных, имеющих вложенную или иерархическую структуру. Т.е. это построение моделей, в которых наблюдения представлены в разных контекстах. Этот подход описывается разными терминами: случайные коэффициенты, смешанные эффекты, иерархические линейные и многоуровневые регрессионные модели.

В СПСС Смешанными моделями называются модели, включающие фиксированные и случайные эффекты. Фактически, там, где есть повторные измерения – скоррелированные данные, и необходимость оценки отдельных групповых вариаций, там и есть смешанные модели. Процедура MIXED обеспечивает обработку 2-х и более уровневых данных.

GENLIN – процедура обобщенного линейного моделирования.

GENLIN MIXED – в СПСС это обобщенные модели с категориальными данными (начиная с 19 версии, 2010 г.).

 

Изучение вариации к-л показателя на одном уровне – это сравнение регрессионных прямых при разных условиях этого уровня. Наклон как показатель влияния условия – slopes-as-outcome модель. При многоуровневом подходе мы рассматриваем отношение переменных на разных уровнях, которые являются модераторами или медиаторами исследуемых соотношений на нижнем уровне. Это cross-level interaction.

Глава 3. Обработка одноуровневых моделей.

Используется процедура GENLIN – Обобщенные линейные модели. Предполагается,что испытуемые случайно выбраны из одной совокупности и нет их к-л группировки более высокого уровня.

Здесь в соответствии с типом данных нужно выбрать тип модели или самостоятельно указать тип распределение и вид функции связи.

Для номинальных переменных нужно указать опорную категорию

Если ЗП представляет собой частоту появления некоторого события, то нужно либо указать дополнительную пременную, в котрой дано число проб в серии или указать число этих проб.

При определении предикторов можно задать Смещение ( Offset ) – это член регрессионной модели (он не оценевается, по умолчанию =1, его величина добавляется к линейному предиктору ЗП; полезен в распределении Пуассона), который отражает вес или значимость зависимой переменной (например, два неуда за семестр или за весь курс обучения).

В модель можно включать как факторные эффекты, так и межфакторные

Задавая взаимодействия, можно строить нестинг-модели, т.е. когда мы не допускаем взаимодействия одного фактора с другим, и он рассматривается как вложенный.

Вкладка «Оценка». Можно выбрать метод оценки модели и исходные значения для оценки параметров модели. Выбор Метода включает 3 варианта: расчет по Фишеру, метод Ньютона-Рафсона или гибридный метод (в нем сначала реализуется метод Фишера, а затем другой – в зависимости от сходимости и достижения максимума итераций).

Метод параметра масштаба позволяет сделать выбор из 3-х вариантов: фиксированное значение, отклонение, хи-квадрат Пирсона. Максимальное правдоподобие модели достигается соответствием параметра масштаба и эффектов модели. Важно: эта опция не работает, если имеет место биноминальное, негативно-биноминальное, мультиноминальное или Пуасоновское распределения. При девиации и Пуасоновском вариантах параметр масштаба оценивается в соответствии со значениями этих статистик. Можно задать и фиксированное значение этого параметра.

       Исходные значения – процедура сама автоматически вычисляет начальные значения параметров модели или они могут быть заданы из файла.

       Ковариационная матрица – два варианта оценки параметров вариативности: на основе модели или робастная оценка. В моделях логистической регрессии оцена происходит на основе принципа независимости наблюдений.В случае повторных измерений или кластерной структуры даных при расчете стандартных ошибок робастный метод учитывает зависимость данных. Выбор оценивания на основе модели подходит к данным, предполагающим нормальное распределение и отсутсвие кластеризации, когда и среднее, и ковариации определяются точно. При нарушении этих допущений стандатная ошибка переоценивается, поэтому более подходит робастный метод (он же – Хьюбера/Белый/Сандвич), позволяющий скорректировать оценку ковариации даже при несоответствии дисперсии и функции связи. Робастная оценка – не панацея от всех нарушений модели, например, при небольших выбоках может наблюдаться смещение оценок. Поэтому, лучше использовать расчет на основе модели или делать оба варианта.

       Статистики – это установки различных эффектов модели и вывода результатов. Эффекты модели включают выбор:

· Типа анализа (или расчет суммы квадратов): 3 типа – 1 (в именяемодели предполагается некоторая упорядоченность предикторов), 3 (применяется чаще всего ) и комбинация 1 и 3.

· Статистики хи-квадрат для проверки модели: Вальда или отношение правдоподобия. Статистики на основе хи-квадрат заменяют обычное оценивание нулевой гипотезы на основе нормального распределения. Тест Вальда сходен с t-тестом, это квадрат z-сттистики, и подчиняется распределению хи-квадрат с одной степенью свободы для больших выборок. На малых выборках он не хорош, для них более подходит оценка отношения правдоподобия.

· Функция логорифма отношения правдоподобия – можно менять отображение формата этой функции.

Оценки маргинальных средних – распечатка групповых и межгрупповых средних (только для количественных данных).

 

Глава 4. Обработка многоуровневых дихотомических данных

Используется процедура GENLINMIX – Обобщенные смешанные модели.

Необусловленная или нулевая модель – это модель, включающая вариацию лишь свободного члена пременной второго уровня, она используется для проверки гипотезы о наличии значимости его вариации между структурными элементами этой переменной как случайного фактора.

 

К-т = 0, 231 – это оценка log odds, а экспоненциальный к-т – это «е» (2,71828) в степени этого к-та или отношение odds =1,26, что означает, что женатых испытуемых в среднем по всем категориям переменной второго уровня больше в 1,26.

 

 

Оценка интерсепта – 0,159 как величины межгрупповой дисперсии, показывает вероятность того, что имеет или не имеет место его достоверная вариация по уровням случайного фактора – в этом примере индивидуального дохода респондента. По ее величине можно оценить к-т интерклассовй корреляции (отношение межгрупповой дисперсии к общей дисперсии – межгрупповая + внутригрупповая – π2 /3):

Ρ= 0,159/(0,159 +3,29)=0,0461 , т.е. доля ее вариации составляет 4,6 % от общей вариации быть женатым или неженатым по всем испытуемым.

 

Это оценки факторных эффектов для каждого уровня фиксированного фактора. При определении типа ковариации случайных эффектов задаем опцию по умолчанию «Компоненты дисперсии».

Если в модели мы задаем лишь интерсепт, то при определении типа ковариации случайных эффектов выбираем «Неструктурированная».

Если в моделе нет повторных измерений, а присутствует только один фактор второго порядка, то определяя Структру данных, нужно указать эту порядковую или дихотомическую переменную, которая является для всех первичных переменных (т.е. переменнных, структуртурирующих зависимую пременную на первом уровне) более общей, задающей структурирование второго уровня.

Если мы строим трехуровневую модель, то первой указывается фактор третьего уровня, а затем – второго, как входящий в первый. Например: пол испытуемого – случайный фактор третьего уровня, а возрастная группа – фактор второго уровня. Или: номер школы и класс, или – регион и город, или – национальность и пол, или – профессиональная (социальная) группа и пол.

Для оценки вклада случайных факторов второго или третьего или второго уровня в модель нужно включать интерсепт соответствующего фактора и их взаимодействия (для 3-х уровневых моделей).

При определении целевой, т.е. зависимой, переменной в качестве вида модели нужно задавать «Бинарная логистическа регрессия». Это соответствует биноминальному распределению и функции связи логит.

При выборе Параметров конструкции целесообразно задавать сортировку по убыванию: в этом случае референтной категорией будет наименьшая – при бинарных данных –это исход «0». Поэтому все оценки будут рассчитываться как вероятность возникновения исхода «1» относительно «0». Тоже касется и переменной предиктора – в результатах будет рассчитываться вероятность влияния второй категории 1 относительно 0 или 2 отностительно 1.

Для мультиминальных переменных нужно также определиться – какая переменная будет референтной (т.е. относительно чего будут сделаны рассчеты).

 


Дата добавления: 2019-02-22; просмотров: 133; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!