ОПИСАНИЕ МАТЕМАТИЧЕСКИХ МЕТОДОВ ОБРАБОТКИ ЭМПИРИЧЕСКИХ ДАННЫХ: ANCOVA И
РЕГРЕССИОННЫЙ МЕТОД
Дисперсионный анализ
Суть метода заключается в исследовании влияния одной или нескольких качественных переменных (признаков или, как принято говорить, – факторов-признаков) на одну зависимую (количественную) переменную (отклик). В основе такого исследования лежит гипотеза, что одни переменные могут рассматриваться как причины (независимые переменные):
, а другие как следствия (зависимые переменные). В эксперименте независимыми переменными исследователь может варьировать и, соответственно, иметь разные уровни отклика.
Отсюда и основная цель – определение уровня значимости различий между значениями средних на основе сравнения дисперсий. Здесь общая дисперсия делится на несколько источников, а далее дисперсия, вызванная различиями между группами данных, сравнивается с дисперсией, которая опосредована внутригрупповой изменчивостью.
Основная гипотеза, если она верна, заключается в том, что оценка дисперсии, связанной с внутригрупповой изменчивостью, близка в определенном смысле к оценке межгрупповой дисперсии. Таким образом, общая дисперсия разбивается на компоненты, которые опосредованы влиянием вполне определенных факторов на исследуемый признак. Далее эти компоненты сравниваются друг с другом, определяется, какова доля общей вариативности результирующего признака обусловлена влиянием независимых фактор-признаков. Здесь используется известныйF-критерий Фишера.
Входными данными для проведения F-тестирования (собственно это основа дисперсионного анализа данных) являются данные исследования нескольких (трех и более) выборок
, не обязательно равных по объему и, среди которых не учитывается присутствие объективных связей.
Важно отметить, что дисперсионный анализ относится к параметрическим методам, что обуславливает его применение лишь в тех случаях, когда точно известно, что закон распределения генеральной совокупности является нормальным. Кроме того, дисперсионный анализ применяется в том случае, если зависимая переменная измерена в шкалах отношений, интервалов или порядков. При этом сами регулярные переменные могут иметь нечисловую природу (шкала наименований).
В классической постановке задачи, решаемые методом дисперсионного анализа выглядят следующим образом. Пусть производится анализ влияния на случайную величину
фактора
, который исследуется на
уровнях:
. На каждом уровне
произведено
наблюдений:
,
случайной величины
. Таким образом, на всех
уровнях фактора
в общей сложности произведено
наблюдений.
Далее, расположим все данные экспериментов в таблицу (см. табл. 1.1):
Таблица 1.1 – Данные экспериментов
| Номер наблюдения | Уровни фактора | |||||
|
| … |
| … |
| |
| 1 |
|
| … |
| … |
|
| 2 |
|
| … |
| … |
|
| … | … | … | … | … | … | … |
|
|
| … |
| … |
|
| … | … | … | … | … | … | … |
|
|
| … |
| … |
|
|
|
| … |
| … |
|
В табл. 1.1 обозначено:
.
Будем рассматривать оценки различных дисперсий. Для оценки дисперсии изменения данных на уровне
(по строкам), получим
. (1.1)
Согласно предпосылкам дисперсионного анализа, должно выполняться равенство:
. (1.2)
При выполнении (1.2) находим оценку дисперсии
рассеяние случайной величины
вне зависимости от воздействий фактора
:
. (1.3)
Оценка
имеет
степень свободы, а оценка
, соответственно
степень. Оценка
выборочной дисперсии
с использованием всех наблюдений равна:
. (1.4)
Здесь
, а
.
Тогда
. (1.5)
Введем в рассмотрение оценку
дисперсии
, которая характеризует вариации математических ожиданий
под воздействием фактора
.
. (1.6)
Заметим, что оценка
имеет
степень свободы.
Исследование влияния фактора
на вариацию математических ожиданий
,
сводится к процедуре сравнения дисперсий
и
. Их оценки соответственно
и
. Считается, что фактор
значительно влияет на изменения математических ожиданий
, если значимо отношение
. Оно значимо, если с достоверной вероятностью
:
. (1.7)
Здесь
квантиль F-распределения Фишера с
и
степенями свободы. Значения
квантиля можно найти по таблицам стандартных распределений.
Противный случай: влияние фактора
незначимо, т.е. (1.7) не выполняется, а имеет место соотношение:
, то для оценки дисперсии
может быть применена более точная оценка
с
степенями свободы, против
с
степенями свободы.
Алгоритм вычислений.
1. Вычисляются последовательно суммы
. (1.8)
2. Вычисляются
. (1.9)
3. Сравниваются
и
. При этом устанавливается уровень значимости фактора
. Если:
,
то влияние фактора
считается значимым. В противном случае всю выборку можно считать однородной с общей дисперсией
.
Замечание. Если на различных уровнях фактора
производится разное число наблюдений (экспериментов), то формулы дисперсионного анализа примут вид:
(1.10)
. (1.11)
Здесь
количество наблюдений на уровне
,
. Отношение
сравнивается с величиной квантиля
.
В качестве иллюстрации выше сказанного, приведем пример.
Пример 1.1.Проведем дисперсионный анализ отвлеченных данных, представленных в таблице (см. табл. 1.2).
Таблица 1.2 – Исходные данных экспериментов
|
| Уровни фактора | ||||
|
|
|
|
| |
| 1 | 3,2 | 2,6 | 2,9 | 3,6 | 3,0 |
| 2 | 3,1 | 3,1 | 2,6 | 3,4 | 3,4 |
| 3 | 3,1 | 2,7 | 3,0 | 3,2 | 3,2 |
| 4 | 2,8 | 2,9 | 3,1 | 3,3 | 3,5 |
| 5 | 3,3 | 2,7 | 3,0 | 3,5 | 2,9 |
| 6 | 3,0 | 2,8 | 2,8 | 3,3 | 3,1 |
| S | 18,5 | 16,8 | 17,4 | 20,3 | 19,1 |
1. 
2. 
3. 
Так как
влияние фактора
на поведение наблюдаемой случайной величины признается значимым.
Дата добавления: 2018-06-27; просмотров: 338; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!


