ВЫЧИСЛЕНИЕ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ



Оглавление

ВВЕДЕНИЕ. 2

КОРРЕЛЯЦИЯ И РЕГРЕССИЯ.. 3

ВЫЧИСЛЕНИЕ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ.. 9

УРАВНЕНИЕ ЛИНИИ РЕГРЕССИИ.. 11

ТАБЛИЦЫ РЕЗУЛЬТАТОВ.. 12

СТРУКТУРА ПРОГРАММЫ И РЕЗУЛЬТАТЫ ЕЁ РАБОТЫ.. 14

ЗАКЛЮЧЕНИЕ. 19

СПИСОК ЛИТЕРАТУРЫ.. 20

ЗАДАНИЕ НА РАСЧЕТНО-ГРАФИЧЕСКУЮ РАБОТУ.. 21

 

 

ВВЕДЕНИЕ

В данной работе будет произведён анализ экспериментальных данных, полученных в виде набора значений двух зависимых величин. Будет сделан вывод о связи между ними на основании вычисления коэффициента корреляции и построено уравнение линейной регрессии. Полученная зависимость будет использована для прогнозирования зависимой величины.

Коэффициент корреляции используется для обозначения силы линейных взаимоотношений между двумя переменными. Регрессионный анализ используют для оценки уравнения, которое в наибольшей степени соответствует совокупности наблюдений зависимых и независимых переменных. С помощью оцененного таким образом уравнения можно предсказать, каково будет значение зависимой переменной для данного значения независимой переменной.

Структура и объем работы. Расчетно-графическая работа состоит из введения, 5 разделов, заключения и библиографического списка. Она содержит 4 рисунка и 5 таблиц. Объем работы – 20 страниц машинописного текста. Библиографический список включает 3 наименования.

 


КОРРЕЛЯЦИЯ И РЕГРЕССИЯ

Одним из важных методов анализа экспериментальных данных является корреляционный анализ. Он позволяет установить наличие и степень связи между случайными величинами [1].

Простая связь означает наличие двух случайных переменных. Множественная связь предполагает действие нескольких переменных.

Корреляционный анализ отвечает на следующие вопросы:

1. Существует ли связь между переменными?

2. Какой тип имеет эта связь?

3. Насколько сильна эта связь?

4. Какой прогноз можно сделать с учётом этой связи?

Примером простой связи является измерение роста и веса пациентов при врачебном осмотре, или зависимость годового объема продаж от средств, потраченных на рекламу. В качестве множественной связи можно представить зависимость ощущения температуры человеком в зависимости от температуры воздуха и влажности. Кроме того, важно установить и направление связи. Какая переменная оказывает влияние, а какая является зависимой? Например, при установлении связи между затратами на рекламу и прибылью, очевидно, независимой переменной являются затраты на рекламу.

Независимая переменная – это та, значение которой можно изменять. Зависимая переменная – это переменная, которую нельзя менять по желанию исследователя. Её значение является следствием определённого числа скрытых причин. Для выявления зависимости переменных можно строить графическое представление данных и визуально определять, имеет место зависимость и каково её направление.

 

Предположим, что в результате эксперимента измеряются две случайные величины  и . Их выборки представляют собой пары чисел (точки):

,

где  – число испытаний. Вместе с анализом величин  и  по отдельности, нужно исследовать их возможную зависимость. Является ли эти величины независимыми? Если же между ними имеется зависимость, то какого рода?

Если между переменными имеется связь, то говорят, что  и  коррелированы. Для определения такого рода зависимости вычисляют величину, называемую коэффициентом корреляции . В случаях, когда других переменных нет, его обозначают просто . Эта величина помогает установить характер связи между исследуемыми переменными:

Чем ближе значение  к нулю, тем слабее корреляция. Если же  близок к  или , тем корреляция сильнее, то есть зависимость между  и  близка к линейной. В случае, если  или , все точки выборки лежат на одной прямой.

Таким образом, коэффициент корреляции отражает степень именно линейной зависимости между исследуемыми величинами. При наличии зависимости другого вида (например, кубической) он может быть близок к нулю.

Приведём формулы для вычисления .

,

,

,

,

,

Существует общепринятая шкала для интерпретации значений коэффициента корреляции.

Таблица 1.1 Шкала интерпретации

Значение Уровень связи между переменными
0,75 – 1,00 Очень высокая положительная
0,50 – 0,74 Высокая положительная
0,25 – 0,49 Средняя положительная
0,00 – 0,24 Слабая положительная
0,00 – -0,24 Слабая отрицательная
-0,25 – -0,49 Средняя отрицательная
-0,50 – -0,74 Высокая отрицательная
-0,75 – -1,00 Очень высокая отрицательная

 

Если коэффициент корреляции близок к единице, то линейная зависимость существует, и этим можно воспользоваться для прогнозирования числа зрителей. Для этого применяется регрессионный анализ, тесно связанный с корреляционным.

Когда установлена линейная связь между переменными, исследователи должны рассмотреть возможные виды связи и выбрать ту, которая диктуется логикой данного исследования. Существует несколько видов связи.

Прямая причинно-следственная связь между исследуемыми переменными. В этом случае переменная  влияет на переменную . Например, наличие воды ускоряет рост растений, а яд вызывает смерть.

Обратная причинно-следственная связь. В этом случае переменная  влияет на значение . Можно предположить, что употребление большого количества чая вызывает нервозность. Но также может быть, что нервный человек пьет чай, чтобы успокоиться.

Связь между исследуемыми переменными может быть вызвана третьей переменной. Например, исследователем установлено, что существует определённая корреляция между числом посещений магазинов вечером в холодную погоду и уменьшением продаж прохладительных напитков. Очевидно, несмотря на зависимость, причиной обоих этих явлений является третье явление – холодная погода.

Взаимосвязь между несколькими переменными. Можно обнаружить связь между оценками студентов в академии и их оценками в школе. Но в этом случае могут действовать и другие переменные: уровень мотивации, жизненные обстоятельства, значимость предмета для студента.

Кроме всего вышеперечисленного, зависимость между событиями может быть случайна. Исследователь может найти значимую зависимость между уменьшением числа мышей весной и ростом солнечной активности. Но здравый смысл говорит о том, что связь между этими переменными случайна.

Таким образом, коэффициент корреляции показывает исследователю не причинно-следственную связь между событиями, а наличие линейной связи между ними и степень этой связи.

На рисунке 1 (с линейно расположенными точками) видно, что зависимость имеет приближенно линейный характер. Значения переменных расположены вокруг некоей прямой линии. Она называется линией регрессии. Для её построения несколько способов. Один из них – непосредственный. Если представить натянутую нить между двумя точками на рисунке, то можно выбрать визуально наиболее подходящее положение. Если после этого нарисовать эту нить, то при помощи измерений можно определить уравнение этой прямой. Эта грубая оценка пригодна в некоторых случаях. Также для этой цели существует несколько методов. Рассмотрим один из них, называемый методом наименьших квадратов.

Если установлена линейная связь между переменными  и , то можно отыскать функцию вида , выражающую зависимость  от .

Пусть даны пары чисел (иначе говоря, точек)

.

Требуется найти такую прямую, чтобы сумма квадратов отклонений координат этих точек от прямой была как можно меньше.

Это означает, что выражение

должно быть минимальным.

Рисунок 1.1 Иллюстрация метода наименьших квадратов

Это выражение представляет собой функцию двух переменных  и , поскольку результаты наблюдений  и  заданы. Это выражение принимает минимальное значение, если величины  и  связаны соотношениями

.

Эта система имеет единственное решение

, .

Отыскав значения  и , мы сможем записать уравнение прямой, наилучшим образом выражающую статистическую связь между переменными  и . Эта прямая называется прямой регрессии  на .

После отыскания коэффициентов линии регрессии, можно оценить качество приближения результатов наблюдений. Подставив в выражение

Найденные значения  и , вычислим среднюю квадратичную погрешность, иначе называемую ошибкой уравнения регрессии.

.

Эта величина отражает среднюю длину вертикальных отклонений исследуемых точек от прямой регрессии. Чем меньше , тем ближе результаты наблюдений к прямой регрессии.

 

 

ВЫЧИСЛЕНИЕ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ

Рассмотрим задачу, решаемую администрацией концертного зала, в котором проходят массовые мероприятия. Перед каждым мероприятием нужно организовать работу вспомогательных служб. Для этого необходимо оценить, сколько зрителей посетит мероприятие. Один из способов решения этой задачи – учёт предыдущего опыта. Например, можно предположить, что число зрителей в определённый день зависит от того, сколько билетов было продано за день до мероприятия. Разумеется, зрителей будет больше, чем продано билетов днём раньше, но можно предположить, что в день самого мероприятия зависимость числа купленных билетов от времени сохранит линейный вид, Иными словами, билеты покупаются равномерно. Пусть данные первых шести мероприятий в этом месяце следующие:

Таблица 2.1 Исходные данные

Расходы на рекламу 1.5 2.3 5.5 5.9 6.1 9.4
Объем продаж 3. 4.44 16 3.92 13.88 25.32

 

Требуется определить коэффициент корреляции между числом продаж, а также сделать прогноз продаж при х=6.2. Примем расходы на рекламу за x, а объем продаж за y. В таблице приведены шесть реализаций пары этих случайных величин. Рассчитаем коэффициент корреляции.

 

 

 

 

 

 

 

Согласно таблице 1.1, наблюдается очень высокая положительная корреляция.

Результаты вычислений занесём в таблицу 4.1.

Таким образом, в нашем случае коэффициент корреляции довольно близок к единице. Следовательно, линейная зависимость существует, и этим обстоятельством можно воспользоваться для прогнозирования числа зрителей.

 

УРАВНЕНИЕ ЛИНИИ РЕГРЕССИИ

Для прогнозирования продаж, рассмотренного в предыдущем примере, нужно найти прямую регрессии  на . Для этого подставим найденные ранее значения , ,  и  в формулы для коэффициентов регрессии. Получим:

Запишем уравнение прямой регрессии:

Y=2.492x+7.39

Y=1.04*6.2+7.39=13.838

Найдём ошибку уравнения регрессии.

=

= =13.47

 

.

Итак, среднеквадратичная ошибка составляет 13.47 продаж. Таким образом y(6.2)=13.83 13.47 продаж . Результаты вычислений занесём в таблицу 4.2.


ТАБЛИЦЫ РЕЗУЛЬТАТОВ

Таблица 4.1 Результаты вычислений коэффициента корреляции

Параметр Значение
30,7
76,56
195,58
1312,2368
507,516
5,116
12,76
, -909,41
, 12,76
, -2266,42
  -0,3853  

 

 

Таблица 4.2 Результаты вычислений коэффициентов линии регрессии

Параметр Значение
2,492
7,39
Уравнение линии регрессии У=2,492х+7,39
13,47
5,3 тыс. билетов y(6.2)=13.83 13.47

 


Дата добавления: 2018-02-28; просмотров: 198; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!