Розглянемо, скільки ступенів вільності має кожна вивчена нами сума квадратів.

Лекція 2-3.

Тема. Парна лінійна регресія.

1. Види зв’язків між величинами. Рівняння регресії.

2. Кореляційна та регресійна залежність.

3. Метод найменших квадратів (МНК) для парної регресії.

4. Оцінка дисперсії збурень.

5. Коефіцієнт кореляції та детермінації.

6. Поняття про ступені вільності. Перевірка моделі на адекватність за критерієм Фішера.

7.Прогнозування.

1.Розрізняють функціональний та стохастичний зв’язки між залежними змінними.

Функціональний зв'язок передбачає, що кожному значенню незалежної (однієї або декількох) змінної X відповідає єдине значення залежної змінної Y. Функціональна форма зв'язку зазвичай виражається формулою і здебільшого використовується у природничих науках.

Стохастичний зв’язок виявляється як узгоджена зміна двох чи більше ознак. Стохастичний (імовірнісний) зв’язок полягає в тому, що одна випадкова величина реагує на зміну іншої випадкової величини шляхом зміни свого закону розподілу.

Поняття стохастичного зв’язку є узагальненням поняття функціонального зв’язку.

Частинним випадком стохастичного зв’язку є статистичний зв'язок. Він характеризується тим, що результативна ознака не повністю визначається факторними ознаками. Цей уплив визначається тільки в загальному, в середньому, проте в окремих випадках можуть бути отримані результати, які навіть суперечать установленому зв’язкові.

Наприклад, продуктивність праці тим вища, що більший стаж працівника. Але нема підстав уважати, що тут існує взаємно однозначна відповідність, тобто малоймовірно, що різні працівники з однаковим стажем роботи покажуть однакову продуктивність праці. Розбіжності в показниках рівня продуктивності праці можна пояснити тим, що продуктивність праці визначається не тільки стажем роботи, але й іншими факторами, які не взято до уваги, такими, наприклад, як якість обладнання, освіта, вік тощо. Отже, різні працівники з однаковим стажем X працюють з різними продуктивностями Y. Але середня продуктивність праці, здобута на основі великої кількості спостережень, загалом зростатиме зі збільшенням стажу роботи працівника. Це є приклад статистичного звязку   між величинами.

2. Статистичні зв’язки поділяються на кореляційні та регресійні. Цей поділ ґрунтується на тому, що фактор X може мати різний характер – бути випадковим або невипадковим (детермінованим).

Залежність між однією випадковою величиною і умовним середнім значенням іншої випадкової величини називають кореляційною залежністю. Отже, в цьому випадку обидва взаємопов’язані явища описуються випадковими величинами.

Рівняння, яке описує кореляційну залежність, називають рівнянням регресії.

На практиці дуже поширені ситуації, коли змінну X можна вважати не стохастичною, контрольованою дослідником. При цьому кожному невипадковому значенню X відповідає деякий генеральний розподіл величини Y. Спостережувані значення змінної Y розглядають як вибіркові значення з цього розподілу. Зв'язок між величинами в цьому випадку називають регресійним.

Регресійні зв’язки виражають залежність між випадковими і невипадковими величинами.

Кореляційне поле – це діаграма, на якій зображено сукупність значень двох ознак. Цю діаграму також називають діаграмою розсіювання.

Кореляцію двох змінних називають парною, а кореляцію більше ніж двох змінних – множинною.

Якщо із збільшенням змінної X змінна Y у середньому також збільшиться, то кажуть, що між змінними існує додатний зв'язок (додатна кореляція), а якщо зі збільшенням X змінна Y у середньому зменшується , то маємо від’ємний зв'язок (від’ємну кореляція).

Якщо зв'язок між X та Y  відсутній, то маємо нульову кореляцію.

Зв'язок між залежною й незалежною змінними найчастіше зображають у вигляді рівняння регресії. Такі моделі, з одного боку, дають змогу зясувати  інтенсивність упливу фактора на залежну змінну. З другого боку – і це головне, - ті моделі застосовують у прогностичних дослідженнях.

У випадку парної регресії наочною формою подання інформації отриманої в результаті обстеження вибірки з генеральної сукупності, є діаграма розсіювання – сукупність точок (xi , , yi), зображених на площині. Ці вибіркові дані, а також теоретичні знання про взаємозв’язки між економічними показниками, є важливими джерелами аналізу, на основі яких можна робити припущення щодо форми залежності між X та Y.

Припустимо, що діаграма розсіювання має вигляд:

 

 

 


Тоді природно припустити (висловити гіпотезу), що змінні X та Y у генеральній сукупності пов’язані лінійною залежністю, яку можна подати у вигляді:

Y=а01 X+                              (1)       

Де X та Y – спостережувані дані, а0, а1 – невідомі параметри (коефіцієнти) регресії, - випадкові величини (збурення), яка описує відхилення від істинної регресії.  

Величини  описує вплив невідомих та неврахованих факторів вимірювань, а також уплив відомих факторів, що не піддаються вимірюванням (надмірна схильність до заощадження чи витрачання грошей, уподобання тощо). Слід пам’ятати що  - не спостережувана величина.

Для окремого спостереження, і-го за номером, рівняння (1) набуває вигляду

.       (2)

Збурення  називають також помилками або регресійними залишками.

Для того, щоб модель (1) можна було використати на практиці, потрібно мати значення параметрів а0, а1. Однак істинні їхні значення не можна дістати, оскільки для їх пошуку ми маємо вибіркові дані. Тому здобуті значення параметрів будуть статистичними оцінками істинних (але невідомих) параметрів.

Означення. Оцінка (статистична) – це наближене значення шуканої величини, отримане на основі вибіркового спостереження, яке забезпечує можливість прийняття обґрунтованих рішень про невідомі параметри генеральної сукупності.

Нехай шуканий параметр генеральної сукупності - В. На вибіркової сукупності знаходимо значення вибіркової характеристики В.

Припустимо, що за вибіркою об’єму n знайдена оцінка В1.

Повторимо дослід, тобто з генеральної сукупності виберемо ще одну вибірку також об’єму і за її даними знайдемо оцінку В2 .

Повторюючи дослід багато раз, отримаємо числа В1, В2 ,…, В k . , які в загальному відрізняються між собою.

Таким чином оцінку В можна розглядати як випадкову величину а числа В1, В2 ,…, В k, як її можливі значення.

Означення. Статистична оцінка В параметра В називається незміщеною, якщо М(В)= В. У протилежному випадку оцінку називають зміщеною.

Означення. Ефективною називають ту з незміщених оцінок, яка має найменшу дисперсію, тобто ефективна оцінка – це найкраща з поміж незміщених оцінок.

Означення. Об г рунтованою називають статистичну оцінку, яка при n →∞ прямує по імовірності до значення параметра, який оцінюється.

Обгрунтована оцінка означає, що чим більша чисельність вибірки тим більша ймовірність, що помилка оцінки не перевищить скільки завгодно малої величини.

Розрізняють точкове та інтервальне оцінювання.

В результаті перевірки гіпотези, може бути прийняте неправильне рішення, тобто можуть бути допущені помилки. Помилки бувають 1-го та 2-го роду.

Помилка 1-го роду полягає в тому, що буде відкинута правильна гіпотеза.

Помилка 2-го роду полягає в тому, що буде прийнята неправильна гіпотеза. Ймовірність зробити помилку 1-го роду прийнято позначати α.

3. Класичний підхід до оцінювання параметрів а0, а1 моделі базується на звичайному методі найменших квадратів (МНК). Суть методу найменших квадратів полягає в мінімізації суми квадратів відхилень фактичних (спостережених) значень пояснюваної (залежної) змінної від розрахованих (за моделлю) значень цієї змінної.

Розглянемо приклад простої економетричної моделі, де потрібно кількісно оцінити зв'язок між витратами на споживання та доходами сімї. Спочатку потрібно сформувати сукупність спостережень, яка характеризується витратами на споживання і доходами сімей.

Відкладемо кожну пару спостережень у системі координат, де величина витрат на споживання відкладається на осі ординат, а доходів – на осі абсцис. У результаті отримаємо кореляційне поле точок.

 

 

 

 


На підставі гіпотези про лінійність звязку між витратами і доходами сімей через кореляційне поле точок можна провести безліч прямих ліній, які різняться між собою параметрами а0, а1.

Різницю між фактичним значенням yi результативної ознаки і її розрахунковим значенням yi називають відхиленням: 

.           (3)

Введемо функцію – суму квадратів відхилень

,                        (4)

де n – число спостережень.

    Найкращою вирівняною прямою буде така пряма, яка мінімізує суму квадратів відхилень. Ця умова запишеться так

              (5)

З необхідної умови екстремуму функції  - рівності нулеві перших частинних похідних – отримуємо систему рівнянь

                           (6)

Звідки   (7)

 

Розвяжемо цю систему за правилом Крамера. Маємо

,

.

Звідки

=( )/            (8)

= / .                (9)

Отримані оцінки коефіцієнтів регресії можна записати в компактнішій формі, поділивши чисельник і знаменник рівності (9) на n2, маємо

= /

= , де рискою над змінною позначено її середнє значення. Поділивши перше рівняння системи (7) на n отримаємо

+ = або + .              (10)

Звідки знаходимо оцінку другого параметра = .

Таким чином, ми знайшли формули для визначення невідомих параметрів , , і можемо записати рівняння регресії (економетричну модель):

.                           (11)

4.Дисперсію  не можна визначити, тому що саму величину  не можна спостерігати. Оцінками реалізацій випадкових величин  є відхилення . Тому природно оцінку невідомої дисперсії  подати у термінах спостережуваних помилок . Зрозуміло, що цю оцінку слід будувати на основі суми квадратів відхилень .Спочатку розглянемо таку найпростішу оцінку дисперсії :

Виявляється, що  є зміщеною оцінкою , тобто М( ) .

Справді, маємо:

 

 

5. Після того, як модель побудовано, її потрібно всебічно і ретельно проаналізувати, перевірити на адекватність реальній дійсності. Тобто, чи справді змінна Y лінійно залежить від зміни X, а не відбувається під впливом випадкових факторів. Характеристикою, що показує, якою мірою фактор X визначає показник Y, є коефіцієнт детермінації. Спочатку розглянемо питання про декомпозицію (розбиття на частини) дисперсії результативної ознаки Y.

 

 


Розглянемо декомпозицію відхилень фактичних значень  від теоретичних . Як зрозуміло з рисунка такі відхилення можна записати у вигляді:

                                                 (12)

                            = +             (13)  

Різницю  називають загальним відхиленням.

Різницю  називають і відхиленням , яке можна пояснити на основі регресії, оскільки цю величину для заданого x i  можна знайти маючи тільки регресійну пряму.

Різницю е=  називають не пояснюваним відхиленням, оскільки його не можна пояснити , виходячи з регресійної прямої.

Піднесемо обидві частини рівності (13) до квадрата і проведемо підсумовування за всіма значеннями змінної:

= +2 + (14)

Неважко показати, що середній доданок дорівнює нулеві. Справді

= =

= + =0

Оскільки суми, що фігурують, - це ліві частини нормальної системи. Отже

= +                     (15)

    Або в позначеннях, які прийняті в економетриці

                                 TSS = ESS + RSS                                          (16)

Загальна сума квадратів    TSS= ( total sum of squares ) .

Сума квадратів помилок     ESS= (error sum of squares).

Сума квадратів, що пояснює регресію  RSS =  (regression sum of squares ) .

Поділивши обидві частини рівності (16) на TSS отримаємо

                                     1= RSS / TSS + ESS / TSS

Коефіцієнт детермінації визначається так:

                                (17)

Якщо , тоді RSS=0, або =0. У цьому випадку регресійна лінія паралельна осі ОХ. А отже вона не відображає реальності.

Якщо , тоді ESS=0, або =0. Отже, всі точки вибірки лежать на регресійній прямій.

Отже, якщо  прямує до 1, то можна говорити, що модель побудована адекватно дійсності, якщо ж – до 0, то модель є неадекватною.

Мірою щільності звязку величини X та Y є коефіцієнт кореляції.

Значення коефіцієнта може змінюватися від -1 до 1. Якщо більше нуля то зв'язок між змінними додатний, якщо менше нуля до зв'язок відємний, із збільшенням X зменшується Y.

Коефіцієнт кореляції характеризує ступінь корельованості (лінійної залежності) ознак у генеральній сукупності.

Коефіцієнт кореляції – величина безрозмірна, тому він можна слугувати для порівняння інтенсивностей звязку в різних статистичних рядах.

6.Якщо коефіцієнт детермінації близький до 0,5, то не можна зробити однозначний висновок щодо добротності лінії регресії. Тобто не можна однозначно стверджувати, що між змінними Х та Y наявний (або відсутній) лінійний зв'язок.

Близьке до одиниці значення коефіцієнта детермінації може бути цілком зумовлене випадковими коливаннями у вибірці, на основі якої він був обчислений. Отже, навіть при досить високому  доцільно перевірити його на значущість. Повернемося до рівності

= +

Кожна сума квадратів пов’язана з величиною, яку називають кількістю її ступенів вільності. Кількість ступенів вільності дорівнює кількості незалежних елементів інформації , яку отримано з n   вибіркових даних і яка потрібна для утворення суми квадратів.  

Розглянемо, скільки ступенів вільності має кожна вивчена нами сума квадратів.

Почнемо з TSS= . Для створення TSS потрібно (n -1) незалежних чисел, тому що з чисел  незалежні тільки (n -1) завдяки властивості .

Суму квадратів, що пояснює регресію RSS = , отримують, використовуючи тільки єдину незалежну одиницю інформації, яка утворюється з , а саме . Покажемо, що справді нахил  можна передати як функцію від . Запишемо відхилення, що пояснює регресію у вигляді: = . Піднесемо до квадрату: = . Отже суму квадратів, що пояснює просту лінійну регресію, можна утворити, використовуючи тільки одну одиницю незалежної інформації, а саме . Звідси RSS має один ступінь вільності. Ступінь вільності в даному випадку збігається з кількістю незалежних змінних, що входять до регресійної моделі.

Сума квадратів помилок ESS= має (n -2) ступені вільності: кількість спостережень мінус кількість оцінюваних параметрів – два коефіцієнти регресії , .

У дисперсійному аналізі використовують середні суми квадратів, тобто суми квадратів, поділені на кількість ступенів вільності.

Середнім квадратом помилок називається сума квадратів помилок, поділена на відповідний ступінь вільності, який позначається через MSE:

MSE= / (n -2).

    Середнім квадратом , що пояснює регресію, позначають через MS R :

MS R = / 1= .

    Для загальної суми квадратів середній квадрат не розраховується.

    З теорії ймовірності відомо, що величина

має функцію розподілу F з (1,(n-2)) ступенями вільності.

    Перевірка моделі на адекватність за F - критерієм Фішера передбачає здійснення певних етапів:

1. Розраховуємо величину .

2. Задаємо рівень значимості α .

3. Обчислюємо критичне значення  за статистичними таблицями F - розподілу Фішера з (1,(n-2)) ступенями вільності.

4. Якщо розраховане нами значення F > , то побудована нами регресійна модель адекватна реальній дійсності.

Прогнозування.

Як було сказано раніше, побудова моделі явища переслідує дві мети: отримання оцінок параметрів моделі і прогнозування на основі моделі (за умови, що модель пройшла тести на адекватність). Припустимо, що нам відомо значення  фактора X. Тоді передбачуване теоретичне значення результативної ознаки (точковий прогноз) природно визначається так:

.

Відшукаємо інтервальний прогноз.

 


Дата добавления: 2022-01-22; просмотров: 24; Мы поможем в написании вашей работы!

Поделиться с друзьями:




Мы поможем в написании ваших работ!