Задача класифікації і регресії



При аналізі часто потрібно визначити, до якого з відомих класів відносяться досліджувані об'єкти, тобто класифікувати їх. Наприклад, коли людина звертається в банк за наданням йому кредиту, банківський службовець повинен прийняти рішення: кредитоспроможний потенційний клієнт чи ні. Очевидно, що таке рішення приймається на підставі даних про досліджуваний об'єкт (в даному випадку - про людину): його місце роботи, розмір заробітної плати, вік, склад сім'ї і т. п. В результаті аналізу цієї інформації банківський службовець повинен віднести людини до одного з двох відомих класів: "кредитоспроможний" і "некредитоспоспроможний".

Іншим прикладом задачі класифікації є фільтрація електронної пошти. В цьому випадку програма фільтрації повинна класифікувати вхідне повідомлення як спам (spam - небажана електронна пошта) або як лист. Дане рішення приймається на підставі частоти появи в повідомленні певних слів (наприклад, імені одержувача, безособового звернення, слів і словосполучень: "придбати", "заробити", "вигідну пропозицію" і т. п.).

У загальному випадку кількість класів у задачах класифікації може бути більше двох. Наприклад, в задачі розпізнавання образу цифр таких класів може бути 10 (за кількістю цифр в десятковій системі числення). В такому завданні об'єктом класифікації є матриця пікселів, яка представляє собою образ розпізнавальної цифри. При цьому колір кожного пікселя являється характеристикою аналізованого об'єкта.

В Data Mining задачу класифікації розглядають як задачу визначення значення одного з параметрів аналізованого об'єкта на підставі значення інших параметрів. Параметр, часто називають залежною змінною, а параметри, які беруть участь в його визначенні, - незалежними змінними. У розглянутих прикладах незалежними змінними являлись:

· зарплата, вік, кількість дітей і т. д.; П частота появи певних слів;

· значення кольору пікселів матриці.

Залежними змінними в цих же прикладах були відповідно:

· кредитоспроможність клієнта (можливі значення цієї змінної - "так" і "ні");

· тип повідомлення (можливі значення цієї змінної - "spam" і "mail");

· цифра образу (можливі значення цієї змінної - 0, 1, ..., 9).

Необхідно звернути увагу, що у всіх розглянутих прикладах незалежна змінна приймала значення з кінцевого безлічі значень: {"так", "ні"},{"spam", "mail"}, {0, 1, ..., 9}. Якщо значеннями незалежних і залежною змінних є дійсні числа, то задача називається задачею регресії. Прикладом завдання регресії може служити задача визначення суми кредиту, яка може бути видана банком клієнту.

Задача класифікації і регресії вирішується в два етапи. На першому виділяється навчальна вибірка. У неї входять об'єкти, для яких відомі значення як незалежних, так і залежних змінних. В описаних раніше прикладах такими навчальними вибірками можуть бути:

· інформація про клієнтів, яким раніше видавалися кредити на різні суми, і інформація про їх погашення;

· повідомлення, класифіковані вручну як спам або як лист;

· розпізнані раніше матриці образів цифр.

На підставі навчальної вибірки будується модель визначення значення залежної змінної. Її часто називають функцією класифікації або регресії. Для отримання максимально точної функції до навчальної вибірки пред'являються такі основні вимоги:

· кількість об'єктів, що входять у вибірку, повинно бути достатньо великим. Чим більше об'єктів, тим точніше буде побудована на її основі функція класифікації або регресії;

· у вибірку повинні входити об'єкти, що представляють всі можливі класи в разі завдання класифікації або всю область значень у разі завдання регресії;

· для кожного класу в задачі класифікації або для кожного інтервалу області значень в задачі регресії вибірка повинна містити достатньо точну кількість об'єктів.

На другому етапі побудовану модель застосовують до аналізованих об'єктів (до об'єктів з невизначеним значенням залежної змінної).

Задача класифікації і регресії має геометричну інтерпретацію. Розглянемо її на прикладі з двома незалежними змінними, що позволить представити її в двовимірному просторі (рис. 4.1). Кожному об'єкту ставиться у відповідність точка на площині. Символи "+" і "-" позначають приналежність об'єкта до одного з двох класів. Очевидно, що дані мають чітко виражену структуру: всі точки класу "+" зосереджені в центральній області. Побудова класифікаційної функції зводиться до побудови поверхні, яка обводить центральну область. Вона виділяється як функція, що має значення "+" усередині обведеної області і "-" - поза нею.

 

Як видно з малюнка, є кілька можливостей для побудови виділеної області. Вид функції залежить від застосовуваного алгоритму.

Основні проблеми, з якими стикаються при вирішенні задач класифікації і регресії, - це незадовільна якість вихідних даних, в яких зустрічаються як помилкові дані, так і пропущені значення, різні типи атрибутів-числові і категоричні, різна значимість атрибутів, а також так звані проблеми overfitting і underfitting. Суть першої з них, полягає в тому, що класифікаційна функція при побудові "занадто добре" адаптується до даних і помилки, які зустрічаються в них і аномальні значення намагається інтерпретувати як частина внутрішньої структури даних. Очевидно, що надалі така модель буде некоректно працювати з іншими даними, де характер помилок буде дещо іншою. Терміном underfitting позначають ситуацію, коли дуже велика кількість помилок при перевірці класифікатора на навчальній множині. Це означає, що особливих закономірностей у даних не було виявлено, і або їх немає взагалі, або необхідно вибрати інший метод їх виявлення.

 


Дата добавления: 2018-05-09; просмотров: 1099; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!