Розділ 4. Інтелектуальний аналіз даних



 

Видобуток даних - Data Mining

OLAP-системи, описані в гл. 3, надають аналітику засоби перевірки гіпотез при аналізі даних. При цьому основним завданням аналітика є генерація гіпотез. Він вирішує її, грунтуючись на своїх знаннях і досвіді. Однак знання є не тільки у людини, але і в накопичених даних, які піддаються аналізу. Такі знання часто називають "прихованими", оскільки вони містяться в гігабайтах і терабайтах інформації, які людина не в стані досліджувати самостійно. У зв'язку з цим існує висока ймовірність пропустити гіпотези, які можуть принести значну вигоду.

Очевидно, що для виявлення прихованих знань необхідно застосовувати спе-ціальні методи автоматичного аналізу, за допомогою яких доводиться практично добувати знання з "завалів" інформації. За цим напрямком міцно закріпився термін видобуток даних або Data Mining. Класичне визначення цього терміна дав в 1996 р. один із засновників цього напрямку - Григорій Пятецкий-Шапіро.

Увага!

Data Mining-дослідження і виявлення "машиною" (алгоритмами, засобами штучного інтелекту) в сирих даних прихованих знань, які раніше не були відомі, нетривіальні, практично корисні, доступні для інтерпретації людиною.

Розглянемо властивості виявляються знань, дані у визначенні, більш докладно.

· Знаннях повинні бути нові, раніше невідомі. Витрачені зусилля на відкриття знань, які вже відомі користувачеві, не окупаються. Тому цінність представляють саме нові, раніше невідомі знання.

· Знання повинні бути нетривіальні.Результати аналізу повинні выдображати неочевидні, несподівані закономірності у даних, складаються так звані приховані знання. Результати, які могли б бути отримані більш простими способами (наприклад, візуальним переглядом), не виправдовують залучення потужних методів Data Mining.

· Знання повинні бути практично корисні. Знайдені знання повинні бути застосовні, в тому числі і на нових даних, з досить високим ступенем вірогідності. Корисність полягає в тому, щоб ці знання могли принести певну вигоду при їх застосуванні.

· Знаннях повинні бути доступні для розуміння людини. Знайдені закономірності повинні бути логічно пояснити, в іншому випадку існує ймовірність, що вони є випадковими. Крім того, отримані знання повинні бути представлені в зрозумілому для людини вигляді.

В Data Mining для подання отриманих знань служать моделі. Види моделей залежать від методів їх створення. Найбільш поширеними являються: правила, дерева рішень, кластери і математичні функції.

 

Завдання Data Mining

Data Mining Класифікація задач

Data Mining Методи допомагають вирішити багато завдань, з якими зіштовхується аналітик. З них основними є: класифікація, регресія, пошук асоціативних правил і кластеризація. Далі наведено короткий опис основних завдань аналізу даних.

· Задача класифікації зводиться до визначення класу об'єкта по його характеристикам. Необхідно зауважити, що в цьому завданні безліч класів, до яких може бути віднесений об'єкт, відомо заздалегідь.

· Задача регресії подібно завданню класифікації дозволяє визначити за відомим характеристикам об'єкта значення деякого його параметра. На відміну від завдання класифікації значенням параметра є не ко нечном безліч класів, а безліч дійсних чисел.

· При пошуку асоціативних правил метою є знаходження частих залежностей (або асоціацій) між об'єктами або подіями. Знайдені залежності представляються у вигляді правил і можуть бути використовані як для кращого розуміння природи аналізованих даних, так і для передбачення появи подій.

· Задача кластеризації полягає в пошуку незалежних груп (кластерів) та їх характеристик у всьому безлічі аналізованих даних. Вирішення цього завдання допомагає краще зрозуміти дані. Крім того, угрупування однорідних об'єктів дозволяє скоротити їх число, а отже, і полегшити аналіз.

Перераховані завдання за призначенням поділяються на описові і передбачувальні

Описові (descriptive) завдання приділяють увагу поліпшенню розуміння аналізованих даних. Ключовий момент в таких моделях - легкість і прозорість результатів для сприйняття людиною. Можливо, виявленні закономірності будуть специфічною рисою саме конкретних досліджуваних даних і більше ніде не зустрінуться, але це все одно може бути корисно і тому повинно бути відомо. До такого виду завдань відносяться кластерезація і пошук асоціативних правил.

Рішення Передбачувальних (predictive) завдань розбивається на два етапи. На першому етапі на підставі набору даних з відомими результатами будується модель. На другому етапі вона використовується для передбачення результатів на підставі нових наборів даних. При цьому, природно, потрібно, щоб побудовані моделі працювали максимально точно. До даного виду завдань відносять завдання класифікації і регресії. Сюди можна віднести і завдання пошуку асоціативних правил, якщо результати її рішення можуть бути використовувані для передбачення появи деяких подій.

За способами виконання завдання поділяють на supervised learning (навчання з учителем) і unsupervised learning (навчання без учителя). Така назва походить від терміна machine learning (машинне навчання), часто використовуваного в англомовній літературі і позначає всі технології Data Mining.

У разі supervised learning завдання аналізу даних вирішується в кілька етапів. Спочатку за допомогою будь-якого алгоритму Data Mining будується модель аналізованих даних - класифікатор. Потім класифікатор піддається навчанню. Іншими словами, перевіряється якість його роботи, і, якщо воно незадовільне, відбувається додаткове навчання классіфікатора. Так продовжується до тих пір, поки не буде досягнутий необхідний рівень якості або не стане ясно, що обраний алгоритм не працює коректно з даними, або ж самі дані не мають структури, яку можна виявити. До цього типу задач відносять завдання класифікації і регресії.

Unsupervised learning об'єднує завдання, що виявляють описові моделі, наприклад закономірності в покупках, скоєних клієнтами великого магазину. Очевидно, що якщо ці закономірності є, то модель повинна їх представити і недоречно говорити про її навчання. Перевагою таких завдань є можливість їх вирішення без будь-яких попередніх знань про аналізованих даних. До цих завдань відносяться кластеризація та пошук асоціативних правил.

 


Дата добавления: 2018-05-09; просмотров: 396; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!