Завдання пошуку асоціативних правил



Пошук асоціативних правил є одним з найпопулярніших додатків Data Mining. Суть завдання полягає у визначенні наборів об'єктів, які часто зустрічаються у великому безлічі таких наборів. Дане завдання є окремим випадком задачі класифікації. Спочатку вона розв’язувалася при аналізі тенденцій в поведінці покупців у супермаркетах. Аналізу піддавалися дані про скоєних ними покупках, які покупці складають у візок (кошик). Це послужило причиною другого часто зустрічається назви - аналіз ринкових кошиків (Basket Analysis). При аналізі цих даних інтерес перш за все представляє інформація про те, які товари купуються разом, в якій послідовності, які категорії споживачів які товари воліють, в які періоди часу і т. п. Така інформація дозволяє більш ефективно планувати закупівлю товарів, проведення рекламної кампанії і т. д.

Наприклад, із набору покупок, що здійснюються в магазині, можна виділити наступні набори товарів, які купуються разом: {чіпси, пиво}; {вода, горіхи}. Отже, можна зробити висновок, що якщо купуються чіпси або горіхи, то, як правило, купуються і пиво або вода відповідно. Володіючи такими знаннями, можна розмістити ці товари поруч, об'єднати їх в один пакет зі знижкою або вжити інші дії, стимулюючи покупця придбати товар.

Завдання пошуку асоціативних правил актуальна не тільки в сфері торгівлі. Наприклад, у сфері обслуговування інтерес представляє інформація про те, якими послугами клієнти воліють користуватися в сукупності. Для отримання цієї інформації задача вирішується стосовно до даних про послуги, якими користується один клієнт протягом певного часу (місяця, року). Це допомагає визначити, наприклад, як найбільш вигідно скласти пакети послуг, пропонованих клієнту.

У медицині аналізу можуть піддаватися симптоми і хвороби, які спостерігаються у пацієнтів. В цьому випадку знання про те, які поєднання хвороб і симптомів зустрічаються найбільш часто, допомагають в майбутньому правильно ставити діагноз.

При аналізі часто викликає інтерес послідовності подій що відбуваються. При виявленні закономірностей в таких послідовностях можна з деякою часткою ймовірності прогнозувати появу подій у майбутньому, що дозволяє приймати більш правильні рішення. Таке завдання є різновидом задачі пошуку асоціативних правил і називається сіквенціальним аналізом.

Основною відмінністю завдання сіквенціального аналізу від пошуку асоціативних правил є встановлення відношення порядку між досліджуваними наборами. Дане відношення може бути визначене різними способами. При аналізі послідовності подій, що відбуваються у часі, об'єктами таких наборів є події, а відношення порядку відповідає хронології їх появи.

Сіквенціальний аналіз широко використовується, наприклад в телекомунікаційних компаніях, для аналізу даних про аварії на різних вузлах мережі. Інформація про послідовність здійснення аварій може допомогти у виявленні неполадок та попередження нових аварій. Наприклад, якщо відома послідовність збоїв: {е5, е2, e7, e13, е6, е1,... }, Де е, - код збою, то на підставі факту появи збою е2 можна зробити висновок про швидку появу збою е7. Знаючи це, можна зробити профілактичні заходи, що усувають причини виникнення збою. Якщо додатково володіти і знаннями про час між збоями, то можна передбачити не тільки факт його появи, але і час, що часто не менш важливо.

 

Задача кластеризації

Задача кластеризації полягає в поділі досліджуваної безлічі об'єктів на групи "схожих" об'єктів, які називаються кластерами (cluster). Слово cluster перекладається з англійської як згусток, пучок, група. Споріднені поняття, використовувані в літературі, - клас, таксон, згущення. Часто вирішення задачі розбиття множини елементів на кластери називають кластерним аналізом.

Кластеризація може застосовуватися практично в будь-якій області, де необхідно дослідження експериментальних або статистичних даних. Роздивимося приклад з області маркетингу, в якому дана задача називається сегментацією.

Концептуально сегментування засноване на припущенні, що всі споживачі різні. У них різні потреби, різні вимоги до товару, вони ведуть себе по-різному: в процесі вибору товару, в процесі придбання товару, в процесі використання товару, в процесі формування реакції на товар. У зв'язку з цим необхідно по-різному підходити до роботи з споживачами: пропонувати їм різні за своїми характеристиками товари, по-різному просувати і продавати товари. Для того щоб визначити, чим відрізняються споживачі один від одного і як ці відмінності відбиваються на вимогах до товару, і проводиться сегментація споживачів.

У маркетингу критеріями (характеристиками) сегментації є: географічне місце розташування, соціально-демографічні характеристики, мотиви здійснення покупки і т. п.

На підставі результатів сегментації маркетолог може визначити, наприклад, такі характеристики сегментів ринку, як реальна і потенційна ємність сегмента, групи споживачів, чиї потреби не задовольняються повною мірою ні одним виробником, працюючим на даному сегменті ринку, і т . п. На підставі цих параметрів маркетолог може зробити висновок про привабливість роботи фірми в кожному з виділених сегментів ринку.

Для наукових досліджень вивчення результатів кластеризації, а саме з'ясування причин, за якими об'єкти об'єднуються в групи, здатне відкрити нові перспективні напрями. Традиційним прикладом, котрий зазвичай наводять для цього випадку, є періодична таблиця елементів. У 1869 р. Дмитро Менделєєв розділив 60 відомих у той час елементів на кластери або періоди. Елементи, що потрапили в одну групу, володіли схожими характеристиками. Вивчення причин, по яких елементи розбивалися на явно виражені кластери, в значній мірі визначило пріоритети наукових вишукувань на роки вперед. Але лише через 50 років квантова фізика дала переконливі пояснення періодичної системи.

Кластеризація відрізняється від класифікації тим, що для проведення аналізу не потрібно мати виділену залежну змінну, тому вона відноситься до класу unsupervised learning. Це завдання вирішується на початкових етапах дослідження, коли про дані мало що відомо. Її рішення допомагає краще зрозуміти дані, і з цієї точки зору завдання кластеризації є описовою.

Для завдання кластеризації характерно відсутність будь-яких відмінностей як між змінними, так і між об'єктами. Навпаки, шукаються групи найбільш близьких, схожих об'єктів. Методи автоматичного розбиття на кластери рідко використовуються самі по собі, а тільки для одержання груп схожих об'єктів. Після визначення кластерів використовуються інші методи Data Mining, щоб спробувати встановити, що означає таке розбиття, чим воно викликане.

Кластерний аналіз дозволяє розглядати досить великий обсяг інформації і різко скорочувати, стискати великі масиви інформації, робити їх компактними і наочними.

Відзначимо ряд особливостей, властивих завданню кластеризації.

По-перше, рішення сильно залежить від природи об'єктів даних (і їх атрибутів). Так, з одного боку, це можуть бути однозначно визначені, кількісно окреслені об'єкти, а з іншого - об'єкти, що мають ймовірнісний або нечіткий опис.

По-друге, рішення в значній мірі залежить і від подання кластерів і передбачуваних відносин об'єктів даних і кластерів. Так, необхідно враховувати такі властивості, як можливість / неможливість приналежності об'єктів до кількох кластерах. Необхідно визначення самого поняття приналежності кластеру: однозначна (належить / не належить), імовірнісна (ймовірність приналежності), нечітка (ступінь приналежності).

 

 


Дата добавления: 2018-05-09; просмотров: 370; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!