Создание моделей интеллектуального анализа



В отличие от структуры модель ИАД содержит столбцы, которые помечены как входы или выходы, и указание на алгоритм со всеми характерными параметрами [1]. Модель может содержать любое подмножество столбцов из структуры. Для этого в модель включается ключ структуры ИАД и ключи всех вложенных таблиц. Самый простой способ включения модели в структуру реализуется по умолчанию. Реализовать простой способ можно указанием названия и алгоритма в конструкции, приведённой в листинге 14.3

ALTER MINING STRUCTURE [TEACHER1]

    ADD MINING MODEL [TeacherClasters]

    USING Microsoft Clustering

В большинстве случае в конструкции DMX требуется указать список столбцов. Для указания принадлежности столбца к входу или выходу используются флаги PREDICT И PREDICT_ONLY. Столбцы без флагов автоматически относятся к входу. В листинге 14.4 приведено определение модели дерева решений, которая прогнозирует учёное звание (AcademStatus)  на основе возраста преподавателя и наличия учёной степени (AcademDegree).

ALTER MINING STRUCTURE [Teacher2]

ADD MINING MODEL [PredictAcademStatus-Tree]

{

[TeacherID],

[AcademStatus]  PREDICT

[Age],

[AcademDegree]     

} USING Microsoft Decision Trees

Не все алгоритмы ИАД могут работать с непрерывными типами данных. Для решения этой проблемы в модель можно включить дополнительный столбец с типом содержимого DISCRETZED. Это позволяет представить один столбец с различными типами содержимого внутри структуры. Например, в листинге 14.5 применяется дополнительный столбец AgeDisc, имеющий связь со столбцом Age. За счёт этой связи поддерживается согласованность столбцов с остальными моделями структуры.

ALTER MINING STRUCTURE [Teacher2]

ADD MINING MODEL [PredictAcademStatus-Tree]

{

[TeacherID],

[AcademStatus]  PREDICT

[Age],

[AgeDisc] AS [Age]

[AcademDegree]     

} USING Microsoft Naive Bayes

После определения структур и модели ИАД выполняется процедура заполнения их данными. Доступ к данным осуществляется через именованный источник данных. При выполнении запроса служба SQL Server Analysis Services считывает данные в кэш. После этого исходные типы данных источника преобразуются к типам данных, указанным в структуре интеллектуального анализа данных.

Краткие итоги

§ Для задания структур и моделей для интеллектуального анализа данных  компанией Microsoft разработан язык многомерных выражений Data Mining Extensions (DMX).

§ Разделение данных на обучающие и проверочные наборы выполняется автоматически, если в структуре интеллектуального анализа данных задать процента данных для проверки.

§ Не все алгоритмы интеллектуального анализа работают с непрерывными типами данных. Для решения этой проблемы в модель можно включить дополнительный столбец с типом содержимого DISCRETZED.

§ Модель ИАД содержит столбцы из структуры, которые помечены как входы или выходы, и указание на используемый алгоритм. Для этого в модель включается ключ структуры ИАД и ключи вложенных таблиц. Простейший способ включения модели в структуру реализуется по умолчанию.

Контрольные вопросы

1. Язык многомерных выражений Data Mining Extensions (DMX) предназначен для выполнения:

а) интеллектуального анализа данных;

б) оперативного и интеллектуального анализа данных;

в) операций чтения и записи данных в транзакционные базы данных;

г) преобразования данных из таблиц во входные данные алгоритмов интеллектуального анализа данных.

2. Под вариантом в языке DMX понимается:

а) таблица фактов в реляционном источнике данных;

б) атрибут, характеризующий объект из исходного множества;

в) отдельный пример, который представляется алгоритму анализа;

г) подмножество входных столбцов структуры.

3. Существенными элементами оператора CREATE MINING STRUCTURE являются:

а) определения обучающего и проверочного наборов данных;

б) имя структуры, список столбцов с указанием имени, типа данных и типа содержимого;

в) список входных и выходных столбцов

г) вложенные таблицы с указанием названия и списка столбцов.

4. В процессе обучения в модели ИАД сохраняются:

а) обнаруженные в обучающем наборе данных шаблоны;

б) функциональные зависимости выходных данных от входных;

в) параметры алгоритма интеллектуального анализа данных;

г) определённые значения зависимой переменной.

5. По умолчанию из данных с типом содержимого столбца DISCRETIZED моджет быть создано:

а) не менее семи сегментов;

б) не более пяти сегментов;

в) более пяти сегментов;

г) не более одного сегмента.

 

 

Литература

1. Microsoft SQL Server 2008: Data mining – интеллектуальный анализ данных. Пер. с англ. / Дж. Макленнен, Чж. Танг, Б. Криват. – БХВ-Петербург. 2009. – 720 с.

2. Бергер А.Б. Microsoft SQL Server 2005 Analysis Services. OLAP и многомерный анализ данных / Бергер А.Б, Горбач И.В., Меломед Э.Л, Щербинин В.А., Степаненко В.П. / Под общ. Ред. А.Б. Бергера, И.В. Горбач. – СПб.: БХВ-Петербург, 2007. – 928 с.

3. Ларсон Б. Разработка бизнес-аналитики в SQL Server 2005. – СПб.: Питер, 2008. – 684 с.

 

 

 

 

 


Дата добавления: 2018-10-26; просмотров: 299; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!