Создание моделей интеллектуального анализа
В отличие от структуры модель ИАД содержит столбцы, которые помечены как входы или выходы, и указание на алгоритм со всеми характерными параметрами [1]. Модель может содержать любое подмножество столбцов из структуры. Для этого в модель включается ключ структуры ИАД и ключи всех вложенных таблиц. Самый простой способ включения модели в структуру реализуется по умолчанию. Реализовать простой способ можно указанием названия и алгоритма в конструкции, приведённой в листинге 14.3
ALTER MINING STRUCTURE [TEACHER1]
ADD MINING MODEL [TeacherClasters]
USING Microsoft Clustering
В большинстве случае в конструкции DMX требуется указать список столбцов. Для указания принадлежности столбца к входу или выходу используются флаги PREDICT И PREDICT_ONLY. Столбцы без флагов автоматически относятся к входу. В листинге 14.4 приведено определение модели дерева решений, которая прогнозирует учёное звание (AcademStatus) на основе возраста преподавателя и наличия учёной степени (AcademDegree).
ALTER MINING STRUCTURE [Teacher2]
ADD MINING MODEL [PredictAcademStatus-Tree]
{
[TeacherID],
[AcademStatus] PREDICT
[Age],
[AcademDegree]
} USING Microsoft Decision Trees
Не все алгоритмы ИАД могут работать с непрерывными типами данных. Для решения этой проблемы в модель можно включить дополнительный столбец с типом содержимого DISCRETZED. Это позволяет представить один столбец с различными типами содержимого внутри структуры. Например, в листинге 14.5 применяется дополнительный столбец AgeDisc, имеющий связь со столбцом Age. За счёт этой связи поддерживается согласованность столбцов с остальными моделями структуры.
|
|
ALTER MINING STRUCTURE [Teacher2]
ADD MINING MODEL [PredictAcademStatus-Tree]
{
[TeacherID],
[AcademStatus] PREDICT
[Age],
[AgeDisc] AS [Age]
[AcademDegree]
} USING Microsoft Naive Bayes
После определения структур и модели ИАД выполняется процедура заполнения их данными. Доступ к данным осуществляется через именованный источник данных. При выполнении запроса служба SQL Server Analysis Services считывает данные в кэш. После этого исходные типы данных источника преобразуются к типам данных, указанным в структуре интеллектуального анализа данных.
Краткие итоги
§ Для задания структур и моделей для интеллектуального анализа данных компанией Microsoft разработан язык многомерных выражений Data Mining Extensions (DMX).
§ Разделение данных на обучающие и проверочные наборы выполняется автоматически, если в структуре интеллектуального анализа данных задать процента данных для проверки.
§ Не все алгоритмы интеллектуального анализа работают с непрерывными типами данных. Для решения этой проблемы в модель можно включить дополнительный столбец с типом содержимого DISCRETZED.
§ Модель ИАД содержит столбцы из структуры, которые помечены как входы или выходы, и указание на используемый алгоритм. Для этого в модель включается ключ структуры ИАД и ключи вложенных таблиц. Простейший способ включения модели в структуру реализуется по умолчанию.
|
|
Контрольные вопросы
1. Язык многомерных выражений Data Mining Extensions (DMX) предназначен для выполнения:
а) интеллектуального анализа данных;
б) оперативного и интеллектуального анализа данных;
в) операций чтения и записи данных в транзакционные базы данных;
г) преобразования данных из таблиц во входные данные алгоритмов интеллектуального анализа данных.
2. Под вариантом в языке DMX понимается:
а) таблица фактов в реляционном источнике данных;
б) атрибут, характеризующий объект из исходного множества;
в) отдельный пример, который представляется алгоритму анализа;
г) подмножество входных столбцов структуры.
3. Существенными элементами оператора CREATE MINING STRUCTURE являются:
а) определения обучающего и проверочного наборов данных;
б) имя структуры, список столбцов с указанием имени, типа данных и типа содержимого;
в) список входных и выходных столбцов
г) вложенные таблицы с указанием названия и списка столбцов.
4. В процессе обучения в модели ИАД сохраняются:
а) обнаруженные в обучающем наборе данных шаблоны;
|
|
б) функциональные зависимости выходных данных от входных;
в) параметры алгоритма интеллектуального анализа данных;
г) определённые значения зависимой переменной.
5. По умолчанию из данных с типом содержимого столбца DISCRETIZED моджет быть создано:
а) не менее семи сегментов;
б) не более пяти сегментов;
в) более пяти сегментов;
г) не более одного сегмента.
Литература
1. Microsoft SQL Server 2008: Data mining – интеллектуальный анализ данных. Пер. с англ. / Дж. Макленнен, Чж. Танг, Б. Криват. – БХВ-Петербург. 2009. – 720 с.
2. Бергер А.Б. Microsoft SQL Server 2005 Analysis Services. OLAP и многомерный анализ данных / Бергер А.Б, Горбач И.В., Меломед Э.Л, Щербинин В.А., Степаненко В.П. / Под общ. Ред. А.Б. Бергера, И.В. Горбач. – СПб.: БХВ-Петербург, 2007. – 928 с.
3. Ларсон Б. Разработка бизнес-аналитики в SQL Server 2005. – СПб.: Питер, 2008. – 684 с.
Дата добавления: 2018-10-26; просмотров: 299; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!