Вопрос - Классы задач анализа данных



Задачи, решаемые методами data mining, принято разделять на описательные (англ. descriptive) и предсказательные (англ. predictive).

В описательных задачах самое главное — это дать наглядное описание имеющихся скрытых закономерностей, в то время как в предсказательных задачах на первом плане стоит вопрос о предсказании для тех случаев, для которых данных ещё нет.

К описательным задачам относятся:

· поиск ассоциативных правил или паттернов (образцов);

· группировка объектов, кластерный анализ;

· построение регрессионной модели.

К предсказательным задачам относятся:

· классификация объектов (для заранее заданных классов);

· регрессионный анализ, анализ временны́х рядов.

Вопрос - Чем отличается виртуальное хранилище данных от физического.

Виртуальным хранилищем данных называется система, которая работает с разрозненными источниками данных и эмулирует работу обычного хранилища данных, извлекая, преобразуя и интегрируя данные непосредственно в процессе выполнения запроса.

Преимущества такого подхода очевидны.

· Появляется возможность анализа данных в OLTP-системе сразу после их поступления без ожидания загрузки в хранилище.

· Минимизируется объем требуемой дисковой и оперативной памяти, поскольку отсутствует необходимость хранения исторических данных и многочисленных агрегированных данных для различных уровней обобщения информации.

· Наличие в ВХД развитого семантического слоя позволяет аналитику полностью абстрагироваться от проблем, связанных с процессом извлечения данных из разнообразных источников, и сосредоточиться на решении задач анализа данных.

При работе с ВХД пользователь, можно сказать, имеет дело с «иллюзией» хранилища данных. Виртуальность предполагает, что ВХД существует только до тех пор, пока работает соответствующее приложение. Как только оно завершает работу, виртуальное хранилище прекращает существование.

Концепция ВХД имеет ряд недостатков по сравнению с ХД, где информация консолидируется физически.

· Увеличивается нагрузка на OLTP-систему, потому что, помимо обычных пользователей, к ней обращаются аналитики с нерегламентированными запросами. В результате производительность OLTP-системы падает.

· Источники данных, информация из которых запрашивается в ВХД, могут оказаться недоступными, если доступ к ним осуществляется по сети или если изменилось место их локализации. Временная недоступность хотя бы одного из источников может привести к невозможности выполнения запроса или к искажению представленной по нему информации.

· Отсутствует автоматическая поддержка целостности и непротиворечивости данных, могут быть утеряны отдельные фрагменты документов и т.д.

· Данные в источниках хранятся в различных форматах и кодировках, что может привести к ошибкам при их обработке и к искажению информации, полученной в ответ на запрос.

· Из-за возможной несогласованности моментов пополнения источников данных и из-за отсутствия поддержки в них хронологии по одному и тому же запросу в различные моменты времени могут быть получены отличающиеся данные.

· Практически невозможна работа с данными, накопленными за долгий период времени, поскольку в ВХД доступны только те данные, которые находятся в источниках в конкретный момент времени.

Важнейшей особенностью ВХД является то, что они, работая непосредственно с источниками, содержащими данные оперативного учета, имеют дело с данными в пределах некоторого периода актуальности. Это связано с тем, что OLTP-системы не хранят исторические данные. Поэтому если исторические данные играют важную роль при анализе, то предпочтительно применять разновидности ХД с физической консолидацией данных. А ВХД следует использовать в системах, ориентированных на анализ оперативной информации, актуальной только в течение ограниченного периода.

 

7 Вопрос - Какие потоки данных имеются в хранилище данных.

Входной поток (Inflow) образуется данными, копируемыми из ОИД в ХД;

поток обобщения (Upflow) образуется аrреrированием детальных дaнных и их сохранением в ХД;

архивный поток (Downflow) образуется перемещением детальных дaнных, количество обращений к которым снизилось;

поток метаданных (MetaFlow) образуется переносом информации о данных в репозиторий данных;

выходной поток (Outflow) образуется данными, извлекаемыми пользователями;

обратный поток (Feedback Flow) образуется очищенными данными, записываемыми обратно в ОИД.


Дата добавления: 2018-02-28; просмотров: 471; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!