Технологии интеллектуального анализа и извлечения данных



Data Mining – это сочетание широкого математического инструментария (от классического статистического анализа до новых кибернетических методов) и последних достижений в сфере информационных технологий. В технологии Data Mining гармонично объединились строго формализованные методы и методы неформального анализа, т.е. количественный и качественный анализ данных.

Data Mining (добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пятецким-Шапиро в 1989 году.

Основу методов Data Mining составляют всевозможные методы классификации, моделирования и прогнозирования. К методам Data Mining нередко относят статистические методы (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов). Такие методы, однако, предполагают некоторые априорные представления об анализируемых данных, что несколько расходится с целями Data Mining (обнаружение ранее неизвестных нетривиальных и практически полезных знаний).

Одно из важнейших назначений методов Data Mining состоит в наглядном представлении результатов вычислений, что позволяет использовать инструментарий Data Mining людьми, не имеющих специальной математической подготовки. В то же время, применение статистических методов анализа данных требует хорошего владения теорией вероятностей и математической статистикой.

Знания, добываемые методами Data mining, принято представлять в виде моделей.


Понятие электронного документа и его характеристики

Электронный документ – это документированная информация, представленная в электронной форме, то есть в виде, пригодном для восприятия человеком с использованием электронных вычислительных машин, а также для передачи по информационно-телекоммуникационным сетям или обработки в информационных системах.

Для электронного документа характерны:

- аутентичность - свойство электронного документа, гарантирующее, что электронный документ идентичен заявленному;

- достоверность - свойство электронного документа, при котором содержание электронного документа является полным и точным представлением подтверждаемых операций, деятельности или фактов и которому можно доверять в последующих операциях или в последующей деятельности;

- целостность - состояние электронного документа, в который после его создания не вносились никакие изменения;

- пригодность для использования - свойство электронного документа, позволяющее его локализовать и воспроизвести в любой момент времени.

Исходя из этого, можно сделать вывод, что электронный документ - это любой документ, который представлен в электронном виде, в том числе это может быть скан-образ документа, файл, набранный в текстовом редакторе, и т.п.

При этом электронные документы могут быть формализованными, т.е. составленными в таком виде, который позволяет с помощью программных средств распознавать их содержимое, и неформализованными (например, скан-копия).

В рамках обмена электронными документами стороны могут использовать как формализованные документы, так и неформализованные. Исключение составляют случаи, когда законодательством утвержден обязательный формат для обмена конкретным документом (например, формат счета-фактуры). Но если документ неформализованный, его принятие и распознавание возможно только с участием человека.

Для того, чтобы обмениваться документами в электронном виде без участия человека в распознавании текста этих документов, необходимо все документы составлять в формализованном виде, т.е. в том формате, который могут использовать программные средства всех участников обмена.


Дата добавления: 2018-08-06; просмотров: 347; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!