Тема 7. Задача анотування текстівта засоби аналізу текстової інформації

ПИТАННЯ для 1 КНс для проходження виробничо- технологічної практики.

Об’єм відповіді на кожну тему 5-6 сторінок тексту. Бажані малюнки. Текст Times New Roman 14.

Тема 1 Основні поняття та визначення. Принципи, методи та стадії Data Mining

Відкриття знань та інтелектуальний аналіз даних: розуміння предметної області, навчання предметно-орієнтованих термінології (опис проблеми, в тому числі її обмежень), визначення цілей проекту інтелектуального аналізу даних, вибір інструментів для інтелектуального аналізу даних, розуміння даних, підготовка даних, видобуток даних, оцінка виявлених знань, використання виявлених знань. Постановка задачі інтелектуального аналізу даних. Підготовка даних. Перегляд даних. Побудова моделей. Дослідження і перевірка моделей Розгортання та оновлення моделей. Класифікація задач інтелектуального аналізу даних і знань. Задача класифікації та регресії. Задача пошуку асоціативних правил. Задача кластеризації.

Тема 2. Сфери застосування Data Mining. (Навести конкретні приклади)

Застосування в інтернет-технологіях, торгівлі, соціології, політології, банківській справі, страховому бізнесі, конкурентній розвідці, промисловому виробництві, страховому бізнесі, криміналістиці.

Тема 3.Інструментальні засоби систем інтелектуального аналізу даних

Класифікація інструментальних засобів Data Mining. Комерційні та некомерційні засоби інтелектуального аналізу даних. Загальна характеристика ринку інструментальних засобів засобів Data Mining. Інструменти Data Mining SAS Enterprise Miner. Інструментальні засоби Oracle Data Mining та Deductor. Інструментальні засоби Data Mining PolyAnalyst. Інструментальний пакет Self-organizing Data Mining та його застосування. Інструменти систем інтелектуального аналізу даних WEKA. Інструментальні засоби KNIME. Інструментальні засоби систем інтелектуального аналізу даних RapidMiner. Інструментальний пакет TANAGRA та його застосування.

Тема 4. Методи класифікації. Дерева рішень класифікації, методи їх побудови, Байєсівські процедури класифікації.

Постанова задачі класифікації. Подання результатів: правила класифікації, дерева рішень, математичні функції. Методи побудови правил класифікації: Алгоритм побудови 1-правил, метод Naïve Bayes. Дерева рішень. Методи побудови дерев рішень: методика «розділяй і володарюй», алгоритм покриття. Методи побудови математичних функцій: лінійні методи, метод найменших квадратів, метод опорних векторів, регуляційні мережі.

Тема 5. Методи кластерного аналізу та пошуку асоціативних правил

Постанова задачі кластеризації: формальна постанова задачі; міри близькості, засновані на відстанях, які використовуються в алгоритмах кластеризації. Подання результатів кластеризації. Базові алгоритми кластеризації: класифікація алгоритмів, ієрархічні алгоритми, неієрархічні алгоритми. Адаптивні алгоритми кластеризації: вибір найкращого рішення і якість кластеризації; використання формальних критеріїв якості в адаптивній кластеризації. Приклади адаптивної кластеризації. Постановка задачі пошуку асоціативних правил: формальна постановка задачі, секвенцій ний аналіз, різновидності задач пошуку асоціативних правил. Подання результатів. Алгоритми: алгоритм Apriory, різновиди алгоритму Apriory.

Тема 6 Вилучення ключових понять з тексту. Класифікація та кластеризація текстових документів

Задача вилучення ключових понять із тексту: опис загального процесу вилучення концептів з тексту, стадія локального аналізу, стадія інтеграції та вилучення понять Поняття класифікації документів. Опис задачі класифікації текстів. Методи та підходи до класифікації текстових документів. Алгоритми класифікації. тексту: метод ближнього сусіда (Nearest Neighbor Classifier), метод максимальної ентропії (Maximum Entropy) метод Роччі, дерева рішень. Визначення якості контенту. Методи подання текстових документів. Ієрархічні методи кластеризації текстів. Бінарні методи кластеризації текстів. Критерії оцінки досліджуваних методівТехнологія Custom Search Folders. LSA / LSI - як метод виявлення латентних свіязків. Метод Suffix Tree Clustering. Алгоритм кластеризації даних - Single Link, Complete Link, Group Average. Метод K-means. Метод Concept Indexing

Тема 7. Задача анотування текстівта засоби аналізу текстової інформації

Технологія анотування текстів: аналіз вихідного тексту, визначення його характерних фрагментів, формування відповідного висновку. Методи вилучення фрагментів для анотації: карти текстових повідомлень. Семантичне анотування текстів. Етапи процесу семантичного анотування: виділення необхідних текстових об'єктів з урахуванням обраного рівня семантичного анотування; формування вектора ознак для кожного об'єкта; побудова класифікатора на основі онтології і отриманого набору даних; виділення метаданих з використанням класифікатора; перетворення метаданих кожного документа у формат RDF. Засоби Oracle-Text, засоби Intelligent Miner for Text, засоби Мегапьютер Інтелідженс TextAnalyst. Засоби KNIME, R, RapidMiner, WEKA.


Дата добавления: 2018-04-05; просмотров: 243; Мы поможем в написании вашей работы!

Поделиться с друзьями:




Мы поможем в написании ваших работ!