Data Mining

Существует множество определений DataMining, которые друг друга дополняют. Вот некоторые из них:

DataMining — это процесс обнаружения в базах данных нетривиальных и практически полезных закономерностей. (BaseGroup)
DataMining — это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур(patters) с целью достижения преимуществ в бизнесе(SAS Institute)
DataMining — это процесс, цель которого – обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс применение статистических и математических методов( GartnerGroup)
DataMining — это исследование и обнаружение «машиной»(алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний ,которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком.(А.Баргесян «Технологии анализа данных»)
DataMining — это процесс обнаружения полезных знаний о бизнесе.(Н.М.Абдикеев «КБА»).

Свойства обнаруживаемых знаний

Знания должны быть новые, ранее неизвестные. Затраченные усилия на открытие знаний, которые уже известны пользователю, не окупаются. Поэтому ценность представляют именно новые, ранее неизвестные знания.
Знания должны быть нетривиальны. Результаты анализа должны отражать неочевидные, неожиданные закономерности в данных, составляющие так называемые скрытые знания. Результаты, которые могли бы быть получены более простыми способами (например, визуальным просмотром), не оправдывают привлечение мощных методов DataMining.
Знания должны быть практически полезны. Найденные знания должны быть применимы, в том числе и на новых данных, с достаточно высокой степенью достоверности. Полезность заключается в том, чтобы эти знания могли принести определенную выгоду при их применении.
Знания должны быть доступны для понимания человеку. Найденные закономерности должны быть логически объяснимы, в противном случае существует вероятность, что они являются случайными. Кроме того, обнаруженные знания должны быть представлены в понятном для человека виде.

Модели

В DataMining для представления полученных знаний служат модели. Виды моделей зависят от методов их создания.

Наиболее распространенными являются:

правила,
деревья решений,
кластеры,
математические функции.

Задачи Data Mining

Единого мнения относительно того, какие задачи следует относить к DataMining, нет. Большинство авторитетных источников перечисляют следующие (наиболее распространенные выделены жирным):

классификация,
кластеризация,
прогнозирование,
ассоциация,
визуализация,
анализ и обнаружение отклонений,
оценивание,
анализ связей,
подведение итогов.

Цель описания, которое следует ниже, - дать общее представление о задачах DataMining, сравнить некоторые из них, а также представить некоторые методы, с помощью которых эти задачи решаются.

Таким образом, задачи подразделяются по типам производимой информации, это наиболее общая классификация задач DataMining.

Соревнования в Data Mining

Аноним

Поиск

Навигация

Категории

Статьи

Ссылки

Вики-инструменты

Вики-инструменты

Data Mining

Пространства имён

Действия на странице

Содержание

Свойства обнаруживаемых знаний

Модели

Задачи Data Mining

Соревнования в Data Mining

Категория

Аноним

Поиск

Навигация

Вики-инструменты

Инструменты для страниц

Категории

Категории

Data Mining

Содержание

Свойства обнаруживаемых знаний

Модели

Задачи Data Mining

Соревнования в Data Mining

Категория