Data Mining

Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пятецким-Шапиро в 1989 году.

Определения

Существует множество определений DataMining, которые друг друга дополняют. Вот некоторые из них:

DataMining — это процесс обнаружения в базах данных нетривиальных и практически полезных закономерностей. (BaseGroup).
DataMining — это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур (закономерности/паттерны/patterns) с целью достижения преимуществ в бизнесе (SAS Institute).
DataMining — это процесс, цель которого – обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс применение статистических и математических методов (GartnerGroup).
DataMining — это исследование и обнаружение «машиной» (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком (А.Баргесян «Технологии анализа данных»).
DataMining — это процесс обнаружения полезных знаний о бизнесе (Н.М.Абдикеев «КБА»).

Задачи, решаемые Data Mining

Единого мнения относительно того, какие задачи следует относить к DataMining, нет. Большинство авторитетных источников перечисляют следующие:

классификация,
кластеризация,
прогнозирование,
ассоциация,
визуализация,
анализ и обнаружение отклонений,
оценивание,
анализ связей,
подведение итогов.

Задачи подразделяются по типам производимой информации, это наиболее общая классификация задач DataMining.

Свойства обнаруживаемых знаний

Знания должны быть:

новые, ранее неизвестные. Затраченные усилия на открытие знаний, которые уже известны пользователю, не окупаются. Поэтому ценность представляют именно новые, ранее неизвестные знания.
нетривиальны. Результаты анализа должны отражать неочевидные, неожиданные закономерности в данных, составляющие так называемые скрытые знания. Результаты, которые могли бы быть получены более простыми способами (например, визуальным просмотром), не оправдывают привлечение мощных методов DataMining.
практически полезны. Найденные знания должны быть применимы, в том числе и на новых данных, с достаточно высокой степенью достоверности. Полезность заключается в том, чтобы эти знания могли принести определенную выгоду при их применении.
доступны для интерпретации — то есть такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области. Найденные закономерности должны быть логически объяснимы, в противном случае существует вероятность, что они являются случайными.

Представление обнаруженных знаний

В DataMining для представления полученных знаний служат закономерности (паттерны). Виды паттернов зависят от методов их создания. Наиболее распространенными являются:

ассоциативные правила;
деревья решений;
кластеры;
математические функции.

Алгоритмы поиска таких закономерностей находятся на пересечении областей: Искусственный интеллект, Математическая статистика, Математическое программирование, Визуализация, OLAP.

Соревнования в Data Mining

Аноним

Поиск

Навигация

Категории

Статьи

Ссылки

Вики-инструменты

Вики-инструменты

Data Mining

Пространства имён

Действия на странице

Содержание

Определения

Задачи, решаемые Data Mining

Свойства обнаруживаемых знаний

Представление обнаруженных знаний

Соревнования в Data Mining

Категория

Аноним

Поиск

Навигация

Вики-инструменты

Инструменты для страниц

Категории

Категории

Data Mining

Содержание

Определения

Задачи, решаемые Data Mining

Свойства обнаруживаемых знаний

Представление обнаруженных знаний

Соревнования в Data Mining

Категория