Data Mining

Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пятецким-Шапиро в 1989 году.

Определения

Существует множество определений DataMining, которые друг друга дополняют. Вот некоторые из них:

  • DataMining — это процесс обнаружения в базах данных нетривиальных и практически полезных закономерностей. (BaseGroup).
  • DataMining — это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур (закономерности/паттерны/patterns) с целью достижения преимуществ в бизнесе (SAS Institute).
  • DataMining — это процесс, цель которого – обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс применение статистических и математических методов (GartnerGroup).
  • DataMining — это исследование и обнаружение «машиной» (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком (А.Баргесян «Технологии анализа данных»).
  • DataMining — это процесс обнаружения полезных знаний о бизнесе (Н.М.Абдикеев «КБА»).

Задачи, решаемые Data Mining

Единого мнения относительно того, какие задачи следует относить к DataMining, нет. Большинство авторитетных источников перечисляют следующие:

Задачи подразделяются по типам производимой информации, это наиболее общая классификация задач DataMining.

Свойства обнаруживаемых знаний

Знания должны быть:

  1. новые, ранее неизвестные. Затраченные усилия на открытие знаний, которые уже известны пользователю, не окупаются. Поэтому ценность представляют именно новые, ранее неизвестные знания.
  2. нетривиальны. Результаты анализа должны отражать неочевидные, неожиданные закономерности в данных, составляющие так называемые скрытые знания. Результаты, которые могли бы быть получены более простыми способами (например, визуальным просмотром), не оправдывают привлечение мощных методов DataMining.
  3. практически полезны. Найденные знания должны быть применимы, в том числе и на новых данных, с достаточно высокой степенью достоверности. Полезность заключается в том, чтобы эти знания могли принести определенную выгоду при их применении.
  4. доступны для интерпретации — то есть такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области. Найденные закономерности должны быть логически объяснимы, в противном случае существует вероятность, что они являются случайными.

Представление обнаруженных знаний

В DataMining для представления полученных знаний служат закономерности (паттерны). Виды паттернов зависят от методов их создания. Наиболее распространенными являются:

  • ассоциативные правила;
  • деревья решений;
  • кластеры;
  • математические функции.

Алгоритмы поиска таких закономерностей находятся на пересечении областей: Искусственный интеллект, Математическая статистика, Математическое программирование, Визуализация, OLAP.

Соревнования в Data Mining