Data Mining
Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пятецким-Шапиро в 1989 году.
Содержание
Определения
Существует множество определений DataMining, которые друг друга дополняют. Вот некоторые из них:
- DataMining — это процесс обнаружения в базах данных нетривиальных и практически полезных закономерностей. (BaseGroup).
- DataMining — это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур (закономерности/паттерны/patterns) с целью достижения преимуществ в бизнесе (SAS Institute).
- DataMining — это процесс, цель которого – обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс применение статистических и математических методов (GartnerGroup).
- DataMining — это исследование и обнаружение «машиной» (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком (А.Баргесян «Технологии анализа данных»).
- DataMining — это процесс обнаружения полезных знаний о бизнесе (Н.М.Абдикеев «КБА»).
Задачи, решаемые Data Mining
Единого мнения относительно того, какие задачи следует относить к DataMining, нет. Большинство авторитетных источников перечисляют следующие:
- классификация,
- кластеризация,
- прогнозирование,
- ассоциация,
- визуализация,
- анализ и обнаружение отклонений,
- оценивание,
- анализ связей,
- подведение итогов.
Задачи подразделяются по типам производимой информации, это наиболее общая классификация задач DataMining.
Свойства обнаруживаемых знаний
Знания должны быть:
- новые, ранее неизвестные. Затраченные усилия на открытие знаний, которые уже известны пользователю, не окупаются. Поэтому ценность представляют именно новые, ранее неизвестные знания.
- нетривиальны. Результаты анализа должны отражать неочевидные, неожиданные закономерности в данных, составляющие так называемые скрытые знания. Результаты, которые могли бы быть получены более простыми способами (например, визуальным просмотром), не оправдывают привлечение мощных методов DataMining.
- практически полезны. Найденные знания должны быть применимы, в том числе и на новых данных, с достаточно высокой степенью достоверности. Полезность заключается в том, чтобы эти знания могли принести определенную выгоду при их применении.
- доступны для интерпретации — то есть такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области. Найденные закономерности должны быть логически объяснимы, в противном случае существует вероятность, что они являются случайными.
Представление обнаруженных знаний
В DataMining для представления полученных знаний служат закономерности (паттерны). Виды паттернов зависят от методов их создания. Наиболее распространенными являются:
- ассоциативные правила;
- деревья решений;
- кластеры;
- математические функции.
Алгоритмы поиска таких закономерностей находятся на пересечении областей: Искусственный интеллект, Математическая статистика, Математическое программирование, Визуализация, OLAP.