Data Mining
Версия от 11:35, 16 декабря 2015; Admin (обсуждение | вклад)
Существует множество определений DataMining, которые друг друга дополняют. Вот некоторые из них:
- DataMining — это процесс обнаружения в базах данных нетривиальных и практически полезных закономерностей. (BaseGroup)
- DataMining — это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур(patters) с целью достижения преимуществ в бизнесе(SAS Institute)
- DataMining — это процесс, цель которого – обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс применение статистических и математических методов( GartnerGroup)
- DataMining — это исследование и обнаружение «машиной»(алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний ,которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком.(А.Баргесян «Технологии анализа данных»)
- DataMining — это процесс обнаружения полезных знаний о бизнесе.(Н.М.Абдикеев «КБА»).
Содержание
Свойства обнаруживаемых знаний
- Знания должны быть новые, ранее неизвестные. Затраченные усилия на открытие знаний, которые уже известны пользователю, не окупаются. Поэтому ценность представляют именно новые, ранее неизвестные знания.
- Знания должны быть нетривиальны. Результаты анализа должны отражать неочевидные, неожиданные закономерности в данных, составляющие так называемые скрытые знания. Результаты, которые могли бы быть получены более простыми способами (например, визуальным просмотром), не оправдывают привлечение мощных методов DataMining.
- Знания должны быть практически полезны. Найденные знания должны быть применимы, в том числе и на новых данных, с достаточно высокой степенью достоверности. Полезность заключается в том, чтобы эти знания могли принести определенную выгоду при их применении.
- Знания должны быть доступны для понимания человеку. Найденные закономерности должны быть логически объяснимы, в противном случае существует вероятность, что они являются случайными. Кроме того, обнаруженные знания должны быть представлены в понятном для человека виде.
Модели
В DataMining для представления полученных знаний служат модели. Виды моделей зависят от методов их создания.
Наиболее распространенными являются:
- правила,
- деревья решений,
- кластеры,
- математические функции.
Задачи Data Mining
Единого мнения относительно того, какие задачи следует относить к DataMining, нет. Большинство авторитетных источников перечисляют следующие (наиболее распространенные выделены жирным):
- классификация,
- кластеризация,
- прогнозирование,
- ассоциация,
- визуализация,
- анализ и обнаружение отклонений,
- оценивание,
- анализ связей,
- подведение итогов.
Цель описания, которое следует ниже, - дать общее представление о задачах DataMining, сравнить некоторые из них, а также представить некоторые методы, с помощью которых эти задачи решаются.
Таким образом, задачи подразделяются по типам производимой информации, это наиболее общая классификация задач DataMining.