Data Mining — различия между версиями

(Новая страница: «Существует множество определений DataMining, которые друг друга дополняют. Вот некоторые из …»)
 
(Соревнования в Data Mining)
Строка 31: Строка 31:
 
== Соревнования в Data Mining ==
 
== Соревнования в Data Mining ==
 
http://www.kaggle.com
 
http://www.kaggle.com
 +
 
http://www.crowdanalytix.com
 
http://www.crowdanalytix.com
 +
 
https://www.innocentive.com
 
https://www.innocentive.com
 +
 
http://tunedit.org
 
http://tunedit.org
 +
 
http://kddcup2012.org
 
http://kddcup2012.org
  
 
[[Категория:Практики]]
 
[[Категория:Практики]]

Версия 11:28, 13 ноября 2015

Существует множество определений DataMining, которые друг друга дополняют. Вот некоторые из них: DataMining — это процесс обнаружения в базах данных нетривиальных и практически полезных закономерностей. (BaseGroup) DataMining — это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур(patters) с целью достижения преимуществ в бизнесе(SAS Institute) DataMining — это процесс, цель которого – обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс применение статистических и математических методов( GartnerGroup) DataMining — это исследование и обнаружение «машиной»(алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний ,которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком.(А.Баргесян «Технологии анализа данных») DataMining — это процесс обнаружения полезных знаний о бизнесе.(Н.М.Абдикеев «КБА»).

Свойства обнаруживаемых знаний

Знания должны быть новые, ранее неизвестные. Затраченные усилия на открытие знаний, которые уже известны пользователю, не окупаются. Поэтому ценность представляют именно новые, ранее неизвестные знания. Знания должны быть нетривиальны. Результаты анализа должны отражать неочевидные, неожиданные закономерности в данных, составляющие так называемые скрытые знания. Результаты, которые могли бы быть получены более простыми способами (например, визуальным просмотром), не оправдывают привлечение мощных методов DataMining. Знания должны быть практически полезны. Найденные знания должны быть применимы, в том числе и на новых данных, с достаточно высокой степенью достоверности. Полезность заключается в том, чтобы эти знания могли принести определенную выгоду при их применении. Знания должны быть доступны для понимания человеку. Найденные закономерности должны быть логически объяснимы, в противном случае существует вероятность, что они являются случайными. Кроме того, обнаруженные знания должны быть представлены в понятном для человека виде. В DataMining для представления полученных знаний служат модели. Виды моделей зависят от методов их создания. Наиболее распространенными являются: правила, деревья решений, кластеры и математические функции.

Задачи DataMining

Единого мнения относительно того, какие задачи следует относить к DataMining, нет. Большинство авторитетных источников перечисляют следующие (наиболее распространенные выделены жирным):

  • классификация,
  • кластеризация,
  • прогнозирование,
  • ассоциация,
  • визуализация,
  • анализ и обнаружение отклонений,
  • оценивание,
  • анализ связей,
  • подведение итогов.

Цель описания, которое следует ниже, - дать общее представление о задачах DataMining, сравнить некоторые из них, а также представить некоторые методы, с помощью которых эти задачи решаются.

Таким образом, задачи подразделяются по типам производимой информации, это наиболее общая классификация задач DataMining.

Соревнования в Data Mining

http://www.kaggle.com

http://www.crowdanalytix.com

https://www.innocentive.com

http://tunedit.org

http://kddcup2012.org