Data Mining — различия между версиями
Admin (обсуждение | вклад) (→Задачи DataMining) |
Admin (обсуждение | вклад) |
||
Строка 1: | Строка 1: | ||
Существует множество определений DataMining, которые друг друга дополняют. Вот некоторые из них: | Существует множество определений DataMining, которые друг друга дополняют. Вот некоторые из них: | ||
− | '''DataMining''' — это процесс обнаружения в базах данных нетривиальных и практически полезных закономерностей. (BaseGroup) | + | * '''DataMining''' — это процесс обнаружения в базах данных нетривиальных и практически полезных закономерностей. (BaseGroup) |
− | '''DataMining''' — это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур(patters) с целью достижения преимуществ в бизнесе(SAS Institute) | + | * '''DataMining''' — это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур(patters) с целью достижения преимуществ в бизнесе(SAS Institute) |
− | '''DataMining''' — это процесс, цель которого – обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс применение статистических и математических методов( GartnerGroup) | + | * '''DataMining''' — это процесс, цель которого – обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс применение статистических и математических методов( GartnerGroup) |
− | '''DataMining''' — это исследование и обнаружение «машиной»(алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний ,которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком.(А.Баргесян «Технологии анализа данных») | + | * '''DataMining''' — это исследование и обнаружение «машиной»(алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний ,которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком.(А.Баргесян «Технологии анализа данных») |
− | '''DataMining''' — это процесс обнаружения полезных знаний о бизнесе.(Н.М.Абдикеев «КБА»). | + | * '''DataMining''' — это процесс обнаружения полезных знаний о бизнесе.(Н.М.Абдикеев «КБА»). |
+ | |||
== Свойства обнаруживаемых знаний == | == Свойства обнаруживаемых знаний == | ||
Строка 11: | Строка 12: | ||
#Знания должны быть практически полезны. Найденные знания должны быть применимы, в том числе и на новых данных, с достаточно высокой степенью достоверности. Полезность заключается в том, чтобы эти знания могли принести определенную выгоду при их применении. | #Знания должны быть практически полезны. Найденные знания должны быть применимы, в том числе и на новых данных, с достаточно высокой степенью достоверности. Полезность заключается в том, чтобы эти знания могли принести определенную выгоду при их применении. | ||
#Знания должны быть доступны для понимания человеку. Найденные закономерности должны быть логически объяснимы, в противном случае существует вероятность, что они являются случайными. Кроме того, обнаруженные знания должны быть представлены в понятном для человека виде. | #Знания должны быть доступны для понимания человеку. Найденные закономерности должны быть логически объяснимы, в противном случае существует вероятность, что они являются случайными. Кроме того, обнаруженные знания должны быть представлены в понятном для человека виде. | ||
+ | |||
== Модели == | == Модели == | ||
− | В DataMining для представления полученных знаний служат модели. Виды моделей зависят от методов их создания. | + | В DataMining для представления полученных знаний служат [[Модель|модели]]. Виды моделей зависят от методов их создания. |
Наиболее распространенными являются: | Наиболее распространенными являются: | ||
Строка 20: | Строка 22: | ||
* кластеры, | * кластеры, | ||
* математические функции. | * математические функции. | ||
+ | |||
== Задачи Data Mining == | == Задачи Data Mining == | ||
Строка 36: | Строка 39: | ||
Таким образом, задачи подразделяются по типам производимой информации, это наиболее общая классификация задач DataMining. | Таким образом, задачи подразделяются по типам производимой информации, это наиболее общая классификация задач DataMining. | ||
+ | |||
== Соревнования в Data Mining == | == Соревнования в Data Mining == |
Версия 11:35, 16 декабря 2015
Существует множество определений DataMining, которые друг друга дополняют. Вот некоторые из них:
- DataMining — это процесс обнаружения в базах данных нетривиальных и практически полезных закономерностей. (BaseGroup)
- DataMining — это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур(patters) с целью достижения преимуществ в бизнесе(SAS Institute)
- DataMining — это процесс, цель которого – обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс применение статистических и математических методов( GartnerGroup)
- DataMining — это исследование и обнаружение «машиной»(алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний ,которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком.(А.Баргесян «Технологии анализа данных»)
- DataMining — это процесс обнаружения полезных знаний о бизнесе.(Н.М.Абдикеев «КБА»).
Содержание
Свойства обнаруживаемых знаний
- Знания должны быть новые, ранее неизвестные. Затраченные усилия на открытие знаний, которые уже известны пользователю, не окупаются. Поэтому ценность представляют именно новые, ранее неизвестные знания.
- Знания должны быть нетривиальны. Результаты анализа должны отражать неочевидные, неожиданные закономерности в данных, составляющие так называемые скрытые знания. Результаты, которые могли бы быть получены более простыми способами (например, визуальным просмотром), не оправдывают привлечение мощных методов DataMining.
- Знания должны быть практически полезны. Найденные знания должны быть применимы, в том числе и на новых данных, с достаточно высокой степенью достоверности. Полезность заключается в том, чтобы эти знания могли принести определенную выгоду при их применении.
- Знания должны быть доступны для понимания человеку. Найденные закономерности должны быть логически объяснимы, в противном случае существует вероятность, что они являются случайными. Кроме того, обнаруженные знания должны быть представлены в понятном для человека виде.
Модели
В DataMining для представления полученных знаний служат модели. Виды моделей зависят от методов их создания.
Наиболее распространенными являются:
- правила,
- деревья решений,
- кластеры,
- математические функции.
Задачи Data Mining
Единого мнения относительно того, какие задачи следует относить к DataMining, нет. Большинство авторитетных источников перечисляют следующие (наиболее распространенные выделены жирным):
- классификация,
- кластеризация,
- прогнозирование,
- ассоциация,
- визуализация,
- анализ и обнаружение отклонений,
- оценивание,
- анализ связей,
- подведение итогов.
Цель описания, которое следует ниже, - дать общее представление о задачах DataMining, сравнить некоторые из них, а также представить некоторые методы, с помощью которых эти задачи решаются.
Таким образом, задачи подразделяются по типам производимой информации, это наиболее общая классификация задач DataMining.