Data Mining — различия между версиями

Текущая версия на 20:05, 11 июня 2022

Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пятецким-Шапиро в 1989 году.

Определения

Существует множество определений DataMining, которые друг друга дополняют. Вот некоторые из них:

DataMining — это процесс обнаружения в базах данных нетривиальных и практически полезных закономерностей. (BaseGroup).
DataMining — это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур (закономерности/паттерны/patterns) с целью достижения преимуществ в бизнесе (SAS Institute).
DataMining — это процесс, цель которого – обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс применение статистических и математических методов (GartnerGroup).
DataMining — это исследование и обнаружение «машиной» (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком (А.Баргесян «Технологии анализа данных»).
DataMining — это процесс обнаружения полезных знаний о бизнесе (Н.М.Абдикеев «КБА»).

Задачи, решаемые Data Mining

Единого мнения относительно того, какие задачи следует относить к DataMining, нет. Большинство авторитетных источников перечисляют следующие:

классификация,
кластеризация,
прогнозирование,
ассоциация,
визуализация,
анализ и обнаружение отклонений,
оценивание,
анализ связей,
подведение итогов.

Задачи подразделяются по типам производимой информации, это наиболее общая классификация задач DataMining.

Свойства обнаруживаемых знаний

Знания должны быть:

новые, ранее неизвестные. Затраченные усилия на открытие знаний, которые уже известны пользователю, не окупаются. Поэтому ценность представляют именно новые, ранее неизвестные знания.
нетривиальны. Результаты анализа должны отражать неочевидные, неожиданные закономерности в данных, составляющие так называемые скрытые знания. Результаты, которые могли бы быть получены более простыми способами (например, визуальным просмотром), не оправдывают привлечение мощных методов DataMining.
практически полезны. Найденные знания должны быть применимы, в том числе и на новых данных, с достаточно высокой степенью достоверности. Полезность заключается в том, чтобы эти знания могли принести определенную выгоду при их применении.
доступны для интерпретации — то есть такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области. Найденные закономерности должны быть логически объяснимы, в противном случае существует вероятность, что они являются случайными.

Представление обнаруженных знаний

В DataMining для представления полученных знаний служат закономерности (паттерны). Виды паттернов зависят от методов их создания. Наиболее распространенными являются:

ассоциативные правила;
деревья решений;
кластеры;
математические функции.

Алгоритмы поиска таких закономерностей находятся на пересечении областей: Искусственный интеллект, Математическая статистика, Математическое программирование, Визуализация, OLAP.

Соревнования в Data Mining

@@ Строка 1: / Строка 1: @@
+'''Data Mining''' (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пятецким-Шапиро в 1989 году.
+== Определения ==
 Существует множество определений DataMining, которые друг друга дополняют. Вот некоторые из них:
-'''DataMining''' — это процесс обнаружения в базах данных нетривиальных и практически полезных закономерностей. (BaseGroup)
+* '''DataMining''' — это процесс обнаружения в базах данных нетривиальных и практически полезных закономерностей. (BaseGroup).
-'''DataMining''' — это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных  до этого структур(patters) с целью достижения преимуществ в бизнесе(SAS Institute)
+* '''DataMining''' — это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур (закономерности/паттерны/patterns) с целью достижения преимуществ в бизнесе (SAS Institute).
-'''DataMining''' — это процесс, цель которого – обнаружить новые значимые корреляции, образцы  и тенденции в результате просеивания большого объема хранимых данных с использованием  методик распознавания образцов плюс применение статистических и математических методов( GartnerGroup)
+* '''DataMining''' — это процесс, цель которого – обнаружить новые значимые корреляции, образцы  и тенденции в результате просеивания большого объема хранимых данных с использованием  методик распознавания образцов плюс применение статистических и математических методов (GartnerGroup).
-'''DataMining''' — это исследование и обнаружение «машиной»(алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний ,которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком.(А.Баргесян «Технологии анализа данных»)
+* '''DataMining''' — это исследование и обнаружение «машиной» (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком (А.Баргесян «Технологии анализа данных»).
-'''DataMining''' — это процесс обнаружения полезных знаний о бизнесе.(Н.М.Абдикеев «КБА»).
+* '''DataMining''' — это процесс обнаружения полезных знаний о бизнесе (Н.М.Абдикеев «КБА»).
-== Свойства обнаруживаемых знаний ==
+== Задачи, решаемые Data Mining ==
-Знания должны быть новые, ранее неизвестные. Затраченные усилия на открытие знаний, которые уже известны пользователю, не окупаются. Поэтому ценность представляют именно новые, ранее неизвестные знания.
+Единого мнения относительно того, какие задачи следует относить к DataMining, нет. Большинство авторитетных источников перечисляют следующие:
-Знания должны быть нетривиальны. Результаты анализа должны отражать неочевидные, неожиданные закономерности в данных, составляющие так называемые скрытые знания. Результаты, которые могли бы быть получены более простыми способами (например, визуальным просмотром), не оправдывают привлечение мощных методов DataMining.
+* [[Класс|классификация]],
-Знания должны быть практически полезны. Найденные знания должны быть применимы, в том числе и на новых данных, с достаточно высокой степенью достоверности. Полезность заключается в том, чтобы эти знания могли принести определенную выгоду при их применении.
+* [[кластеризация]],
-Знания должны быть доступны для понимания человеку. Найденные закономерности должны быть логически объяснимы, в противном случае существует вероятность, что они являются случайными. Кроме того, обнаруженные знания должны быть представлены в понятном для человека виде.
+* [[прогнозирование]],
-В DataMining для представления полученных знаний служат модели. Виды моделей зависят от методов их создания. Наиболее распространенными являются: правила, деревья решений, кластеры и математические функции.
-== Задачи DataMining ==
-Единого мнения относительно того, какие задачи следует относить к DataMining, нет. Большинство авторитетных источников перечисляют следующие (наиболее распространенные выделены жирным):
-* классификация,
-* кластеризация,
-* прогнозирование,
 * ассоциация,
 * визуализация,
@@ Строка 25: / Строка 21: @@
 * подведение итогов.
-Цель описания, которое следует ниже, - дать общее представление о задачах DataMining, сравнить некоторые из них, а также представить некоторые методы, с помощью которых эти задачи решаются.
+Задачи подразделяются по типам производимой информации, это наиболее общая классификация задач DataMining.
+== Свойства обнаруживаемых знаний ==
+Знания должны быть:
+# '''новые''', ранее неизвестные. Затраченные усилия на открытие знаний, которые уже известны пользователю, не окупаются. Поэтому ценность представляют именно новые, ранее неизвестные знания.
+# '''нетривиальны'''. Результаты анализа должны отражать неочевидные, неожиданные закономерности в данных, составляющие так называемые скрытые знания. Результаты, которые могли бы быть получены более простыми способами (например, визуальным просмотром), не оправдывают привлечение мощных методов DataMining.
+# '''практически полезны'''. Найденные знания должны быть применимы, в том числе и на новых данных, с достаточно высокой степенью достоверности. Полезность заключается в том, чтобы эти знания могли принести определенную выгоду при их применении.
+# '''доступны для интерпретации''' — то есть такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области. Найденные закономерности должны быть логически объяснимы, в противном случае существует вероятность, что они являются случайными.
-Таким образом, задачи подразделяются по типам производимой информации, это наиболее общая классификация задач DataMining.
+== Представление обнаруженных знаний ==
+В DataMining для представления полученных знаний служат закономерности (паттерны). Виды паттернов зависят от методов их создания. Наиболее распространенными являются:
+* ассоциативные правила;
+* деревья решений;
+* кластеры;
+* математические функции.
+Алгоритмы поиска таких закономерностей находятся на пересечении областей: [[Искусственный интеллект]], Математическая статистика, Математическое программирование, Визуализация, [[OLAP]].
 == Соревнования в Data Mining ==

Аноним

Поиск

Навигация

Категории

Статьи

Ссылки

Вики-инструменты

Вики-инструменты

Data Mining — различия между версиями

Пространства имён

Действия на странице

Текущая версия на 20:05, 11 июня 2022

Содержание

Определения

Задачи, решаемые Data Mining

Свойства обнаруживаемых знаний

Представление обнаруженных знаний

Соревнования в Data Mining

Категория

Аноним

Поиск

Навигация

Вики-инструменты

Инструменты для страниц

Категории

Категории

Data Mining — различия между версиями

Текущая версия на 20:05, 11 июня 2022

Содержание

Определения

Задачи, решаемые Data Mining

Свойства обнаруживаемых знаний

Представление обнаруженных знаний

Соревнования в Data Mining

Категория