Data Mining — различия между версиями
Admin (обсуждение | вклад) (→Соревнования в Data Mining) |
Admin (обсуждение | вклад) м (→Задачи, решаемые Data Mining) |
||
(не показано 8 промежуточных версий этого же участника) | |||
Строка 1: | Строка 1: | ||
+ | '''Data Mining''' (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пятецким-Шапиро в 1989 году. | ||
+ | |||
+ | == Определения == | ||
Существует множество определений DataMining, которые друг друга дополняют. Вот некоторые из них: | Существует множество определений DataMining, которые друг друга дополняют. Вот некоторые из них: | ||
− | '''DataMining''' — это процесс обнаружения в базах данных нетривиальных и практически полезных закономерностей. (BaseGroup) | + | * '''DataMining''' — это процесс обнаружения в базах данных нетривиальных и практически полезных закономерностей. (BaseGroup). |
− | '''DataMining''' — это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных | + | * '''DataMining''' — это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур (закономерности/паттерны/patterns) с целью достижения преимуществ в бизнесе (SAS Institute). |
− | '''DataMining''' — это процесс, цель которого – обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс применение статистических и математических методов( GartnerGroup) | + | * '''DataMining''' — это процесс, цель которого – обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс применение статистических и математических методов (GartnerGroup). |
− | '''DataMining''' — это исследование и обнаружение «машиной»(алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний ,которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком | + | * '''DataMining''' — это исследование и обнаружение «машиной» (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком (А.Баргесян «Технологии анализа данных»). |
− | '''DataMining''' — это процесс обнаружения полезных знаний о бизнесе | + | * '''DataMining''' — это процесс обнаружения полезных знаний о бизнесе (Н.М.Абдикеев «КБА»). |
− | == | + | == Задачи, решаемые Data Mining == |
− | + | Единого мнения относительно того, какие задачи следует относить к DataMining, нет. Большинство авторитетных источников перечисляют следующие: | |
− | + | * [[Класс|классификация]], | |
− | + | * [[кластеризация]], | |
− | + | * [[прогнозирование]], | |
− | + | ||
− | + | ||
− | + | ||
− | Единого мнения относительно того, какие задачи следует относить к DataMining, нет. Большинство авторитетных источников перечисляют следующие | + | |
− | * классификация, | + | |
− | * кластеризация, | + | |
− | * прогнозирование, | + | |
* ассоциация, | * ассоциация, | ||
* визуализация, | * визуализация, | ||
Строка 25: | Строка 21: | ||
* подведение итогов. | * подведение итогов. | ||
− | + | Задачи подразделяются по типам производимой информации, это наиболее общая классификация задач DataMining. | |
+ | |||
+ | == Свойства обнаруживаемых знаний == | ||
+ | Знания должны быть: | ||
+ | # '''новые''', ранее неизвестные. Затраченные усилия на открытие знаний, которые уже известны пользователю, не окупаются. Поэтому ценность представляют именно новые, ранее неизвестные знания. | ||
+ | # '''нетривиальны'''. Результаты анализа должны отражать неочевидные, неожиданные закономерности в данных, составляющие так называемые скрытые знания. Результаты, которые могли бы быть получены более простыми способами (например, визуальным просмотром), не оправдывают привлечение мощных методов DataMining. | ||
+ | # '''практически полезны'''. Найденные знания должны быть применимы, в том числе и на новых данных, с достаточно высокой степенью достоверности. Полезность заключается в том, чтобы эти знания могли принести определенную выгоду при их применении. | ||
+ | # '''доступны для интерпретации''' — то есть такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области. Найденные закономерности должны быть логически объяснимы, в противном случае существует вероятность, что они являются случайными. | ||
− | + | == Представление обнаруженных знаний == | |
+ | В DataMining для представления полученных знаний служат закономерности (паттерны). Виды паттернов зависят от методов их создания. Наиболее распространенными являются: | ||
+ | * ассоциативные правила; | ||
+ | * деревья решений; | ||
+ | * кластеры; | ||
+ | * математические функции. | ||
+ | Алгоритмы поиска таких закономерностей находятся на пересечении областей: [[Искусственный интеллект]], Математическая статистика, Математическое программирование, Визуализация, [[OLAP]]. | ||
== Соревнования в Data Mining == | == Соревнования в Data Mining == |
Текущая версия на 20:05, 11 июня 2022
Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пятецким-Шапиро в 1989 году.
Содержание
Определения
Существует множество определений DataMining, которые друг друга дополняют. Вот некоторые из них:
- DataMining — это процесс обнаружения в базах данных нетривиальных и практически полезных закономерностей. (BaseGroup).
- DataMining — это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур (закономерности/паттерны/patterns) с целью достижения преимуществ в бизнесе (SAS Institute).
- DataMining — это процесс, цель которого – обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс применение статистических и математических методов (GartnerGroup).
- DataMining — это исследование и обнаружение «машиной» (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком (А.Баргесян «Технологии анализа данных»).
- DataMining — это процесс обнаружения полезных знаний о бизнесе (Н.М.Абдикеев «КБА»).
Задачи, решаемые Data Mining
Единого мнения относительно того, какие задачи следует относить к DataMining, нет. Большинство авторитетных источников перечисляют следующие:
- классификация,
- кластеризация,
- прогнозирование,
- ассоциация,
- визуализация,
- анализ и обнаружение отклонений,
- оценивание,
- анализ связей,
- подведение итогов.
Задачи подразделяются по типам производимой информации, это наиболее общая классификация задач DataMining.
Свойства обнаруживаемых знаний
Знания должны быть:
- новые, ранее неизвестные. Затраченные усилия на открытие знаний, которые уже известны пользователю, не окупаются. Поэтому ценность представляют именно новые, ранее неизвестные знания.
- нетривиальны. Результаты анализа должны отражать неочевидные, неожиданные закономерности в данных, составляющие так называемые скрытые знания. Результаты, которые могли бы быть получены более простыми способами (например, визуальным просмотром), не оправдывают привлечение мощных методов DataMining.
- практически полезны. Найденные знания должны быть применимы, в том числе и на новых данных, с достаточно высокой степенью достоверности. Полезность заключается в том, чтобы эти знания могли принести определенную выгоду при их применении.
- доступны для интерпретации — то есть такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области. Найденные закономерности должны быть логически объяснимы, в противном случае существует вероятность, что они являются случайными.
Представление обнаруженных знаний
В DataMining для представления полученных знаний служат закономерности (паттерны). Виды паттернов зависят от методов их создания. Наиболее распространенными являются:
- ассоциативные правила;
- деревья решений;
- кластеры;
- математические функции.
Алгоритмы поиска таких закономерностей находятся на пересечении областей: Искусственный интеллект, Математическая статистика, Математическое программирование, Визуализация, OLAP.