Data Munging — различия между версиями
Admin (обсуждение | вклад) (Новая страница: «'''Data Munging''' / '''Data Wrangling''' (манипуляция данными) - подготовка больших массивов данных для по…») |
Admin (обсуждение | вклад) |
||
(не показаны 2 промежуточные версии этого же участника) | |||
Строка 1: | Строка 1: | ||
'''Data Munging''' / '''Data Wrangling''' (манипуляция данными) - подготовка больших массивов данных для последующего их анализа. | '''Data Munging''' / '''Data Wrangling''' (манипуляция данными) - подготовка больших массивов данных для последующего их анализа. | ||
+ | |||
+ | == Методы == | ||
+ | * '''Понижение размерности и множественности''' (англ. Dimensionality & Numerosity Reduction) | ||
+ | * '''Нормализация''' (англ. Normalization) — все значения приводятся к некоторому диапазону, например, [-1, -1] или [0, 1]. Для каждой пары объектов измеряется «расстояние» между ними — степень похожести. Существует множество метрик, вот лишь основные из них: | ||
+ | ** Евклидово расстояние | ||
+ | ** Квадрат евклидова расстояния | ||
+ | ** Расстояние городских кварталов (манхэттенское расстояние) | ||
+ | ** Расстояние Чебышева | ||
+ | ** Степенное расстояние | ||
+ | * '''Очистка данных''' (англ. Data Scrubbing/Cleaning/Cleansing) — исправление данных путём выявления их дублирования, несогласованности (противоречивости) и ошибок ввода. В процессе очистки данных там, где это возможно, выполняется объединение записей из нескольких источников. | ||
+ | * '''Восстановление пропусков данных''' (англ. Handling Missing Values) - большинство реальных данных имеют пропущенные значения (ошибки при записи, ошибки при измерениях, невозможность сбора). Далеко не все алгоритмы умеют работать с неполными данными. Существуют следующие методы восстановления пропусков данных: | ||
+ | ** Простейшие | ||
+ | *** Удаление объектов (либо признаков) с пропущенными значениями | ||
+ | *** Замена случайным значением | ||
+ | *** Замена специальным значением (индикатор пропущенного значения) | ||
+ | ** Простые | ||
+ | *** Замена средним значением признака | ||
+ | *** Замена медианой признака | ||
+ | *** Замена модой признака | ||
+ | *** Вычислить по каждому классу в отдельности | ||
+ | *** Размножить выборку всеми возможными значениями пропущенного признака | ||
+ | ** Продвинутые | ||
+ | *** Метод ближайших соседей | ||
+ | *** Наиболее точное соответствие (Closest fit) | ||
+ | *** [[Нейронная сеть]] | ||
+ | *** Метод k-средних | ||
+ | *** Метод нечетких k-средних (Fuzzy k-means) | ||
+ | *** EventCovering | ||
+ | *** Максимум правдоподобия и EM-алгоритм | ||
+ | *** SVM | ||
+ | * '''Несмещённая оценка''' (англ. Unbiased Estimators) — точечная оценка, математическое ожидание которой равно оцениваемому параметру. | ||
+ | * '''Биннинг разреженных значений''' (англ. Binning Sparse Values) - входной массив данных разбивается на заданное число диапазонов (групп) в соответствии с правилами разбиения. Полученные диапазоны далее используются в методах Data Mining как отдельные категории. | ||
+ | * '''Методы выделения признаков''' (анг. Feature Extraction) — выбор признаков, имеющих наиболее тесные взаимосвязи с целевой переменной. | ||
+ | ** Одномерный отбор признаков | ||
+ | ** Рекурсивное исключение признаков | ||
+ | ** Метод главных компонент | ||
+ | ** Отбор на основе важности признаков | ||
+ | * '''Шумопонижение''' (англ. Denoising) — процесс устранения шумов из полезного сигнала с целью повышения его субъективного качества, или для уменьшения уровня ошибок в каналах передачи и системах хранения цифровых данных. Методы шумоподавления концептуально очень похожи независимо от обрабатываемого сигнала, однако предварительное знание характеристик передаваемого сигнала может значительно повлиять на реализацию этих методов в зависимости от типа сигнала. | ||
+ | * '''Семплирование''' (англ. Sampling) — обобщенное название различных методов манипуляции с начальным распределением случайной величины или выборкой этой случайной величины, которые позволяют улучшить точность статистического результата, полученного на основе применения этого начального распределения или выборки. Например, уменьшить дисперсию среднего значения какой-либо характеристики, вычисленного с помощью выборки. | ||
+ | * '''Районированная выборка''' (англ. Stratified Sampling) — метод семплирования из генеральной совокупности, который позволяет улучшить точность статистических результатов при разбиении всего пространства событий на несколько областей-страт и независимой работе с этими стратами. Например, в каждой страте можно применять свою собственную выборку по значимости. | ||
+ | * '''Метод главных компонент''' (англ. principal component analysis, PCA) — один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации. | ||
+ | |||
+ | == Ссылки == | ||
+ | * [http://openrefine.org/ OpenRefine] | ||
+ | * [http://vis.stanford.edu/wrangler/ Data Wrangler] | ||
+ | * [https://github.com/Factual/drake Factual/drake · GitHub] | ||
+ | * [http://datacleaner.org/ The Premier Open Source Data Quality Solution] | ||
+ | * [http://www.winpure.com/article-datacleaningtool.html Data Cleaning Tool] | ||
+ | * [http://www.patnab.com/2015/10/14/5-data-cleansing-tools/ 5 Data Cleansing Tools] | ||
+ | |||
[[Категория:Практики]] | [[Категория:Практики]] |
Текущая версия на 17:27, 17 октября 2016
Data Munging / Data Wrangling (манипуляция данными) - подготовка больших массивов данных для последующего их анализа.
Методы
- Понижение размерности и множественности (англ. Dimensionality & Numerosity Reduction)
- Нормализация (англ. Normalization) — все значения приводятся к некоторому диапазону, например, [-1, -1] или [0, 1]. Для каждой пары объектов измеряется «расстояние» между ними — степень похожести. Существует множество метрик, вот лишь основные из них:
- Евклидово расстояние
- Квадрат евклидова расстояния
- Расстояние городских кварталов (манхэттенское расстояние)
- Расстояние Чебышева
- Степенное расстояние
- Очистка данных (англ. Data Scrubbing/Cleaning/Cleansing) — исправление данных путём выявления их дублирования, несогласованности (противоречивости) и ошибок ввода. В процессе очистки данных там, где это возможно, выполняется объединение записей из нескольких источников.
- Восстановление пропусков данных (англ. Handling Missing Values) - большинство реальных данных имеют пропущенные значения (ошибки при записи, ошибки при измерениях, невозможность сбора). Далеко не все алгоритмы умеют работать с неполными данными. Существуют следующие методы восстановления пропусков данных:
- Простейшие
- Удаление объектов (либо признаков) с пропущенными значениями
- Замена случайным значением
- Замена специальным значением (индикатор пропущенного значения)
- Простые
- Замена средним значением признака
- Замена медианой признака
- Замена модой признака
- Вычислить по каждому классу в отдельности
- Размножить выборку всеми возможными значениями пропущенного признака
- Продвинутые
- Метод ближайших соседей
- Наиболее точное соответствие (Closest fit)
- Нейронная сеть
- Метод k-средних
- Метод нечетких k-средних (Fuzzy k-means)
- EventCovering
- Максимум правдоподобия и EM-алгоритм
- SVM
- Простейшие
- Несмещённая оценка (англ. Unbiased Estimators) — точечная оценка, математическое ожидание которой равно оцениваемому параметру.
- Биннинг разреженных значений (англ. Binning Sparse Values) - входной массив данных разбивается на заданное число диапазонов (групп) в соответствии с правилами разбиения. Полученные диапазоны далее используются в методах Data Mining как отдельные категории.
- Методы выделения признаков (анг. Feature Extraction) — выбор признаков, имеющих наиболее тесные взаимосвязи с целевой переменной.
- Одномерный отбор признаков
- Рекурсивное исключение признаков
- Метод главных компонент
- Отбор на основе важности признаков
- Шумопонижение (англ. Denoising) — процесс устранения шумов из полезного сигнала с целью повышения его субъективного качества, или для уменьшения уровня ошибок в каналах передачи и системах хранения цифровых данных. Методы шумоподавления концептуально очень похожи независимо от обрабатываемого сигнала, однако предварительное знание характеристик передаваемого сигнала может значительно повлиять на реализацию этих методов в зависимости от типа сигнала.
- Семплирование (англ. Sampling) — обобщенное название различных методов манипуляции с начальным распределением случайной величины или выборкой этой случайной величины, которые позволяют улучшить точность статистического результата, полученного на основе применения этого начального распределения или выборки. Например, уменьшить дисперсию среднего значения какой-либо характеристики, вычисленного с помощью выборки.
- Районированная выборка (англ. Stratified Sampling) — метод семплирования из генеральной совокупности, который позволяет улучшить точность статистических результатов при разбиении всего пространства событий на несколько областей-страт и независимой работе с этими стратами. Например, в каждой страте можно применять свою собственную выборку по значимости.
- Метод главных компонент (англ. principal component analysis, PCA) — один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации.