Data Munging — различия между версиями

Текущая версия на 17:27, 17 октября 2016

Data Munging / Data Wrangling (манипуляция данными) - подготовка больших массивов данных для последующего их анализа.

Методы

Понижение размерности и множественности (англ. Dimensionality & Numerosity Reduction)
Нормализация (англ. Normalization) — все значения приводятся к некоторому диапазону, например, [-1, -1] или [0, 1]. Для каждой пары объектов измеряется «расстояние» между ними — степень похожести. Существует множество метрик, вот лишь основные из них:
- Евклидово расстояние
- Квадрат евклидова расстояния
- Расстояние городских кварталов (манхэттенское расстояние)
- Расстояние Чебышева
- Степенное расстояние
Очистка данных (англ. Data Scrubbing/Cleaning/Cleansing) — исправление данных путём выявления их дублирования, несогласованности (противоречивости) и ошибок ввода. В процессе очистки данных там, где это возможно, выполняется объединение записей из нескольких источников.
Восстановление пропусков данных (англ. Handling Missing Values) - большинство реальных данных имеют пропущенные значения (ошибки при записи, ошибки при измерениях, невозможность сбора). Далеко не все алгоритмы умеют работать с неполными данными. Существуют следующие методы восстановления пропусков данных:
- Простейшие
  - Удаление объектов (либо признаков) с пропущенными значениями
  - Замена случайным значением
  - Замена специальным значением (индикатор пропущенного значения)
- Простые
  - Замена средним значением признака
  - Замена медианой признака
  - Замена модой признака
  - Вычислить по каждому классу в отдельности
  - Размножить выборку всеми возможными значениями пропущенного признака
- Продвинутые
  - Метод ближайших соседей
  - Наиболее точное соответствие (Closest fit)
  - Нейронная сеть
  - Метод k-средних
  - Метод нечетких k-средних (Fuzzy k-means)
  - EventCovering
  - Максимум правдоподобия и EM-алгоритм
  - SVM
Несмещённая оценка (англ. Unbiased Estimators) — точечная оценка, математическое ожидание которой равно оцениваемому параметру.
Биннинг разреженных значений (англ. Binning Sparse Values) - входной массив данных разбивается на заданное число диапазонов (групп) в соответствии с правилами разбиения. Полученные диапазоны далее используются в методах Data Mining как отдельные категории.
Методы выделения признаков (анг. Feature Extraction) — выбор признаков, имеющих наиболее тесные взаимосвязи с целевой переменной.
- Одномерный отбор признаков
- Рекурсивное исключение признаков
- Метод главных компонент
- Отбор на основе важности признаков
Шумопонижение (англ. Denoising) — процесс устранения шумов из полезного сигнала с целью повышения его субъективного качества, или для уменьшения уровня ошибок в каналах передачи и системах хранения цифровых данных. Методы шумоподавления концептуально очень похожи независимо от обрабатываемого сигнала, однако предварительное знание характеристик передаваемого сигнала может значительно повлиять на реализацию этих методов в зависимости от типа сигнала.
Семплирование (англ. Sampling) — обобщенное название различных методов манипуляции с начальным распределением случайной величины или выборкой этой случайной величины, которые позволяют улучшить точность статистического результата, полученного на основе применения этого начального распределения или выборки. Например, уменьшить дисперсию среднего значения какой-либо характеристики, вычисленного с помощью выборки.
Районированная выборка (англ. Stratified Sampling) — метод семплирования из генеральной совокупности, который позволяет улучшить точность статистических результатов при разбиении всего пространства событий на несколько областей-страт и независимой работе с этими стратами. Например, в каждой страте можно применять свою собственную выборку по значимости.
Метод главных компонент (англ. principal component analysis, PCA) — один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации.

Ссылки

@@ Строка 1: / Строка 1: @@
 '''Data Munging''' / '''Data Wrangling''' (манипуляция данными) - подготовка больших массивов данных для последующего их анализа.
+== Методы ==
+* '''Понижение размерности и множественности'''  (англ. Dimensionality & Numerosity Reduction)
+* '''Нормализация''' (англ. Normalization) — все значения приводятся к некоторому диапазону, например, [-1, -1] или [0, 1]. Для каждой пары объектов измеряется «расстояние» между ними — степень похожести. Существует множество метрик, вот лишь основные из них:
+** Евклидово расстояние
+** Квадрат евклидова расстояния
+** Расстояние городских кварталов (манхэттенское расстояние)
+** Расстояние Чебышева
+** Степенное расстояние
+* '''Очистка данных''' (англ. Data Scrubbing/Cleaning/Cleansing) — исправление данных путём выявления их дублирования, несогласованности (противоречивости) и ошибок ввода. В процессе очистки данных там, где это возможно, выполняется объединение записей из нескольких источников.
+* '''Восстановление пропусков данных''' (англ. Handling Missing Values) - большинство реальных данных имеют пропущенные значения (ошибки при записи, ошибки при измерениях, невозможность сбора). Далеко не все алгоритмы умеют работать с неполными данными. Существуют следующие методы восстановления пропусков данных:
+** Простейшие
+*** Удаление объектов (либо признаков) с пропущенными значениями
+*** Замена случайным значением
+*** Замена специальным значением (индикатор пропущенного значения)
+** Простые
+*** Замена средним значением признака
+*** Замена медианой признака
+*** Замена модой признака
+*** Вычислить по каждому классу в отдельности
+*** Размножить выборку всеми возможными значениями пропущенного признака
+** Продвинутые
+*** Метод ближайших соседей
+*** Наиболее точное соответствие (Closest fit)
+*** [[Нейронная сеть]]
+*** Метод k-средних
+*** Метод нечетких k-средних (Fuzzy k-means)
+*** EventCovering
+*** Максимум правдоподобия и EM-алгоритм
+*** SVM
+* '''Несмещённая оценка''' (англ. Unbiased Estimators) — точечная оценка, математическое ожидание которой равно оцениваемому параметру.
+* '''Биннинг разреженных значений''' (англ. Binning Sparse Values) - входной массив данных разбивается на заданное число диапазонов (групп) в соответствии с правилами разбиения. Полученные диапазоны далее используются в методах Data Mining как отдельные категории.
+* '''Методы выделения признаков''' (анг. Feature Extraction) — выбор признаков, имеющих наиболее тесные взаимосвязи с целевой переменной.
+** Одномерный отбор признаков
+** Рекурсивное исключение признаков
+** Метод главных компонент
+** Отбор на основе важности признаков
+* '''Шумопонижение''' (англ. Denoising) — процесс устранения шумов из полезного сигнала с целью повышения его субъективного качества, или для уменьшения уровня ошибок в каналах передачи и системах хранения цифровых данных. Методы шумоподавления концептуально очень похожи независимо от обрабатываемого сигнала, однако предварительное знание характеристик передаваемого сигнала может значительно повлиять на реализацию этих методов в зависимости от типа сигнала.
+* '''Семплирование''' (англ. Sampling) — обобщенное название различных методов манипуляции с начальным распределением случайной величины или выборкой этой случайной величины, которые позволяют улучшить точность статистического результата, полученного на основе применения этого начального распределения или выборки. Например, уменьшить дисперсию среднего значения какой-либо характеристики, вычисленного с помощью выборки.
+* '''Районированная выборка''' (англ. Stratified Sampling) — метод семплирования из генеральной совокупности, который позволяет улучшить точность статистических результатов при разбиении всего пространства событий на несколько областей-страт и независимой работе с этими стратами. Например, в каждой страте можно применять свою собственную выборку по значимости.
+* '''Метод главных компонент''' (англ. principal component analysis, PCA) — один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации.
+== Ссылки ==
+* [http://openrefine.org/ OpenRefine]
+* [http://vis.stanford.edu/wrangler/ Data Wrangler]
+* [https://github.com/Factual/drake Factual/drake · GitHub]
+* [http://datacleaner.org/ The Premier Open Source Data Quality Solution]
+* [http://www.winpure.com/article-datacleaningtool.html Data Cleaning Tool]
+* [http://www.patnab.com/2015/10/14/5-data-cleansing-tools/ 5 Data Cleansing Tools]
 [[Категория:Практики]]

Аноним

Поиск

Навигация

Категории

Статьи

Ссылки

Вики-инструменты

Вики-инструменты

Data Munging — различия между версиями

Пространства имён

Действия на странице

Текущая версия на 17:27, 17 октября 2016

Методы

Ссылки

Категория

Аноним

Поиск

Навигация

Вики-инструменты

Инструменты для страниц

Категории

Категории

Data Munging — различия между версиями

Текущая версия на 17:27, 17 октября 2016

Методы

Ссылки

Категория