Data Munging — различия между версиями

(Новая страница: «'''Data Munging''' / '''Data Wrangling''' (манипуляция данными) - подготовка больших массивов данных для по…»)
 
Строка 1: Строка 1:
 
'''Data Munging''' / '''Data Wrangling''' (манипуляция данными) - подготовка больших массивов данных для последующего их анализа.
 
'''Data Munging''' / '''Data Wrangling''' (манипуляция данными) - подготовка больших массивов данных для последующего их анализа.
 +
 +
== Концепции ==
 +
* '''Dimensionality & Numerosity Reduction'''
 +
* '''Нормализация''' (англ. Normalization) — все значения приводятся к некоторому диапазону, например, [-1, -1] или [0, 1]. Для каждой пары объектов измеряется «расстояние» между ними — степень похожести. Существует множество метрик, вот лишь основные из них:
 +
** Евклидово расстояние
 +
** Квадрат евклидова расстояния
 +
** Расстояние городских кварталов (манхэттенское расстояние)
 +
** Расстояние Чебышева
 +
** Степенное расстояние
 +
* '''Очистка данных''' (англ. Data Scrubbing/Cleaning/Cleansing) — исправление данных путём выявления их дублирования, несогласованности (противоречивости) и ошибок ввода. В процессе очистки данных там, где это возможно, выполняется объединение записей из нескольких источников.
 +
* '''Handling Missing Values'''
 +
* '''Несмещённая оценка''' (англ. Unbiased Estimators) — точечная оценка, математическое ожидание которой равно оцениваемому параметру.
 +
* '''Binning Sparse Values'''
 +
* '''Feature Extraction'''
 +
* '''Шумопонижение''' (англ. Denoising) — процесс устранения шумов из полезного сигнала с целью повышения его субъективного качества, или для уменьшения уровня ошибок в каналах передачи и системах хранения цифровых данных. Методы шумоподавления концептуально очень похожи независимо от обрабатываемого сигнала, однако предварительное знание характеристик передаваемого сигнала может значительно повлиять на реализацию этих методов в зависимости от типа сигнала.
 +
* '''Семплирование''' (англ. Sampling) — обобщенное название различных методов манипуляции с начальным распределением случайной величины или выборкой этой случайной величины, которые позволяют улучшить точность статистического результата, полученного на основе применения этого начального распределения или выборки. Например, уменьшить дисперсию среднего значения какой-либо характеристики, вычисленного с помощью выборки.
 +
* '''Районированная выборка''' (англ. Stratified Sampling) — метод семплирования из генеральной совокупности, который позволяет улучшить точность статистических результатов при разбиении всего пространства событий на несколько областей-страт и независимой работе с этими стратами. Например, в каждой страте можно применять свою собственную выборку по значимости.
 +
* '''Метод главных компонент''' (англ. principal component analysis, PCA) — один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации.
 +
  
 
[[Категория:Практики]]
 
[[Категория:Практики]]

Версия 12:32, 23 мая 2016

Data Munging / Data Wrangling (манипуляция данными) - подготовка больших массивов данных для последующего их анализа.

Концепции

  • Dimensionality & Numerosity Reduction
  • Нормализация (англ. Normalization) — все значения приводятся к некоторому диапазону, например, [-1, -1] или [0, 1]. Для каждой пары объектов измеряется «расстояние» между ними — степень похожести. Существует множество метрик, вот лишь основные из них:
    • Евклидово расстояние
    • Квадрат евклидова расстояния
    • Расстояние городских кварталов (манхэттенское расстояние)
    • Расстояние Чебышева
    • Степенное расстояние
  • Очистка данных (англ. Data Scrubbing/Cleaning/Cleansing) — исправление данных путём выявления их дублирования, несогласованности (противоречивости) и ошибок ввода. В процессе очистки данных там, где это возможно, выполняется объединение записей из нескольких источников.
  • Handling Missing Values
  • Несмещённая оценка (англ. Unbiased Estimators) — точечная оценка, математическое ожидание которой равно оцениваемому параметру.
  • Binning Sparse Values
  • Feature Extraction
  • Шумопонижение (англ. Denoising) — процесс устранения шумов из полезного сигнала с целью повышения его субъективного качества, или для уменьшения уровня ошибок в каналах передачи и системах хранения цифровых данных. Методы шумоподавления концептуально очень похожи независимо от обрабатываемого сигнала, однако предварительное знание характеристик передаваемого сигнала может значительно повлиять на реализацию этих методов в зависимости от типа сигнала.
  • Семплирование (англ. Sampling) — обобщенное название различных методов манипуляции с начальным распределением случайной величины или выборкой этой случайной величины, которые позволяют улучшить точность статистического результата, полученного на основе применения этого начального распределения или выборки. Например, уменьшить дисперсию среднего значения какой-либо характеристики, вычисленного с помощью выборки.
  • Районированная выборка (англ. Stratified Sampling) — метод семплирования из генеральной совокупности, который позволяет улучшить точность статистических результатов при разбиении всего пространства событий на несколько областей-страт и независимой работе с этими стратами. Например, в каждой страте можно применять свою собственную выборку по значимости.
  • Метод главных компонент (англ. principal component analysis, PCA) — один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации.