Большие данные

Большие данные (англ. big data) в информационных технологиях — серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце 2000-х годов, альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence. В данную серию включают средства массово-параллельной обработки неопределённо структурированных данных, прежде всего, решениями категории NoSQL, алгоритмами MapReduce, программными каркасами и библиотеками проекта Hadoop.

Характеристики

В качестве определяющих характеристик для больших данных отмечают «три V»:

объём (англ. volume, в смысле величины физического объёма),
скорость (англ. velocity в смыслах как скорости прироста, так и необходимости высокоскоростной обработки и получения результатов),
многообразие (англ. variety, в смысле возможности одновременной обработки различных типов структурированных и полуструктурированных данных).

Источники

В качестве примеров источников возникновения больших данных приводятся:

непрерывно поступающие данные с измерительных устройств,
события от радиочастотных идентификаторов,
потоки сообщений из социальных сетей,
метеорологические данные,
данные дистанционного зондирования Земли,
потоки данных о местонахождении абонентов сетей сотовой связи, устройств аудио- и видеорегистрации.

Ожидается, что развитие и начало широкого использования этих источников инициирует проникновение технологий больших данных как в научно-исследовательскую деятельность, так и в коммерческий сектор и сферу государственного управления.

Методы анализа

Методы и техники анализа, применимые к большим данным, выделенные в отчёте McKinsey:

методы класса Data Mining:
- обучение ассоциативным правилам (англ. association rule learning),
- классификация (методы категоризации новых данных на основе принципов, ранее применённых к уже наличествующим данным),
- кластерный анализ,
- регрессионный анализ;
краудсорсинг — категоризация и обогащение данных силами широкого, неопределённого круга лиц, привлечённых на основании публичной оферты, без вступления в трудовые отношения;
смешение и интеграция данных (англ. data fusion and integration) — набор техник, позволяющих интегрировать разнородные данные из разнообразных источников для возможности глубинного анализа, в качестве примеров таких техник, составляющих этот класс методов приводятся цифровая обработка сигналов и обработка естественного языка (включая тональный анализ);
машинное обучение, включая обучение с учителем и без учителя, а также Ensemble learning (англ.) — использование моделей, построенных на базе статистического анализа или машинного обучения для получения комплексных прогнозов на основе базовых моделей (англ. constituent models, ср. со статистическим ансамблем в статистической механике);
искусственные нейронные сети, сетевой анализ, оптимизация, в том числе генетические алгоритмы;
распознавание образов;
прогнозная аналитика;
имитационное моделирование;
пространственный анализ (англ. Spatial analysis) — класс методов, использующих топологическую, геометрическую и географическую информацию в данных;
статистический анализ, в качестве примеров методов приводятся A/B-тестирование и анализ временных рядов;
визуализация аналитических данных — представление информации в виде рисунков, диаграмм, с использованием интерактивных возможностей и анимации как для получения результатов, так и для использования в качестве исходных данных для дальнейшего анализа.

Технологии

Аноним

Поиск

Навигация

Категории

Статьи

Ссылки

Вики-инструменты

Вики-инструменты

Большие данные

Пространства имён

Действия на странице

Содержание

Характеристики

Источники

Методы анализа

Технологии

Категория

Аноним

Поиск

Навигация

Вики-инструменты

Инструменты для страниц

Категории

Категории

Большие данные

Содержание

Характеристики

Источники

Методы анализа

Технологии

Категория