Большие данные

Big data.png

Большие данные (англ. big data) в информационных технологиях — серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце 2000-х годов, альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence. В данную серию включают средства массово-параллельной обработки неопределённо структурированных данных, прежде всего, решениями категории NoSQL, алгоритмами MapReduce, программными каркасами и библиотеками проекта Hadoop.

Характеристики

В качестве определяющих характеристик для больших данных отмечают «три V»:

  1. объём (англ. volume, в смысле величины физического объёма),
  2. скорость (англ. velocity в смыслах как скорости прироста, так и необходимости высокоскоростной обработки и получения результатов),
  3. многообразие (англ. variety, в смысле возможности одновременной обработки различных типов структурированных и полуструктурированных данных).

Источники

В качестве примеров источников возникновения больших данных приводятся:

  • непрерывно поступающие данные с измерительных устройств,
  • события от радиочастотных идентификаторов,
  • потоки сообщений из социальных сетей,
  • метеорологические данные,
  • данные дистанционного зондирования Земли,
  • потоки данных о местонахождении абонентов сетей сотовой связи, устройств аудио- и видеорегистрации.
  • открытые данные

Ожидается, что развитие и начало широкого использования этих источников инициирует проникновение технологий больших данных как в научно-исследовательскую деятельность, так и в коммерческий сектор и сферу государственного управления.

Методы анализа

Методы и техники анализа, применимые к большим данным, выделенные в отчёте McKinsey:

  • методы класса Data Mining:
    • обучение ассоциативным правилам (англ. association rule learning),
    • классификация (методы категоризации новых данных на основе принципов, ранее применённых к уже наличествующим данным),
    • кластерный анализ,
    • регрессионный анализ;
  • краудсорсинг — категоризация и обогащение данных силами широкого, неопределённого круга лиц, привлечённых на основании публичной оферты, без вступления в трудовые отношения;
  • смешение и интеграция данных (англ. data fusion and integration) — набор техник, позволяющих интегрировать разнородные данные из разнообразных источников для возможности глубинного анализа, в качестве примеров таких техник, составляющих этот класс методов приводятся цифровая обработка сигналов и обработка естественного языка (включая тональный анализ);
  • машинное обучение, включая обучение с учителем и без учителя, а также Ensemble learning (англ.) — использование моделей, построенных на базе статистического анализа или машинного обучения для получения комплексных прогнозов на основе базовых моделей (англ. constituent models, ср. со статистическим ансамблем в статистической механике);
  • искусственные нейронные сети, сетевой анализ, оптимизация, в том числе генетические алгоритмы;
  • распознавание образов;
  • прогнозная аналитика;
  • имитационное моделирование;
  • пространственный анализ (англ. Spatial analysis) — класс методов, использующих топологическую, геометрическую и географическую информацию в данных;
  • статистический анализ, в качестве примеров методов приводятся A/B-тестирование и анализ временных рядов;
  • визуализация аналитических данных — представление информации в виде рисунков, диаграмм, с использованием интерактивных возможностей и анимации как для получения результатов, так и для использования в качестве исходных данных для дальнейшего анализа.

Технологии

Стандарты

  • ISO/IEC DIS 20546 -- Information technology -- Big data -- Overview and vocabulary
  • ISO/IEC TR 20547-2 -- Information technology -- Big data reference architecture -- Part 2: Use cases and derived requirements
  • ISO/IEC CD 20547-3 -- Information technology -- Big data reference architecture -- Part 3: Reference architecture
  • ISO/IEC PRF TR 20547-5 -- Information technology -- Big data reference architecture -- Part 5: Standards roadmap

Учебные программы

Бакалавриат

  • Бакалавриат «Анализ данных» МФТИ и «Яндекса». Есть бюджетные места. Обучение осуществляется на 3 и 4 курсах МФТИ. Поступить может студент Факультета инноваций и высоких технологий МФТИ, окончивший 2 курс и прошедший конкурсный отбор по среднему баллу обучения.
  • Технопарк Mail.ru Group и МГТУ им. Баумана. Бесплатно. Поступать могут студенты любых курсов и аспиранты без ограничения по кафедре или факультету. Набор проходит 2 раза в год, в феврале и в сентябре.

Магистратура

Офлайн-курсы

Онлайн-курсы

Ссылки

Блоги

Сообщества

Книги

Разное

Комментарии