Большие данные
Большие данные (англ. big data) в информационных технологиях — серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце 2000-х годов, альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence. В данную серию включают средства массово-параллельной обработки неопределённо структурированных данных, прежде всего, решениями категории NoSQL, алгоритмами MapReduce, программными каркасами и библиотеками проекта Hadoop.
Содержание
Характеристики
В качестве определяющих характеристик для больших данных отмечают «три V»:
- объём (англ. volume, в смысле величины физического объёма),
- скорость (англ. velocity в смыслах как скорости прироста, так и необходимости высокоскоростной обработки и получения результатов),
- многообразие (англ. variety, в смысле возможности одновременной обработки различных типов структурированных и полуструктурированных данных).
Источники
В качестве примеров источников возникновения больших данных приводятся:
- непрерывно поступающие данные с измерительных устройств,
- события от радиочастотных идентификаторов,
- потоки сообщений из социальных сетей,
- метеорологические данные,
- данные дистанционного зондирования Земли,
- потоки данных о местонахождении абонентов сетей сотовой связи, устройств аудио- и видеорегистрации.
- открытые данные
Ожидается, что развитие и начало широкого использования этих источников инициирует проникновение технологий больших данных как в научно-исследовательскую деятельность, так и в коммерческий сектор и сферу государственного управления.
Методы анализа
Методы и техники анализа, применимые к большим данным, выделенные в отчёте McKinsey:
- методы класса Data Mining:
- обучение ассоциативным правилам (англ. association rule learning),
- классификация (методы категоризации новых данных на основе принципов, ранее применённых к уже наличествующим данным),
- кластерный анализ,
- регрессионный анализ;
- краудсорсинг — категоризация и обогащение данных силами широкого, неопределённого круга лиц, привлечённых на основании публичной оферты, без вступления в трудовые отношения;
- смешение и интеграция данных (англ. data fusion and integration) — набор техник, позволяющих интегрировать разнородные данные из разнообразных источников для возможности глубинного анализа, в качестве примеров таких техник, составляющих этот класс методов приводятся цифровая обработка сигналов и обработка естественного языка (включая тональный анализ);
- машинное обучение, включая обучение с учителем и без учителя, а также Ensemble learning (англ.) — использование моделей, построенных на базе статистического анализа или машинного обучения для получения комплексных прогнозов на основе базовых моделей (англ. constituent models, ср. со статистическим ансамблем в статистической механике);
- искусственные нейронные сети, сетевой анализ, оптимизация, в том числе генетические алгоритмы;
- распознавание образов;
- прогнозная аналитика;
- имитационное моделирование;
- пространственный анализ (англ. Spatial analysis) — класс методов, использующих топологическую, геометрическую и географическую информацию в данных;
- статистический анализ, в качестве примеров методов приводятся A/B-тестирование и анализ временных рядов;
- визуализация аналитических данных — представление информации в виде рисунков, диаграмм, с использованием интерактивных возможностей и анимации как для получения результатов, так и для использования в качестве исходных данных для дальнейшего анализа.
Технологии
Стандарты
- ISO/IEC DIS 20546 -- Information technology -- Big data -- Overview and vocabulary
- ISO/IEC TR 20547-2 -- Information technology -- Big data reference architecture -- Part 2: Use cases and derived requirements
- ISO/IEC CD 20547-3 -- Information technology -- Big data reference architecture -- Part 3: Reference architecture
- ISO/IEC PRF TR 20547-5 -- Information technology -- Big data reference architecture -- Part 5: Standards roadmap
Учебные программы
Бакалавриат
- Бакалавриат «Анализ данных» МФТИ и «Яндекса». Есть бюджетные места. Обучение осуществляется на 3 и 4 курсах МФТИ. Поступить может студент Факультета инноваций и высоких технологий МФТИ, окончивший 2 курс и прошедший конкурсный отбор по среднему баллу обучения.
- Технопарк Mail.ru Group и МГТУ им. Баумана. Бесплатно. Поступать могут студенты любых курсов и аспиранты без ограничения по кафедре или факультету. Набор проходит 2 раза в год, в феврале и в сентябре.
Магистратура
- МГУ, Магистерская программа «Интеллектуальный анализ больших данных». Есть бюджетные места. Поступить может бакалавр или специалист (желательно по направлениям прикладной математики, информационных технологий и программирования).
- МГУ, магистерская программа «Большие данные: инфраструктуры и методы решения задач». Есть бюджетные места. Поступить может бакалавр или специалист (желательно по направлениям прикладной математики, информационных технологий и программирования).
- ВШЭ, Магистерская программа «Науки о данных». Есть бюджетные места. Поступление на программу возможно на общих основаниях (по результатам вступительных экзаменов) или по олимпиаде для студентов и выпускников вузов.
- ВШЭ, Магистерская программа «Интеллектуальный анализ данных». Есть бюджетные места. Поступление на программу возможно на общих основаниях (по результатам вступительных экзаменов) или по олимпиаде для студентов и выпускников вузов.
- ВШЭ, Магистерская программа «Системы больших данных». Есть бюджетные места. Обучение ведется на английском языке. Поступление на программу возможно на общих основаниях (по результатам вступительных экзаменов) или по олимпиаде для студентов и выпускников вузов.
- Магистратура «Анализ данных» МФТИ и «Яндекса». Есть бюджетные места. Поступить в магистратуру может любой студент, имеющий диплом бакалавра или специалиста и прошедший отбор в Школу анализа данных «Яндекса».
- ИТМО, Экстренные вычисления и обработка сверхбольших объемов данных. Платно. Обучение ведется на английском языке. Поступить может бакалавр или специалист (желательно по направлениям прикладной математики, информационных технологий и программирования), владеющий численными методами и технологиями программирования. Зачисление производится на конкурсной основе по результатам сдачи междисциплинарного экзамена.
- Магистратура «Яндекса» в СПБГУ. Есть бюджетные места. Поступить на кафедру может любой бакалавр или специалист, успешно прошедший собеседование и имеющий высокий средний балл диплома.
- Магистратура кафедры «Интеллектуальные системы» в МФТИ. Есть бюджетные места. Для участия в программе нужно одновременно поступить в магистратуру МФТИ и Школу анализа данных.
- «Компьютерная алгебра» от «Яндекса» и мехмата МГУ. Есть бюджетные места. Для обучения требуется одновременно поступить в ШАД и магистратуру.
Офлайн-курсы
- Школа анализа данных «Билайн» (платно)
- Школа анализа данных «Яндекса» (бесплатно)
Онлайн-курсы
- на английском (бесплатные)
- https://www.dataquest.io/
- https://www.datacamp.com/
- Введение в науку о данных от MIT
- Введение в науку о данных Вашингтонского университета
- Курс Гарвардского университета по data science
- 5 курсов по data mining от Иллинойского университета
- Введение в data science
- Визуализация данных и D3.js на Udacity
- Введение в Hadoop и MapReduce
- Пересечение данных MongoDB
- на английском (платные)
Ссылки
Блоги
- IBM Hub
- Fivethirtyeight
- Simply Statistics
- Edwin Chen
- Hunch
- Open Source Data Science Masters
- Datatau
- Data Science Weekly
- Исследования Уортонской школы бизнеса при Пенсильванском университете
- https://exposingtheinvisible.org/guides/decoding-data
Сообщества
- Российское сообщество MLClass.ru
- Хаб на Habrahabr
- Data Science на Quora
- Cross Validated
- Metaoptimize
- KDNuggets
Книги
- «Статистика для всех» Сары Бослаф
- «Большие данные» Виктора Майер-Шенбергера и Кеннета Кукьера
- «Просчитать будущее: Кто кликнет, купит, соврёт или умрёт» Эрика Сигеля