Большие данные — различия между версиями

(Новая страница: «'''Большие данные''' (англ. big data) в информационных технологиях — серия подходов, инструмен…»)
 
м (Ссылки)
 
(не показано 9 промежуточных версий этого же участника)
Строка 1: Строка 1:
 +
[[Файл:big_data.png|center]]
 +
 
'''Большие данные''' (англ. big data) в информационных технологиях — серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце 2000-х годов, альтернативных традиционным системам управления базами данных и решениям класса [[Business Intelligence]]. В данную серию включают средства массово-параллельной обработки неопределённо структурированных данных, прежде всего, решениями категории NoSQL, алгоритмами MapReduce, программными каркасами и библиотеками проекта Hadoop.
 
'''Большие данные''' (англ. big data) в информационных технологиях — серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце 2000-х годов, альтернативных традиционным системам управления базами данных и решениям класса [[Business Intelligence]]. В данную серию включают средства массово-параллельной обработки неопределённо структурированных данных, прежде всего, решениями категории NoSQL, алгоритмами MapReduce, программными каркасами и библиотеками проекта Hadoop.
  
Строка 15: Строка 17:
 
* данные дистанционного зондирования Земли,
 
* данные дистанционного зондирования Земли,
 
* потоки данных о местонахождении абонентов сетей сотовой связи, устройств аудио- и видеорегистрации.
 
* потоки данных о местонахождении абонентов сетей сотовой связи, устройств аудио- и видеорегистрации.
 +
* [[открытые данные]]
  
 
Ожидается, что развитие и начало широкого использования этих источников инициирует проникновение технологий больших данных как в научно-исследовательскую деятельность, так и в коммерческий сектор и сферу государственного управления.
 
Ожидается, что развитие и начало широкого использования этих источников инициирует проникновение технологий больших данных как в научно-исследовательскую деятельность, так и в коммерческий сектор и сферу государственного управления.
Строка 28: Строка 31:
 
* '''смешение и интеграция данных''' (англ. data fusion and integration) — набор техник, позволяющих интегрировать разнородные данные из разнообразных источников для возможности глубинного анализа, в качестве примеров таких техник, составляющих этот класс методов приводятся цифровая обработка сигналов и обработка естественного языка (включая тональный анализ);
 
* '''смешение и интеграция данных''' (англ. data fusion and integration) — набор техник, позволяющих интегрировать разнородные данные из разнообразных источников для возможности глубинного анализа, в качестве примеров таких техник, составляющих этот класс методов приводятся цифровая обработка сигналов и обработка естественного языка (включая тональный анализ);
 
* [[машинное обучение]], включая обучение с учителем и без учителя, а также Ensemble learning (англ.) — использование моделей, построенных на базе статистического анализа или машинного обучения для получения комплексных прогнозов на основе базовых моделей (англ. constituent models, ср. со статистическим ансамблем в статистической механике);
 
* [[машинное обучение]], включая обучение с учителем и без учителя, а также Ensemble learning (англ.) — использование моделей, построенных на базе статистического анализа или машинного обучения для получения комплексных прогнозов на основе базовых моделей (англ. constituent models, ср. со статистическим ансамблем в статистической механике);
* '''искусственные [[нейронные сети]]''', сетевой анализ, оптимизация, в том числе генетические алгоритмы;
+
* '''искусственные [[нейронные сети]]''', сетевой анализ, оптимизация, в том числе [[Эволюционные алгоритмы|генетические алгоритмы]];
 
* '''распознавание образов''';
 
* '''распознавание образов''';
 
* '''прогнозная аналитика''';
 
* '''прогнозная аналитика''';
* '''имитационное моделирование''';
+
* '''[[имитационное моделирование]]''';
 
* '''пространственный анализ''' (англ. Spatial analysis) — класс методов, использующих топологическую, геометрическую и географическую информацию в данных;
 
* '''пространственный анализ''' (англ. Spatial analysis) — класс методов, использующих топологическую, геометрическую и географическую информацию в данных;
 
* '''статистический анализ''', в качестве примеров методов приводятся A/B-тестирование и анализ временных рядов;
 
* '''статистический анализ''', в качестве примеров методов приводятся A/B-тестирование и анализ временных рядов;
Строка 41: Строка 44:
 
* [[Hadoop]]
 
* [[Hadoop]]
 
* [[R]]
 
* [[R]]
 +
* [[Julia]]
 +
 +
== Стандарты ==
 +
* ISO/IEC DIS 20546 -- Information technology -- Big data -- Overview and vocabulary
 +
* ISO/IEC TR 20547-2 -- Information technology -- Big data reference architecture -- Part 2: Use cases and derived requirements
 +
* ISO/IEC CD 20547-3 -- Information technology -- Big data reference architecture -- Part 3: Reference architecture
 +
* ISO/IEC PRF TR 20547-5 -- Information technology -- Big data reference architecture -- Part 5: Standards roadmap
 +
 +
== Учебные программы ==
 +
=== Бакалавриат ===
 +
* [https://mipt.ru/education/chairs/da/education/bachelor/ Бакалавриат «Анализ данных» МФТИ и «Яндекса»]. Есть бюджетные места. Обучение осуществляется на 3 и 4 курсах МФТИ. Поступить может студент Факультета инноваций и высоких технологий МФТИ, окончивший 2 курс и прошедший конкурсный отбор по среднему баллу обучения.
 +
* [https://park.mail.ru/pages/index/ Технопарк Mail.ru Group и МГТУ им. Баумана]. Бесплатно. Поступать могут студенты любых курсов и аспиранты без ограничения по кафедре или факультету. Набор проходит 2 раза в год, в феврале и в сентябре.
 +
=== Магистратура ===
 +
* [http://master.cmc.msu.ru/?q=node/2533 МГУ, Магистерская программа «Интеллектуальный анализ больших данных»]. Есть бюджетные места. Поступить может бакалавр или специалист (желательно по направлениям прикладной математики, информационных технологий и программирования).
 +
* [http://master.cmc.msu.ru/?q=node/2539 МГУ, магистерская программа «Большие данные: инфраструктуры и методы решения задач»]. Есть бюджетные места. Поступить может бакалавр или специалист (желательно по направлениям прикладной математики, информационных технологий и программирования).
 +
* [http://www.hse.ru/ma/datasci/about ВШЭ, Магистерская программа «Науки о данных»]. Есть бюджетные места. Поступление на программу возможно на общих основаниях (по результатам вступительных экзаменов) или по олимпиаде для студентов и выпускников вузов.
 +
* [http://nnov.hse.ru/ma/data/ ВШЭ, Магистерская программа «Интеллектуальный анализ данных»]. Есть бюджетные места. Поступление на программу возможно на общих основаниях (по результатам вступительных экзаменов) или по олимпиаде для студентов и выпускников вузов.
 +
* [http://www.hse.ru/ma/bigdata ВШЭ, Магистерская программа «Системы больших данных»]. Есть бюджетные места. Обучение ведется на английском языке. Поступление на программу возможно на общих основаниях (по результатам вступительных экзаменов) или по олимпиаде для студентов и выпускников вузов.
 +
* [https://mipt.ru/education/chairs/da/education/masters/ Магистратура «Анализ данных» МФТИ и «Яндекса»]. Есть бюджетные места. Поступить в магистратуру может любой студент, имеющий диплом бакалавра или специалиста и прошедший отбор в Школу анализа данных «Яндекса».
 +
* [http://www.masterstudies.ru/%D0%AD%D0%BA%D1%81%D1%82%D1%80%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5-%D0%B2%D1%8B%D1%87%D0%B8%D1%81%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F-%D0%B8-%D0%BE%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0-%D1%81%D0%B2%D0%B5%D1%80%D1%85%D0%B1%D0%BE%D0%BB%D1%8C%D1%88%D0%B8%D1%85-%D0%BE%D0%B1%D1%8A%D0%B5%D0%BC%D0%BE%D0%B2-%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85/Rossija/%D0%A3%D0%BD%D0%B8%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%82%D0%B5%D1%82-%D0%98%D0%A2%D0%9C%D0%9E/ ИТМО, Экстренные вычисления и обработка сверхбольших объемов данных]. Платно. Обучение ведется на английском языке. Поступить может бакалавр или специалист (желательно по направлениям прикладной математики, информационных технологий и программирования), владеющий численными методами и технологиями программирования. Зачисление производится на конкурсной основе по результатам сдачи междисциплинарного экзамена.
 +
* [https://blog.yandex.ru/post/72708/ Магистратура «Яндекса» в СПБГУ]. Есть бюджетные места. Поступить на кафедру может любой бакалавр или специалист, успешно прошедший собеседование и имеющий высокий средний балл диплома.
 +
* [http://www.machinelearning.ru/wiki/index.php?title=%D0%98%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82%D1%83%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5_%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D1%8B_%28%D0%BA%D0%B0%D1%84%D0%B5%D0%B4%D1%80%D0%B0_%D0%9C%D0%A4%D0%A2%D0%98%29/%D0%9E_%D0%BA%D0%B0%D1%84%D0%B5%D0%B4%D1%80%D0%B5 Магистратура кафедры «Интеллектуальные системы» в МФТИ]. Есть бюджетные места. Для участия в программе нужно одновременно поступить в магистратуру МФТИ и Школу анализа данных.
 +
* [http://master.math.msu.ru/magisterskie-programmy/magisterskaya-programma-kompyuternaya-algebra/ «Компьютерная алгебра» от «Яндекса» и мехмата МГУ]. Есть бюджетные места. Для обучения требуется одновременно поступить в ШАД и магистратуру.
 +
 +
=== Офлайн-курсы ===
 +
* [http://bigdata.beeline.digital/#about Школа анализа данных «Билайн»] (платно)
 +
* [https://yandexdataschool.ru/about Школа анализа данных «Яндекса»] (бесплатно)
 +
 +
=== Онлайн-курсы ===
 +
* на английском (бесплатные)
 +
** https://www.dataquest.io/
 +
** https://www.datacamp.com/
 +
** [https://www.edx.org/course/introduction-computational-thinking-data-mitx-6-00-2x-2#.VO4oufka8uk Введение в науку о данных от MIT]
 +
** [https://www.coursera.org/course/datasci Введение в науку о данных Вашингтонского университета]
 +
** [http://cs109.github.io/2014/index.html Курс Гарвардского университета по data science]
 +
** [https://ru.coursera.org/specialization/datamining/20 5 курсов по data mining от Иллинойского университета]
 +
** [https://www.udacity.com/course/intro-to-data-science--ud359 Введение в data science]
 +
** [https://www.udacity.com/course/data-visualization-and-d3js--ud507 Визуализация данных и D3.js на Udacity]
 +
** [https://www.udacity.com/course/intro-to-hadoop-and-mapreduce--ud617 Введение в Hadoop и MapReduce]
 +
** [https://www.udacity.com/course/data-wrangling-with-mongodb--ud032 Пересечение данных MongoDB]
 +
* на английском (платные)
 +
** [https://www.coursera.org/specialization/jhudatascience/1?utm_medium=courseDescripSidebar 9 курсов по data science от Университета Джонса Хопкинса]
 +
** [https://mitprofessionalx.mit.edu/ Месячный курс по big data от MIT]
 +
** [http://datascience.berkeley.edu/ Магистратура информации и науки о данных Калифорнийского университета в Беркли]
 +
** [https://www.udacity.com/course/data-analyst-nanodegree--nd002 Анализ данных — совместный проект Udacity и Facebook]
 +
 +
== Ссылки ==
 +
* [https://github.com/matyushkin/ds Обновляемая структурированная подборка бесплатных ресурсов по тематикам Data Science: курсы, книги, открытые данные, блоги и готовые решения]
 +
 +
=== Блоги ===
 +
* [http://www.ibmbigdatahub.com/ IBM Hub]
 +
* [http://fivethirtyeight.com/ Fivethirtyeight]
 +
* [http://simplystatistics.org/ Simply Statistics]
 +
* [http://blog.echen.me/ Edwin Chen]
 +
* [http://hunch.net/ Hunch]
 +
* [http://datasciencemasters.org/ Open Source Data Science Masters]
 +
* [http://www.datatau.com/ Datatau]
 +
* [http://www.datascienceweekly.org/ Data Science Weekly]
 +
* [http://wcai.wharton.upenn.edu/ Исследования Уортонской школы бизнеса при Пенсильванском университете]
 +
* https://exposingtheinvisible.org/guides/decoding-data
 +
 +
=== Сообщества ===
 +
* [http://mlclass.ru/ Российское сообщество MLClass.ru]
 +
* [http://habrahabr.ru/hub/bigdata/ Хаб на Habrahabr]
 +
* [http://www.quora.com/Data-Science Data Science на Quora]
 +
* [http://stats.stackexchange.com/ Cross Validated]
 +
* [http://metaoptimize.com/qa/ Metaoptimize]
 +
* [http://www.kdnuggets.com/ KDNuggets]
 +
 +
=== Книги ===
 +
* [http://www.ozon.ru/context/detail/id/28953564/ «Статистика для всех» Сары Бослаф]
 +
* [http://www.mann-ivanov-ferber.ru/books/paperbook/big-data/ «Большие данные» Виктора Майер-Шенбергера и Кеннета Кукьера]
 +
* [https://books.google.ru/books?id=sVk3BAAAQBAJ&pg=PA199&lpg=PA199&dq=%D0%A2%D0%BE%D0%BC+%D0%9C%D0%B8%D1%82%D1%87%D0%B5%D0%BB%D0%BB+%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5+%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5&source=bl&ots=YaOzwE9CgW&sig=RIvldhOjStkl04eBDOqdCtVY4XU&hl=ru&sa=X&ved=0CEUQ6AEwBmoVChMIvcCrt-rYxwIVByRyCh2M8QJB#v=onepage&q=%D0%A2%D0%BE%D0%BC%20%D0%9C%D0%B8%D1%82%D1%87%D0%B5%D0%BB%D0%BB%20%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5%20%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5&f=false «Просчитать будущее: Кто кликнет, купит, соврёт или умрёт» Эрика Сигеля]
 +
 +
=== Разное ===
 +
* [http://rusbase.com/list/7-podcasts/ Подкасты]
 +
* [https://www.kaggle.com/wiki/Home Вики]
  
[[Категория:Подходы]]
+
[[Категория:Концепции]]

Текущая версия на 19:30, 9 января 2022

Big data.png

Большие данные (англ. big data) в информационных технологиях — серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце 2000-х годов, альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence. В данную серию включают средства массово-параллельной обработки неопределённо структурированных данных, прежде всего, решениями категории NoSQL, алгоритмами MapReduce, программными каркасами и библиотеками проекта Hadoop.

Характеристики

В качестве определяющих характеристик для больших данных отмечают «три V»:

  1. объём (англ. volume, в смысле величины физического объёма),
  2. скорость (англ. velocity в смыслах как скорости прироста, так и необходимости высокоскоростной обработки и получения результатов),
  3. многообразие (англ. variety, в смысле возможности одновременной обработки различных типов структурированных и полуструктурированных данных).

Источники

В качестве примеров источников возникновения больших данных приводятся:

  • непрерывно поступающие данные с измерительных устройств,
  • события от радиочастотных идентификаторов,
  • потоки сообщений из социальных сетей,
  • метеорологические данные,
  • данные дистанционного зондирования Земли,
  • потоки данных о местонахождении абонентов сетей сотовой связи, устройств аудио- и видеорегистрации.
  • открытые данные

Ожидается, что развитие и начало широкого использования этих источников инициирует проникновение технологий больших данных как в научно-исследовательскую деятельность, так и в коммерческий сектор и сферу государственного управления.

Методы анализа

Методы и техники анализа, применимые к большим данным, выделенные в отчёте McKinsey:

  • методы класса Data Mining:
    • обучение ассоциативным правилам (англ. association rule learning),
    • классификация (методы категоризации новых данных на основе принципов, ранее применённых к уже наличествующим данным),
    • кластерный анализ,
    • регрессионный анализ;
  • краудсорсинг — категоризация и обогащение данных силами широкого, неопределённого круга лиц, привлечённых на основании публичной оферты, без вступления в трудовые отношения;
  • смешение и интеграция данных (англ. data fusion and integration) — набор техник, позволяющих интегрировать разнородные данные из разнообразных источников для возможности глубинного анализа, в качестве примеров таких техник, составляющих этот класс методов приводятся цифровая обработка сигналов и обработка естественного языка (включая тональный анализ);
  • машинное обучение, включая обучение с учителем и без учителя, а также Ensemble learning (англ.) — использование моделей, построенных на базе статистического анализа или машинного обучения для получения комплексных прогнозов на основе базовых моделей (англ. constituent models, ср. со статистическим ансамблем в статистической механике);
  • искусственные нейронные сети, сетевой анализ, оптимизация, в том числе генетические алгоритмы;
  • распознавание образов;
  • прогнозная аналитика;
  • имитационное моделирование;
  • пространственный анализ (англ. Spatial analysis) — класс методов, использующих топологическую, геометрическую и географическую информацию в данных;
  • статистический анализ, в качестве примеров методов приводятся A/B-тестирование и анализ временных рядов;
  • визуализация аналитических данных — представление информации в виде рисунков, диаграмм, с использованием интерактивных возможностей и анимации как для получения результатов, так и для использования в качестве исходных данных для дальнейшего анализа.

Технологии

Стандарты

  • ISO/IEC DIS 20546 -- Information technology -- Big data -- Overview and vocabulary
  • ISO/IEC TR 20547-2 -- Information technology -- Big data reference architecture -- Part 2: Use cases and derived requirements
  • ISO/IEC CD 20547-3 -- Information technology -- Big data reference architecture -- Part 3: Reference architecture
  • ISO/IEC PRF TR 20547-5 -- Information technology -- Big data reference architecture -- Part 5: Standards roadmap

Учебные программы

Бакалавриат

  • Бакалавриат «Анализ данных» МФТИ и «Яндекса». Есть бюджетные места. Обучение осуществляется на 3 и 4 курсах МФТИ. Поступить может студент Факультета инноваций и высоких технологий МФТИ, окончивший 2 курс и прошедший конкурсный отбор по среднему баллу обучения.
  • Технопарк Mail.ru Group и МГТУ им. Баумана. Бесплатно. Поступать могут студенты любых курсов и аспиранты без ограничения по кафедре или факультету. Набор проходит 2 раза в год, в феврале и в сентябре.

Магистратура

Офлайн-курсы

Онлайн-курсы

Ссылки

Блоги

Сообщества

Книги

Разное