Большие данные — различия между версиями
Admin (обсуждение | вклад) (→Технологии) |
Admin (обсуждение | вклад) м (→Ссылки) |
||
(не показано 6 промежуточных версий этого же участника) | |||
Строка 17: | Строка 17: | ||
* данные дистанционного зондирования Земли, | * данные дистанционного зондирования Земли, | ||
* потоки данных о местонахождении абонентов сетей сотовой связи, устройств аудио- и видеорегистрации. | * потоки данных о местонахождении абонентов сетей сотовой связи, устройств аудио- и видеорегистрации. | ||
+ | * [[открытые данные]] | ||
Ожидается, что развитие и начало широкого использования этих источников инициирует проникновение технологий больших данных как в научно-исследовательскую деятельность, так и в коммерческий сектор и сферу государственного управления. | Ожидается, что развитие и начало широкого использования этих источников инициирует проникновение технологий больших данных как в научно-исследовательскую деятельность, так и в коммерческий сектор и сферу государственного управления. | ||
Строка 30: | Строка 31: | ||
* '''смешение и интеграция данных''' (англ. data fusion and integration) — набор техник, позволяющих интегрировать разнородные данные из разнообразных источников для возможности глубинного анализа, в качестве примеров таких техник, составляющих этот класс методов приводятся цифровая обработка сигналов и обработка естественного языка (включая тональный анализ); | * '''смешение и интеграция данных''' (англ. data fusion and integration) — набор техник, позволяющих интегрировать разнородные данные из разнообразных источников для возможности глубинного анализа, в качестве примеров таких техник, составляющих этот класс методов приводятся цифровая обработка сигналов и обработка естественного языка (включая тональный анализ); | ||
* [[машинное обучение]], включая обучение с учителем и без учителя, а также Ensemble learning (англ.) — использование моделей, построенных на базе статистического анализа или машинного обучения для получения комплексных прогнозов на основе базовых моделей (англ. constituent models, ср. со статистическим ансамблем в статистической механике); | * [[машинное обучение]], включая обучение с учителем и без учителя, а также Ensemble learning (англ.) — использование моделей, построенных на базе статистического анализа или машинного обучения для получения комплексных прогнозов на основе базовых моделей (англ. constituent models, ср. со статистическим ансамблем в статистической механике); | ||
− | * '''искусственные [[нейронные сети]]''', сетевой анализ, оптимизация, в том числе генетические алгоритмы; | + | * '''искусственные [[нейронные сети]]''', сетевой анализ, оптимизация, в том числе [[Эволюционные алгоритмы|генетические алгоритмы]]; |
* '''распознавание образов'''; | * '''распознавание образов'''; | ||
* '''прогнозная аналитика'''; | * '''прогнозная аналитика'''; | ||
Строка 45: | Строка 46: | ||
* [[Julia]] | * [[Julia]] | ||
− | [[Категория: | + | == Стандарты == |
+ | * ISO/IEC DIS 20546 -- Information technology -- Big data -- Overview and vocabulary | ||
+ | * ISO/IEC TR 20547-2 -- Information technology -- Big data reference architecture -- Part 2: Use cases and derived requirements | ||
+ | * ISO/IEC CD 20547-3 -- Information technology -- Big data reference architecture -- Part 3: Reference architecture | ||
+ | * ISO/IEC PRF TR 20547-5 -- Information technology -- Big data reference architecture -- Part 5: Standards roadmap | ||
+ | |||
+ | == Учебные программы == | ||
+ | === Бакалавриат === | ||
+ | * [https://mipt.ru/education/chairs/da/education/bachelor/ Бакалавриат «Анализ данных» МФТИ и «Яндекса»]. Есть бюджетные места. Обучение осуществляется на 3 и 4 курсах МФТИ. Поступить может студент Факультета инноваций и высоких технологий МФТИ, окончивший 2 курс и прошедший конкурсный отбор по среднему баллу обучения. | ||
+ | * [https://park.mail.ru/pages/index/ Технопарк Mail.ru Group и МГТУ им. Баумана]. Бесплатно. Поступать могут студенты любых курсов и аспиранты без ограничения по кафедре или факультету. Набор проходит 2 раза в год, в феврале и в сентябре. | ||
+ | === Магистратура === | ||
+ | * [http://master.cmc.msu.ru/?q=node/2533 МГУ, Магистерская программа «Интеллектуальный анализ больших данных»]. Есть бюджетные места. Поступить может бакалавр или специалист (желательно по направлениям прикладной математики, информационных технологий и программирования). | ||
+ | * [http://master.cmc.msu.ru/?q=node/2539 МГУ, магистерская программа «Большие данные: инфраструктуры и методы решения задач»]. Есть бюджетные места. Поступить может бакалавр или специалист (желательно по направлениям прикладной математики, информационных технологий и программирования). | ||
+ | * [http://www.hse.ru/ma/datasci/about ВШЭ, Магистерская программа «Науки о данных»]. Есть бюджетные места. Поступление на программу возможно на общих основаниях (по результатам вступительных экзаменов) или по олимпиаде для студентов и выпускников вузов. | ||
+ | * [http://nnov.hse.ru/ma/data/ ВШЭ, Магистерская программа «Интеллектуальный анализ данных»]. Есть бюджетные места. Поступление на программу возможно на общих основаниях (по результатам вступительных экзаменов) или по олимпиаде для студентов и выпускников вузов. | ||
+ | * [http://www.hse.ru/ma/bigdata ВШЭ, Магистерская программа «Системы больших данных»]. Есть бюджетные места. Обучение ведется на английском языке. Поступление на программу возможно на общих основаниях (по результатам вступительных экзаменов) или по олимпиаде для студентов и выпускников вузов. | ||
+ | * [https://mipt.ru/education/chairs/da/education/masters/ Магистратура «Анализ данных» МФТИ и «Яндекса»]. Есть бюджетные места. Поступить в магистратуру может любой студент, имеющий диплом бакалавра или специалиста и прошедший отбор в Школу анализа данных «Яндекса». | ||
+ | * [http://www.masterstudies.ru/%D0%AD%D0%BA%D1%81%D1%82%D1%80%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5-%D0%B2%D1%8B%D1%87%D0%B8%D1%81%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F-%D0%B8-%D0%BE%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0-%D1%81%D0%B2%D0%B5%D1%80%D1%85%D0%B1%D0%BE%D0%BB%D1%8C%D1%88%D0%B8%D1%85-%D0%BE%D0%B1%D1%8A%D0%B5%D0%BC%D0%BE%D0%B2-%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85/Rossija/%D0%A3%D0%BD%D0%B8%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%82%D0%B5%D1%82-%D0%98%D0%A2%D0%9C%D0%9E/ ИТМО, Экстренные вычисления и обработка сверхбольших объемов данных]. Платно. Обучение ведется на английском языке. Поступить может бакалавр или специалист (желательно по направлениям прикладной математики, информационных технологий и программирования), владеющий численными методами и технологиями программирования. Зачисление производится на конкурсной основе по результатам сдачи междисциплинарного экзамена. | ||
+ | * [https://blog.yandex.ru/post/72708/ Магистратура «Яндекса» в СПБГУ]. Есть бюджетные места. Поступить на кафедру может любой бакалавр или специалист, успешно прошедший собеседование и имеющий высокий средний балл диплома. | ||
+ | * [http://www.machinelearning.ru/wiki/index.php?title=%D0%98%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82%D1%83%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5_%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D1%8B_%28%D0%BA%D0%B0%D1%84%D0%B5%D0%B4%D1%80%D0%B0_%D0%9C%D0%A4%D0%A2%D0%98%29/%D0%9E_%D0%BA%D0%B0%D1%84%D0%B5%D0%B4%D1%80%D0%B5 Магистратура кафедры «Интеллектуальные системы» в МФТИ]. Есть бюджетные места. Для участия в программе нужно одновременно поступить в магистратуру МФТИ и Школу анализа данных. | ||
+ | * [http://master.math.msu.ru/magisterskie-programmy/magisterskaya-programma-kompyuternaya-algebra/ «Компьютерная алгебра» от «Яндекса» и мехмата МГУ]. Есть бюджетные места. Для обучения требуется одновременно поступить в ШАД и магистратуру. | ||
+ | |||
+ | === Офлайн-курсы === | ||
+ | * [http://bigdata.beeline.digital/#about Школа анализа данных «Билайн»] (платно) | ||
+ | * [https://yandexdataschool.ru/about Школа анализа данных «Яндекса»] (бесплатно) | ||
+ | |||
+ | === Онлайн-курсы === | ||
+ | * на английском (бесплатные) | ||
+ | ** https://www.dataquest.io/ | ||
+ | ** https://www.datacamp.com/ | ||
+ | ** [https://www.edx.org/course/introduction-computational-thinking-data-mitx-6-00-2x-2#.VO4oufka8uk Введение в науку о данных от MIT] | ||
+ | ** [https://www.coursera.org/course/datasci Введение в науку о данных Вашингтонского университета] | ||
+ | ** [http://cs109.github.io/2014/index.html Курс Гарвардского университета по data science] | ||
+ | ** [https://ru.coursera.org/specialization/datamining/20 5 курсов по data mining от Иллинойского университета] | ||
+ | ** [https://www.udacity.com/course/intro-to-data-science--ud359 Введение в data science] | ||
+ | ** [https://www.udacity.com/course/data-visualization-and-d3js--ud507 Визуализация данных и D3.js на Udacity] | ||
+ | ** [https://www.udacity.com/course/intro-to-hadoop-and-mapreduce--ud617 Введение в Hadoop и MapReduce] | ||
+ | ** [https://www.udacity.com/course/data-wrangling-with-mongodb--ud032 Пересечение данных MongoDB] | ||
+ | * на английском (платные) | ||
+ | ** [https://www.coursera.org/specialization/jhudatascience/1?utm_medium=courseDescripSidebar 9 курсов по data science от Университета Джонса Хопкинса] | ||
+ | ** [https://mitprofessionalx.mit.edu/ Месячный курс по big data от MIT] | ||
+ | ** [http://datascience.berkeley.edu/ Магистратура информации и науки о данных Калифорнийского университета в Беркли] | ||
+ | ** [https://www.udacity.com/course/data-analyst-nanodegree--nd002 Анализ данных — совместный проект Udacity и Facebook] | ||
+ | |||
+ | == Ссылки == | ||
+ | * [https://github.com/matyushkin/ds Обновляемая структурированная подборка бесплатных ресурсов по тематикам Data Science: курсы, книги, открытые данные, блоги и готовые решения] | ||
+ | |||
+ | === Блоги === | ||
+ | * [http://www.ibmbigdatahub.com/ IBM Hub] | ||
+ | * [http://fivethirtyeight.com/ Fivethirtyeight] | ||
+ | * [http://simplystatistics.org/ Simply Statistics] | ||
+ | * [http://blog.echen.me/ Edwin Chen] | ||
+ | * [http://hunch.net/ Hunch] | ||
+ | * [http://datasciencemasters.org/ Open Source Data Science Masters] | ||
+ | * [http://www.datatau.com/ Datatau] | ||
+ | * [http://www.datascienceweekly.org/ Data Science Weekly] | ||
+ | * [http://wcai.wharton.upenn.edu/ Исследования Уортонской школы бизнеса при Пенсильванском университете] | ||
+ | * https://exposingtheinvisible.org/guides/decoding-data | ||
+ | |||
+ | === Сообщества === | ||
+ | * [http://mlclass.ru/ Российское сообщество MLClass.ru] | ||
+ | * [http://habrahabr.ru/hub/bigdata/ Хаб на Habrahabr] | ||
+ | * [http://www.quora.com/Data-Science Data Science на Quora] | ||
+ | * [http://stats.stackexchange.com/ Cross Validated] | ||
+ | * [http://metaoptimize.com/qa/ Metaoptimize] | ||
+ | * [http://www.kdnuggets.com/ KDNuggets] | ||
+ | |||
+ | === Книги === | ||
+ | * [http://www.ozon.ru/context/detail/id/28953564/ «Статистика для всех» Сары Бослаф] | ||
+ | * [http://www.mann-ivanov-ferber.ru/books/paperbook/big-data/ «Большие данные» Виктора Майер-Шенбергера и Кеннета Кукьера] | ||
+ | * [https://books.google.ru/books?id=sVk3BAAAQBAJ&pg=PA199&lpg=PA199&dq=%D0%A2%D0%BE%D0%BC+%D0%9C%D0%B8%D1%82%D1%87%D0%B5%D0%BB%D0%BB+%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5+%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5&source=bl&ots=YaOzwE9CgW&sig=RIvldhOjStkl04eBDOqdCtVY4XU&hl=ru&sa=X&ved=0CEUQ6AEwBmoVChMIvcCrt-rYxwIVByRyCh2M8QJB#v=onepage&q=%D0%A2%D0%BE%D0%BC%20%D0%9C%D0%B8%D1%82%D1%87%D0%B5%D0%BB%D0%BB%20%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5%20%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5&f=false «Просчитать будущее: Кто кликнет, купит, соврёт или умрёт» Эрика Сигеля] | ||
+ | |||
+ | === Разное === | ||
+ | * [http://rusbase.com/list/7-podcasts/ Подкасты] | ||
+ | * [https://www.kaggle.com/wiki/Home Вики] | ||
+ | |||
+ | [[Категория:Концепции]] |
Текущая версия на 19:30, 9 января 2022
Большие данные (англ. big data) в информационных технологиях — серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце 2000-х годов, альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence. В данную серию включают средства массово-параллельной обработки неопределённо структурированных данных, прежде всего, решениями категории NoSQL, алгоритмами MapReduce, программными каркасами и библиотеками проекта Hadoop.
Содержание
[убрать]Характеристики
В качестве определяющих характеристик для больших данных отмечают «три V»:
- объём (англ. volume, в смысле величины физического объёма),
- скорость (англ. velocity в смыслах как скорости прироста, так и необходимости высокоскоростной обработки и получения результатов),
- многообразие (англ. variety, в смысле возможности одновременной обработки различных типов структурированных и полуструктурированных данных).
Источники
В качестве примеров источников возникновения больших данных приводятся:
- непрерывно поступающие данные с измерительных устройств,
- события от радиочастотных идентификаторов,
- потоки сообщений из социальных сетей,
- метеорологические данные,
- данные дистанционного зондирования Земли,
- потоки данных о местонахождении абонентов сетей сотовой связи, устройств аудио- и видеорегистрации.
- открытые данные
Ожидается, что развитие и начало широкого использования этих источников инициирует проникновение технологий больших данных как в научно-исследовательскую деятельность, так и в коммерческий сектор и сферу государственного управления.
Методы анализа
Методы и техники анализа, применимые к большим данным, выделенные в отчёте McKinsey:
- методы класса Data Mining:
- обучение ассоциативным правилам (англ. association rule learning),
- классификация (методы категоризации новых данных на основе принципов, ранее применённых к уже наличествующим данным),
- кластерный анализ,
- регрессионный анализ;
- краудсорсинг — категоризация и обогащение данных силами широкого, неопределённого круга лиц, привлечённых на основании публичной оферты, без вступления в трудовые отношения;
- смешение и интеграция данных (англ. data fusion and integration) — набор техник, позволяющих интегрировать разнородные данные из разнообразных источников для возможности глубинного анализа, в качестве примеров таких техник, составляющих этот класс методов приводятся цифровая обработка сигналов и обработка естественного языка (включая тональный анализ);
- машинное обучение, включая обучение с учителем и без учителя, а также Ensemble learning (англ.) — использование моделей, построенных на базе статистического анализа или машинного обучения для получения комплексных прогнозов на основе базовых моделей (англ. constituent models, ср. со статистическим ансамблем в статистической механике);
- искусственные нейронные сети, сетевой анализ, оптимизация, в том числе генетические алгоритмы;
- распознавание образов;
- прогнозная аналитика;
- имитационное моделирование;
- пространственный анализ (англ. Spatial analysis) — класс методов, использующих топологическую, геометрическую и географическую информацию в данных;
- статистический анализ, в качестве примеров методов приводятся A/B-тестирование и анализ временных рядов;
- визуализация аналитических данных — представление информации в виде рисунков, диаграмм, с использованием интерактивных возможностей и анимации как для получения результатов, так и для использования в качестве исходных данных для дальнейшего анализа.
Технологии
Стандарты
- ISO/IEC DIS 20546 -- Information technology -- Big data -- Overview and vocabulary
- ISO/IEC TR 20547-2 -- Information technology -- Big data reference architecture -- Part 2: Use cases and derived requirements
- ISO/IEC CD 20547-3 -- Information technology -- Big data reference architecture -- Part 3: Reference architecture
- ISO/IEC PRF TR 20547-5 -- Information technology -- Big data reference architecture -- Part 5: Standards roadmap
Учебные программы
Бакалавриат
- Бакалавриат «Анализ данных» МФТИ и «Яндекса». Есть бюджетные места. Обучение осуществляется на 3 и 4 курсах МФТИ. Поступить может студент Факультета инноваций и высоких технологий МФТИ, окончивший 2 курс и прошедший конкурсный отбор по среднему баллу обучения.
- Технопарк Mail.ru Group и МГТУ им. Баумана. Бесплатно. Поступать могут студенты любых курсов и аспиранты без ограничения по кафедре или факультету. Набор проходит 2 раза в год, в феврале и в сентябре.
Магистратура
- МГУ, Магистерская программа «Интеллектуальный анализ больших данных». Есть бюджетные места. Поступить может бакалавр или специалист (желательно по направлениям прикладной математики, информационных технологий и программирования).
- МГУ, магистерская программа «Большие данные: инфраструктуры и методы решения задач». Есть бюджетные места. Поступить может бакалавр или специалист (желательно по направлениям прикладной математики, информационных технологий и программирования).
- ВШЭ, Магистерская программа «Науки о данных». Есть бюджетные места. Поступление на программу возможно на общих основаниях (по результатам вступительных экзаменов) или по олимпиаде для студентов и выпускников вузов.
- ВШЭ, Магистерская программа «Интеллектуальный анализ данных». Есть бюджетные места. Поступление на программу возможно на общих основаниях (по результатам вступительных экзаменов) или по олимпиаде для студентов и выпускников вузов.
- ВШЭ, Магистерская программа «Системы больших данных». Есть бюджетные места. Обучение ведется на английском языке. Поступление на программу возможно на общих основаниях (по результатам вступительных экзаменов) или по олимпиаде для студентов и выпускников вузов.
- Магистратура «Анализ данных» МФТИ и «Яндекса». Есть бюджетные места. Поступить в магистратуру может любой студент, имеющий диплом бакалавра или специалиста и прошедший отбор в Школу анализа данных «Яндекса».
- ИТМО, Экстренные вычисления и обработка сверхбольших объемов данных. Платно. Обучение ведется на английском языке. Поступить может бакалавр или специалист (желательно по направлениям прикладной математики, информационных технологий и программирования), владеющий численными методами и технологиями программирования. Зачисление производится на конкурсной основе по результатам сдачи междисциплинарного экзамена.
- Магистратура «Яндекса» в СПБГУ. Есть бюджетные места. Поступить на кафедру может любой бакалавр или специалист, успешно прошедший собеседование и имеющий высокий средний балл диплома.
- Магистратура кафедры «Интеллектуальные системы» в МФТИ. Есть бюджетные места. Для участия в программе нужно одновременно поступить в магистратуру МФТИ и Школу анализа данных.
- «Компьютерная алгебра» от «Яндекса» и мехмата МГУ. Есть бюджетные места. Для обучения требуется одновременно поступить в ШАД и магистратуру.
Офлайн-курсы
- Школа анализа данных «Билайн» (платно)
- Школа анализа данных «Яндекса» (бесплатно)
Онлайн-курсы
- на английском (бесплатные)
- https://www.dataquest.io/
- https://www.datacamp.com/
- Введение в науку о данных от MIT
- Введение в науку о данных Вашингтонского университета
- Курс Гарвардского университета по data science
- 5 курсов по data mining от Иллинойского университета
- Введение в data science
- Визуализация данных и D3.js на Udacity
- Введение в Hadoop и MapReduce
- Пересечение данных MongoDB
- на английском (платные)
Ссылки
Блоги
- IBM Hub
- Fivethirtyeight
- Simply Statistics
- Edwin Chen
- Hunch
- Open Source Data Science Masters
- Datatau
- Data Science Weekly
- Исследования Уортонской школы бизнеса при Пенсильванском университете
- https://exposingtheinvisible.org/guides/decoding-data
Сообщества
- Российское сообщество MLClass.ru
- Хаб на Habrahabr
- Data Science на Quora
- Cross Validated
- Metaoptimize
- KDNuggets
Книги
- «Статистика для всех» Сары Бослаф
- «Большие данные» Виктора Майер-Шенбергера и Кеннета Кукьера
- «Просчитать будущее: Кто кликнет, купит, соврёт или умрёт» Эрика Сигеля