Hadoop
Hadoop — свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов. Используется для реализации поисковых и контекстных механизмов многих высоконагруженных веб-сайтов, в том числе, для Yahoo! и Facebook. Разработан на Java в рамках вычислительной парадигмы MapReduce, согласно которой приложение разделяется на большое количество одинаковых элементарных заданий, выполнимых на узлах кластера и естественным образом сводимых в конечный результат. Считается одной из основополагающих технологий «больших данных».
Состав
По состоянию на 2014 год проект состоит из четырёх модулей:
- Hadoop Common — связующее программное обеспечение — набор инфраструктурных программных библиотек и утилит, используемых для других модулей и родственных проектов
- библиотеки управления файловыми системами
- сценарии создания необходимой инфраструктуры и управления распределённой обработкой
- интерпретатор командной строки (FS shell, filesystem shell)
- HDFS — распределённая файловая система, предназначенная для хранения файлов больших размеров, поблочно распределённых между узлами вычислительного кластера.
- YARN (англ. Yet Another Resource Negotiator — «ещё один ресурсный посредник») — система для планирования заданий и управления кластером,
- Hadoop MapReduce — платформа программирования и выполнения распределённых MapReduce-вычислений.