Hadoop

Версия от 13:50, 7 декабря 2017; Admin (обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Hadoop-logo.jpg

Hadoop — свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов. Используется для реализации поисковых и контекстных механизмов многих высоконагруженных веб-сайтов, в том числе, для Yahoo! и Facebook. Разработан на Java в рамках вычислительной парадигмы MapReduce, согласно которой приложение разделяется на большое количество одинаковых элементарных заданий, выполнимых на узлах кластера и естественным образом сводимых в конечный результат. Считается одной из основополагающих технологий «больших данных».

Состав

По состоянию на 2014 год проект состоит из четырёх модулей:

  • Hadoop Common — связующее программное обеспечение — набор инфраструктурных программных библиотек и утилит, используемых для других модулей и родственных проектов
    • библиотеки управления файловыми системами
    • сценарии создания необходимой инфраструктуры и управления распределённой обработкой
      • интерпретатор командной строки (FS shell, filesystem shell)
  • HDFS — распределённая файловая система, предназначенная для хранения файлов больших размеров, поблочно распределённых между узлами вычислительного кластера.
  • YARN (англ. Yet Another Resource Negotiator — «ещё один ресурсный посредник») — система для планирования заданий и управления кластером,
  • Hadoop MapReduce — платформа программирования и выполнения распределённых MapReduce-вычислений.