В Hadoop на Mesos требуется высокопроизводительная кластерная виртуализация - PullRequest
0 голосов
/ 30 октября 2018

Наш отдел на работе только что купил 4 узла (сервера) каждый с 80 ядрами и кучей памяти и дискового пространства.

Мы только находимся на начальных этапах и хотим убедиться, что узлы правильно введены в кластер для того, для чего мы хотим его использовать, а также для будущего использования.

Предполагаемое использование ориентировано на машинное обучение / большие данные. По сути, мы являемся командой продвинутых аналитиков. У нас есть SQL серверы и базы данных, настроенные на полные данные. Наша основная цель - использовать данные для получения бизнес-аналитики, разработки алгоритмов и создания механизмов оптимизации для данных и процессов для организации. Инструменты, которые нам могут понадобиться в какой-то момент:

-Docker images for developed applications 
-Place to run jobs when developing new algorithms in batch job/maybe real time.
-Python ML algorithms
-Spark Jobs
-Possible Hadoop cluster? (this one uncertain about now)

- Мы хотим запускать пакетные задания, а также интерактивные задания.

Наш текущий план - запустить Chronos и, в конечном итоге, Marathon для составления расписания. Мы планируем Apache Mesos для управления ресурсами.

Наконец, к вопросу. Наш ИТ-отдел сообщил нам, что для запуска кластера hadoop мы должны виртуализировать каждый узел. Эта виртуализация занимает 8 ядер на каждом узле, а также ГБ памяти и тонну дискового пространства. Они правы? Каким образом мы можем уменьшить нагрузку на нашу систему, чтобы не тратить 10-20% наших ресурсов на настройку сервера?

Наконец, в качестве дополнительного бонуса, есть хорошие книги по настройке кластера мезо, добавлению hadoop и настройке всего.

Судя по некоторым комментариям, возможно, нам не нужен Hadoop, и в этом случае нам не понадобится виртуализация.

...