Наш отдел на работе только что купил 4 узла (сервера) каждый с 80 ядрами и кучей памяти и дискового пространства.
Мы только находимся на начальных этапах и хотим убедиться, что узлы правильно введены в кластер для того, для чего мы хотим его использовать, а также для будущего использования.
Предполагаемое использование ориентировано на машинное обучение / большие данные. По сути, мы являемся командой продвинутых аналитиков. У нас есть SQL серверы и базы данных, настроенные на полные данные. Наша основная цель - использовать данные для получения бизнес-аналитики, разработки алгоритмов и создания механизмов оптимизации для данных и процессов для организации. Инструменты, которые нам могут понадобиться в какой-то момент:
-Docker images for developed applications
-Place to run jobs when developing new algorithms in batch job/maybe real time.
-Python ML algorithms
-Spark Jobs
-Possible Hadoop cluster? (this one uncertain about now)
- Мы хотим запускать пакетные задания, а также интерактивные задания.
Наш текущий план - запустить Chronos и, в конечном итоге, Marathon для составления расписания. Мы планируем Apache Mesos для управления ресурсами.
Наконец, к вопросу. Наш ИТ-отдел сообщил нам, что для запуска кластера hadoop мы должны виртуализировать каждый узел. Эта виртуализация занимает 8 ядер на каждом узле, а также ГБ памяти и тонну дискового пространства. Они правы? Каким образом мы можем уменьшить нагрузку на нашу систему, чтобы не тратить 10-20% наших ресурсов на настройку сервера?
Наконец, в качестве дополнительного бонуса, есть хорошие книги по настройке кластера мезо, добавлению hadoop и настройке всего.
Судя по некоторым комментариям, возможно, нам не нужен Hadoop, и в этом случае нам не понадобится виртуализация.