Управление несколькими кластерами в Hadoop OR Distributed Computing Framework - PullRequest
0 голосов
/ 26 октября 2018

У меня есть пять компьютеров, объединенных в сеть.Среди них один - главный компьютер, а четыре - подчиненные.

Каждый подчиненный компьютер имеет свой собственный набор данных (очень большая целочисленная матрица).Я хочу запустить четыре разные программы кластеризации в четырех разных ведомых устройствах.Затем перенесите результаты обратно в главный компьютер для дальнейшей обработки (например, визуализации).

Сначала я подумал использовать Hadoop.Но я не могу найти какой-либо хороший способ преобразовать вышеупомянутую проблему (в частности, выходные результаты) в инфраструктуру Map Reduce.

Существует ли какая-либо хорошая инфраструктура распределенных вычислений с открытым исходным кодом, с помощью которой я могу выполнить вышеуказанную задачулегко?

Заранее спасибо.

Ответы [ 2 ]

0 голосов
/ 26 октября 2018

Кажется, что вы уже сохранили данные на каждом из узлов, поэтому вы уже решили элемент проблемы «распределенное хранилище».

Поскольку набор данных каждого узла отличается, это также не проблема параллельной обработки.

Мне кажется, что вам не нужен Hadoop или какой-либо другой фреймворк для больших данных. Однако вы можете принять философию Hadoop, перенеся код в данные. Вы запускаете алгоритм кластеризации на каждом узле, а затем обрабатываете результаты любым удобным для вас способом. Предостережение может возникнуть, если у вас также есть проблема с загрузкой данных и запуском алгоритма кластеризации на каждом узле, но это другая проблема.

0 голосов
/ 26 октября 2018

Вы должны использовать YARN для управления несколькими кластерами или ресурсами

YARN является необходимым условием для Enterprise Hadoop, обеспечивающим управление ресурсами и центральную платформу для обеспечения согласованных операций, безопасности и управления данными.инструменты в кластерах Hadoop.

Ссылка

...