Как использовать большой кластер Hadoop для обучения - PullRequest
0 голосов
/ 28 июня 2019

Как мы все знаем, большая трудность в изучении больших данных состоит в том, что трудно получить доступ к крупномасштабным данным и машинам, и только принцип может быть изучен через локальные виртуальные машины.Теперь у меня есть доступ к кластеру более тысячи.Как разумно его использовать?

1 Ответ

1 голос
/ 28 июня 2019

Я бы сказал обратное. Смысл массивных механизмов распределенной обработки, таких как Spark, Flink и т. Д., Заключается в том, что код, который вы пишете для обработки данных, будет работать для наборов данных произвольного размера. Вы можете сделать это на ВМ или на своем ноутбуке со 100 записями, и он будет работать более или менее так же, как если бы вы обрабатывали 100 миллиардов записей в кластере из 1000 узлов, предполагая, что ваши входные данные могут быть легко распараллелены и не слишком искажены. Я не уверен, почему у вас есть столько машин, доступных вам без четкой цели, но есть тонны общедоступных наборов данных, с которыми вы можете работать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...