Как распределить большой блоб на каждый хост в кластере Spark - PullRequest
0 голосов
/ 25 сентября 2018

Я знаю, что широковещательная переменная имеет ограничение 2G, и не рекомендуется транслировать огромное количество данных.

Что лучше всего использовать один и тот же гигантский Машинный курс обучения для каждой машины в кластере.Размер вектора составляет около 10 ГБ, а машина имеет емкость 120 ГБ.

Я думал о том, чтобы поместить данные на S3, но если их загрузить в режиме искры, они автоматически разделятся на блоки в HDFS.Я этого не хочу.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...