Я знаю, что широковещательная переменная имеет ограничение 2G, и не рекомендуется транслировать огромное количество данных.
Что лучше всего использовать один и тот же гигантский Машинный курс обучения для каждой машины в кластере.Размер вектора составляет около 10 ГБ, а машина имеет емкость 120 ГБ.
Я думал о том, чтобы поместить данные на S3, но если их загрузить в режиме искры, они автоматически разделятся на блоки в HDFS.Я этого не хочу.