Есть ли альтернатива для Collect () в Spark? - PullRequest
0 голосов
/ 11 апреля 2020

Я работаю над графиком, используя Spark GraphX. В какой-то момент я должен вычислить оценку узла на основе некоторых показателей. После завершения подсчета очков я собираю СДР и передаю его всем работникам. потому что в другой части алгоритма мне нужно множество узлов, я их транслировал.

Например, в одной части алгоритма мне нужно знать счет соседа каждого узла. Поскольку я не могу использовать RDD внутри другого RDD, я использую широковещательную передачу для локального доступа к оценкам каждого работника.

Но, к сожалению, как все знают, сбор данных не является хорошей идеей, особенно в больших наборах данных.

Может кто-нибудь предложить лучший способ сделать это ??

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...