Apache Spark Поиск подключенных компонентов - PullRequest
0 голосов
/ 30 ноября 2018

Я пытаюсь реализовать программу Apache Spark, используя Python для поиска подключенных компонентов, и работаю в следующих предположениях:

  1. Ненаправленный граф, над которым я работаю, слишком велик для представленияв памяти одного вычислительного узла
  2. График представлен списком ребер в виде source target, где source - целое число, представляющее идентификатор исходной вершины, target - целое число, представляющееидентификатор целевой вершины, а также источник и цель разделяются одним пробелом
  3. В графе нет самоконтролей (т. е. source = target), и нет определенного порядка source, предполагается target

Какой самый эффективный способ сделать это?

...