Я пытаюсь реализовать программу Apache Spark, используя Python для поиска подключенных компонентов, и работаю в следующих предположениях:
- Ненаправленный граф, над которым я работаю, слишком велик для представленияв памяти одного вычислительного узла
- График представлен списком ребер в виде
source target
, где source
- целое число, представляющее идентификатор исходной вершины, target
- целое число, представляющееидентификатор целевой вершины, а также источник и цель разделяются одним пробелом - В графе нет самоконтролей (т. е.
source = target
), и нет определенного порядка source
, предполагается target
Какой самый эффективный способ сделать это?