Question

Я пытаюсь реализовать программу Apache Spark, используя Python для поиска подключенных компонентов, и работаю в следующих предположениях:

Ненаправленный граф, над которым я работаю, слишком велик для представленияв памяти одного вычислительного узла
График представлен списком ребер в виде source target, где source - целое число, представляющее идентификатор исходной вершины, target - целое число, представляющееидентификатор целевой вершины, а также источник и цель разделяются одним пробелом
В графе нет самоконтролей (т. е. source = target), и нет определенного порядка source, предполагается target

Какой самый эффективный способ сделать это?

Apache Spark Поиск подключенных компонентов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.