pyspark graphx connectedComponents () принимает навсегда, а затем убивает - PullRequest
0 голосов
/ 09 апреля 2020

Это первый раз в моей жизни с использованием GraphX, и я не уверен, что здесь происходит ... Я успешно создал GraphFrame, используя

g = GraphFrame(vertices, edges)

, когда я делаю g.vertices.show () и g.edges.show () я получаю ожидаемые результаты. Тем не менее, когда я пытаюсь получить связанные компоненты графика, выполняя это:

sc.setCheckpointDir("checkpoints")
g.connectedComponents().show() 

, моя программа просто продолжает работать в течение 3-5 минут, а затем останавливается с сообщением "Killed". Другие сообщения об ошибках не отображаются. Я знаю, что программа застревает в connectedComponents (), потому что checkpointDir обнаруживается в моих файлах, и потому, что когда я заставлял его останавливаться с помощью ctrl + C, это вывод, который я получаю:

снимок экрана

Я также пытался без .show () и без особых усилий указать алгоритм = "graphframes". Есть идеи?

...