Pyspark grouby занимает очень много времени - PullRequest
0 голосов
/ 07 мая 2020

Я довольно много поискал и спросил своего профессора, но не уверен, в чем проблема. У меня есть тестовый набор данных из 20 000 точек. Я выполняю группировку по этому, чтобы получить сумму, и это занимает, возможно, 30 секунд, что разумно, поскольку это на ноутбуке jupyter.

Однако, когда я вставляю больший тестовый фрейм данных из 1,5 миллионов точек данных, это занимает часы. Все остальное, даже в большом наборе данных, происходит быстро (несколько условных соединений и т. Д. c). Мой профессор считает, что одна клавиша встречается очень часто, и это может вызвать проблему. Но я даже не могу это проверить.

Когда я запускаю

df = df.groupby('ID').count().sort('ID').desc()).show()

на небольшом наборе данных, он работает очень быстро и говорит, что одно значение имеет 25 баллов, а все остальные ниже 5. Так что, возможно, произойдет ключевой взрыв. Однако на более крупном фрейме данных я жду уже полчаса.

Любая помощь будет принята с благодарностью, спасибо

...