Pyspark использует настраиваемую функцию для хранения каждой строки в самоопределенном объекте, например, в объекте узла. - PullRequest
0 голосов
/ 13 июля 2020

Есть ли способ использовать функцию карты для хранения каждой строки фрейма данных pyspark в самоопределяемом объекте класса python?

фрейм данных pyspark

Например, на картинке выше у меня есть искровый фрейм данных, я хочу сохранить каждую строку идентификатора, функций, метки в объект узла (с 3 атрибутами node_id, node_features и node_label). Мне интересно, возможно ли это в pyspark. Я пробовал что-то вроде

для строки в df.rdd.collect () do_something (row)

, но это не может обрабатывать большие данные и работает очень медленно. Мне интересно, есть ли более эффективный способ решить эту проблему. Большое спасибо.

1 Ответ

0 голосов
/ 13 июля 2020

Вы можете использовать метод foreach для своей операции. Операция будет распараллелена в Spark.

Обратитесь к Pyspark, применяя foreach , если вам нужна дополнительная информация.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...