Есть ли способ использовать функцию карты для хранения каждой строки фрейма данных pyspark в самоопределяемом объекте класса python?
фрейм данных pyspark
Например, на картинке выше у меня есть искровый фрейм данных, я хочу сохранить каждую строку идентификатора, функций, метки в объект узла (с 3 атрибутами node_id, node_features и node_label). Мне интересно, возможно ли это в pyspark. Я пробовал что-то вроде
для строки в df.rdd.collect () do_something (row)
, но это не может обрабатывать большие данные и работает очень медленно. Мне интересно, есть ли более эффективный способ решить эту проблему. Большое спасибо.