У меня есть таблица 't' с двумя столбцами 'col24' и 'col23'. Я хочу создать фрейм данных 'r' - PullRequest
0 голосов
/ 11 апреля 2019

Представьте себе таблицу t с двумя столбцами - col24 и col18. Я хочу создать фрейм данных 'r'. Таким образом, в результирующем фрейме данных будет только один столбец col24, называемый first_name.

Я пробовал следующий код, но он не работает. Но я неправильно понял, помогите мне решить


import pyspark.sql.functions as f

r = t.select(f.explode("col24").alias("first_name")).toPandas()

1 Ответ

1 голос
/ 11 апреля 2019
import pyspark.sql.functions as f

Если я правильно понял ваш вопрос, эти два варианта должны работать:

r = t.select('col24').f.withColumnRenamed('col24', 'first_name')

r = t.withColumnRenamed('col24', 'first_name').drop('col18')

Если у вас есть несколько столбцов в списке my_cols , например, тогда второй параметр становится:

r = t.withColumnRenamed('col24', 'first_name').drop(*my_cols)

Тогда вы можете проверить свой фрейм данных:

r.show()

или, если t массивный, просто проверьте имена столбцов:

r.columns
...