Как выбрать столбцы в кадре данных Spark, когда мне также необходимо использовать withColumnRenamed? - PullRequest
0 голосов
/ 11 сентября 2018

У меня есть фрейм данных

df = df.select("employee_id", "employee_name", "employee_address")

Мне нужно переименовать первые два поля, но все равно выбрать третье поле.Поэтому я подумал, что это сработает, но, похоже, выбрал только employee_address.

df = (df.withColumnRenamed("employee_id", "empId")
        .withColumnRenamed("employee_name", "empName")
        .select("employee_address")
)

Как правильно переименовать первые два поля, а также выбрать третье поле?

Я попробовал комбинацию withColumn употреблений, но это не работает.Нужно ли использовать выбор для всех трех полей?

1 Ответ

0 голосов
/ 11 сентября 2018

Вы можете использовать команду alias:

import pyspark.sql.functions as func

df = df.select(
    func.col("employee_id").alias("empId"), 
    func.col("employee_name").alias("empName"), 
    func.col("employee_address")
)
...