Я хочу создать новый фрейм данных с обновлением данных из нескольких столбцов в старом фрейме данных в pyspark.
У меня есть ниже фрейм данных с форматом паркета, который имеет столбцы, такие как uid, name, start_dt, addr, extid
df = spark.read.parquet("s3a://testdata?src=ggl")
df1 = df.select("uid")
Мне нужно создать новый фрейм данных в паркете с хешированным uid ии включите оставшиеся столбцы.Подскажите пожалуйста как это сделать?Я новичок: (
Пример ввода:
uid, name, start_dt, addr, extid
1124569-2, abc, 12/02/2018, 343 Beach Dr Newyork NY, 889
Пример вывода:
uid, name, start_dt, addr, extid
a8ghshd345698cd, abc, 12/02/2018, 343 Beach Dr Newyork NY, shhj676ssdhghje
Здесь uid и extid хешируются sha256.
Спасибозаранее.