В настоящее время я работаю в Pyspark и мало знаю об этой технологии.Мой фрейм данных выглядит так:
id dob var1
1 13-02-1976 aab@dfsfs
2 01-04-2000 bb@NAm
3 28-11-1979 adam11@kjfd
4 30-01-1955 rehan42@ggg
Мой вывод выглядит следующим образом:
id dob var1 age var2
1 13-02-1976 aab@dfsfs 43 aab
2 01-04-2000 bb@NAm 19 bb
3 28-11-1979 adam11@kjfd 39 adam11
4 30-01-1955 rehan42@ggg 64 rehan42
То, что я сделал до сих пор -
df= df.select( df.id.cast('int').alias('id'),
df.dob.cast('date').alias('dob'),
df.var1.cast('string').alias('var1'))
Но я думаю dob
не конвертируется должным образом.
df= df.withColumn('age', F.datediff(F.current_date(), df.dob))