Я использую pyspark в блоках данных с файлом JSON для очистки данных. Выражение в скобках eval
взято из файла JSON.
Одна из проблем, с которыми я сталкиваюсь, заключается в манипулировании timestamp
s / string
.
Я пытаюсь найтиразница в месяцах между столбцом метки времени и одной датой (которая является строкой)
См. код ниже.
import pyspark.sql.functions as F
df2 = df2.withColumn('test', eval("months_between( F.to_date(F.col('period_name')), lit('31/03/2019'))"))
Не выдает ошибку, а оценивается как ноль.