У меня есть датафрейм df в настройке PySpark.Я хочу изменить столбец, скажем, он называется A, тип данных которого "string
".Я хочу изменить его значения в соответствии с их длиной.В частности, если в строке есть только символ, мы хотим объединить 0 до конца.В противном случае мы берем значение по умолчанию.Имя «модифицированного» столбца должно по-прежнему быть A. Это для ноутбука Jupyter, использующего PySpark3.
Это то, что я пробовал до сих пор:
df = df.withColumn("A", when(size(df.col("A")) == 1, concat(df.col("A"), lit("0"))).otherwise(df.col("A")))
Я также попробовал тот же код, удаляя "df.col
".
Когда я запускаю этокод, программное обеспечение жалуется, говоря, что синтаксис является недействительным, но я не вижу ошибки.