У меня проблема с динамическим обновлением столбцов в кадре данных Spark.
По сути, мне нужно перебрать список столбцов, и если столбец уже существует в списке, переименуйте его в этот столбец плюсего индекс.
Мой код попытки был примерно таким:
def dup_cols(df):
for i, icol in enumerate(df.columns):
for x, xcol in enumerate(df.columns):
if icol == xcol and i != x:
df = df.withColumnsRenamed(xcol, xcol + '_' + str(x))
return df
Но это переименовывается по имени (здесь xcol ), таким образом, не решая мою проблему.
Можно ли изменить это, чтобы переименовать столбец в кадре данных по его индексу?Я долго искал и ничего не нашел.
Я также не могу конвертировать в фрейм данных Pandas, поэтому мне потребуется решение Spark / PySpark для переименования определенного столбца только по его индексу.
Спасибо!