Как использовать существующий столбец в качестве индекса в Dataframe Spark - PullRequest
0 голосов
/ 30 мая 2019

Я «переводю» код Python в pyspark.Я хотел бы использовать существующий столбец в качестве индекса для данных.Я сделал это на питоне, используя панд.Небольшой фрагмент кода ниже объясняет, что я сделал.Спасибо за помощь.

df.set_index('colx',drop=False,inplace=True)
# Ordena index
df.sort_index(inplace=True)

Я ожидаю, что результатом будет кадр данных с индексом 'colx'.

1 Ответ

0 голосов
/ 31 мая 2019

Это не так, как это работает с Spark.Такой концепции не существует.

Можно добавить столбец в RDD zipWithIndex путем преобразования DF в RDD и обратно, но это новый столбец, поэтому это не то же самое.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...