Question

Я «переводю» код Python в pyspark.Я хотел бы использовать существующий столбец в качестве индекса для данных.Я сделал это на питоне, используя панд.Небольшой фрагмент кода ниже объясняет, что я сделал.Спасибо за помощь.

df.set_index('colx',drop=False,inplace=True)
# Ordena index
df.sort_index(inplace=True)

Я ожидаю, что результатом будет кадр данных с индексом 'colx'.

thebluephantom · Answer 1 · 31 мая 2019

Это не так, как это работает с Spark.Такой концепции не существует.

Можно добавить столбец в RDD zipWithIndex путем преобразования DF в RDD и обратно, но это новый столбец, поэтому это не то же самое.

Как использовать существующий столбец в качестве индекса в Dataframe Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как использовать существующий столбец в качестве индекса в Dataframe Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов