Question

У меня есть искровой фрейм данных, который я хочу развернуть и который имеет два одинаковых, но в разных случаях значения - test и Test в приведенном ниже примере. Рассмотрим следующий пример:

df = spark.createDataFrame([["R","test",1],["R","Test",2]], ["A", "B", "C"])
df.show()
df2 = df.groupby('A').pivot('B').max('C').fillna(0).cache()
df2.show()

Я бы ожидал следующий вывод

+---+----+---+
|  A|   B|  C|
+---+----+---+
|  R|test|  1|
|  R|Test|  2|
+---+----+---+

+---+----+----+
|  A|Test|test|
+---+----+----+
|  R|   2|   1|
+---+----+----+

Но вместо этого выдается следующее исключение:

org.apache.spark.sql.AnalysisException: Reference 'Test' is ambiguous, could be: Test, Test.

Как мне Поворот на столбцы, которые имеют одинаковые значения в разных случаях, как это?

Shu · Answer 1 · 21 марта 2020

Установить это свойство:

spark.sql('set spark.sql.caseSensitive=true')

Затем можно выбрать ambiguous столбцов из кадра данных:

df.groupby('A').pivot('B').max('C').fillna(0).show()
#+---+----+----+
#|  A|Test|test|
#+---+----+----+
#|  R|   2|   1|
#+---+----+----+

Spark Pivot Dataframe завершается ошибкой, если значения одинаковые, но в разных случаях

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Spark Pivot Dataframe завершается ошибкой, если значения одинаковые, но в разных случаях

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы