Spark (или pyspark) столбцы содержимого перемешиваются с GroupBy - PullRequest
0 голосов
/ 20 мая 2018

Я работаю со Spark 2.2.0.

У меня есть DataFrame, вмещающий более 20 столбцов.В приведенном ниже примере PERIOD - это номер недели и введите тип магазина (Hypermarket или Supermarket)

table.show(10)
+--------------------+-------------------+-----------------+
|              PERIOD|               TYPE| etc......
+--------------------+-------------------+-----------------+  
|                  W1|                 HM| 
|                  W2|                 SM|
|                  W3|                 HM|

etc...

Я хочу сделать простой groupby (здесьс pyspark, но Scala или pyspark-sql дают те же результаты)

total_stores = table.groupby("PERIOD", "TYPE").agg(countDistinct("STORE_DESC"))

total_stores2 = total_stores.withColumnRenamed("count(DISTINCT STORE_DESC)", "NB STORES (TOTAL)")

total_stores2.show(10)
+--------------------+-------------------+-----------------+
|              PERIOD|               TYPE|NB STORES (TOTAL)|
+--------------------+-------------------+-----------------+
|CMA BORGO -SANTA ...|              BORGO|                1|
|        C ATHIS MONS|   ATHIS MONS CEDEX|                1|
|    CMA BOSC LE HARD|       BOSC LE HARD|                1|

Проблема не в вычислениях: перепутаны столбцы: PERIOD имеет STORE NAMES, TYPE имеет CITY и т.д ....

Понятия не имею, почему.Все остальное работает нормально.

...