Я работаю со Spark 2.2.0.
У меня есть DataFrame
, вмещающий более 20 столбцов.В приведенном ниже примере PERIOD
- это номер недели и введите тип магазина (Hypermarket
или Supermarket
)
table.show(10)
+--------------------+-------------------+-----------------+
| PERIOD| TYPE| etc......
+--------------------+-------------------+-----------------+
| W1| HM|
| W2| SM|
| W3| HM|
etc...
Я хочу сделать простой groupby
(здесьс pyspark, но Scala или pyspark-sql дают те же результаты)
total_stores = table.groupby("PERIOD", "TYPE").agg(countDistinct("STORE_DESC"))
total_stores2 = total_stores.withColumnRenamed("count(DISTINCT STORE_DESC)", "NB STORES (TOTAL)")
total_stores2.show(10)
+--------------------+-------------------+-----------------+
| PERIOD| TYPE|NB STORES (TOTAL)|
+--------------------+-------------------+-----------------+
|CMA BORGO -SANTA ...| BORGO| 1|
| C ATHIS MONS| ATHIS MONS CEDEX| 1|
| CMA BOSC LE HARD| BOSC LE HARD| 1|
Проблема не в вычислениях: перепутаны столбцы: PERIOD
имеет STORE NAMES
, TYPE
имеет CITY
и т.д ....
Понятия не имею, почему.Все остальное работает нормально.