Я пытаюсь сохранить dataFrame в раздел csv по id, для этого я использую spark 1.6 и scala. Функция partitionBy ("id") не дает мне правильный результат.
Мой код здесь:
validDf.write
.partitionBy("id")
.format("com.databricks.spark.csv")
.option("header", "true")
.option("delimiter", ";")
.mode("overwrite")
.save("path_hdfs_csv")
My Dataframe looks like :
-----------------------------------------
| ID | NAME | STATUS |
-----------------------------------------
| 1 | N1 | S1 |
| 2 | N2 | S2 |
| 3 | N3 | S1 |
| 4 | N4 | S3 |
| 5 | N5 | S2 |
-----------------------------------------
Этот код создает 3 CSV-раздела по умолчанию (part_0, part_1, part_2), не основанных на идентификаторе столбца.
Что я ожидаю, так это : получение sub dir или раздела для каждого идентификатора. Любая помощь?