Папки выходного пути в хранилище озера данных без "ColumnName =" - PullRequest
0 голосов
/ 14 февраля 2019

Можно ли использовать функцию partitionBy или другую без возврата пути "ColumnName = Value"?

Я использую записную книжку python в кирпичах данных Azure для отправки файла csv в хранилище озера данных Azure.Используется следующий Cmd:

%scala
val filepath= "dbfs:/mnt/Test"

Sample
  .coalesce(1)       
  .write             
  .mode("overwrite")
  .partitionBy("Year","Month","Day")
  .option("header", "true")
  .option("delimiter",";")
  .csv(filepath)

Ожидается, что этот путь будет: / Test / 2018/12/11

Вместо: / Test / Year = 2018 / Month = 12 /День = 11

1 Ответ

0 голосов
/ 14 февраля 2019

Это ожидаемое поведение.Spark использует путь к каталогу для раздела с именами столбцов.

Если вам нужен определенный каталог, вы должны использовать нижестоящий процесс для переименования каталога или вы можете отфильтровать df и сохранить один за другим в определенном каталоге.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...