При создании Delta Lake из Dataframe Spark не отображает данные в соответствующие столбцы - PullRequest
0 голосов
/ 21 января 2020

Я использую PySpark и Azure DataBricks. У меня есть процесс, который записывает файлы CSV в озеро данных, и я пытаюсь записать в формате Delta Lake. У меня проблема в том, что после записи данные, хранящиеся в столбцах Dataframe, изменяют порядок в Delta Lake (они не совпадают). Например, в столбце, который должен иметь только адреса электронной почты из Dataframe, теперь содержатся даты после того, как он прочитан из озера Дельта.

Первое изображение показывает правильную форму данных, второе показывает, как я написал дельта-озеро, а третье - данные, считанные с дельта-озера; обратите внимание, например, как в исходной таблице нет нулевых значений в столбце sendDate, но в этой есть. Или как столбец клика теперь содержит адреса электронной почты (которые выделены красным цветом), когда они должны быть только целыми числами. Writing the delta lake with three partions

This is the data read from the delta lake, what's blurred out in red is the email address. Notice, for example, how in the original table the are no null values in the sendDate column but in this one there are. Or, how the click column now holds email addresses (what's blurred out in red), when they should be only integers.

...