Я использую PySpark и Azure DataBricks. У меня есть процесс, который записывает файлы CSV в озеро данных, и я пытаюсь записать в формате Delta Lake. У меня проблема в том, что после записи данные, хранящиеся в столбцах Dataframe, изменяют порядок в Delta Lake (они не совпадают). Например, в столбце, который должен иметь только адреса электронной почты из Dataframe, теперь содержатся даты после того, как он прочитан из озера Дельта.
Первое изображение показывает правильную форму данных, второе показывает, как я написал дельта-озеро, а третье - данные, считанные с дельта-озера; обратите внимание, например, как в исходной таблице нет нулевых значений в столбце sendDate, но в этой есть. Или как столбец клика теперь содержит адреса электронной почты (которые выделены красным цветом), когда они должны быть только целыми числами.