Question

Я использую PySpark и Azure DataBricks. У меня есть процесс, который записывает файлы CSV в озеро данных, и я пытаюсь записать в формате Delta Lake. У меня проблема в том, что после записи данные, хранящиеся в столбцах Dataframe, изменяют порядок в Delta Lake (они не совпадают). Например, в столбце, который должен иметь только адреса электронной почты из Dataframe, теперь содержатся даты после того, как он прочитан из озера Дельта.

Первое изображение показывает правильную форму данных, второе показывает, как я написал дельта-озеро, а третье - данные, считанные с дельта-озера; обратите внимание, например, как в исходной таблице нет нулевых значений в столбце sendDate, но в этой есть. Или как столбец клика теперь содержит адреса электронной почты (которые выделены красным цветом), когда они должны быть только целыми числами. Writing the delta lake with three partions

При создании Delta Lake из Dataframe Spark не отображает данные в соответствующие столбцы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

При создании Delta Lake из Dataframe Spark не отображает данные в соответствующие столбцы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы