Как обнаружить поля даты при чтении файлов в Apache spark? - PullRequest
0 голосов
/ 29 сентября 2019

Я использую Apache spark с python для чтения CSV-файлов, он хорошо читает тип данных, за исключением полей даты, он читает его как строку.

Вот мой код:

dataFrame = self.SqlContext.read.csv(
                path,
                sep=',',
                header=True,
                inferSchema=True,
                mode="DROPMALFORMED"
            ) 

Я нашел dateFormat и timestampFormat параметры в документации pyspark , но я не могу установить фиксированный формат даты, потому что я использую его, чтобы позволить пользователю загружать csv файлы в мой Elasticsearch база данных.

Мой вопрос: есть ли способ, чтобы pyspark считывал столбцы даты динамически?

...