Я использую Apache spark с python для чтения CSV-файлов, он хорошо читает тип данных, за исключением полей даты, он читает его как строку.
Вот мой код:
dataFrame = self.SqlContext.read.csv(
path,
sep=',',
header=True,
inferSchema=True,
mode="DROPMALFORMED"
)
Я нашел dateFormat
и timestampFormat
параметры в документации pyspark , но я не могу установить фиксированный формат даты, потому что я использую его, чтобы позволить пользователю загружать csv файлы в мой Elasticsearch база данных.
Мой вопрос: есть ли способ, чтобы pyspark считывал столбцы даты динамически?