У меня есть список файлов паркета в моей папке ./my_file/*.parquet
.
У хороших есть столбец «date_time», который должен быть целым числом (временная метка эпохи Unix).
root
|-- date_time: integer (nullable = true)
Но у некоторых из них вместо этого есть поле реального времени.
root
|-- date_time: timestamp (nullable = true)
Проблема в том, что все эти файлы находятся в одной папке, и когда я их читаю, любой action
на моем фрейме данных выдает ошибку:
Столбец: [date_time], Ожидаемый: LongType, Найдено: INT96
Есть ли у вас какой-нибудь хороший метод, чтобы я мог легко отделить файлы "timestamp" от файлов "integer"?
У меня в папке более 30 тыс. Файлов, и я просто не знаю, как их обработать, потому что любое действие вызывает ошибку.