паркет с другой схемой - PullRequest
       13

паркет с другой схемой

2 голосов
/ 29 апреля 2019

У меня есть список файлов паркета в моей папке ./my_file/*.parquet. У хороших есть столбец «date_time», который должен быть целым числом (временная метка эпохи Unix).

root
 |-- date_time: integer (nullable = true)

Но у некоторых из них вместо этого есть поле реального времени.

root
 |-- date_time: timestamp (nullable = true)

Проблема в том, что все эти файлы находятся в одной папке, и когда я их читаю, любой action на моем фрейме данных выдает ошибку:

Столбец: [date_time], Ожидаемый: LongType, Найдено: INT96

Есть ли у вас какой-нибудь хороший метод, чтобы я мог легко отделить файлы "timestamp" от файлов "integer"? У меня в папке более 30 тыс. Файлов, и я просто не знаю, как их обработать, потому что любое действие вызывает ошибку.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...