У меня есть искровой DataFrame, импортированный из файла CSV.
После применения некоторых манипуляций (в основном, удаления столбцов / строк) я пытаюсь сохранить новый DataFrame в Hadoop, который выдает сообщение об ошибке:
ValueError: год вне диапазона
Я подозреваю, что некоторые столбцы типа DateType или TimestampType повреждены. По крайней мере, в одном столбце я нашел запись с годом «207» - кажется, это создает проблемы.
** Как я могу проверить, соответствует ли DataFrame требуемым временным диапазонам?
Я думал о написании функции, которая принимает DataFrame и получает для каждого DateType / TimestampType-Column минимальное и максимальное значения, но я не могу заставить это работать. **
Есть идеи?
PS: В моем понимании, spark всегда проверяет и применяет схему. Разве это не включает проверку минимальных / максимальных значений?