Каков наилучший способ считывания паркета данных для диапазона данных с использованием фрейма данных spark (scala / java)?
Данные разбиты на основе столбцов даты, таких как год, месяц и день, подстановочные знаки можно использовать и как лучше всего это сделать?
val dataframe = sqlContext
.read
.parquet("file:///your/path/data=jDD/year=2015/month=10/day={5,6}/*")
Подстановочные знаки также можно использовать для указания диапазона месяцев, дней:
val dataframe = sqlContext
.read
.parquet("file:///your/path/data=jDD/year=2015/month=[1-5]/day=[5-10]/*")