Question

Каков наилучший способ считывания паркета данных для диапазона данных с использованием фрейма данных spark (scala / java)?

Данные разбиты на основе столбцов даты, таких как год, месяц и день, подстановочные знаки можно использовать и как лучше всего это сделать?

val dataframe = sqlContext
  .read
  .parquet("file:///your/path/data=jDD/year=2015/month=10/day={5,6}/*")

Подстановочные знаки также можно использовать для указания диапазона месяцев, дней:

val dataframe = sqlContext
  .read
  .parquet("file:///your/path/data=jDD/year=2015/month=[1-5]/day=[5-10]/*")

Каков наилучший способ чтения паркета данных для диапазона данных с использованием фрейма данных spark (scala / java)?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.