Как мне прочитать определенный диапазон дат из многораздельного файла паркета в Spark - PullRequest
0 голосов
/ 23 сентября 2019

У меня есть большой файл паркета, который записывается ежедневно и разбивается по дате снимка (в полной форме).Я пытаюсь написать приложение, которое принимает в качестве входных данных дату и значение обратного просмотра и возвращает часть паркета со снимка дня до x дней назад.

Я нашел похожий вопрос, в котором был предложен ответЯ использую

spark.read.parquet("gs://parquet-storage-bucket/parquet-name/snapshot_date=[1564704000-1567123200]")

Однако Спарк, похоже, воспринимает это буквально и не может найти паркет с таким точным названием (очевидно).

Есть ли способ указать дату начала и окончания (в длинном формате) и все ли данные разделов в этом диапазоне получены?

1 Ответ

1 голос
/ 23 сентября 2019

Вы можете попробовать отфильтровать набор данных, используя функцию filter:

spark.read.parquet("gs://parquet-storage-bucket/parquet-name")
.filter(col("snapshot_date") >= 1564704000 && col("snapshot_date") <= 1567123200)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...