Question

У меня есть большой файл паркета, который записывается ежедневно и разбивается по дате снимка (в полной форме).Я пытаюсь написать приложение, которое принимает в качестве входных данных дату и значение обратного просмотра и возвращает часть паркета со снимка дня до x дней назад.

Я нашел похожий вопрос, в котором был предложен ответЯ использую

spark.read.parquet("gs://parquet-storage-bucket/parquet-name/snapshot_date=[1564704000-1567123200]")

Однако Спарк, похоже, воспринимает это буквально и не может найти паркет с таким точным названием (очевидно).

Есть ли способ указать дату начала и окончания (в длинном формате) и все ли данные разделов в этом диапазоне получены?

Pritish · Answer 1 · 23 сентября 2019

Вы можете попробовать отфильтровать набор данных, используя функцию filter:

spark.read.parquet("gs://parquet-storage-bucket/parquet-name")
.filter(col("snapshot_date") >= 1564704000 && col("snapshot_date") <= 1567123200)

Как мне прочитать определенный диапазон дат из многораздельного файла паркета в Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как мне прочитать определенный диапазон дат из многораздельного файла паркета в Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов