Question

Я сохранил данные в хранилище в формате паркетного файла с столбцом разбиения по типу даты.

Я пытаюсь получить данные за последние N дней с текущей даты, используя scala spark.

Данные файла сохраняются, как показано ниже как путь к хранилищу.

Tespath/filename/dt=2020-02-01
Tespath/filename/dt=2020-02-02
...........
Tespath/filename/dt=2020-02-28

Если я читаю все данные, это очень большое количество данных.

Nonontb · Answer 1 · 24 февраля 2020

Поскольку ваш набор данных правильно разделен с использованием формата паркета, вам просто нужно прочитать каталог Testpath/filename и позволить Spark выполнить обнаружение раздела.

Он добавит столбец dt в вашу схему с значение из имени пути: dt=<value>. Это значение можно использовать для фильтрации набора данных, и Spark оптимизирует чтение, разбивая разделы на все каталоги, которые не соответствуют предикату в столбце dt. Вы можете попробовать что-то вроде этого:

import spark.implicits._
import org.apache.spark.functions._

val df = spark.read.parquet("Testpath/filename/")
  .where($"dt" > date_sub(current_date(), N))

Вы должны убедиться, что spark.sql.parquet.filterPushdown установлено в значение true (по умолчанию)

Как прочитать последние N числа последних дней с текущей даты в паркете

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как прочитать последние N числа последних дней с текущей даты в паркете

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов