Как прочитать результаты паркета из S3, которые разбиты на страницы - PullRequest
0 голосов
/ 14 мая 2019

Мои результаты хранятся в Amazon S3 в формате паркета.

Мои требования следующие:

  1. У меня есть ведро S3, где я храню свой результат как паркет (несколько частей паркета).Я хочу получить результаты во всех частях.
  2. Я хочу получить все строки (во всех частях), как они есть.(Делать запрос было бы неплохо)
  3. Мое желание разбить на страницы исходит из моей среды, которая не распространяется.У меня есть экземпляр EC2, который имеет Java-код для получения результатов.Мне нужно, чтобы результаты разбивались на страницы, чтобы хост EC2 не зависал при получении результата.

Параметры, которые я изучил:

  1. ListObjectsV2Request - can 'пока не использую его, потому что мы не обновили до AWS Java SDK 2.0

  2. Просмотр S3 Select - поскольку для S3 select требуется точный ключ содержимого, которое я хочу получить, сначала у меня будетсоставить список всех деталей из S3, а затем использовать S3 Select для каждой детали, чтобы получить результаты.Кроме того, я не уверен, как разбить входной поток, предоставленный S3

  3. Также изучаю Считать данные паркета из корзины AWS s3 , но мне не ясно, какчтобы разбить результаты на страницы.

Любой вклад / помощь будут высоко оценены.

1 Ответ

1 голос
/ 14 мая 2019

Это звучит как отличный вариант использования для Amazon Athena .Он может:

  • Чтение файлов паркета
  • Рассматривать несколько файлов в каталоге как единый источник данных
  • Разрешать запросы данных только для получения желаемых результатов (этоможет также ПРИСОЕДИНЯТЬСЯ к таблицам)
  • Может возвращать постраничные результаты

См .:

...