Как я могу иметь несколько разделов на основе разных параметров для моих данных в озере данных - PullRequest
2 голосов
/ 11 мая 2019

Мы создаем новое озеро данных для огромного количества данных из различных источников, сохраняя данные в формате Паркет в корзинах Amazon S3 .

В настоящее время создаем разделы на основе определенного поля (например, Record-Creation-Time). Так что у нас все хорошо, если наши запросы к озеру данных основаны на этом конкретном поле.

Но теперь нам нужно запросить те же данные на основе нескольких других полей (например, время последнего обновления, время транзакции и т. Д.). Нам интересно, как мы можем сделать это , не дублируя данные и сохраняя их в разделах на основе других параметров (время последнего обновления, время транзакции и т. Д.)

Я уверен, что это общая проблема, и существуют подходы для ее решения, но я пока не смог найти много информации. Я надеюсь, что эксперты по данным в StackOverflow помогут мне, предложив правильный способ хранения данных в Data Lake, чтобы я мог запрашивать их, используя различные параметры .

Я просмотрел многие блоги / сайты, связанные с большими данными, чтобы найти помощь, но не нашел ничего конкретного для моего запроса.

...