Мы создаем новое озеро данных для огромного количества данных из различных источников, сохраняя данные в формате Паркет в корзинах Amazon S3 .
В настоящее время создаем разделы на основе определенного поля (например, Record-Creation-Time). Так что у нас все хорошо, если наши запросы к озеру данных основаны на этом конкретном поле.
Но теперь нам нужно запросить те же данные на основе нескольких других полей (например, время последнего обновления, время транзакции и т. Д.). Нам интересно, как мы можем сделать это , не дублируя данные и сохраняя их в разделах на основе других параметров (время последнего обновления, время транзакции и т. Д.)
Я уверен, что это общая проблема, и существуют подходы для ее решения, но я пока не смог найти много информации. Я надеюсь, что эксперты по данным в StackOverflow помогут мне, предложив правильный способ хранения данных в Data Lake, чтобы я мог запрашивать их, используя различные параметры .
Я просмотрел многие блоги / сайты, связанные с большими данными, чтобы найти помощь, но не нашел ничего конкретного для моего запроса.