Spark2 Datetime поиск эффективной структуры данных - PullRequest
0 голосов
/ 27 августа 2018

У меня есть приложение Spark с записями, которые содержат следующую информацию:

  • Хэш - Какой-то уникальный идентификатор для элемента
  • Местоположение - Местонахождение предмета
  • С - дата, когда предмет был впервые замечен в местоположении
  • К - Нуль, если он все еще там, или дата, если предмет перестал быть в местоположении

Мне нужно только задать один вопрос:

Где был элемент X в дату Y

Каков наиболее эффективный способ индексации этой информации для очень быстрого поиска? Допустим, у меня есть десятки миллиардов записей в день, которые содержат хэши элементов, и мне нужно обогатить эти записи их местоположениями.

Мой упрощенный подход состоит в том, чтобы хранить записи, как указано выше, с разделением по хешам (хотя их, вероятно, около 10 миллионов) и подключаться к моему большему источнику данных, где хеш-код совпадает, а где дата> От и дата < Для. Это сравнение дат, хотя кажется, что должно иметь лучшее решение.

Какие-либо предложения о том, как эти данные могут быть сохранены более эффективным способом?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...