У меня есть приложение Spark с записями, которые содержат следующую информацию:
- Хэш - Какой-то уникальный идентификатор для элемента
- Местоположение - Местонахождение предмета
- С - дата, когда предмет был впервые замечен в местоположении
- К - Нуль, если он все еще там, или дата, если предмет перестал быть в местоположении
Мне нужно только задать один вопрос:
Где был элемент X в дату Y
Каков наиболее эффективный способ индексации этой информации для очень быстрого поиска? Допустим, у меня есть десятки миллиардов записей в день, которые содержат хэши элементов, и мне нужно обогатить эти записи их местоположениями.
Мой упрощенный подход состоит в том, чтобы хранить записи, как указано выше, с разделением по хешам (хотя их, вероятно, около 10 миллионов) и подключаться к моему большему источнику данных, где хеш-код совпадает, а где дата> От и дата < Для. Это сравнение дат, хотя кажется, что должно иметь лучшее решение.
Какие-либо предложения о том, как эти данные могут быть сохранены более эффективным способом?