Учитывая, что вы не можете получить доступ к идентификатору пользователя во время запроса, вам придется где-то сделать компромисс. Похоже, что вы будете делать больше записей, чем читать здесь, потому что вы пишете данные в течение дня для каждого пользователя, а затем выполняете только чтение, возможно, один раз в день для анализа данных? Поправь меня, если моя интерпретация неверна.
Я бы сказал, что хорошо, если сканирование в задании потока данных не так эффективно, чтобы избежать горячих точек для записи.
Вы можете повысить идентификатор пользователя в вашем ключе строки до чего-то подобного userid#date
, а затем выполнить сканирование с помощью фильтра регулярных выражений rowkey, который действительно ищет *#YOUR_DATE
.
Это не Это наиболее эффективное сканирование, так как это полное сканирование таблицы И использует довольно интенсивный фильтр, но для оптимизации базы данных для записи данных это все равно позволит вам читать данные.
Не стесняйтесь предоставлять больше информации о вашем конвейере и ожидаемом случае использования базы данных, если мои предположения не соответствуют вашим целям.