В моем словаре 1 миллион слов. Всякий раз, когда пользователь запускает запрос на моем веб-сайте, я проверяю, содержит ли этот запрос слова в моем словаре, и увеличиваю счетчик, соответствующий им по отдельности. Вот пример, скажем, если пользовательский тип в «Обама является президентом» и «Обама» и «президент» в моем словаре, то я должен увеличить счетчик на 1 для «Обама» и «президент».
И время от времени я хочу видеть лучшие 100 слов (наиболее запрашиваемые слова). Если я использую Hbase для хранения счетчика, какую схему мне использовать? - Я еще не подошел к эффективному.
Если я использую слово в своем словаре в качестве ключа строки и «счетчик» в качестве ключа столбца, то обновление счетчика (приращение) очень эффективно. Но очень сложно отсортировать и вернуть 100 лучших.
Кто-нибудь может дать хороший совет? Спасибо.