Лучший подход для получения заказанного счетчика от Кассандры - PullRequest
0 голосов
/ 07 ноября 2018

Я использую Кассандру, чтобы сохранить слово и его частоту.

Схема таблицы будет выглядеть как

CREATE TABLE keywords_rate (
    some_id int,
    keyword Text,
    frequency counter,
    PRIMARY KEY (some_id, keyword)
);

Проблема в том, что у меня есть миллионы записей, и мне нужно получить 100 лучших ключевых слов для каждого some_id

но для этого мне нужно получить все ключевые слова для заданного some_id и отсортировать их по бэкэнду (python), а затем получить первые 100 записей. для меня это очень дорогая операция.

Итак, мой вопрос: могу ли я отсортировать счетчик внутри Кассандры? и если нет, каков наилучший подход к этому сценарию?

Спасибо.

1 Ответ

0 голосов
/ 07 ноября 2018

Если вы используете Cassandra только для этого варианта использования, и если у вас уже нет больших инвестиций в него, мой лучший совет: выберите другую базу данных. :) Кассандра не была предназначена для этого.

Если вам НУЖНО использовать Cassandra, взгляните на этот ответ , основанный на том, как eBay организует свои данные.

Но опять же, если у вас есть возможность, используйте другую технологию для этого варианта использования. На Кассандре будет очень грязно.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...