Оптимизируйте Cassandra Query для более быстрого результата - PullRequest
0 голосов
/ 08 января 2020

У меня есть таблица с именем geo_location, которая хранит public ip range в городе (в целочисленной форме). Я должен запросить ip в таблице и проверить, находится ли он между start_range и end_range, а затем вернуть соответствующую строку. Таблица имеет 2929393 rows.

Вот мой дескриптор таблицы:

CREATE TABLE acrs.geo_location (
    start_range bigint,
    end_range bigint,
    city text,
    country text,
    country_init text,
    latitude double,
    longitude double,
    state text,
    PRIMARY KEY (start_range, end_range)
) WITH CLUSTERING ORDER BY (end_range ASC)
    AND bloom_filter_fp_chance = 0.01
    AND caching = {'keys': 'ALL', 'rows_per_partition': 'NONE'}
    AND comment = ''
    AND compaction = {'class': 'org.apache.cassandra.db.compaction.SizeTieredCompactionStrategy', 'max_threshold': '32', 'min_threshold': '4'}
    AND compression = {'chunk_length_in_kb': '64', 'class': 'org.apache.cassandra.io.compress.LZ4Compressor'}
    AND crc_check_chance = 1.0
    AND dclocal_read_repair_chance = 0.1
    AND default_time_to_live = 0
    AND gc_grace_seconds = 864000
    AND max_index_interval = 2048
    AND memtable_flush_period_in_ms = 0
    AND min_index_interval = 128
    AND read_repair_chance = 0.0
    AND speculative_retry = '99PERCENTILE';

И это пример данных в таблице:

@ Row 1
--------------+---------------------------------
 start_range  | 3753640192
 end_range    | 3753640447
 city         | Tonk
 country      | India
 country_init | IN
 latitude     | 26.16667
 longitude    | 75.78333
 state        | Rajasthan

@ Row 2
--------------+---------------------------------
 start_range  | 1358168576
 end_range    | 1358171135
 city         | Kent
 country      | United Kingdom
 country_init | GB
 latitude     | 51.25
 longitude    | 0.75
 state        | England

Теперь, когда я query:

select * from geo_location where start_range < 2534358817 and end_range > 2534358817 ALLOW FILTERING ;

Требуется много времени, чтобы вернуть результирующую строку. Вполне возможно, что моя модель данных неверна, так как я недавно перешел с реляционных баз данных на эту, следовательно, искал некоторую помощь относительно того же. Благодаря.

1 Ответ

3 голосов
/ 08 января 2020

Скорее всего, ваша структура БД неверна, когда вам нужно использовать ALLOW FILTERING.

В Кассандре невозможно использовать запросы диапазонов для ключей секционирования. Что вам нужно сделать, это изменить структуру таблицы, чтобы иметь ключ разделения, который группирует ваши данные (например, по дате) и ключи кластеризации start_range, end_range.

См .: Разница между ключом разделения, составным ключом и ключ кластеризации в Кассандре?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...