Стратегия обработки истории данных временных рядов в Кассандре - PullRequest
0 голосов
/ 07 февраля 2019

Я работаю над безумными данными временного ряда.Итак, у меня есть две темы Кафки - 1) Временные ряды в реальном времени Данные о движущихся транспортных средствах каждые 5 секунд.2) История Временные ряды Данные о 10% транспортных средств в случае, если транспортные средства движутся в отдаленном районе, поэтому данные отправляются, как только они поступают в сеть, это может происходить через несколько часов, дней или недель.

Итак, мойТаблица cassandra выглядит примерно так

CREATE TABLE locationinfo (
imei text,
date text,
entrydt timestamp,
gpsdt timestamp,
lastgpsdt timestamp,
latitude text,
longitude text,
odo int,
speed int,
PRIMARY KEY ((imei, date), gpsdt) 
) WITH CLUSTERING ORDER BY (gpsdt ASC)

, и я использую потоковую передачу Spark для извлечения данных из Kafka и вставки в Cassandra, здесь ключом кластеризации является gpsdt.Всякий раз, когда исторические данные поступают из Кафки, в таблице происходит много случайных изменений, поскольку мы знаем архитектуру Кассандры.Данные хранятся только в последовательном порядке в определенном разделе, и записи записей истории происходят между строк.Итак, что происходит, после того, как через некоторое время приложение потоковой передачи искры зависает.После долгих поисков я обнаружил, что могут быть некоторые проблемы с моей стратегией таблицы, поэтому, если я создам схему таблицы, подобную этой, -

CREATE TABLE locationinfo (
imei text,
date text,
entrydt timestamp,
gpsdt timestamp,
lastgpsdt timestamp,
latitude text,
longitude text,
odo int,
speed int,
PRIMARY KEY ((imei, date), entrydt)
) WITH CLUSTERING ORDER BY (entrydt ASC)

Здесь порядок определяется по времени вставки, поэтому всякий раз, когда будут поступать данные историион всегда будет добавляться в последнем, и не будет никакого перетасовки.Но в этом случае я не смогу делать диапазонные запросы на gpsdt.Итак, я хотел бы знать, какой должна быть лучшая стратегия для обработки этого сценария.Моя загрузка с кафки больше 2к / сек.

...