Лучшая база данных больших данных для временных рядов - PullRequest
0 голосов
/ 10 октября 2018

Я ищу лучшую базу данных для моего проекта больших данных.Мы собираем данные с некоторых датчиков.В каждой строке около ста столбцов.каждый день мы храним несколько миллионов строк.

Наиболее распространенный запрос - получение данных для одного датчика в диапазоне дат.

в данный момент я использую кластер percona mysql.когда я запрашиваю данные для диапазона в некоторые дни, ответ быстрый.Проблема в том, когда я спрашиваю данные за месяц.База данных идеально оптимизирована, но время отклика не приемлемо.

Я бы хотел изменить кластер percona на базу данных, способную выполнять запрос параллельно на всех узлах, чтобы улучшить время отклика.

С Cassandra я могу разделить данные по узлам (возможно, основываясь на текущей дате), но я прочитал, что Cassandra не может читать данные между разделами параллельно, но мне нужно создавать запрос на каждый день.(я не знаю почему)

Существует ли база данных, которая автоматически управляет запросами шардов, чтобы я мог распределять данные по всем узлам?

1 Ответ

0 голосов
/ 10 октября 2018

С Cassandra, если вы разделите свои данные по нескольким разделам, вы все равно сможете читать данные между разделами параллельно, выполняя несколько запросов асинхронно.

Драйверы Cassandra помогут вам справиться с этим, см. execute_concurrent из драйвер python .

Более того, драйвер cassandra знает о разбиении данных, он знает, какой узел содержит какие данные.Поэтому при чтении или записи он выбирает соответствующий узел для отправки запроса в соответствии с драйвером политика балансировки нагрузки (в частности, с TokenAwarePolicy).

Таким образом, клиент действует какбалансировщик нагрузки, и ваш запрос обрабатывается параллельно доступными узлами.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...