Обработка большого количества элементов для одного столбца в базе данных временных рядов - PullRequest
0 голосов
/ 19 ноября 2018

У меня очень большая база данных временных рядов. Предположим, у меня есть 4 столбца в моей базе данных временных рядов (A, B, C и D), чей индивидуальный кардинал равен (10, 100, 50, 10 000 000). Итак, в целом у меня есть база данных (10 * 100 * 50 * 10 000 000) кардинальности. Я хочу знать следующие вопросы:

  1. Какую систему оповещения я должен использовать для мониторинга высокой мощности (скажем, 5 миллионов кардинальных данных за последний час данных).
  2. Каков наилучший способ обработки, если 1 столбец в базе данных временных рядов имеет очень большую мощность?

1 Ответ

0 голосов
/ 11 декабря 2018

Я предполагаю, что вы хотите использовать какую-то систему мониторинга, где при некоторых событиях система срабатывает, чтобы предупредить об определенной услуге, верно? как система обнаружения аномалий.

Итак, мой вопрос к вам: вы ищете инструмент мониторинга, просто для того, чтобы получать отчеты поверх функций, или используете временные ряды для машинного обучения, например?

Я отвечу на это так, как если бы оно было ориентировано на машинное обучение. Извините, если это не ваше намерение:

==> В ML объекты с большим количеством элементов обычно обрабатываются с помощью бининга, если вам нужно использовать фиктивные переменные. Другими словами, для каждого уровня функции создается новый двоичный столбец. (Пример: http код: 200, 200, 201, 404, 409, 500 ==> 2xx, 3xx, 4xx).

==> Однако, если вы используете древовидные алгоритмы для обработки большого количества элементов, вам не нужны фиктивные переменные для управления количеством элементов.

Можно использовать гораздо больше подходов, но мне нужно знать, ищите ли вы это, чтобы я мог углубить ответ.

...