Я пытаюсь точно выяснить, чем на самом деле являются эти новые запутанные хранилища данных, такие как bigtable, hbase и cassandra.
Я работаю с огромными объемами данных фондового рынка, миллиардами строк данных о ценах / котировках, которые могут добавлять до 100 гигабайт каждый день (хотя эти текстовые файлы часто сжимаются как минимум на порядок). Эти данные в основном представляют собой несколько чисел, две или три короткие строки и метку времени (обычно уровень в миллисекундах). Если бы мне пришлось выбирать уникальный идентификатор для каждой строки, мне пришлось бы выбирать всю строку (так как обмен может генерировать несколько значений для одного и того же символа в одну и ту же миллисекунду).
Я полагаю, что самый простой способ отобразить эти данные на bigtable (я включая его производные) - это по имени символа и дате (которые могут возвращать очень большой временной ряд, более миллиона точек данных не неслыханны). Из их описания видно, что с этими системами можно использовать несколько ключей. Я также предполагаю, что десятичные числа не являются хорошими кандидатами на ключи.
Некоторые из этих систем (например, Кассандра) утверждают, что могут выполнять запросы диапазона. Смогу ли я эффективно запросить, скажем, все значения MSFT за определенный день, с 11:00 до 13:30?
Что если я захочу выполнить поиск по ВСЕМ символам за определенный день и запросить все символы с ценой от 10 до 10,25 долл. (Поэтому я ищу значения и хочу, чтобы в результате были возвращены ключи)
Что если я захочу получить два временных ряда, вычесть одно из другого и вернуть два временных ряда и их результат, придется ли мне выполнять его логику в моей собственной программе?
Чтение соответствующих статей, кажется, показывает, что эти системы не очень хорошо подходят для массивных систем временных рядов. Однако, если такие системы, как карты Google, основаны на них, я думаю, что временные ряды также должны работать. Например, представьте, что время - это ось X, а цены - как ось Y, а символы - как названные местоположения - внезапно выглядит, что bigtable должен быть идеальным хранилищем для временных рядов (если вся земля может быть сохранена, восстановлена , увеличенные и аннотированные, данные фондового рынка должны быть тривиальными).
Может ли какой-нибудь эксперт указать мне правильное направление или устранить любые недоразумения.
Спасибо