Хранение данных для финансового анализа - PullRequest
5 голосов
/ 24 марта 2012

Я строю систему для анализа больших объемов финансовых данных, касающихся цен на ценные бумаги.Большой проблемой в этом является определение того, какой метод хранения использовать для данных, учитывая, что данные будут в десятках террабайт.Будет много запросов к данным, таким как получение средних значений, вычисление стандартных отклонений и сумм, отфильтрованных по нескольким столбцам, таким как цена, время, объем и т. Д. Операторы объединения не являются обязательными, но было бы неплохо иметь их.

В данный момент я ищу ознакомительные выпуски сообщества infobright, monetdb и greenplum.Пока они кажутся великолепными, но для более сложных функций некоторые из них требуются, недоступны в некоторых из этих выпусков (с использованием нескольких серверов, операторов вставки / обновления и т. Д.).

Какие решения вы бы использовали дляэта ситуация и преимущества она дает по сравнению с альтернативами?Быть экономически эффективным является основным плюсом.Если я должен буду заплатить за решение для хранилища данных, я это сделаю, но я бы предпочел избежать его и, если это возможно, пойти по пути открытого исходного кода / сообщества.

Ответы [ 2 ]

1 голос
/ 23 апреля 2012

Infobright обеспечивает высокую производительность запросов без настройки, проекций и индексов для больших объемов данных.При загрузке данных я видел случаи, когда может загружаться 80 ТБ данных в час, более 12 000 вставок в секунду.

Как это работает?

  1. Ориентация столбцов против ориентации строк
  2. Пакеты данных плюс Сжатие в среднем 20: 1
  3. Сетка знаний - ответ подсекунд на запрос
  4. Granular Engine, построенный на основе архитектуры mysql

Я бы по-прежнему предлагал вам рассмотреть вопрос о лицензировании предприятия, но вы, безусловно, можете оценить выпуск сообщества и сравнить его с требованиями к производительности и загрузке данных.

Отказ от ответственности: автор связан с Infobright.

1 голос
/ 30 марта 2012

Я думаю, что любая из упомянутых вами баз данных будет делать то, что вам нужно. Если вы имеете дело с данными из 10 ТБ, получение корпоративной лицензии для запуска в кластере MPP, вероятно, было бы хорошим использованием средств для сокращения времени обработки. Кроме того, если этот DW будет выполнять важную обработку для вашей организации, наличие лицензии означает, что вы получите поддержку от поставщика, что важно для многих предприятий. YMMV.

Более важным вопросом будет то, на что будут похожи ваши скорости загрузки данных? Для финансовой системы я считаю, что большая часть уравнения должна заключаться в способности загружать свежие данные в вашу систему, продолжая при этом выполнять обычную обработку.

Я знаком с Greenplum только из вашего списка кандидатов, но знаю, что он хорошо справляется с загрузкой больших объемов данных за короткий промежуток времени. GP также имеет множество встроенных статистических и аналитических функций, которые вы можете запускать внутри БД, включая встроенные функции SQL, MADLib, R и т. Д.

...