Какую базу данных использовать для структурированных - больших объемов - вставки + чтения + суммирования данных? - PullRequest
1 голос
/ 18 января 2012

Требования следующие:

  • Большой объем, структурированные данные в реальном времени.
  • данные только для вставки (без обновлений)
  • Данные должны суммироваться в реальном времени.
  • данные должны анализироваться - в реальном времени.
  • Транзакции не имеют значения (поскольку данные доступны только для чтения)
  • структура данных не будет часто изменяться.(почти никогда)

Чтобы уточнить немного ... Данные генерируются программным обеспечением ... Один пользователь может иметь несколько экземпляров этого программного обеспечения, и наша система поддерживает несколько пользователей.

Наша система >> Пользователи >> их программное обеспечение (все отношения один ко многим - слева направо)

Ответы [ 2 ]

1 голос
/ 23 января 2012

Для хранения данных используйте Hadoop HDFS (файловая система Hadoop)

Если данные только для вставки (структура данных не изменяется), используйте Hive

Используйте Sqoop в качестве соединителя между HDFS и Hive.

Если данные нужно искать (что-то вроде поисковой системы), используйте Solr

Наконец, для ведения данных журнала попробуйте Flume

1 голос
/ 18 января 2012

Серьезно, единственный способ сделать в режиме реального времени - это вообще не хранить его, за исключением записи в устаревший файл журнала для восстановления. Для анализа используйте потоковую обработку , а не базу данных.

...