Большое хранилище данных (nosql или нет) - PullRequest
0 голосов
/ 18 июля 2010

У меня есть большое количество научных данных, которые мне нужно сохранить (150 ТБ + начальные данные), и я хочу знать, как лучше всего хранить данные (nosql или RDBMS и т. Д.) ...

Любые советы......

Джеймс

Ответы [ 5 ]

2 голосов
/ 18 июля 2010

Ответьте на этот вопрос, чтобы выбрать из NoSQL или РСУБД: «Структурированы ли мои данные в отношениях?»

1 голос
/ 18 июля 2010

Это действительно зависит от того, что вам нужно делать с данными в более позднее время.Если данные представляют собой набор из нескольких очень больших файлов, то нормальная файловая система будет в порядке.Если вам нужна возможность поиска и анализа данных, то база данных может быть лучшим решением.

Я работаю и с большими наборами данных в научной среде.Большая часть этих данных является табличной, и когда мы начинали, мы сохраняли каждую точку данных в виде таблицы.Мы обнаружили, что в конце концов гораздо проще сжать таблицы и сохранить их в двоичном двоичном объекте в базе данных.В отдельной таблице мы хранили метаданные об этих таблицах.

0 голосов
/ 18 апреля 2011

Вы должны посмотреть на NetCDF и HDF5 . Также рассмотрите возможность использования PyTables для доступа и извлечения данных.

0 голосов
/ 19 июля 2010

Должен ли это быть один тип базы данных?Часть NoSQL означает, что один размер не подходит всем, так почему бы не два или более NoSQL?Как насчет одного хранилища столбцов и одной графической базы данных?

0 голосов
/ 18 июля 2010

Для научных данных существуют специальные базы данных: http://www.dbms2.com/2009/09/12/xldb-scid/

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...