Хранение для больших наборов данных с сеткой - PullRequest
1 голос
/ 27 июня 2011

Я ищу хороший формат хранения для больших наборов данных с сеткой.Приложение метеорологическое, и мы бы предпочли формат, распространенный в этой области (для обмена данными с другими).Мне не нужно иметь дело со специальными структурами данных, и должен быть Fortran API.В настоящее время я рассматриваю HDF5, GRIB2 и NetCDF4.

Как эти форматы сравниваются с точки зрения сжатия данных?Каковы их основные ограничения?Насколько крута кривая обучения?Есть ли какие-либо другие форматы хранения, которые стоит изучить?

Я не нашел большого количества материала, описывающего различия и плюсы / минусы этих форматов (есть один релевантный SO поток , и презентация сравнение GRIB и NetCDF).

Ответы [ 2 ]

3 голосов
/ 11 июля 2011

Я бы, конечно, рассмотрел HDF5, поскольку это, кажется, тенденция в научном сообществе.

Кроме того, HDF5 имеет встроенные фильтры (включая фильтры сжатия), или вы также можете написать свой собственный.

Наконец, взгляните на «фрагментированные» наборы данных HDF5, так как они могут оказаться действительно полезными, если у вас есть наборы данных с сеткой.

http://www.hdfgroup.org/

3 голосов
/ 06 июля 2011

Извините, я не в метеорологии, но мне кажется, что научное сообщество движется к HDF5, см., Например, страницу NERSC:

http://www.nersc.gov/users/training/online-tutorials/introduction-to-scientific-i-o/

Мне пришлосьДля астрофизических данных мы выбрали тот же выбор, который мы исторически использовали FITS, и я обнаружил, что довольно легко начать использовать HDF5, поскольку есть API-интерфейсы не только Fortran и C, но и C ++, а также пакет Python (h5py).

...