У меня есть около 500 файлов HDF5 каждый по 1,5 ГБ.
Каждый из файлов имеет одинаковую точную структуру, которая состоит из 7 составных (int, double, double) наборов данных и переменного количества выборок.
Теперь я хочу объединить все эти файлы, объединив каждый из наборов данных, чтобы в конце у меня был один файл размером 750 ГБ с моими 7 наборами данных.
В настоящее время я запускаю скрипт h5py, который:
- создает файл HDF5 с правильными наборами данных неограниченного максимума
- открыть последовательно все файлы
- проверить, какое количество образцов (как оно переменное)
- изменить размер глобального файла
- добавить данные
это очевидно занимает много часов,
у вас есть предложение по улучшению этого?
Я работаю над кластером, поэтому я могу использовать HDF5 параллельно, но я не достаточно хорош в C программировании, чтобы реализовать что-то сам, мне нужен уже написанный инструмент.