У меня есть количество данных, которые я обрабатываю, и которые не помещаются в память.Строки - это временные метки, столбцы - это что-то (например, датчики), значения - это значение определенного датчика (столбца) в определенной временной метке (строке).Подумайте, закажите 1000 датчиков и закажите полмиллиона временных меток.
Из-за некоторых сложностей моей проблемы для меня оптимальным является обработка данных с одинаковой временной меткой (вам просто нужно в это поверить).Тем не менее, для чтения я хотел бы выбрать один датчик (столбец) и получить временной ряд.
Мой вопрос: какой формат файла подходит для хранения этого?
Things I 'Мы попробовали: записать обработанные данные в базу данных sqlite, в таблицу, где временные метки помещаются в строки, и у нас есть два столбца: один указывает датчик, другой - значение датчика на временной метке.Проблема с этим является чтением.Поскольку я хочу выбрать конкретный датчик как функцию времени, этот случай долго не мог вытащить из базы данных.Даже после индексации это займет много времени, поскольку с учетом того, как были заданы записи, значения одного датчика будут разбросаны по полумиллиарду записей.
В настоящее время я использую базу данных sqlite.сохранить результаты, как описано выше, но затем выполнить шаг, после которого каждый датчик извлекается в виде временного ряда и сохранить его в файле HDF5.Это работает, но занимает много времени, и поэтому я должен запустить его за ночь.
Итак, мой вопрос: существует ли такой формат файла, который работает так же эффективно для записи строк, как и для чтения столбцов?