Является ли паркет лучшим решением для больших колонок? - PullRequest
0 голосов
/ 06 января 2020

Я планирую переместить наши данные из строк (в настоящее время hdf5) в столбцы

Я думаю о паркете, но я не знаю, является ли это лучшим решением, вот некоторая информация о нашем сценарии:

  • каждый файл содержит 200 таблиц

    • каждая таблица содержит до 10 000 000 записей
    • каждая таблица имеет 50 столбцов
      • каждая строка имеет метку времени в качестве уникального ключа
  • в среднем 3 ГБ (размер варьируется 1-10 ГБ) на файл в формате hdf5

Я хочу, чтобы быстрый метод считывал столбцы, например так:

получить все значения для столбца (timestamp, value), для указанного c столбца наши файлы используются только для чтения. и будет храниться в кластере ssd ceph.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...