Что делает RecordIO привлекательным - PullRequest
1 голос
/ 25 мая 2020

Я читал о RecordIO здесь и там и проверял различные реализации на github здесь и там . Я просто пытаюсь понять плюсы такого формата файла.

Плюсы, которые я вижу, следующие:

  1. Сжатие блоков. Будет быстрее, если вам нужно прочитать только несколько записей, потому что их нужно распаковать меньше.
  2. Благодаря каким-то образом проиндексированной структуре вы можете искать конкретную c запись за приемлемое время (при условии, что ключи отсортированы). Это может быть полезно для быстрого поиска записи в режиме adho c.
  3. Я также могу представить, что с таким форматом файла вы можете иметь более точные стратегии сегментирования. Вместо сегментирования файлов вы можете сегментировать блоки.

Но я не вижу, как такой формат файла быстрее читается через простой protobuf со сжатием.

По сути, я не вижу большого профи в этом формате.

...