Я читал о RecordIO здесь и там и проверял различные реализации на github здесь и там . Я просто пытаюсь понять плюсы такого формата файла.
Плюсы, которые я вижу, следующие:
- Сжатие блоков. Будет быстрее, если вам нужно прочитать только несколько записей, потому что их нужно распаковать меньше.
- Благодаря каким-то образом проиндексированной структуре вы можете искать конкретную c запись за приемлемое время (при условии, что ключи отсортированы). Это может быть полезно для быстрого поиска записи в режиме adho c.
- Я также могу представить, что с таким форматом файла вы можете иметь более точные стратегии сегментирования. Вместо сегментирования файлов вы можете сегментировать блоки.
Но я не вижу, как такой формат файла быстрее читается через простой protobuf со сжатием.
По сути, я не вижу большого профи в этом формате.