Кто-нибудь знает формат сериализации, который:
- Бинарный и, по крайней мере, относительно компактный,
- Может хранить данные JSON ( не Protobuf, Thrift, et c.),
- Поддерживает обход (т. Е. Вам не нужно анализировать весь документ, чтобы прочитать одну его часть), а
- Поддерживает большие файлы (например, 30 ГБ)?
Я смотрел на следующее:
BSON был так близко, но максимальный размер файла меня это убивает. Есть ли форматы, которые будут работать? Очевидно, я могу написать свой собственный, но есть оооочень много двоичных JSON форматов, наверняка кто-то сделал приличный?
Редактировать: Под "обходом" я подразумеваю то же самое, что авторы BSON означают - вы должны быть в состоянии найти данный объект, не анализируя весь файл. Amazon называет это «редким» или «поверхностным» чтением.