Я хочу сделать сжатый журнал данных в Apache Kafka. Как я знаю, какой выбрать? Для меня важны производительность и пространство.
Файл Server.properties
Compression.type = snappy , gzip , lz4 vb. использовать.
Не случайно, Uber использует zlib с сериализованными сообщениями MsgPack . Однако вы должны выполнить свои собственные тесты на своем оборудовании, сети и хранилище (например, эти числа были получены с использованием библиотек Python)
Что касается лежащей в основе сериализации, Сериализация Avro через реестр схем позволяет вам иметь более строгие правила определения схемы, чем обычный текст или JSON, и Avro обычно хорошо сочетается со сжатием Snappy