У нас есть тема Kafka с 25 разделами со следующими настройками темы:
delete.retention.ms=5000
cleanup.policy=compact
compression.type=lz4
В ней содержится около 10 миллиардов записей, что составляет около 13 сегментов на раздел.Самому старому сегменту несколько месяцев.
Брокеры используют Confluent Platform 5.0.1 (Kafka 2.0) и настроены на непрерывное сжатие:
# Ensure compaction runs continuously
log.cleaner.min.cleanable.ratio=0.00001
# Set a limit on compaction so there is bandwidth for regular activities
log.cleaner.io.max.bytes.per.second=100000000
log.segment.bytes=1073741824
Это согласно сообщению Confluentотносительно GDPR и уплотнения: GDPR & Kafka
Проблема
Журнал не сжимается.90% темы должно быть удалено к настоящему времени.Многие из записей имеют нулевые значения, которые должны их очистить;остальные записи, которые я ожидаю удалить, имеют дубликаты ключей.
В журналах очистителя журнала нет ошибок, и я вижу, как он очищает более поздние сегменты в теме.