Если ваш поток из Кафки в S3 не имеет постоянного потока записей, вы можете использовать свойство
rotate.schedule.interval.ms
для очисткизаписи в запланированные интервалы.
Обратите внимание, что в случае повторной обработки ваша нисходящая система должна быть в состоянии справиться с дубликатами, если используется эта опция.Это связано с тем, что очистка таких записей на основе настенных часов может привести к появлению дубликатов в разных файлах, если для соединителя запланирован повторный экспорт записей из Kafka.
В качестве идентификатора, если вы используете свойство:
rotate.interval.ms
с экстрактором отметок времени Wallclock
(timestamp.extractor=Wallclock
), ваши записи будут сброшены без установки rotate.schedule.interval.ms
.Но это означает, что ваш разделитель зависит от настенных часов, и поэтому вы должны иметь возможность учитывать дубликаты записей.
Соединитель может предлагать точную однократную доставку в постоянном потоке записей с детерминированными разделителями и имеет различные экстракторы временных меток, например, такую, которая зависит от временной метки записи (Record
) или временной метки поля(RecordField
).
Свойства конфигурации для разбиения здесь