Синхронизация Kafka с AWS S3 с другой структурой каталогов - PullRequest
0 голосов
/ 11 октября 2018

У нас есть события, приходящие в Кафку, и с помощью kafka connect мы синхронизируем эти события с aws s3.Данные видны в s3 в структуре ниже dir:

bucket_name/sub_folder/
                       Partition=0/events.json
                       Partition=1/events.json
                       Partition=2/events.json

есть ли способ сохранить в структуре ниже dir:

Bucket_name/sub_folder/date=today_date/ events.json or Partition=0..2/date=today/events.json
Bucket_name/sub_folder/date=today_date/ events.json or 

Мотивация состоит в том, чтобы хранить события тех дней в те дникаталог, я искал в Интернете, но не мог найти другой путь.Заранее спасибо.

1 Ответ

0 голосов
/ 11 октября 2018

Вы можете использовать TimeBasedPartitioner, который

разделяет данные в зависимости от времени приема.

например, для почасового разделения:

[…]
"partitioner.class": "io.confluent.connect.storage.partitioner.TimeBasedPartitioner",
"path.format": "'year'=YYYY/'month'=MM/'day'=dd/'hour'=HH",
"locale": "US",
"timezone": "UTC",
"partition.duration.ms": "3600000",
"timestamp.extractor": "RecordField",
"timestamp.field": "my_record_field_with_timestamp_in",
[…]
...