Кафка связывает ролловер на основе размера с ролловером на основе времени на отдельных разделах - PullRequest
0 голосов
/ 20 февраля 2020

Я использую Kafka connect для загрузки файлов в HDFS, Kafka connect имеет TopicPartitionWriter, который выполняет ролловер по времени для всех разделов, и нет ролловера на основе размера.

Я хочу сделать ролловер на основе размера и времени но для каждого раздела, так как при передаче данных, хотя каждый раздел не является однородным, также файлы одинакового размера.

2 вопроса: 1. Если я попытаюсь сделать это, изменив много кода в Kafka Connect, который потеряет оригинал дизайн ? 2. Что-нибудь сделано для моего варианта использования?

1 Ответ

0 голосов
/ 20 февраля 2020

TopicPartitionWriter, который выполняет ролловер вовремя для всех разделов и нет ролловера на основе размера

flush.size все еще (и всегда) используется.

Если я попытаюсь сделать это, изменив много кода в Kafka Connect, который потеряет оригинальный дизайн

Нет? Пока данные передаются из Кафки в какую-то внешнюю систему, это единственный контракт, который API-интерфейс Connect Sink предоставляет

Что-нибудь сделано для моего варианта использования?

Сканирование вопросы и PR репозитория Github

...