Моя конфигурация:
Confluent (5.0.0) Kafka выдает несколько авро-сообщений.
Рабочий Connect (приемник коннектора HDFS) передает эти сообщения на узел HDFS в формате Parquet. Я настроил функцию подключения к работнику для отправки сообщений в HDFS каждые 5000 сообщений (flush.size=5000
). Этот конфиг работает отлично.
Мой вопрос: есть ли обходной путь для фиксации сообщений при достижении точно 128 МБ (или 256 МБ), а не по количеству сообщений?
Файл конфигурации My HDFS Connector:
name=hdfs-sink
connector.class=io.confluent.connect.hdfs.HdfsSinkConnector
format.class=io.confluent.connect.hdfs.parquet.ParquetFormat
tasks.max=1
topics=some_topic
hdfs.url=hdfs://hdfshost:8020/user/someuser/kafka_hdfs_sink/
flush.size=5000