Назначение + tmp в Kafka hdfs connect - PullRequest
0 голосов
/ 31 января 2019

Я планирую использовать Kafka hdfs connect для перемещения сообщений из Kafka в hdfs.Глядя на это, я вижу, что есть такие параметры, как размер сброса и интервал поворота Ms, с помощью которых вы можете пакетировать сообщения в кучу и записывать пакет одновременно.Записывается ли партия сначала в Wal, а затем в указанное место.Я также вижу, что это создает каталог + tmp.Какова цель каталога + tmp.Мы можем напрямую записать весь пакет в виде файла в указанное место с диапазонами смещения.

1 Ответ

0 голосов
/ 31 января 2019

Когда потребитель Kafka пишет в HDFS, он сначала пишет в WAL.+tmp dir содержит все временные файлы, которые сжимаются в большие файлы HDFS.Затем он перемещается в фактическое определенное местоположение.

Фактически вы можете обратиться к фактической реализации, чтобы глубже понять.

https://github.com/confluentinc/kafka-connect-hdfs/blob/121a69133bc2c136b6aa9d08b23a0799a4cd8799/src/main/java/io/confluent/connect/hdfs/TopicPartitionWriter.java#L611

...