свойство spark.streaming.kafka.consumer.cache.enabled работает / влияет на производительность потребителей Kafka - PullRequest
0 голосов
/ 07 февраля 2019

Я сталкивался с конфигом spark.streaming.kafka.consumer.cache.enabled = false в свойствах нашего приложения, и удивительно, что никто в моей команде не знает, как это помогает нам в достижении лучших результатовспектакль.Это было добавлено по совету поддержки от Cloudera.Я не мог найти никакого подробного объяснения об этой собственности в Документах Spark.Может кто-нибудь, пожалуйста, помогите мне понять, как эта конфигурация влияет на производительность Kafka Consumer.

1 Ответ

0 голосов
/ 08 февраля 2019

Глядя на исходный код , вы можете видеть, что он имеет значение useCache : Boolean и, похоже, помещает внутренние объекты KafkaConsumer в этот кэш на основе назначений идентификатора группы и раздела + раздела.

Я не имею ни малейшего представления, почему не кэширующие потребители будут "более производительными", но я могу предположить, что отсутствие их кэширования позволяет перебалансировке группы потребителей Kafka работать "лучше""

Если вы считаете, что в этом свойстве отсутствует необходимая документация, я бы предложил открыть JIRA

...