У меня есть настройка, при которой входящие данные из кластера Kafka обрабатываются потоковым заданием Apache Spark.
Информация о версии: -
Кафка = 0.8.x
Версия Spark = 2.3.1
Недавно, когда емкость кластера Kafka была увеличена (путем добавления новых узлов), мы внезапно увидели экспоненциальный рост использования дисков искровыми кластерами (большая часть пространства была занята временными файлами искры)
Я не уверен, связаны ли они, и хотел, чтобы некоторые указатели обращались / отлаживали то же самое.
В качестве меры предосторожности мы увеличили дисковое пространство искровых кластеров, чтобы избежать ошибки «Нет свободного места на устройстве».