Я использую потоковую обработку искры для обработки данных с конфликтующей платформы и записи в hdfs после нескольких преобразований в записи.
Я настроил исполнитель spark cluster 16 и 4 ядра на исполнителя, а установка Kafka - это тема с 72 разделами.
Проблема, с которой я сталкиваюсь, заключается в том, что один и тот же исполнитель всегда записывает все записи в hdfs.
Я подтвердил это в пользовательском интерфейсе spark и выполнил команду Kafka cli для описания групп потребителей в моей теме Кафа.только один уникальный адрес хоста подключен к kafka из кластера искр.
Таким образом, мое приложение не масштабируется по горизонтали независимо от какого-либо увеличения искрового кластера и кластера Kafka.
Пример приблизительного кода.
Dstream ds = kutils.createdirectstream (locationstrategies.preferconsistent,topics,params);
Dt= Ds converted to dataset by applying schema;
Dt.write hdfs .mode append .format parquet;
Извините, у меня нет доступа к реальному коду.выше всего лишь шаблон.
Пожалуйста, помогите.