Apache spark + интеграция платформы и запись в hdfs файлы - PullRequest
0 голосов
/ 11 июня 2019

Я использую потоковую обработку искры для обработки данных с конфликтующей платформы и записи в hdfs после нескольких преобразований в записи.
Я настроил исполнитель spark cluster 16 и 4 ядра на исполнителя, а установка Kafka - это тема с 72 разделами.

Проблема, с которой я сталкиваюсь, заключается в том, что один и тот же исполнитель всегда записывает все записи в hdfs.
Я подтвердил это в пользовательском интерфейсе spark и выполнил команду Kafka cli для описания групп потребителей в моей теме Кафа.только один уникальный адрес хоста подключен к kafka из кластера искр.

Таким образом, мое приложение не масштабируется по горизонтали независимо от какого-либо увеличения искрового кластера и кластера Kafka.

Пример приблизительного кода.

Dstream ds = kutils.createdirectstream (locationstrategies.preferconsistent,topics,params);

Dt= Ds converted to dataset by applying schema;

Dt.write hdfs .mode append .format parquet;

Извините, у меня нет доступа к реальному коду.выше всего лишь шаблон.

Пожалуйста, помогите.

...