Несбалансированное распределение кортежей, несмотря на разбиение с помощью Apache Flink - PullRequest
0 голосов
/ 17 декабря 2018

У меня запущено пакетное задание с Flink на EMR, которое обогащает некоторые данные, хранящиеся в CSV на AWS S3, и индексирует кортежи с помощью Elasticsearch.

По какой-то причине один из хостов получает гораздо больше работычем другие.Я попытался решить эту проблему путем разбиения хэша на несколько полей кортежей, но это не имеет никакого значения: один из узлов по-прежнему получает больше, чем другие.См. Хост 40705. на снимке экрана ниже.

Мне нужно максимально распределить индексацию по различным узлам для оптимизации пропускной способности.

Я пытался использовать rebalance () , норезультат тот же.Любые подсказки?

enter image description here

РЕДАКТИРОВАТЬ

Экран обзора

enter image description here

...