У меня запущено пакетное задание с Flink на EMR, которое обогащает некоторые данные, хранящиеся в CSV на AWS S3, и индексирует кортежи с помощью Elasticsearch.
По какой-то причине один из хостов получает гораздо больше работычем другие.Я попытался решить эту проблему путем разбиения хэша на несколько полей кортежей, но это не имеет никакого значения: один из узлов по-прежнему получает больше, чем другие.См. Хост 40705. на снимке экрана ниже.
Мне нужно максимально распределить индексацию по различным узлам для оптимизации пропускной способности.
Я пытался использовать rebalance () , норезультат тот же.Любые подсказки?
РЕДАКТИРОВАТЬ
Экран обзора