Понимание выполнения соединения в Apache Flink - PullRequest
0 голосов
/ 28 мая 2019

Я пытаюсь понять, что на самом деле делает Флинк, но сейчас немного запутался.

Давайте посмотрим на простое гибридное хеш-соединение с использованием DataSetAPI, где каждая запись DataSource 2 объединяется с одной записью.DataSource 1, и мы считаем только выходные данные:

Join

Я зарегистрировал сетевой трафик кластера из 8 TaskManager:

bw usage

Насколько я понимаю, фаза тасования соединения - единственное, что должно создавать сетевой трафик.Поэтому я не могу понять пик после завершения DataSource 2.

Эта гипотеза представляется верной, поскольку общий объем переданных данных (25709,0 МБ) точно соответствует сумме двух источников данных.

Кроме того, сумма переданных данных в диапазоне от 0 до 73 соответствует размеру источника данных 1 и 73 - 120 соответствует размеру источника данных 2.

Возможно ли, что источник данных 2 начнет отправлять данные, как только они помеченыкак закончили в приборной панели?

Это не имеет особого смысла для меня?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...