Я пытаюсь понять, что на самом деле делает Флинк, но сейчас немного запутался.
Давайте посмотрим на простое гибридное хеш-соединение с использованием DataSetAPI, где каждая запись DataSource 2 объединяется с одной записью.DataSource 1, и мы считаем только выходные данные:
Я зарегистрировал сетевой трафик кластера из 8 TaskManager:
Насколько я понимаю, фаза тасования соединения - единственное, что должно создавать сетевой трафик.Поэтому я не могу понять пик после завершения DataSource 2.
Эта гипотеза представляется верной, поскольку общий объем переданных данных (25709,0 МБ) точно соответствует сумме двух источников данных.
Кроме того, сумма переданных данных в диапазоне от 0 до 73 соответствует размеру источника данных 1 и 73 - 120 соответствует размеру источника данных 2.
Возможно ли, что источник данных 2 начнет отправлять данные, как только они помеченыкак закончили в приборной панели?
Это не имеет особого смысла для меня?