Понимание выводов панели управления Apache Flink - PullRequest
0 голосов
/ 19 мая 2019

Я пытаюсь понять, что означает "Получено / отправлено байтов", как показано на панели инструментов Apache Flink.В некоторых случаях файлы CSV размещаются на серверах HDFS, и я записываю результат в файл TXT локально на моей машине.Flink также работает локально на моей машине.Имея это в виду, «Отправленные байты» означают «Отправленные байты с сервера HDFS на мою машину», а «Полученные байты» означают «Отправленные байты с моей машины на сервер HDFS». Это правильная интерпретация?

enter image description here

Я также немного смущен перекрывающимися задачами, показанными временной шкалой.Кажется странным, что объединение начинается до завершения фильтрации первых двух наборов данных. Является ли это ожидаемым поведением, и если да, то почему?

enter image description here

Ниже приведен мой план выполнения для некоторого контекста происходящего.

enter image description here

1 Ответ

1 голос
/ 20 мая 2019

«Полученные байты» для оператора Flink относятся к входящим данным, а «отправленные байты» относятся к исходящим данным. Другими словами, вы получаете это задом наперед: байты, полученные источниками данных, - это байты, полученные из HDFS, а байты, отправленные из приемника, - это байты, записанные в файл TXT.

Однако, как объяснено в этом ответе , Flink не предоставляет статистику полученных байтов для источников или байтов, отправленных для приемников, поэтому эти цифры равны нулю. Кстати, есть планы по улучшению этого в будущем выпуске.

Что касается перекрывающихся параллельных вычислений в конвейере потока данных - ну, да, это важная особенность конструкции Flink, которая может поддерживать непрерывные потоковые потоки данных. При выполнении пакетной рабочей нагрузки это необязательно, но не повредит.

...