Размер паркета Spark Output с помощью SparkListener - PullRequest
0 голосов
/ 27 мая 2019

Я использую onStageCompleted из SparkListener, пытаясь извлечь некоторые полезные данные из accumulables.

. Мне интересно узнать размер вывода для целей мониторинга.В то время как количество входных строк и количество байтов можно взять из « internal.metrics.input.recordsRead » и « internal.metrics.shuffle.write.bytesWritten » и выходных данных первого этапа.Количество строк можно узнать из " internal.metrics.shuffle.write.recordsWritten " из моего предпоследнего этапа, я понятия не имею, как найти выходные байты.

Распакованный или сжатый - тоже вариант для меня.Я использую Spark 2.10.

1 Ответ

0 голосов
/ 28 мая 2019

Посмотрите на onTaskEnd, есть свойство bytesWritten . Блоки данных SparkTaskMetrics также может быть полезным.

...