Каков наилучший способ оценить производительность компонентов конвейера данных? - PullRequest
1 голос
/ 21 мая 2019

Я работаю над оптимизацией конвейера данных, который использует Apache Spark, HDFS и YARN в качестве менеджера кластера. Spark Cluster состоит из ограниченного количества внутренних машин, которые совместно используются различными группами. Таким образом, сборка определенных компонентов трубопровода займет разное время в зависимости от того, насколько интенсивно используются эти машины. Я пытаюсь найти показатель, чтобы судить о том, насколько мои оптимизации улучшают производительность существующего конвейера данных, от компонента к компоненту. Прямо сейчас, два, о которых я мог думать:

1) Использование памяти во время сборки * Количество времени, необходимое для сборки компонента

2) Количество процессоров, использованных во время сборки * Количество времени, необходимое для сборки компонента

Что вы думаете об этих показателях? Что такое более точное измерение? Есть ли лучшие измерения производительности? Я был бы открыт для любых предложений, так как я новичок в мире больших данных. Любая помощь будет высоко ценится!

Спасибо

1011 * Тейлор *

...