Apache Spark вычисляет замыкания функций, примененных к СДР для отправки их на узлы-исполнители.
Эта сериализация имеет свою стоимость, поэтому я хотел бы убедитесь, что замыкания, создаваемые Spark, настолько малы, насколько это возможно. Например, возможно, что функции без необходимости ссылаются на большой сериализуемый объект, который будет сериализован в замыкании, фактически не требуя его для вычисления.
Существуют ли какие-либо инструменты для проверки содержимого замыканий, отправляемых в исполнители? Или какой-то другой способ их оптимизации?