Я пытаюсь получить корреляцию моих независимых переменных с целью (у).
Я использую библиотеку ML от spark.
В частности, у меня есть искровой фрейм данных, на котором я запускал VectorAssembler. Я в конечном итоге с 2 столбцами: цель, функции
цель (такая же, как у) состоит из чисел с плавающей точкой, это для линейной регрессии.
Этот код работает:
from pyspark.ml.stat import Correlation
corr_matrix = Correlation.corr(df, "features")
Это даст мне матрицу num_features x num_features. Я хочу иметь корреляции между целью и всеми функциями, чтобы в итоге я получил вектор размером 1 x num_features.
Я не могу войти в цикл for, потому что у меня более тысячи функций, и это занимает вечность.
Я могу написать функцию для вычисления корреляции самостоятельно, но я хочу держать все в искре и не использовать пустые или ниспадающие данные в массиве.
У кого-нибудь есть идеи, как поступить? Спасибо за помощь