Корреляция в Искре - PullRequest
       6

Корреляция в Искре

0 голосов
/ 16 ноября 2018

Я пытаюсь получить корреляцию моих независимых переменных с целью (у). Я использую библиотеку ML от spark.

В частности, у меня есть искровой фрейм данных, на котором я запускал VectorAssembler. Я в конечном итоге с 2 столбцами: цель, функции цель (такая же, как у) состоит из чисел с плавающей точкой, это для линейной регрессии.

Этот код работает:

from pyspark.ml.stat import Correlation
corr_matrix = Correlation.corr(df, "features")

Это даст мне матрицу num_features x num_features. Я хочу иметь корреляции между целью и всеми функциями, чтобы в итоге я получил вектор размером 1 x num_features.

Я не могу войти в цикл for, потому что у меня более тысячи функций, и это занимает вечность. Я могу написать функцию для вычисления корреляции самостоятельно, но я хочу держать все в искре и не использовать пустые или ниспадающие данные в массиве.

У кого-нибудь есть идеи, как поступить? Спасибо за помощь

...