Как получить матрицу корреляции фрейма данных pyspark? НОВЫЙ 2020 - PullRequest
0 голосов
/ 08 апреля 2020

У меня тот же вопрос из этой топи c:

Как получить матрицу корреляции фрейма данных pyspark?

"У меня большой фрейм данных pyspark. Я хочу получить его корреляционную матрицу. Я знаю, как получить его с помощью фрейма данных pandas. Но мои данные слишком велики для преобразования в pandas. Поэтому мне нужно получить результат с фреймом данных pyspark . Я искал другие похожие вопросы, ответы у меня не работают. Может ли кто-нибудь помочь мне? Спасибо! "

df4 - мой набор данных, у него 9 столбцов, и все они целые числа:

reference__YM_unix:integer
tenure_band:integer
cei_global_band:integer
x_band:integer
y_band:integer
limit_band:integer
spend_band:integer
transactions_band:integer
spend_total:integer

Сначала я сделал этот шаг:

# convert to vector column first
vector_col = "corr_features"
assembler = VectorAssembler(inputCols=df4.columns, outputCol=vector_col)
df_vector = assembler.transform(df4).select(vector_col)

# get correlation matrix
matrix = Correlation.corr(df_vector, vector_col)

И получил следующий вывод:

(matrix.collect()[0]["pearson({})".format(vector_col)].values)
Out[33]: array([ 1.        ,  0.0760092 ,  0.09051543,  0.07550633, -0.08058203,
       -0.24106848,  0.08229602, -0.02975856, -0.03108094,  0.0760092 ,
        1.        ,  0.14792512, -0.10744735,  0.29481762, -0.04490072,
       -0.27454922,  0.23242408,  0.32051685,  0.09051543,  0.14792512,
        1.        , -0.03708623,  0.13719527, -0.01135489,  0.08706559,
        0.24713638,  0.37453265,  0.07550633, -0.10744735, -0.03708623,
        1.        , -0.49640664,  0.01885793,  0.25877516, -0.05019079,
       -0.13878844, -0.08058203,  0.29481762,  0.13719527, -0.49640664,
        1.        ,  0.01080777, -0.42319841,  0.01229877,  0.16440178,
       -0.24106848, -0.04490072, -0.01135489,  0.01885793,  0.01080777,
        1.        ,  0.00523737,  0.01244241,  0.01811365,  0.08229602,
       -0.27454922,  0.08706559,  0.25877516, -0.42319841,  0.00523737,
        1.        ,  0.32888075,  0.21416322, -0.02975856,  0.23242408,
        0.24713638, -0.05019079,  0.01229877,  0.01244241,  0.32888075,
        1.        ,  0.53310864, -0.03108094,  0.32051685,  0.37453265,
       -0.13878844,  0.16440178,  0.01811365,  0.21416322,  0.53310864,
        1.        ])

Я пытался вставить этот результат в массивы или в Excel файл, но это не сработало. Я сделал:

matrix2 = (matrix.collect()[0]["pearson({})".format(vector_col)])

Тогда я получил следующую ошибку, когда попытался отобразить эту информацию:

display(matrix2)

Exception: ML model display does not yet support model type <class 'pyspark.ml.linalg.DenseMatrix'>.

Я ожидал вставить имя столбца обратно из df4 но это не удалось, я прочитал, что мне нужно использовать df4.columns, но я понятия не имею, как это работает.

Наконец, я ожидал напечатать следующий график, который я видел со среды статья

https://medium.com/towards-artificial-intelligence/feature-selection-and-dimensionality-reduction-using-covariance-matrix-plot-b4c7498abd07

Но это также не сработало:

from sklearn.preprocessing import StandardScaler 
stdsc = StandardScaler() 
X_std = stdsc.fit_transform(df4.iloc[:,range(0,7)].values)
cov_mat =np.cov(X_std.T)
plt.figure(figsize=(10,10))
sns.set(font_scale=1.5)
hm = sns.heatmap(cov_mat,
                 cbar=True,
                 annot=True,
                 square=True,
                 fmt='.2f',
                 annot_kws={'size': 12},
                 cmap='coolwarm',                 
                 yticklabels=cols,
                 xticklabels=cols)
plt.title('Covariance matrix showing correlation coefficients', size = 18)
plt.tight_layout()
plt.show()


AttributeError: 'DataFrame' object has no attribute 'iloc'

Я пытался заменить df4 на matrix2 и не сделал тоже не работает

1 Ответ

1 голос
/ 09 апреля 2020

Вы можете использовать следующее, чтобы получить матрицу корреляции в форме, которой вы можете манипулировать:

matrix = matrix.toArray().tolist() 

Оттуда вы можете преобразовать в фрейм данных pd.DataFrame(matrix), который позволит вам построить тепловую карту, или сохранить в Excel et c.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...