Сделать Numpy Symmetri c Matrix из списка пар - PullRequest
3 голосов
/ 15 апреля 2020

У меня есть корреляционная матрица, но она указана в виде пар, например:

cm = pd.DataFrame({'name1': ['A', 'A', 'B'], 
                   'name2': ['B', 'C', 'C'], 
                   'corr': [0.1, 0.2, 0.3]})
cm
    name1   name2   corr
0   A       B       0.1
1   A       C       0.2
2   B       C       0.3

Какой самый простой способ сделать это в numpy 2d матрице корреляционной матрицы?

    A   B   C
A 1.0 0.1 0.2
B 0.1 1.0 0.3
C 0.2 0.3 1.0

Ответы [ 3 ]

4 голосов
/ 15 апреля 2020

Не уверен насчет pure numpy, так как вы имеете дело с pandas фреймом данных. Вот решение pure pandas:

s = cm.pivot(*cm)

ret = s.add(s.T, fill_value=0).fillna(1)

Вывод:

     A    B    C
A  1.0  0.1  0.2
B  0.1  1.0  0.3
C  0.2  0.3  1.0

Extra : для реверса (ret как указано выше)

(ret.where(np.triu(np.ones(ret.shape, dtype=bool),1))
    .stack()
    .reset_index(name='corr')
)

Вывод:

  level_0 level_1  corr
0       A       B   0.1
1       A       C   0.2
2       B       C   0.3
2 голосов
/ 15 апреля 2020

Одним из способов может быть построение графика с использованием networkX, установка столбца corr в качестве ребра weight и получение матрицы смежности с использованием nx.to_pandas_adjacency:

import networkx as nx
G = nx.from_pandas_edgelist(cm.rename(columns={'corr':'weight'}), 
                            source='name1', 
                            target='name2', 
                            edge_attr ='weight')

G.edges(data=True)
# EdgeDataView([('A', 'B', {'weight': 0.1}), ('A', 'C', {'weight': 0.2}), 
#               ('B', 'C', {'weight': 0.3})])

adj = nx.to_pandas_adjacency(G)
# sets the diagonal to 1 (node can't be connected to itself)
adj[:] = adj.values + np.eye(adj.shape[0])

print(adj)

    A    B    C
A  1.0  0.1  0.2
B  0.1  1.0  0.3
C  0.2  0.3  1.0
0 голосов
/ 15 апреля 2020

Учитывая, что последний столбец отсортирован соответствующим образом, мы могли бы использовать следующий код:

import pandas as pd
import numpy as np

# define data frame
data = pd.DataFrame({
    'name1': ['A', 'A', 'B'],
    'name2': ['B', 'C', 'C'],
    'correlation': [0.1, 0.2, 0.3]})

# get correlation column and dimension
correlation = data['correlation'].values
dimension = correlation.shape[0]

# define empty matrix to fill and unit matrix
matrix_upper_triangular = np.zeros((dimension, dimension))

# fill upper triangular matrix with one half at diagonal
counter = 0
for (row, column), element in np.ndenumerate(matrix_upper_triangular):
    # half of diagonal terms
    if row == column:
        matrix_upper_triangular[row, column] = 0.5
    # upper triangular values
    elif row < column:
        matrix_upper_triangular[row, column] = correlation[counter]
        counter = counter + 1
    else:
        pass

# add upper triangular + lower triangular matrix
correlation_matrix = matrix_upper_triangular
correlation_matrix += matrix_upper_triangular.transpose()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...