Выбор способа агрегирования повторяющихся индексов в разреженной матрице - PullRequest
0 голосов
/ 01 марта 2019

Когда мы строим скудно разреженные матрицы (такие как coo_matrix, csc_matrix или csr_matrix) из (data, (row_ind, col_ind)), по умолчанию записи с дубликатом (row_ind, col_ind) суммируются вместе.Например:

from scipy.sparse import coo_matrix

row_ind  = [0, 0, 0, 2, 0, 0]
col_ind  = [0, 0, 0, 2, 1, 1]
data = [1, 1, 1, 1, 1, 1]

coo_matrix((data, (row_ind, col_ind))).todense()

matrix([[3, 2, 0],
        [0, 0, 0],
        [0, 0, 1]])

Есть ли способ указать другую операцию, например min, max, mean вместо sum?Кроме того, было бы полезно иметь метод, подобный sum_duplicates(), для этих операций.

...