Question

Учитывая индекс столбца i и разреженную матрицу csr scipy X , я хотел бы получить средний вектор всех строк, которые имеют 1 в столбце i.

Это решение, которое я придумал, но оно, на мой взгляд, довольно медленное:

# a) create a mask of rows containing True if this column was > 0 or False otherwise
mask = (X[:, i] > 0).transpose().toarray()[0]

# b) now get the indices of these rows as list
indices_of_row = list(np.where(mask > 0)[0])
if len(indices_of_row) == 0:
   return

# c) use the indices of these rows to create the mean vector
mean_vector = X[indices_of_row,].mean(axis=0)

Есть идеи, как сделать его более эффективным или, возможно, более читабельным?

Редактировать: Iхотел бы избежать вызова toarray () для всей матрицы

Paul Panzer · Answer 1 · 07 ноября 2019

Вот три сравнительно быстрых решения:

from scipy import sparse
import numpy as np


def pp():
    m = np.maximum.reduceat(a.indices==i,a.indptr[:-1])
    cnt = np.count_nonzero(m)
    m = m.repeat(np.diff(a.indptr))
    return np.bincount(a.indices[m],a.data[m],a.shape[1])/cnt

def qq():
    idx = a.indptr.searchsorted(*(a.indices==i).nonzero(),"right")-1
    return np.bincount(
        np.concatenate([a.indices[a.indptr[i]:a.indptr[i+1]] for i in idx]),
        np.concatenate([a.data[a.indptr[i]:a.indptr[i+1]] for i in idx]),
        a.shape[1]) / len(idx)

def mm():
    idx = (a@(np.arange(a.shape[1])==i))!=0
    return idx/np.count_nonzero(idx)@a

def OP():
    # a) create a mask of rows containing True if this column was > 0 or False otherwise
    mask = (a[:, i] > 0).transpose().toarray()[0]

    # b) now get the indices of these rows as list
    indices_of_row = list(np.where(mask > 0)[0])
    if len(indices_of_row) == 0:
        return

    # c) use the indices of these rows to create the mean vector
    return a[indices_of_row,].mean(axis=0)

from timeit import timeit

n = 1000
a = sparse.random(n,n, format="csr")
i = np.random.randint(0,n)

print("mask  ",timeit(pp,number=1000),"ms")
print("concat",timeit(qq,number=1000),"ms")
print("matmul",timeit(mm,number=1000),"ms")
print("OP    ",timeit(OP,number=1000),"ms")

assert np.allclose(pp(),OP())
assert np.allclose(qq(),OP())
assert np.allclose(mm(),OP())

Пример выполнения:

mask   0.08981675305403769 ms
concat 0.04179211403243244 ms
matmul 0.14177833893336356 ms
OP     0.9761617160402238 ms

abhilb · Answer 2 · 07 ноября 2019

Я думаю, этого будет достаточно.

Y = X.toarray()
MeanVec = Y[Y[:,i] > 0].mean(axis=1)

Отредактировано

X.mean(axis=1)[(X.getcol(i) > 0).toarray()]

Наиболее эффективный способ выбора подмножества строк из разреженной матрицы CSR

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Наиболее эффективный способ выбора подмножества строк из разреженной матрицы CSR

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы