Эффективный способ вычисления косинусного сходства между одномерным массивом и всеми строками в двумерном массиве - PullRequest
0 голосов
/ 28 августа 2018

У меня есть один массив 1D формы (300, ) и массив 2D формы (400, 300). Теперь я хочу вычислить косинусное сходство между каждой из строк в этом двумерном массиве и одномерном массиве. Таким образом, мой результат должен иметь форму (400, ), которая показывает, насколько похожи эти векторы.

Моя первоначальная идея состоит в том, чтобы перебирать строки в двумерном массиве, используя цикл for, а затем вычислять косинусное сходство между векторами. Есть ли более быстрый вариант с использованием метода вещания?

Вот надуманный пример:

In [29]: vec = np.random.randn(300,)
In [30]: arr = np.random.randn(400, 300)

Ниже приведен способ расчета сходства между одномерными массивами:

inn = (vec * arr[0]).sum()  
vecnorm = numpy.sqrt((vec * vec).sum())  
rownorm = numpy.sqrt((arr[0] * arr[0]).sum())  
similarity_score = inn / vecnorm / rownorm  

Как я могу обобщить это для замены arr[0] на двумерный массив?

Ответы [ 3 ]

0 голосов
/ 28 августа 2018

Числитель cos Подобия может быть выражен как матричное умножение, и тогда знаменатель должен просто работать:).

a_norm = np.linalg.norm(a, axis=1)
b_norm = np.linalg.norm(b)
(a @ b) / (a_norm * b_norm)

, где a - это двумерный массив, а b - это одномерный массив (т.е. вектор)

0 голосов
/ 28 августа 2018

Вот один из тех же методов, что и для @Bi Rico's post, но с einsum для вычислений norm -

den = np.sqrt(np.einsum('ij,ij->i',arr,arr)*np.einsum('j,j',vec,vec))
out = arr.dot(vec) / den

Кроме того, мы можем использовать vec.dot(vec) вместо np.einsum('j,j',vec,vec) для некоторого незначительного улучшения.

Сроки -

In [45]: vec = np.random.randn(300,)
    ...: arr = np.random.randn(400, 300)

# @Bi Rico's soln with norm
In [46]: %timeit (np.linalg.norm(arr, axis=1) * np.linalg.norm(vec))
10000 loops, best of 3: 100 µs per loop

In [47]: %timeit np.sqrt(np.einsum('ij,ij->i',arr,arr)*np.einsum('j,j',vec,vec))
10000 loops, best of 3: 77.4 µs per loop

На больших массивах -

In [48]: vec = np.random.randn(3000,)
    ...: arr = np.random.randn(4000, 3000)

In [49]: %timeit (np.linalg.norm(arr, axis=1) * np.linalg.norm(vec))
10 loops, best of 3: 22.2 ms per loop

In [50]: %timeit np.sqrt(np.einsum('ij,ij->i',arr,arr)*np.einsum('j,j',vec,vec))
100 loops, best of 3: 8.18 ms per loop
0 голосов
/ 28 августа 2018

Вы можете использовать cdist :

import numpy as np
from scipy.spatial.distance import cdist


x = np.random.rand(1, 300)
Y = np.random.rand(400, 300)

similarities = 1 - cdist(x, Y, metric='cosine')
print(similarities.shape)

выход

(1, 400)

Обратите внимание, что cdist возвращает cosine_distance (больше здесь ), то есть 1 - cosine_similarity, поэтому вам необходимо преобразовать результат.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...