Question

У меня есть один массив 1D формы (300, ) и массив 2D формы (400, 300). Теперь я хочу вычислить косинусное сходство между каждой из строк в этом двумерном массиве и одномерном массиве. Таким образом, мой результат должен иметь форму (400, ), которая показывает, насколько похожи эти векторы.

Моя первоначальная идея состоит в том, чтобы перебирать строки в двумерном массиве, используя цикл for, а затем вычислять косинусное сходство между векторами. Есть ли более быстрый вариант с использованием метода вещания?

Вот надуманный пример:

In [29]: vec = np.random.randn(300,)
In [30]: arr = np.random.randn(400, 300)

Ниже приведен способ расчета сходства между одномерными массивами:

inn = (vec * arr[0]).sum()  
vecnorm = numpy.sqrt((vec * vec).sum())  
rownorm = numpy.sqrt((arr[0] * arr[0]).sum())  
similarity_score = inn / vecnorm / rownorm

Как я могу обобщить это для замены arr[0] на двумерный массив?

Bi Rico · Answer 1 · 28 августа 2018

Числитель cos Подобия может быть выражен как матричное умножение, и тогда знаменатель должен просто работать:).

a_norm = np.linalg.norm(a, axis=1)
b_norm = np.linalg.norm(b)
(a @ b) / (a_norm * b_norm)

, где a - это двумерный массив, а b - это одномерный массив (т.е. вектор)

Divakar · Answer 2 · 28 августа 2018

Вот один из тех же методов, что и для @Bi Rico's post, но с einsum для вычислений norm -

den = np.sqrt(np.einsum('ij,ij->i',arr,arr)*np.einsum('j,j',vec,vec))
out = arr.dot(vec) / den

Кроме того, мы можем использовать vec.dot(vec) вместо np.einsum('j,j',vec,vec) для некоторого незначительного улучшения.

Сроки -

In [45]: vec = np.random.randn(300,)
    ...: arr = np.random.randn(400, 300)

# @Bi Rico's soln with norm
In [46]: %timeit (np.linalg.norm(arr, axis=1) * np.linalg.norm(vec))
10000 loops, best of 3: 100 µs per loop

In [47]: %timeit np.sqrt(np.einsum('ij,ij->i',arr,arr)*np.einsum('j,j',vec,vec))
10000 loops, best of 3: 77.4 µs per loop

На больших массивах -

In [48]: vec = np.random.randn(3000,)
    ...: arr = np.random.randn(4000, 3000)

In [49]: %timeit (np.linalg.norm(arr, axis=1) * np.linalg.norm(vec))
10 loops, best of 3: 22.2 ms per loop

In [50]: %timeit np.sqrt(np.einsum('ij,ij->i',arr,arr)*np.einsum('j,j',vec,vec))
100 loops, best of 3: 8.18 ms per loop

Daniel Mesejo · Answer 3 · 28 августа 2018

Вы можете использовать cdist :

import numpy as np
from scipy.spatial.distance import cdist


x = np.random.rand(1, 300)
Y = np.random.rand(400, 300)

similarities = 1 - cdist(x, Y, metric='cosine')
print(similarities.shape)

выход

(1, 400)

Обратите внимание, что cdist возвращает cosine_distance (больше здесь ), то есть 1 - cosine_similarity, поэтому вам необходимо преобразовать результат.

Эффективный способ вычисления косинусного сходства между одномерным массивом и всеми строками в двумерном массиве

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Эффективный способ вычисления косинусного сходства между одномерным массивом и всеми строками в двумерном массиве

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы