Косинусное сходство, чтобы получить похожий и другой документ - PullRequest
0 голосов
/ 06 марта 2020

Я хочу сравнить документы между двумя столбцами и расположить совпавшие документы в другом кадре данных. Я не могу получить похожие коды и, следовательно, просить помощи. Я использовал мешок слов и тф-идф. Пожалуйста, помогите мне с кодом косинуса сходства. Спасибо. enter image description here

1 Ответ

0 голосов
/ 06 марта 2020

Если вы хотите вычислить косинусное расстояние между 2 векторами (закодированные документы), попробуйте:

from scipy import spatial

vector1 = [1, 1, 3]
vector2 = [3, 5, 1]

cosine_similarity = spatial.distance.cosine(vector1, vector2)

print(cosine_similarity)

результат:

0.43938808941861185

Вы можете применить косинусное расстояние к матрице подобия:

cosine_sim_matrix = cosine_similarity(matrix)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...