Сходство между двумя столбцами информационного блока - PullRequest
0 голосов
/ 28 мая 2018

У меня есть фрейм данных с парой столбцов, два из которых Artist_x и Artist_y.Я хотел бы найти сходство между этими двумя столбцами и получить процент сходства в качестве нового столбца.Я думаю, что могу использовать difflib, но точно не знаю, как именно.

У меня сейчас есть:

mergednew['SimilarityArtist'] = mergednew.apply(lambda row: similar(row['Artist_x'], row['Artist_y']), axis=1)

Ответы [ 2 ]

0 голосов
/ 29 мая 2018

Вы можете попробовать следующий код:

from sklearn.metrics.pairwise import cosine_similarity
Artist_x=Artist_x.reshape(1,-1)
Artist_y=Artist_y.reshape(1,-1)
cosine_similarity(Artist_x,Artist_y)

Вы получите некоторое значение в диапазоне от 0 до 1. 1 для максимального сходства и 0 для минимального.

0 голосов
/ 28 мая 2018

Вы пытаетесь найти точные совпадения или частичные совпадения ?

Точные совпадения можно найти с помощью:

num_matches = []
total_items = len(column_A)
for i in range(len (column_A)):
    if column_A == column_B:
        num_matches.append (1)
        print(num_matches/total_items)
...