Сравните и рассчитайте оценки сходства одной текстовой строки в столбце со всеми другими - PullRequest
0 голосов
/ 03 мая 2020

У меня есть набор данных, в котором я объединил входные данные из нескольких полей в одном столбце.

Теперь я хочу вычислить оценки сходства для всех строк друг с другом в этом столбце. Я изо всех сил пытаюсь найти средство для этого, я читал о сходстве Жакара, Косинуса и многих других, но все, что я смог прочитать, - это сравнение двух разных столбцов. Хотя в моей проблеме -> я хочу сравнить каждый документ в одном столбце друг с другом, вычислить оценки сходства для каждого документа, выяснить все документы, у которых показатель сходства превышает пороговое значение (все документы имеют серийный номер), и вывести порядковый номер таких документов в отдельном столбце, возможно, в виде массива или любого другого подобного средства. Кто-нибудь может помочь с этим?

FirstName_Username     Id
Bob_bob                850    
bob_no                 1030   
ben_no                 3004 
Dan_no                 3054 
Jay_no                 3326
rich_no                3330
Tomer_tgranit          3879
Matt_mdgraf            3976

Output required:
FirstName_Username     ID        SimilarityScore
Bob_bob, bob_no       850-1030        0.5

Дайте мне знать, если вопрос имеет смысл

...