У меня есть набор данных, в котором я объединил входные данные из нескольких полей в одном столбце.
Теперь я хочу вычислить оценки сходства для всех строк друг с другом в этом столбце. Я изо всех сил пытаюсь найти средство для этого, я читал о сходстве Жакара, Косинуса и многих других, но все, что я смог прочитать, - это сравнение двух разных столбцов. Хотя в моей проблеме -> я хочу сравнить каждый документ в одном столбце друг с другом, вычислить оценки сходства для каждого документа, выяснить все документы, у которых показатель сходства превышает пороговое значение (все документы имеют серийный номер), и вывести порядковый номер таких документов в отдельном столбце, возможно, в виде массива или любого другого подобного средства. Кто-нибудь может помочь с этим?
FirstName_Username Id
Bob_bob 850
bob_no 1030
ben_no 3004
Dan_no 3054
Jay_no 3326
rich_no 3330
Tomer_tgranit 3879
Matt_mdgraf 3976
Output required:
FirstName_Username ID SimilarityScore
Bob_bob, bob_no 850-1030 0.5
Дайте мне знать, если вопрос имеет смысл