Я работаю в наборе данных, где мне нужно вычислить сходство между двумя полями.
В случае использования мне нужно сравнить, является ли клиент одинаковым или почти одинаковым.Я подумал о сходстве, но это займет много времени с пакетами Scikit Learn.Есть 270 000 строк
Я создаю два вектора с одинаковыми полями 'input_1' и 'input_2' и вычисляю и сохраняю коссины между каждой комбинацией.
input_1 = ['What is the step by step guide to invest in share market in india?'; What is the story of Kohinoor (Koh-i-Noor) Diamond?' (...)]
input_2 = input_1
Я видел самый быстрыйвычисление (https://bergvca.github.io/2017/10/14/super-fast-string-matching.html).
Проблема в том, что он основан на матрице CSR (и более на n-граммах), и я не могу найти способ получить:
Index; Input_1; Input_2; Similarité 1; blablabla; blablabla; 1.000000 2; abc; cab, ... и т.д ...
Моя проблема состоит в том, чтобы вернуться из результата из awesome_cossim к простой структуре данных, которую я использовал (вЧтобы поделиться результатами): какие номера строк / столбцов?
Последний вопрос: я пытался вычислить для всего набора данных (установите awesome_cossim_top для всех записей).
Не могли бы вы мне помочь?пожалуйста?
Большое спасибо:)
С уважением, Аллал