Как найти положение вопросов? - PullRequest
0 голосов
/ 30 января 2019

Я работаю в наборе данных, где мне нужно вычислить сходство между двумя полями.

В случае использования мне нужно сравнить, является ли клиент одинаковым или почти одинаковым.Я подумал о сходстве, но это займет много времени с пакетами Scikit Learn.Есть 270 000 строк

Я создаю два вектора с одинаковыми полями 'input_1' и 'input_2' и вычисляю и сохраняю коссины между каждой комбинацией.

input_1 = ['What is the step by step guide to invest in share market in india?'; What is the story of Kohinoor (Koh-i-Noor) Diamond?' (...)]

input_2 = input_1

Я видел самый быстрыйвычисление (https://bergvca.github.io/2017/10/14/super-fast-string-matching.html).

Проблема в том, что он основан на матрице CSR (и более на n-граммах), и я не могу найти способ получить:

Index; Input_1; Input_2; Similarité 1; blablabla; blablabla; 1.000000 2; abc; cab, ... и т.д ...

Моя проблема состоит в том, чтобы вернуться из результата из awesome_cossim к простой структуре данных, которую я использовал (вЧтобы поделиться результатами): какие номера строк / столбцов?

Последний вопрос: я пытался вычислить для всего набора данных (установите awesome_cossim_top для всех записей).

Не могли бы вы мне помочь?пожалуйста?

Большое спасибо:)

С уважением, Аллал

...