Python Fuzzy Wuzzy Millions Records - PullRequest
       9

Python Fuzzy Wuzzy Millions Records

0 голосов
/ 20 сентября 2018

У меня есть таблица в SQL Server с ~ 6 миллионами записей.Моя проблема в том, что я использую нечеткую нечеткую логику в Python (с расстоянием Левенштейна), чтобы получить соотношение строк:

token_sort_ratio(string1,string2) 

Это внутри for loop и вставить соотношение вкаждая строка в соответствующем столбце («Оценка»).

Проблема в том, что для обработки всех записей требуется ~ 4 часа, и я хочу знать, нормально ли это или существует какая-либо альтернатива, которая может быть лучше (большие данные или что-то другое) при обработке такого количества записей вменьше времени?

Примечание: я хочу использовать логику нечеткого ваззи с расстоянием Левенштейна.

Примечание2: я не помещаю код здесь, потому что он большой, но логика:

for (~6 millions)
   score = token_sort_ratio
   insert value on the table
...