У меня есть таблица в SQL Server с ~ 6 миллионами записей.Моя проблема в том, что я использую нечеткую нечеткую логику в Python (с расстоянием Левенштейна), чтобы получить соотношение строк:
token_sort_ratio(string1,string2)
Это внутри for loop
и вставить соотношение вкаждая строка в соответствующем столбце («Оценка»).
Проблема в том, что для обработки всех записей требуется ~ 4 часа, и я хочу знать, нормально ли это или существует какая-либо альтернатива, которая может быть лучше (большие данные или что-то другое) при обработке такого количества записей вменьше времени?
Примечание: я хочу использовать логику нечеткого ваззи с расстоянием Левенштейна.
Примечание2: я не помещаю код здесь, потому что он большой, но логика:
for (~6 millions)
score = token_sort_ratio
insert value on the table