Есть ли лучший способ оптимизировать мой Compare_code из двух больших списков 260k строк в Python, который работает только для строк FES - PullRequest
1 голос
/ 11 июля 2019

В компании, где я работаю, нас заставляют сравнивать имена клиентов двух файлов, это 11231 строка в первом списке и 260897 во втором списке. Я создал программу, которая составляет только списки из 20 строк. Поэтому я хотел бы помочь с моим кодом!

Это для менеджера по связям с клиентами.

def matching(list_A,list_B):
    D = dict()
    for i in list_A:
        D[i] = dict()
        for j in list_B:
                if levenshtein_ratio_and_distance(i,j,ratio_calc=True) > 0.8:
                    D[i].update({j : levenshtein_ratio_and_distance(i,j,ratio_calc=True)})
    return D

Я ожидаю, что у меня будет список всех имен, похожих на другие, с вероятностью, большей 0,85.

enter image description here

...