MinHash datasketch для больших наборов данных - PullRequest
0 голосов
/ 30 ноября 2018

У меня есть 3000 наборов данных, и я пытаюсь найти предполагаемое сходство между каждой парой, используя MinHash, и для этого я использую библиотеку datasketch, но выполнение занимает слишком много времени и никогда не завершается, любые советы по улучшению производительности или должныЯ использую другую библиотеку MinHash.

for i in range(3000):
        for j in range(i,3000):
            data1=new_tokens_in_sentence[i]
            data2=new_tokens_in_sentence[j]
            #print(data1)

            m1, m2 = MinHash(16), MinHash(16)

            for d in data1:
                m1.update(d.encode('utf8'))
            for d in data2:
                m2.update(d.encode('utf8'))
...