У меня есть 3000 наборов данных, и я пытаюсь найти предполагаемое сходство между каждой парой, используя MinHash, и для этого я использую библиотеку datasketch, но выполнение занимает слишком много времени и никогда не завершается, любые советы по улучшению производительности или должныЯ использую другую библиотеку MinHash.
for i in range(3000):
for j in range(i,3000):
data1=new_tokens_in_sentence[i]
data2=new_tokens_in_sentence[j]
#print(data1)
m1, m2 = MinHash(16), MinHash(16)
for d in data1:
m1.update(d.encode('utf8'))
for d in data2:
m2.update(d.encode('utf8'))