Я нашел этот проект на Python в github , но когда я пытаюсь использовать его из своей цели для обнаружения почти дублирующегося документа например, json, мне не хватаетинформация из файла README.md о том, как это сделать?Он показывает только для вычисления
import simhash
a = simhash.compute(...)
b = simhash.compute(...)
simhash.num_differing_bits(a, b)
И , как найти совпадения, используя
import simhash
hashes = []
blocks = 4
distance = 3
matches = simhash.find_all(hashes, blocks, distance)
Что я пробовал до сих пор: ПослеКлонируя этот репозиторий, я установил все требования, но когда я пытаюсь запустить setup.py
или bench.py
, он показывает
ImportError: Нет модуля с именем simhash.simhash
Этот проект замечательный, но у меня возникли трудности, потому что файл README.md не очень нагляден для как создавать хэши документов? , какпередать хэши? и как обнаружить возле дубликатов? .Так что мне нужна помощь в этом, как я могу сделать хеш моих документов?Может кто-нибудь помочь мне в том, как реализовать обнаружение почти дубликатов документов, используя этот simhash , используя python, или предоставить какую-нибудь пошаговую ссылку на учебник для реализации этого?Кстати, я видел , что , но это не содержит полных шагов для его реализации.