Обнаружить около дубликата документа с помощью simhash - PullRequest
0 голосов
/ 28 января 2019

Я нашел этот проект на Python в github , но когда я пытаюсь использовать его из своей цели для обнаружения почти дублирующегося документа например, json, мне не хватаетинформация из файла README.md о том, как это сделать?Он показывает только для вычисления

import simhash

a = simhash.compute(...) 
b = simhash.compute(...)
simhash.num_differing_bits(a, b)

И , как найти совпадения, используя

import simhash
hashes = []
blocks = 4
distance = 3
matches = simhash.find_all(hashes, blocks, distance)

Что я пробовал до сих пор: ПослеКлонируя этот репозиторий, я установил все требования, но когда я пытаюсь запустить setup.py или bench.py, он показывает

ImportError: Нет модуля с именем simhash.simhash

Этот проект замечательный, но у меня возникли трудности, потому что файл README.md не очень нагляден для как создавать хэши документов? , какпередать хэши? и как обнаружить возле дубликатов? .Так что мне нужна помощь в этом, как я могу сделать хеш моих документов?Может кто-нибудь помочь мне в том, как реализовать обнаружение почти дубликатов документов, используя этот simhash , используя python, или предоставить какую-нибудь пошаговую ссылку на учебник для реализации этого?Кстати, я видел , что , но это не содержит полных шагов для его реализации.

...