Я использую Python 3.7.1 для создания minhash списка строк.Код выглядит следующим образом.
import mmh3
import random
import string
import itertools
from datasketch import MinHash
def grouper(iterable,n=2):
return ["".join(x) for x in list(itertools.permutations(iterable, n))]
def _hash_func(d):
return mmh3.hash(d)
def _run_minhash(data, seed):
m = MinHash(num_perm=128 ,hashfunc=_hash_func)
for d in data:
m.update(d.encode('utf8'))
return m.count()
if __name__ == '__main__':
st = string.ascii_uppercase
ngrams = grouper(st,n=4)
print(_run_minhash(ngrams,seed=12))
Для ускорения я использую mmh3.hash, как указано в документации datasketch.Minhash (mmh3.hash32 больше не доступен), что приводит к следующей ошибке
TypeError: ufunc 'bitwise_and' не поддерживается для типов ввода, и входы не могут быть безопасно приведены к каким-либо поддерживаемым типам в соответствии с правилом приведения '' safe ''
Traceback (most recent call last):
File "hashes.py", line 41, in
print(_run_minhash(ngrams,seed=12))
File "hashes.py", line 35, in _run_minhash
m.update(d.encode('utf8'))
File "/home/nithin/miniconda3/lib/python3.7/site-packages/datasketch/minhash.py", line 134, in update
phv = np.bitwise_and((a * hv + b) % _mersenne_prime, np.uint64(_max_hash))
TypeError: ufunc 'bitwise_and' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule ''safe''
Я не нашел конкретной причины, причины и решения для этого.Как мне решить эту проблему?Или есть какой-то другой способ ускорить вычисление minhash .Заранее спасибо за ваше время - если я что-то пропустил, переоценил или недооценил конкретный момент, дайте мне знать в комментариях.