Уникальный идентификатор предложения - PullRequest
0 голосов
/ 05 декабря 2018

Я даю сотни фрагментов текста на всех разных языках (юникод).Мне нужно назначить уникальный идентификатор каждому предложению, чтобы я мог обучить алгоритм ML.Я написал свой собственный алгоритм, и там было примерно 30 000 дублированных номеров.Затем я нашел это решение:

def remapWord(word):
    return int.from_bytes(word.encode(), 'little')

, но, видимо, int слишком велик для numpy, он выдает

ValueError: Input contains NaN, infinity or a value too large for dtype('float64').

Когда я пытаюсь уместить данные,Есть ли другой способ получить уникальный идентификатор или предотвратить возникновение ошибки valueerror?

1 Ответ

0 голосов
/ 05 декабря 2018
import hashlib 
def remap(word):
    h = hashlib.md5()
    h.update(word)
    return int(h.hexdigest(), 16))
...