Я даю сотни фрагментов текста на всех разных языках (юникод).Мне нужно назначить уникальный идентификатор каждому предложению, чтобы я мог обучить алгоритм ML.Я написал свой собственный алгоритм, и там было примерно 30 000 дублированных номеров.Затем я нашел это решение:
def remapWord(word):
return int.from_bytes(word.encode(), 'little')
, но, видимо, int слишком велик для numpy, он выдает
ValueError: Input contains NaN, infinity or a value too large for dtype('float64').
Когда я пытаюсь уместить данные,Есть ли другой способ получить уникальный идентификатор или предотвратить возникновение ошибки valueerror?