Question

Я даю сотни фрагментов текста на всех разных языках (юникод).Мне нужно назначить уникальный идентификатор каждому предложению, чтобы я мог обучить алгоритм ML.Я написал свой собственный алгоритм, и там было примерно 30 000 дублированных номеров.Затем я нашел это решение:

def remapWord(word):
    return int.from_bytes(word.encode(), 'little')

, но, видимо, int слишком велик для numpy, он выдает

ValueError: Input contains NaN, infinity or a value too large for dtype('float64').

Когда я пытаюсь уместить данные,Есть ли другой способ получить уникальный идентификатор или предотвратить возникновение ошибки valueerror?

WIT · Answer 1 · 05 декабря 2018

import hashlib 
def remap(word):
    h = hashlib.md5()
    h.update(word)
    return int(h.hexdigest(), 16))

Уникальный идентификатор предложения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Уникальный идентификатор предложения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы