Можно ли вводить однозначные векторы кодирования, а не необработанные предложения, непосредственно в модуль PYTHON word2vec.Word2Vec? - PullRequest
0 голосов
/ 18 апреля 2019

Например, я уже преобразовал все слова и цифры в одноразовое кодирование. Тогда

from gensim.models import word2vec

и я хочу использовать

word2vec.Word2Vec(sentences=one_hot_vectors)

Однако выскочила ошибка:

ufunc 'add' did not contain a loop with signature matching types dtype('U32')dtype('U32') dtype('U32')

Я думаю, это потому, что я не могу напрямую ввести одноразовое кодирование в word2vec.Word2Vec. Интересно, есть ли у python какие-либо другие модули для удовлетворения моих потребностей? Я просто хочу ввести горячие векторы кодирования, а не необработанные предложения непосредственно в модель word2vec. Огромное спасибо.

1 Ответ

0 голосов
/ 18 апреля 2019

Нет, не с версией Word2Vec в библиотеке Python gensim. Он ожидает итеративную последовательность списков слов как sentences корпус.

(Если вам нужно использовать gensim Word2Vec, и вы не можете передать ему предварительно горячие тексты, вы можете преобразовать ваши горячие векторы back в word- как токены. Вы могли бы преобразовать их в настоящие оригинальные слова, если у вас есть отображение hot-index-to-original-word, или подключить токены, такие как '0', '1' и т. д.)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...