Понимание вывода логической модели gensim - PullRequest
1 голос
/ 30 апреля 2019

Я новичок в gensim и пытаюсь понять модель Word2Vec, которую она генерирует.

Вот простой пример: -

sentences = [['first', 'sentence', 'for', 'word2vec']]
model = Word2Vec(sentences, min_count=1)
print(model)
print(model['first'])

Вывод: -

Word2Vec(vocab=4, size=100, alpha=0.025)

[-3.2170122e-03 -2.9626938e-03 -4.0412871e-03 -5.9279817e-04
  2.5436375e-03  4.5433347e-03 -3.3862963e-03 -4.2654946e-03
  3.8285875e-03  4.3016393e-03  2.3948429e-03  8.1989179e-05
  3.6110645e-03  1.8498371e-03 -2.4455690e-04  4.1978257e-03
  2.9471173e-04  4.9666679e-03 -2.0676558e-03 -1.2046038e-03
 -4.3298928e-03  2.7839688e-03 -2.9434622e-03  4.0511941e-03
 -1.3770841e-03 -8.9504482e-04 -3.1494466e-03 -4.6084630e-03
 -3.3623597e-03  1.6870942e-04 -7.1172835e-04 -4.1482532e-03
  3.7355758e-03  2.3343530e-03 -6.3678029e-04 -1.9861995e-03
 -2.3025211e-03  1.5102652e-03 -2.8942723e-03 -3.0406206e-03
 -7.7123288e-04 -2.1534185e-03  4.0353332e-03 -2.0982060e-03
 -5.1215116e-04 -4.9524521e-03  3.9109741e-03  3.6507500e-03
  5.0717179e-04 -1.2909769e-03  1.7484331e-03  1.8906737e-03
 -2.5824555e-03 -3.3213641e-03  1.3024095e-03  4.8507750e-03
  3.5359471e-03  4.5252368e-03  2.1690773e-03  3.8934432e-03
  4.8941034e-03 -4.3265051e-03  1.2478753e-03  4.8012529e-03
  3.6689214e-04 -3.5324714e-03 -8.2519173e-04  4.6989080e-03
 -4.3403171e-03 -3.2295308e-03 -4.3292320e-03  1.4541810e-03
  2.6360361e-03  4.7351457e-03 -1.1666205e-03  4.0232311e-03
  2.3259546e-03 -4.5906431e-03 -2.3466926e-03 -1.4690498e-03
  4.9304329e-03  3.4869314e-04  1.7118681e-03 -3.9177295e-03
 -1.9519962e-03  4.0137409e-03  1.6459676e-03 -2.6613632e-03
 -3.4537977e-03  1.0973522e-03  1.9739978e-03  4.3450715e-03
  2.8814776e-03 -4.9455655e-03 -1.4207339e-03 -2.8513866e-03
 -3.7962969e-03 -2.7314643e-03 -6.0791872e-04 -5.9866998e-04]

Размер модели по умолчанию равен 100, что представляет каждый элемент в массиве размеров?

Например: - первый элемент - -3.2170122e-03

1 Ответ

1 голос
/ 01 мая 2019

Модель word2vec изучает векторное вложение для каждого слова в словаре, которое создается из корпуса, заданного для модели.

Размер вложения - это гиперпараметр.Следовательно, это выбор пользователя.Чтобы узнать больше о word2vec или векторном представлении слов, прочитайте здесь .

, когда вы выполните model['first'], он возвращает вложение слова first, которое по умолчанию будет иметь 100размеры.

Каждое значение не имеет какого-либо конкретного значения, но как полный вектор содержит информацию о конкретном слове.

...