Что означает «размер» векторов word2vec [библиотека gensim]? - PullRequest
0 голосов
/ 03 декабря 2018

Предположим, что у нас есть 1000 слов (A1, A2, ..., A1000) в словаре.Насколько я понимаю, в методах встраивания слов или word2vec он стремится представлять каждое слово в словаре вектором, где каждый элемент представляет сходство этого слова с остальными словами в словаре.Правильно ли говорить, что в каждом векторе должно быть 999 измерений, или размер каждого вектора word2vec должен быть 999?

Но с помощью Gensim Python мы можем изменить значение параметра «size» для Word2vec, давайтескажем, размер = 100 в этом случае.Так что же означает «размер = 100»?Если мы извлечем выходной вектор A1, обозначенный (x1, x2, ..., x100), что представляют x1, x2, ..., x100 в этом случае?

1 Ответ

0 голосов
/ 03 декабря 2018

Это , а не , когда «[word2vec] стремится представлять каждое слово в словаре вектором, где каждый элемент представляет сходство этого слова с остальными словами в словаре».

Скорее, учитывая определенную целевую размерность, такую ​​как, скажем, 100, алгоритм Word2Vec постепенно обучает векторы слов 100-мерности, чтобы быть лучше и лучше в своей задаче обучения, которая предсказывает близлежащие слова.

Этот итеративный процесс имеет тенденцию заставлять слова, которые связаны, «находиться рядом» друг с другом в грубой пропорции к их сходству - и даже дальше различные «направления» в этом 100-мерном пространстве часто имеют тенденцию совпадать своспринимаемые человеком семантические категории.Итак, знаменитый пример "wv (король) - wv (мужчина) + wv (женщина) ~ = wv (королева)" часто работает, потому что "мужественность / женственность" и "королевская власть" - это смутно согласованные области / направления в пространстве.

Отдельные измерения сами по себе ничего не значат.Процесс обучения включает в себя случайность, и со временем просто делает «все, что работает».Значимые направления не идеально выровнены с осями измерений, но расположены под углом во всех измерениях.(То есть вы не обнаружите, что v[77] - это гендерное измерение. Скорее, если вы взяли десятки альтернативных мужских и женских словосочетаний и усреднили все их различия, вы можете найтикакое-то 100-мерное векторное измерение, предполагающее гендерное направление.)

Вы можете выбрать любой «размер», какой хотите, но 100-400 - это общие значения, когда у вас достаточно данных для тренировки.

...