Это , а не , когда «[word2vec] стремится представлять каждое слово в словаре вектором, где каждый элемент представляет сходство этого слова с остальными словами в словаре».
Скорее, учитывая определенную целевую размерность, такую как, скажем, 100, алгоритм Word2Vec постепенно обучает векторы слов 100-мерности, чтобы быть лучше и лучше в своей задаче обучения, которая предсказывает близлежащие слова.
Этот итеративный процесс имеет тенденцию заставлять слова, которые связаны, «находиться рядом» друг с другом в грубой пропорции к их сходству - и даже дальше различные «направления» в этом 100-мерном пространстве часто имеют тенденцию совпадать своспринимаемые человеком семантические категории.Итак, знаменитый пример "wv (король) - wv (мужчина) + wv (женщина) ~ = wv (королева)" часто работает, потому что "мужественность / женственность" и "королевская власть" - это смутно согласованные области / направления в пространстве.
Отдельные измерения сами по себе ничего не значат.Процесс обучения включает в себя случайность, и со временем просто делает «все, что работает».Значимые направления не идеально выровнены с осями измерений, но расположены под углом во всех измерениях.(То есть вы не обнаружите, что v[77]
- это гендерное измерение. Скорее, если вы взяли десятки альтернативных мужских и женских словосочетаний и усреднили все их различия, вы можете найтикакое-то 100-мерное векторное измерение, предполагающее гендерное направление.)
Вы можете выбрать любой «размер», какой хотите, но 100-400 - это общие значения, когда у вас достаточно данных для тренировки.