Сходство определенно изменится, если вы «прорежьте» количество примеров контекстов для одного слова, но не для других.
Word2Vec опирается на множество разнообразных примеров использования слов.Процесс обучения рассматривает только отдельные примеры одновременных встреч.(В популярном режиме пропуска грамм только отдельные примеры context-word -> target-word
.).
Обучение многократно представляет отдельный контекст нейронной сети, проверяет реакцию сетей по некоторому небольшому подмножеству путей, которые интересны, и слегка подталкивает сеть к лучшему - изменяя внутренние веса сети,и «веса проекции», которые определяют вектор слова.
Совокупный эффект всех этих обновлений за многие итерации приводит к тому, что вектор каждого слова перемещается в полезное место по сравнению с другими векторами.(Это «перетягивание каната» между улучшением одних примеров и улучшением других.)
Все, что меняет набор используемых примеров, изменит окончательные результаты.В частности, если будет меньше примеров слова A
в целом, меньше общего времени обучения будет потрачено на то, чтобы модель работала хорошо в контекстах, включая A
.На его окончательное положение и связанные с ним веса будут больше влиять более многочисленные примеры других слов.
Кроме того, сокращение примеров A
также практически меняет частоту совпадений со всеми словами, с которыми он когда-либо обучался.Меньшее число A
контекстов означает, что число контекстов A -> B
и B -> A
также изменится, что также изменит конечную позицию слова B
.И это относится ко всем другим словам C
, D
и т. Д., Которые встречаются с A
, и особенно в тех случаях, когда некоторые контексты прореживаются больше, чем другие.(Как и в вашем примере с новым дистрибутивом A
, «контекст 2» появляется на 1/5000 чаще, а «контекст 3» - на 1/10 часто).
Обратите внимание, что существуетФункция частичной выборки слов в большинстве реализаций Word2Vec, как правило, управляется с помощью параметра с именем sample
, который намеренно отбрасывает многих появлений очень часто встречающихся слов.Это намеренно меняет относительные частоты слов в тренировочном корпусе.
И по сравнению с отсутствием понижающей дискретизации, правильно выбранное здесь значение имеет тенденцию к тому, что скоростные тренировки и улучшают качество конечных векторов слов.Зачем?Если у вас есть сотни или тысячи разнообразных примеров часто встречающегося слова, дополнительный маргинальный пример не помогает значительно улучшить это слово - но - это , требующий больше времени и большей доли времени обучения в целом, улучшая модель для этих частых слов.И крошечные улучшения этих слов во многих примерах обязательно соответствуют описанному выше процессу, заменяя улучшения более многочисленными словами с более редкими примерами.Отказ от некоторых «чрезмерно часто встречающихся» слов позволяет другим словам оказывать более относительное влияние на конечное состояние модели и даже даже эффективно сокращает эффективные контекстные расстояния между более редкими словами (когда опускаются более часто встречающиеся слова).