Как Word2Vec гарантирует, что антонимы будут далеко друг от друга в векторном пространстве - PullRequest
0 голосов
/ 21 декабря 2018

Вообще говоря, обучение word2vec - это процесс, в котором слова, которые часто находятся в одном и том же контексте, группируются вместе в векторном пространстве.Мы начинаем со случайного перемешивания слов на плоскости, а затем с каждой итерацией формируется все больше и больше кластеров.Я думаю, что понял это, но как мы можем гарантировать, что слова, которые являются антонимами или редко встречаются в одном и том же контексте, не попадают в кластеры, которые находятся рядом?Кроме того, как мы можем знать, что слова, которые являются более не относящимися к делу, находятся дальше, чем слова, которые менее важны.

Ответы [ 2 ]

0 голосов
/ 22 декабря 2018

Чтобы уточнить ответ Новака:

Вы, похоже, рассматриваете word2vec как инструмент для оценки семантики , означающего .Хотя большая часть результата связана со значением, то есть не функциональность word2vec.Скорее, это указывает на контекстную корреляцию, которая (несколько вольно) рассматривается как «релевантность».

Когда эта «релевантность» применяется к определенным проблемам, особенно , когда несколько совпадений «релевантности»требуется поддерживать отчетный результат, , а затем общий эффект часто полезен для рассматриваемой проблемы.

В вашем случае, обратите внимание, что слово и его антоним часто появляются рядом друг с другом,для литературного контраста или другого акцента.Как таковые, они контекстуально вполне относятся друг к другу.Если у вас нет какой-либо предварительной обработки, которая может идентифицировать и соответствующим образом изменить различные формы отрицания, вы часто будете видеть такие пары в своей векторизации - что соответствует инструменту.

0 голосов
/ 21 декабря 2018

Мы не можем.Это проблема word2vec.Мы не можем отличить синоним отрицания от антонима, потому что, как вы сказали, эти слова часто встречаются в одном и том же контексте.

...