Я тренирую модель word2vec, где каждое слово принадлежит определенному классу.
Я хочу, чтобы мои вложения изучали различия слов в каждом классе, но не хочу, чтобы они изучали различия между классами.
Это может быть достигнуто путем отрицательной выборки только из слов того же класса, что и целевое слово.
В gensim word2vec мы можем указать количество слов для отрицательной выборки с помощью параметра negative
, но в нем не упоминаются какие-либо параметры для изменения / фильтрации функции выборки.
Есть ли способ достичь этого?
Обновление:
Считать классы похожими на языки.Так что у меня есть слова из разных языков.В учебных данных каждое предложение / документ содержит в основном слова из одного и того же языка, но иногда из других языков.
Теперь я хочу вложения, в которых слова с одинаковыми значениями находятся вместе независимо от языка.
Но поскольку слова из разных языков встречаются не так часто, как слова из одного языка, вложения в основном группируются.слова из одного языка вместе.
Из-за этого я хотел попробовать отобрать слова с отрицательным отбором целевых слов из одного и того же языка, чтобы он научился различать слова на одном языке.