Как применяется Word2Vec min_count - PullRequest
0 голосов
/ 06 июня 2018

Скажите, что я тренирую (Gensim) модель Word2Vec с min_count = 5.Документация узнает, что делает min_count:

Игнорирует все слова с общей частотой ниже этой.

Каково влияние min_count на контекст?Допустим, у меня есть предложение, состоящее из частых слов (min_count> 5) и нечастых слов (min_count <5), помеченных f и i: </p>

Это (f) есть (f) a (f) test (i) предложение (i), которое (f) (f) показано (i) здесь (i)

Я только что составил, какое слово часто используется, а какое слово не для демонстрациицели.

Если я удаляю все редкие слова, мы получаем совершенно другой контекст, из которого обучается word2vec.В этом примере ваше предложение будет «Это то, что есть», которое затем будет обучающим предложением для Word2Vec.Более того, если у вас много редких слов, слова, которые изначально были очень далеко друг от друга, теперь помещаются в один и тот же контекст.

Является ли это правильной интерпретацией Word2Vec?Мы просто предполагаем, что в вашем наборе данных не должно быть слишком много нечастых слов (или установите более низкий порог min_count)?

1 Ответ

0 голосов
/ 07 июня 2018

Слова ниже частоты min_count пропускаются до начала тренировки.Таким образом, соответствующий контекст window - это расстояние между выжившими словами.

Это де-факто сужение контекстов обычно является хорошей вещью: редким словам не хватает разнообразных примеров, чтобы получить хорошие векторы для себя.Кроме того, хотя каждое нечастое слово по отдельности встречается редко, в целом их много, поэтому эти редкие слова с обреченным на бедность вектором вторгаются в обучение большинства других слов, служа своего рода шумом, который превращает эти слова в векторы.тоже хуже.

(Аналогично, при использовании параметра sample для понижающей частоты часто встречающихся слов случайные слова отбрасываются случайным образом, что также существенно сокращает расстояния между выжившими словами и часто улучшаетобщее качество вектора.)

...