Скажите, что я тренирую (Gensim) модель Word2Vec с min_count = 5.Документация узнает, что делает min_count:
Игнорирует все слова с общей частотой ниже этой.
Каково влияние min_count на контекст?Допустим, у меня есть предложение, состоящее из частых слов (min_count> 5) и нечастых слов (min_count <5), помеченных f и i: </p>
Это (f) есть (f) a (f) test (i) предложение (i), которое (f) (f) показано (i) здесь (i)
Я только что составил, какое слово часто используется, а какое слово не для демонстрациицели.
Если я удаляю все редкие слова, мы получаем совершенно другой контекст, из которого обучается word2vec.В этом примере ваше предложение будет «Это то, что есть», которое затем будет обучающим предложением для Word2Vec.Более того, если у вас много редких слов, слова, которые изначально были очень далеко друг от друга, теперь помещаются в один и тот же контекст.
Является ли это правильной интерпретацией Word2Vec?Мы просто предполагаем, что в вашем наборе данных не должно быть слишком много нечастых слов (или установите более низкий порог min_count)?