Означает ли sample= 0
в Gensim word2ve c, что во время обучения не используется понижающая выборка? Документация гласит, что
"полезный диапазон равен (0, 1e-5)"
Однако если установить пороговое значение равным 0, P (wi) будет равен к 1, что означает, что ни одно слово не будет отброшено, правильно я понимаю или нет?
Я работаю над сравнительно небольшим набором данных из 7597 постов Facebook (18945 слов), и мои вложения работают намного лучше, используя sample= 0
, а не что-либо еще в рекомендованном диапазоне. Есть ли какая-то конкретная причина? Размер текста?