Gensim word2ve c образец понижающей дискретизации = 0 - PullRequest
0 голосов
/ 30 марта 2020

Означает ли sample= 0 в Gensim word2ve c, что во время обучения не используется понижающая выборка? Документация гласит, что

"полезный диапазон равен (0, 1e-5)"

Однако если установить пороговое значение равным 0, P (wi) будет равен к 1, что означает, что ни одно слово не будет отброшено, правильно я понимаю или нет?

Я работаю над сравнительно небольшим набором данных из 7597 постов Facebook (18945 слов), и мои вложения работают намного лучше, используя sample= 0, а не что-либо еще в рекомендованном диапазоне. Есть ли какая-то конкретная причина? Размер текста?

1 Ответ

1 голос
/ 31 марта 2020

Это кажется невероятно маленьким набором данных для Word2Vec тренировок. (Разве это всего 18945 уникальных слов или всего 18945 слов, так что едва ли больше, чем 2 слова на пост?)

Выборка наиболее полезна для больших наборов данных - там, где так много примеров общие слова, больше обучающих примеров из них не добавляют много - но они крадут время и переусердствуют с примерами этих слов по сравнению с другими, менее частыми словами.

Да, sample=0 означает отсутствие понижающей дискретизации.

...