размер вокаба и размер вектора в word2vec - PullRequest
0 голосов
/ 20 ноября 2018

У меня есть данные с 6200 предложениями (которые представляют собой триплеты формы "sign_or_symptoms диагностирует Pathologic_function"), однако уникальные слова (словарь) в этом предложении - 181, что будет подходящим размером вектора для обучения модели предложений.с таким низким словарным запасом.Существует ли какой-либо ресурс или исследование по подходящему размеру вектора в зависимости от размера словарного запаса?

1 Ответ

0 голосов
/ 21 ноября 2018

Лучше всего проверить это на соответствие вашей истинной конечной задаче.

Это невероятно маленький корпус и размер словаря для word2vec.Это может быть не совсем уместно, так как он получает силу от больших, разнообразных тренировочных наборов.

Но, с другой стороны, вы можете очень быстро запустить множество испытаний с различными параметрами!

Вы абсолютно не можете использовать размерность вектора, столь же большую, как ваш словарный запас (181), или дажедействительно очень близко.В таком случае модель наверняка «переизменится» - просто запоминая эффекты каждого слова в отдельности, без необходимого компромисса «перетягивание каната», заставляя слова быть ближе / дальше друг к другу, что создает особую ценность / общность моделей word2vec.

Моим очень свободным эмпирическим правилом было бы исследовать размерности вокруг квадратного корня из размера словаря.И кратные 4 имеют тенденцию работать лучше всего в базовых подпрограммах массива (по крайней мере, когда производительность критична, чего не может быть при таком крошечном наборе данных).Поэтому я сначала попробую 12 или 16 измерений, а затем исследую другие более низкие / более высокие значения на основе количественной оценки качества вашей реальной задачи.

Но, опять же, вы работаете с таким крошечным набором данных, если ваши «предложения» на самом деле не очень длинные, word2vec может быть очень слабой техникой для вас без дополнительных данных.

...