Лучше всего проверить это на соответствие вашей истинной конечной задаче.
Это невероятно маленький корпус и размер словаря для word2vec.Это может быть не совсем уместно, так как он получает силу от больших, разнообразных тренировочных наборов.
Но, с другой стороны, вы можете очень быстро запустить множество испытаний с различными параметрами!
Вы абсолютно не можете использовать размерность вектора, столь же большую, как ваш словарный запас (181), или дажедействительно очень близко.В таком случае модель наверняка «переизменится» - просто запоминая эффекты каждого слова в отдельности, без необходимого компромисса «перетягивание каната», заставляя слова быть ближе / дальше друг к другу, что создает особую ценность / общность моделей word2vec.
Моим очень свободным эмпирическим правилом было бы исследовать размерности вокруг квадратного корня из размера словаря.И кратные 4 имеют тенденцию работать лучше всего в базовых подпрограммах массива (по крайней мере, когда производительность критична, чего не может быть при таком крошечном наборе данных).Поэтому я сначала попробую 12 или 16 измерений, а затем исследую другие более низкие / более высокие значения на основе количественной оценки качества вашей реальной задачи.
Но, опять же, вы работаете с таким крошечным набором данных, если ваши «предложения» на самом деле не очень длинные, word2vec может быть очень слабой техникой для вас без дополнительных данных.