Ваш набор данных кажется очень маленьким - возможно, слишком маленьким, чтобы ожидать хороших векторов word2ve c. Но, по крайней мере, небольшой набор данных означает, что не нужно слишком много времени, чтобы попробовать разные вещи.
Итак, лучший ответ (и единственный, который действительно учитывает уникальность ваших данных и целей проекта): получите ли вы лучшие конечные векторы слов для вашего проекта c нуждается в обучении только по ключевым словам или более длинным документам?
Два потенциальных источника преимуществ от использования полных текстов:
Те Менее интересные слова могут все еще помочь выявить тонкости смысла в полном векторном пространстве. Например, контраст между 'warm'
и 'hot'
может стать более четким, когда эти слова вынуждены предсказывать другие связанные слова, которые встречаются с каждым в разных пропорциях. (Но такие качества векторов word2ve c требуют большого количества едва различимых примеров реального использования - поэтому такое преимущество может быть невозможным в небольшом наборе данных.)
Использование реального тексты сохраняют изначальные влияния близости - слова ближе друг к другу имеют большее влияние. Подход, основанный только на ключевых словах, может привести к скремблированию этих исходных приближений в зависимости от того, как вы превращаете необработанные полные тексты в сокращенные ключевые слова. (В частности, вы определенно не хотите всегда сообщать о ключевых словах в некотором порядке сортировки базы данных - так как это может создать ложное влияние между ключевыми словами, которые сортируются рядом друг с другом, в отличие от появляются рядом друг с другом на естественном языке.)
С другой стороны, добавление большего количества слов делает модель больше, а обучение медленнее, что может ограничить объем обучения или экспериментов, которые вы могу бегать. И сохранение очень редких слов - у которых недостаточно разнообразных примеров использования, чтобы самим получить хорошие векторы слов - имеет тенденцию действовать как «шум», который снижает качество других векторов слов. (Вот почему отбрасывание редких слов с min_count
по умолчанию равным 5
- или больше в больших корпусах - почти всегда хорошая идея.)
Итак, нет точного ответа на который будет быть лучше: разные факторы и другие данные / параметры / цели будут тянуть по-разному. Вы хотите попробовать это несколькими способами.