Персонализированные или предварительно обученные векторы слов в Glove при наличии слов на нескольких языках? - PullRequest
0 голосов
/ 04 октября 2018

Я пытаюсь кластеризовать короткие описания событий в одном предложении из базы данных из 3 млн строкКаждая строка имеет около одного предложения.Одним из важных аспектов является то, что мои данные содержат слова из других языков, используемые в английских предложениях, такие как «Привет, как дела?».Я пытаюсь решить, следует ли мне использовать предварительно обученные векторы или пользовательские векторы слов.Я знаю, что, как правило, при работе с небольшими данными рекомендуется использовать предварительно обученные векторы, поэтому я не уверен, достаточно ли велики мои данные для использования пользовательских векторов.С другой стороны, поскольку мои данные содержат слова на многих других языках, у меня возникает соблазн использовать предварительно обученные векторы, так как иностранные слова получат лучшее из контекста использования.Поэтому мой вопрос заключается в том, что при работе с набором данных, содержащим предложения, которые имеют логический смысл, но содержат смешанные иностранные слова, следует ли мне использовать предварительно обученные или пользовательские векторы слов?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...