Question

Я пытаюсь кластеризовать короткие описания событий в одном предложении из базы данных из 3 млн строкКаждая строка имеет около одного предложения.Одним из важных аспектов является то, что мои данные содержат слова из других языков, используемые в английских предложениях, такие как «Привет, как дела?».Я пытаюсь решить, следует ли мне использовать предварительно обученные векторы или пользовательские векторы слов.Я знаю, что, как правило, при работе с небольшими данными рекомендуется использовать предварительно обученные векторы, поэтому я не уверен, достаточно ли велики мои данные для использования пользовательских векторов.С другой стороны, поскольку мои данные содержат слова на многих других языках, у меня возникает соблазн использовать предварительно обученные векторы, так как иностранные слова получат лучшее из контекста использования.Поэтому мой вопрос заключается в том, что при работе с набором данных, содержащим предложения, которые имеют логический смысл, но содержат смешанные иностранные слова, следует ли мне использовать предварительно обученные или пользовательские векторы слов?

Персонализированные или предварительно обученные векторы слов в Glove при наличии слов на нескольких языках?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Персонализированные или предварительно обученные векторы слов в Glove при наличии слов на нескольких языках?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы