Я пытаюсь кластеризовать короткие описания событий в одном предложении из базы данных из 3 млн строкКаждая строка имеет около одного предложения.Одним из важных аспектов является то, что мои данные содержат слова из других языков, используемые в английских предложениях, такие как «Привет, как дела?».Я пытаюсь решить, следует ли мне использовать предварительно обученные векторы или пользовательские векторы слов.Я знаю, что, как правило, при работе с небольшими данными рекомендуется использовать предварительно обученные векторы, поэтому я не уверен, достаточно ли велики мои данные для использования пользовательских векторов.С другой стороны, поскольку мои данные содержат слова на многих других языках, у меня возникает соблазн использовать предварительно обученные векторы, так как иностранные слова получат лучшее из контекста использования.Поэтому мой вопрос заключается в том, что при работе с набором данных, содержащим предложения, которые имеют логический смысл, но содержат смешанные иностранные слова, следует ли мне использовать предварительно обученные или пользовательские векторы слов?