У меня есть огромное количество письменных отзывов об опросе сотрудников (около 10.000 ответов), которые я хотел бы объединить (например, недовольство начальником / системой здравоохранения / баланс работы и жизни и т. Д. c) , К сожалению, тексты на разных языках, поэтому я должен сначала перевести их.
У кого-нибудь есть хорошая идея, какой подход я мог бы использовать? Я подумал об использовании некоторого открытого исходного кода Google (может быть, BERT?) Для перевода, а затем использовал некоторую технику машинного обучения, такую как модель гауссовой смеси. У меня есть опыт работы с нейронными сетями, но я никогда не использовал GMM или другие методы кластеризации. Как бы вы решили задачу?
Большое спасибо !!